爬虫
点名怒斥!全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教,专业堪忧
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)最近,全球最大的互联网架构提供商之一 Cloudflare 抛出了一颗“4A级炸弹”,直接炮轰当红 AI 初创公司 Perplexity。 在Cloudflare 公开的博客中指出,当 Perplexity 的爬虫遭遇阻断时,该公司将隐藏其爬虫身份,伪装成真实用户来突破封锁规则,继续抓取拒绝采集的网站内容。 Cloudflare 的工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示:“虽然 Perplexity 一开始使用其声明的用户代理进行抓取,但当遭遇网络封锁时,它们会隐藏爬虫身份,试图绕过网站的意愿。
8/5/2025 1:12:44 PM
云昭
Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
假如一个平日里宁静的图书馆,突然涌入一大群不速之客,他们不阅览、不沉思,只是一味地疯狂复印每一本书的每一页。 这喧嚣吵闹的场面,怎能不打扰那些正埋首书海、专心阅读的人们呢? 如今,学术网站正遭遇类似的「数字入侵」。
6/17/2025 9:08:00 AM
如何利用网络爬虫进行大规模LLM数据收集
大语言模型的 “智慧” 很大程度上依赖于其训练数据的质量和数量。 想要打造一个能够理解真实世界的模型,就必须获取来自真实世界的信息,而互联网无疑是海量数据的主要来源。 本文将深入探讨如何利用网络爬虫收集大规模、适用于 AI 训练的数据,为人工智能模型的训练筑牢坚实基础。
4/27/2025 4:05:00 AM
大模型之路
五个基于 LLM 的开源爬虫项目
由于互联网在技术、内容、渠道等方面越来越多样化,并且不断在演变。 传统的爬虫大多时候都要根据网页进行定制开发。 这种道高一尺魔高一丈的循环,意味着要把有限精力投入到无限的变化中,难以动态响应互联网的变化。
11/27/2024 4:17:00 PM
zone7
Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据
北京时间 8 月 21 日,近日,Meta 悄悄地发布了一款新的网络爬虫,用于搜索互联网并收集大量数据,为其人工智能模型提供支持。据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。
8/21/2024 1:10:05 PM
余青
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
AI新词
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型