爬虫

点名怒斥！全球互联网架构巨头：Perplexity 的“幽灵爬虫”到处乱窜，后者回怼：乱咬人恶意炒作，不会分析就来请教，专业堪忧

点名怒斥！全球互联网架构巨头：Perplexity 的“幽灵爬虫”到处乱窜，后者回怼：乱咬人恶意炒作，不会分析就来请教，专业堪忧

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）最近，全球最大的互联网架构提供商之一 Cloudflare 抛出了一颗“4A级炸弹”，直接炮轰当红 AI 初创公司 Perplexity。在Cloudflare 公开的博客中指出，当 Perplexity 的爬虫遭遇阻断时，该公司将隐藏其爬虫身份，伪装成真实用户来突破封锁规则，继续抓取拒绝采集的网站内容。 Cloudflare 的工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示：“虽然 Perplexity 一开始使用其声明的用户代理进行抓取，但当遭遇网络封锁时，它们会隐藏爬虫身份，试图绕过网站的意愿。

8/5/2025 1:12:44 PM 云昭

Nature警告：AI「数据饥渴症」引爆学术宕机潮！90%知识库濒临崩盘

Nature警告：AI「数据饥渴症」引爆学术宕机潮！90%知识库濒临崩盘

假如一个平日里宁静的图书馆，突然涌入一大群不速之客，他们不阅览、不沉思，只是一味地疯狂复印每一本书的每一页。这喧嚣吵闹的场面，怎能不打扰那些正埋首书海、专心阅读的人们呢？如今，学术网站正遭遇类似的「数字入侵」。

6/17/2025 9:08:00 AM

如何利用网络爬虫进行大规模LLM数据收集

如何利用网络爬虫进行大规模LLM数据收集

大语言模型的 “智慧” 很大程度上依赖于其训练数据的质量和数量。想要打造一个能够理解真实世界的模型，就必须获取来自真实世界的信息，而互联网无疑是海量数据的主要来源。本文将深入探讨如何利用网络爬虫收集大规模、适用于 AI 训练的数据，为人工智能模型的训练筑牢坚实基础。

4/27/2025 4:05:00 AM 大模型之路

五个基于 LLM 的开源爬虫项目

五个基于 LLM 的开源爬虫项目

由于互联网在技术、内容、渠道等方面越来越多样化，并且不断在演变。传统的爬虫大多时候都要根据网页进行定制开发。这种道高一尺魔高一丈的循环，意味着要把有限精力投入到无限的变化中，难以动态响应互联网的变化。

11/27/2024 4:17:00 PM zone7

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

北京时间 8 月 21 日，近日，Meta 悄悄地发布了一款新的网络爬虫，用于搜索互联网并收集大量数据，为其人工智能模型提供支持。据三家追踪网络抓取器的公司称，Meta 新网络爬虫机器人 Meta External Agent 于上月推出，类似于 OpenAI 的 GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。根据使用档案历史记录显示，Meta 确实在 7 月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但 Meta 至今还没有公开宣布其新爬虫机器人。

8/21/2024 1:10:05 PM 余青

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉