AI在线 AI在线

​Perplexity 被指控秘密抓取被禁止的网站内容

根据互联网基础设施提供商 Cloudflare 的最新研究报告,人工智能初创公司 Perplexity 被指控在抓取网站内容时忽视了明确的阻止指令。 Cloudflare 表示,他们观察到 Perplexity 在尝试抓取网页时隐藏了自己的身份,以此规避网站的偏好设置。 图源备注:图片由AI生成,图片授权服务商MidjourneyPerplexity 等人工智能产品通常依赖于从互联网收集大量数据,而这些初创公司长期以来在未获得许可的情况下抓取文本、图像和视频,以便支持其产品的正常运作。

根据互联网基础设施提供商 Cloudflare 的最新研究报告,人工智能初创公司 Perplexity 被指控在抓取网站内容时忽视了明确的阻止指令。Cloudflare 表示,他们观察到 Perplexity 在尝试抓取网页时隐藏了自己的身份,以此规避网站的偏好设置。

perplexity

图源备注:图片由AI生成,图片授权服务商Midjourney

Perplexity 等人工智能产品通常依赖于从互联网收集大量数据,而这些初创公司长期以来在未获得许可的情况下抓取文本、图像和视频,以便支持其产品的正常运作。近年来,许多网站通过使用标准的 Robots.txt 文件来应对这一问题,该文件指示搜索引擎和 AI 公司哪些页面可以被索引,哪些页面不可以。然而,当前这些努力的成效并不显著。

根据 Cloudflare 的分析,Perplexity 似乎通过更改其机器人的 “用户代理” 来绕过这些限制。“用户代理” 是指用于识别网站访问者的设备和版本类型的信号。Cloudflare 还提到,Perplexity 更改了其自治系统网络(ASN),这是一个识别互联网上大型网络的数字标识。Cloudflare 在数万个域名和数百万个请求中观察到了这一行为,凭借机器学习和网络信号的结合成功识别了这一爬虫。

Perplexity 的发言人 Jesse Dwyer 对 Cloudflare 的指控表示反驳,并称其博客文章为 “推销”。他补充称,文中截图显示并没有访问内容。他进一步声称,Cloudflare 所提到的爬虫并非其所拥有的。Cloudflare 表示,他们最初注意到这些问题是由于客户投诉 Perplexity 仍在抓取其网站内容,尽管这些网站已通过 Robots 文件阻止了该爬虫的访问。

Cloudflare 的分析表明,Perplexity 不仅使用了其声明的用户代理,还在其被阻止时利用一个模拟 Google Chrome 的通用浏览器。最终,Cloudflare 决定将 Perplexity 的爬虫从其验证列表中移除,并采取新的技术来阻止其活动。

值得注意的是,Cloudflare 最近对人工智能爬虫表示反对,并推出了一个市场,允许网站所有者向访问其网站的 AI 爬虫收费。Cloudflare 的首席执行官马修・普林斯曾警告称,人工智能正在破坏互联网的商业模式,尤其是出版商的盈利模式。这并非 Perplexity 第一次面临未经授权抓取的指控,早在去年,《连线》杂志等媒体就曾指控 Perplexity 抄袭其内容。

划重点:

🌐 Cloudflare 指控 Perplexity 在抓取内容时忽视网站的阻止指令。  

🤖 Perplexity 通过更改用户代理和网络标识试图绕过网站保护措施。  

📉 Cloudflare 推出市场允许网站向 AI 爬虫收费,以保护网站内容。  

相关资讯

AI初创公司Perplexity被指控“隐形爬行”:Cloudflare揭露其规避网站访问限制行为

Cloudflare发布报告称,人工智能搜索初创公司 Perplexity涉嫌规避旨在阻止其网络爬虫访问某些网站的限制。 据Cloudflare透露,当其爬虫遭遇阻挡时,Perplexity会通过隐藏身份的方式,试图绕过网站的偏好设置,包括已在robots.txt文件中声明的限制和Web应用程序防火墙(WAF)规则。 该指控加剧了外界对Perplexity未经授权获取内容的担忧。
8/5/2025 11:16:41 AM
AI在线

没有授权也没关系?多家 AI 公司被曝绕过网络标准抓取新闻出版商网站内容

据路透社上周六报道,专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告称,多家人工智能公司正在规避出版商用来阻止抓取内容的常见网络标准,并将抓取的内容用于训练生成式 AI 系统。这一消息是在 AI 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前,科技和媒体公司之间正在就生成式 AI 时代的内容价值展开更广泛的辩论。Tollbit 将自己定位为内容匮乏的 AI 公司与愿意与他们达成重大许可协议的出版商之间的“媒人”。IT之家注:《福布斯》曾指
6/24/2024 7:37:25 AM
清源

点名怒斥!全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教,专业堪忧

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)最近,全球最大的互联网架构提供商之一 Cloudflare 抛出了一颗“4A级炸弹”,直接炮轰当红 AI 初创公司 Perplexity。 在Cloudflare 公开的博客中指出,当 Perplexity 的爬虫遭遇阻断时,该公司将隐藏其爬虫身份,伪装成真实用户来突破封锁规则,继续抓取拒绝采集的网站内容。 Cloudflare 的工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示:“虽然 Perplexity 一开始使用其声明的用户代理进行抓取,但当遭遇网络封锁时,它们会隐藏爬虫身份,试图绕过网站的意愿。
8/5/2025 1:12:44 PM
云昭
  • 1