AI在线 AI在线

AI初创公司Perplexity被指控“隐形爬行”:Cloudflare揭露其规避网站访问限制行为

Cloudflare发布报告称,人工智能搜索初创公司 Perplexity涉嫌规避旨在阻止其网络爬虫访问某些网站的限制。 据Cloudflare透露,当其爬虫遭遇阻挡时,Perplexity会通过隐藏身份的方式,试图绕过网站的偏好设置,包括已在robots.txt文件中声明的限制和Web应用程序防火墙(WAF)规则。 该指控加剧了外界对Perplexity未经授权获取内容的担忧。

Cloudflare发布报告称,人工智能搜索初创公司 Perplexity涉嫌规避旨在阻止其网络爬虫访问某些网站的限制。据Cloudflare透露,当其爬虫遭遇阻挡时,Perplexity会通过隐藏身份的方式,试图绕过网站的偏好设置,包括已在robots.txt文件中声明的限制和Web应用程序防火墙(WAF)规则。

开发者,黑客,漏洞,攻击

该指控加剧了外界对Perplexity未经授权获取内容的担忧。此前,Perplexity曾因强行突破付费墙和无视robots.txt文件而受到批评,但其首席执行官Aravind Srinivas当时将责任归咎于第三方爬虫。

为验证客户的投诉,Cloudflare设置了具有类似访问限制的新域名进行测试。结果发现,Perplexity的爬虫(最初名为“PerplexityBot”或“Perplexity-User”)在遭到阻断后,会立即更改其用户代理,伪装成“在macOS上运行的Google Chrome”。Cloudflare称,这种“未声明的爬虫”还使用轮换的IP地址和改变其自治系统网络(ASN)来绕过封锁。Cloudflare表示,其观察到这种规避行为涉及“数万个域名和每天数百万个请求”。

作为回应,Perplexity发言人Jesse Dwyer在一份声明中称Cloudflare的报告是“炒作”,并表示其中存在“很多误解”。尽管如此,Cloudflare已将Perplexity从其已验证机器人名单中移除,并发布了阻止其“隐形爬行”的方法

相关资讯

「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落

人工智能系统依靠充足、高质量的训练数据来获得高性能,但 MIT 等机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。随着 GenAI 产品开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。最近,吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的「AI 数据荒」雪上加霜。研究人员发现,C4、RefineWeb、Dolma 等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,曾经触手可及的开放数据越来越难以获取。这不仅会影响商用 AI
8/13/2024 1:07:59 PM
汪淼

​Perplexity 被指控秘密抓取被禁止的网站内容

根据互联网基础设施提供商 Cloudflare 的最新研究报告,人工智能初创公司 Perplexity 被指控在抓取网站内容时忽视了明确的阻止指令。 Cloudflare 表示,他们观察到 Perplexity 在尝试抓取网页时隐藏了自己的身份,以此规避网站的偏好设置。 图源备注:图片由AI生成,图片授权服务商MidjourneyPerplexity 等人工智能产品通常依赖于从互联网收集大量数据,而这些初创公司长期以来在未获得许可的情况下抓取文本、图像和视频,以便支持其产品的正常运作。
8/5/2025 3:01:54 PM
AI在线

人类验证防线失守?ChatGPT 智能体模拟鼠标操作“通过”验证码

近日,Reddit 用户的一则分享在科技界引起广泛关注:ChatGPT 智能体已能成功绕过 Cloudflare 的“我不是机器人”人机验证系统。 这一事件表明,现有的自动化防御机制可能已不足以应对日益强大的 AI 技术。 据该 Reddit 用户描述,在执行任务过程中,ChatGPT 智能体遭遇了 Cloudflare 的验证挑战。
7/31/2025 12:32:00 PM
AI在线
  • 1