AI初创公司Perplexity被指控“隐形爬行”:Cloudflare揭露其规避网站访问限制行为

作者：AI在线 2025-08-05 11:16

Cloudflare发布报告称，人工智能搜索初创公司 Perplexity涉嫌规避旨在阻止其网络爬虫访问某些网站的限制。据Cloudflare透露，当其爬虫遭遇阻挡时，Perplexity会通过隐藏身份的方式，试图绕过网站的偏好设置，包括已在robots.txt文件中声明的限制和Web应用程序防火墙（WAF）规则。该指控加剧了外界对Perplexity未经授权获取内容的担忧。

开发者，黑客，漏洞，攻击

该指控加剧了外界对Perplexity未经授权获取内容的担忧。此前，Perplexity曾因强行突破付费墙和无视robots.txt文件而受到批评，但其首席执行官Aravind Srinivas当时将责任归咎于第三方爬虫。

为验证客户的投诉，Cloudflare设置了具有类似访问限制的新域名进行测试。结果发现，Perplexity的爬虫（最初名为“PerplexityBot”或“Perplexity-User”）在遭到阻断后，会立即更改其用户代理，伪装成“在macOS上运行的Google Chrome”。Cloudflare称，这种“未声明的爬虫”还使用轮换的IP地址和改变其自治系统网络（ASN）来绕过封锁。Cloudflare表示，其观察到这种规避行为涉及“数万个域名和每天数百万个请求”。

作为回应，Perplexity发言人Jesse Dwyer在一份声明中称Cloudflare的报告是“炒作”，并表示其中存在“很多误解”。尽管如此，Cloudflare已将Perplexity从其已验证机器人名单中移除，并发布了阻止其“隐形爬行”的方法

「AI 数据荒」雪上加霜，MIT 发现网页数据的公开共享正走向衰落

人工智能系统依靠充足、高质量的训练数据来获得高性能，但 MIT 等机构最近的一项研究发现，曾经免费提供的数据在多个方面变得越来越难获取。随着 GenAI 产品开发和研究变得越来越广泛，训练数据的抓取许可也越来越成为受关注的话题。最近，吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究，其结果似乎让本就迫近的「AI 数据荒」雪上加霜。研究人员发现，C4、RefineWeb、Dolma 等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议，曾经触手可及的开放数据越来越难以获取。这不仅会影响商用 AI

8/13/2024 1:07:59 PM 汪淼

Perplexity 被指控秘密抓取被禁止的网站内容

根据互联网基础设施提供商 Cloudflare 的最新研究报告，人工智能初创公司 Perplexity 被指控在抓取网站内容时忽视了明确的阻止指令。 Cloudflare 表示，他们观察到 Perplexity 在尝试抓取网页时隐藏了自己的身份，以此规避网站的偏好设置。图源备注：图片由AI生成，图片授权服务商MidjourneyPerplexity 等人工智能产品通常依赖于从互联网收集大量数据，而这些初创公司长期以来在未获得许可的情况下抓取文本、图像和视频，以便支持其产品的正常运作。

8/5/2025 3:01:54 PM AI在线

OpenAI宣布12月起向成年用户开放成人内容：配套年龄验证机制同步上线

OpenAI首席执行官Sam Altman于10月14日透露，从今年12月开始，ChatGPT将允许通过年龄验证的成年用户访问成人向内容。这一政策调整将伴随完整的年龄验证系统一并实施，反映出公司"将成年用户当作成年人对待"的产品理念转变。 Altman在社交平台X上解释了此前采取严格内容限制的背景。

10/15/2025 12:30:59 PM AI在线

AI初创公司Perplexity被指控“隐形爬行”:Cloudflare揭露其规避网站访问限制行为

相关资讯

「AI 数据荒」雪上加霜，MIT 发现网页数据的公开共享正走向衰落

​Perplexity 被指控秘密抓取被禁止的网站内容

OpenAI宣布12月起向成年用户开放成人内容：配套年龄验证机制同步上线

Perplexity 被指控秘密抓取被禁止的网站内容