AI在线 AI在线

偷数据的AI公司被抓到了

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAIAI还在想尽办法搜刮互联网数据,这一回是偷偷利用互联网档案馆? 最近,Reddit平台发现,AI公司正利用Wayback Machine的存档,巧妙绕过常规的数据获取限制,偷偷扒取大量数据用于模型训练。

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

AI还在想尽办法搜刮互联网数据,这一回是偷偷利用互联网档案馆?!

偷数据的AI公司被抓到了

最近,Reddit平台发现,AI公司正利用Wayback Machine的存档,巧妙绕过常规的数据获取限制,偷偷扒取大量数据用于模型训练

互联网档案馆的Wayback Machine是公益性的数字存档工具,旨在保存网页历史版本。

AI公司发现通过借助Wayback Machine开放性的特点抓取Reddit的历史数据,既无需遵守Reddit的付费、合规协议等政策,又能获取训练所需的大量内容。

于是,互联网档案馆就成了AI公司的“最佳数据后门”。

前情提要,此前Reddit为保护数据权益,对AI公司的直接抓取数据行为设置了严格限制。

若公司愿意付费则愿意提供数据,比如Reddit与谷歌达成数据交易,仅向这种付费合作方开放数据,还对搜索引擎爬取数据设置付费门槛。

偷数据的AI公司被抓到了

但对于未经许可的数据抓取行为,尤其是AI训练滥用的情况,Reddit坚决抵制。

这也是其2023年进行API更改的原因:由于AI公司滥用API进行数据抓取用于模型训练,于是它们调整了API政策导致部分第三方应用关闭。

此外,Reddit还与OpenAI有合作,然而在6月,Reddit却起诉了Anthropic。

原因是Anthropic在宣称停止抓取数据后仍在Reddit上抓取。

这正是为啥AI公司开始想歪招了——

Internet Archive即互联网档案馆,它是一个非营利性数字图书馆,致力于提供数字资料的永久性免费存储及获取服务。

偷数据的AI公司被抓到了

它的数据一部分由公众上传,大部分由自带的网络爬虫自动搜集,尽可能保存公开的网页信息。

Wayback Machine是Internet Archive最广为人知的服务,能抓取并保存大量网页,用户借助它可查看网页的历史快照。

它自1996年开始缓存网页,在2001年推出时已存档超100亿个页面。

Wayback Machine作为一个公益性的数字存档工具,本身就具有开放性,但这也给了部分AI公司可乘之机。

AI公司发现通过Wayback Machine抓取Reddit的历史数据,既无需遵守Reddit的平台政策(如付费、合规协议),又能获取训练所需的大量内容,于是就利用这一漏洞开始了违规“曲线获取数据”的行为。

这些AI公司的爬虫程序在Wayback Machine的存档中肆意穿梭,抓取Reddit上的帖子、评论、用户资料等关键信息。

这种“曲线抓取数据”的行为,不仅侵犯了平台的权益和用户的隐私,还打破了数据获取与使用的规则平衡。

偷数据的AI公司被抓到了

Reddit发言人Tim Rathschmidt透露,尽管互联网档案馆旨在开放网络,但AI公司的此类抓取行为严重违反了平台政策,危及用户隐私,还可能导致已删除内容的泄露。

Reddit并非唯一受害者,Facebook(现Meta)、Twitter(现X)等均曾明确限制第三方爬虫抓取用户内容,尤其禁止将数据用于AI训练,但仍有AI公司试图通过缓存站点、镜像网站等间接渠道获取数据。

面对这一乱象,Reddit已经宣布限制Wayback Machine对其内容进行索引,仅允许抓取主页,帖子详情、评论及用户资料等页面均被禁止访问

为此,Wayback Machine的负责人Mark Graham在接受采访时表示:

我们与Reddit有着长期的合作关系,并且将继续就此事进行讨论。

实际上不只Wayback Machine,有网友发现Reddit对任何非住宅IP都有数据封锁。

偷数据的AI公司被抓到了

但也有人认为这是Reddit是试图通过数据交易获取利益,但一手交钱一手交数据看上去也挺公平的……

偷数据的AI公司被抓到了

不管怎么说,数据所有权、使用边界与AI训练需求之间的冲突正在悄悄升级。

参考链接: [1]https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit [2]https://news.ycombinator.com/item?id=44866698

— 完 —

相关资讯

​Reddit 计划 2025 年推出 AI 驱动的全新搜索工具

Reddit 首席执行官 Steve Huffman 在最近的财报会议上宣布,该社交网络计划在2025年推出一款全新升级的搜索工具,旨在帮助用户更方便地浏览平台内容,同时回答一些 “主观、复杂和有趣的问题”。 这一新工具将整合 Reddit Answers 功能,用户可以在此提出问题,并获得针对相关回复和主题的精炼总结。 Huffman 表示,Reddit 的用户在过去20年中留下了大量的讨论信息,而这正是 Reddit Answers 想要解锁的潜在价值。
2/13/2025 9:00:00 AM
AI在线

Reddit在搜索栏中引入AI助手,告别繁琐搜索

随着互联网的发展,搜索引擎似乎变得愈发臃肿,广告和推销内容的增多让用户感到困扰。 如今,很多人已经习惯在寻找信息时先选择 “谷歌一下,某某某 Reddit”。 这不仅是一种幽默,也反映了人们对 Reddit 这一社区的信赖,因为用户提供的信息往往更为真实和有用。
5/3/2025 11:00:47 AM
AI在线

Reddit 将加强用户验证以防止 AI 假冒行为

最近,Reddit 社区因一项研究实验而震惊,研究团队在 “Change My View” 子版块发布了一群 AI 驱动的模仿人类的机器人。 这一大规模实验旨在探讨 AI 的说服力,结果显示,这机器人发布了超过1700条评论,冒充诸如虐待幸存者或反对 “黑人的命也是命” 运动的争议性身份。 对于 Reddit 来说,这起事件如同一场小型噩梦。
5/7/2025 10:01:04 AM
AI在线
  • 1