AI在线 AI在线

​Anthropic 耗资数百万美元购置巨量图书用于训练Claude并最终“销毁”

近日,人工智能公司 Anthropic 因其独特的图书数字化方式引发了公众关注。 据外媒 Ars Technica 报道,Anthropic 为了训练其 AI 助手 Claude,花费了数百万美元购入大量实体图书,并采用拆解和扫描的方式将其转化为数字文件。 经过这一过程后,原书籍则被直接丢弃。

近日,人工智能公司 Anthropic 因其独特的图书数字化方式引发了公众关注。据外媒 Ars Technica 报道,Anthropic 为了训练其 AI 助手 Claude,花费了数百万美元购入大量实体图书,并采用拆解和扫描的方式将其转化为数字文件。经过这一过程后,原书籍则被直接丢弃。

Claude2,Anthropic,人工智能,聊天机器人 
 克劳德

法庭文件披露,Anthropic 在2024年2月雇佣了 Tom Turvey,他曾参与 Google Books 项目的相关事务,负责 “获取全世界的图书”。这一举动显然是希望借鉴谷歌在图书数字化过程中被法院认定为合理使用的模式。

法官 William Alsup 在裁定中认为,Anthropic 的扫描方式构成合理使用,因为这些书籍是合法购买的,且在扫描后立即被销毁,数字文件仅供内部使用,未向外传播。他指出,这种转换可以被视为 “节省空间” 的数字化处理,具有合理使用中的 “转化性” 特征。不过,早期的盗版行为对其合法性造成了一定影响。

AI 训练需要大量优质文本数据,构建大语言模型需要将亿万词语输入神经网络,以建立词语与概念之间的关系。数据的质量直接影响模型输出的准确性,因此,许多 AI 公司急需获取高质量的出版内容,而通常不愿意耗费时间进行授权谈判。

美国的 “首次销售原则” 允许购买者在拥有实体书后自行处理,使得购买图书成为一种合法的 “绕道方案”。然而,Anthropic 最初也选择了绕过版权的问题,甚至有时使用盗版电子书。经过法律考虑后,该公司开始寻求更为安全的替代方案,最终决定收购二手书,以获取高质量的训练文本并简化授权过程。

为了加快数字化进程,Anthropic 采用了 “破坏式扫描” 的方式,大量购入书籍,拆封、裁剪并整批扫描成机器可读的 PDF 文件,整个过程耗资数百万美元。尽管目前非破坏性扫描技术已经成熟,比如 Internet Archive 开发的可保留原书的数字化手段,但 Anthropic 选择的方式仍然引起了广泛的讨论。

划重点:

📚 Anthropic 花费数百万美元购买实体书,并通过拆解和扫描将其转化为数字文件,用于训练 AI 助手 Claude。  

⚖️ 法官裁定其扫描方式构成合理使用,因为书籍是合法购买并在扫描后销毁。  

🔄 AI 训练需要大量优质文本数据,Anthropic 通过 “破坏式扫描” 加速图书数字化进程。

相关资讯

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

科技媒体 bleepingcomputer 今天(5 月 22 日)发布博文,报道称基于 Anthropic 官网配置文件,该公司正秘密研发 Claude Sonnet 4 和 Claude Opus 4 两款全新 AI 模型。
5/22/2025 10:48:24 AM
故渊

Claude移动端语音对话功能测试版上线,支持日程查询与文档搜索

Anthropic近日宣布,其AI助手Claude的移动端应用推出语音对话功能测试版,为用户带来更便捷的交互体验。 该功能支持通过语音指令查询日程、搜索文档、发送邮件等操作,显著提升移动端生产力。 目前,测试版仅支持英语,Anthropic计划在未来几周内向全球用户推出多语言支持。
5/28/2025 10:01:01 AM
AI在线

Anthropic在移动端推Claude对话语音模式,可搜索Google 文档、日历等

位于旧金山的人工智能初创公司Anthropic宣布推出 Claude 人工智能聊天机器人新的重大更新:全新的语音对话模式。 该功能已在苹果 App Store(iOS 设备)和谷歌 Play Store(Android 设备)的移动应用中上线。 除了语音模式的推出,Anthropic还为所有免费用户扩展了网络搜索功能。
5/28/2025 10:01:00 AM
AI在线
  • 1