普利策得主领衔起诉六大AI巨头！集体诉讼直指“盗版书训练模型”，索赔或达百亿级

作者：AI在线 2025-12-24 09:46

AI训练数据的“原罪”问题迎来最强法律挑战。由两届普利策奖得主约翰·卡雷鲁（John Carreyrou）领衔，数十位知名作家近日向美国加州北区地方法院提起集体诉讼，将OpenAI、谷歌、Meta、Anthropic、xAI与Perplexity AI六大AI公司列为共同被告，指控其系统性地使用盗版书籍训练大模型，构成“故意版权侵权”。若罪名成立，每部作品最高可索赔15万美元，总赔偿或达数十亿乃至上百亿美元。

“双重盗版链条”浮出水面

诉状揭露，被告公司形成了一条清晰的侵权闭环:

1. 盗版获取:从LibGen、Z-Library等“影子图书馆”批量下载数百万册受版权保护的书籍（包括小说、非虚构作品、学术著作）;

2. 模型训练:将这些非法数据用于训练ChatGPT、Gemini、Claude等大模型;

3. 商业变现:通过API订阅、企业服务、广告等模式获利，却未向原作者支付任何报酬。

原告方强调:“作家的文字是AI智慧的基石，却成了免费燃料。”这些作品不仅赋予模型语言能力，更塑造其“知识深度”与“叙事风格”，是数十亿美元AI生态的隐形支柱。

OpenAI成“被诉大户”，旧金山法院成AI版权案风暴眼

这并非AI公司首次陷入文字版权纠纷，但本案因原告权威性高、被告覆盖全、侵权链条清晰而备受瞩目。据南都数字经济治理研究中心统计，OpenAI已面临至少14起版权诉讼，是行业“被诉大户”。而本案审理地——加州北区法院（旧金山）——目前已受理25起AI相关版权案，占全美同类案件超50%，其判决结果或将确立AI训练数据合法性的全国性先例。

故意侵权 vs. 合理使用:法律边界待裁决

被告公司此前多以“合理使用”（Fair Use）抗辩，主张AI训练属“转化性使用”，不损害原作市场。但此次原告聚焦“盗版本质”——若训练数据本身即非法获取，则“合理使用”抗辩难以成立。法院若认定“故意侵权”，不仅赔偿金额飙升，还可能强制AI公司清洗模型、删除侵权数据，甚至暂停相关服务。

行业地震:AI训练数据供应链或将重构

无论结果如何，此案已敲响警钟:

- 头部AI公司正加速与出版社、作者协会谈判授权（如OpenAI与美联社、Shutterstock合作）;

- 开源模型社区面临合规压力，需验证训练数据合法性;

- “影子图书馆”或成执法重点，数据采集工具链将受审查。

AIbase认为，这场由作家发起的“版权保卫战”，不仅是对个体权益的捍卫，更是对AI发展伦理的终极拷问:技术创新，是否必须以牺牲创作者为代价? 当法律开始为“数据血汗”定价，AI的黄金时代，或将迎来一场深刻的合规革命。

为拿下市场和训练数据，OpenAI、谷歌在印度争相推出免费服务

AI在线 12 月 18 日消息，据路透社今日报道，在印度这一超大规模市场，OpenAI、谷歌和 Perplexity 正通过大幅免费策略正面交锋。报道认为，争夺用户的真正目标并不仅是订阅规模，而是获取大量多语言数据，用于训练下一代 AI 模型。印度拥有 7.3 亿部智能手机，移动数据价格处于全球低位，用户平均每月消耗 21GB 流量，每 GB 费用仅 9.2 美分（AI在线注：现汇率约合 0.65 元人民币），为 AI 产品迅速扩散提供了天然土壤。

12/18/2025 4:58:49 PM 清源

人工智能与版权：如何平衡作者权利与AI训练需求？

近年来，人工智能（AI）成为热议话题，尤其是在其使用及相关风险方面的讨论愈发激烈。然而，AI 如何获取数据以及如何进行训练的问题也日益受到关注。最近，位于墨尔本的一家出版社向其作者发出请求，希望使用其作品来训练 AI。

3/17/2025 11:32:00 AM AI在线

上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上，新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据，涵盖文本、图片、音频、视频四大模态，数据总量超过1150万条，音视频时长超过2.6万小时，成为小语种多模态领域的重要资源。 “万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。

4/17/2025 9:01:05 AM AI在线

普利策得主领衔起诉六大AI巨头！集体诉讼直指“盗版书训练模型”，索赔或达百亿级

相关资讯

为拿下市场和训练数据，OpenAI、谷歌在印度争相推出免费服务

人工智能与版权：如何平衡作者权利与AI训练需求？

上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0