AI在线 AI在线

普利策得主领衔起诉六大AI巨头!集体诉讼直指“盗版书训练模型”,索赔或达百亿级

AI训练数据的“原罪”问题迎来最强法律挑战。 由两届普利策奖得主约翰·卡雷鲁(John Carreyrou)领衔,数十位知名作家近日向美国加州北区地方法院提起集体诉讼,将OpenAI、谷歌、Meta、Anthropic、xAI与Perplexity AI六大AI公司列为共同被告,指控其系统性地使用盗版书籍训练大模型,构成“故意版权侵权”。 若罪名成立,每部作品最高可索赔15万美元,总赔偿或达数十亿乃至上百亿美元。

AI训练数据的“原罪”问题迎来最强法律挑战。由两届普利策奖得主约翰·卡雷鲁(John Carreyrou)领衔,数十位知名作家近日向美国加州北区地方法院提起集体诉讼,将OpenAI、谷歌、Meta、Anthropic、xAI与Perplexity AI六大AI公司列为共同被告,指控其系统性地使用盗版书籍训练大模型,构成“故意版权侵权”。若罪名成立,每部作品最高可索赔15万美元,总赔偿或达数十亿乃至上百亿美元。

“双重盗版链条”浮出水面

诉状揭露,被告公司形成了一条清晰的侵权闭环:  

1. 盗版获取:从LibGen、Z-Library等“影子图书馆”批量下载数百万册受版权保护的书籍(包括小说、非虚构作品、学术著作);  

2. 模型训练:将这些非法数据用于训练ChatGPT、Gemini、Claude等大模型;  

3. 商业变现:通过API订阅、企业服务、广告等模式获利,却未向原作者支付任何报酬。

原告方强调:“作家的文字是AI智慧的基石,却成了免费燃料。”这些作品不仅赋予模型语言能力,更塑造其“知识深度”与“叙事风格”,是数十亿美元AI生态的隐形支柱。

OpenAI成“被诉大户”,旧金山法院成AI版权案风暴眼

这并非AI公司首次陷入文字版权纠纷,但本案因原告权威性高、被告覆盖全、侵权链条清晰而备受瞩目。据南都数字经济治理研究中心统计,OpenAI已面临至少14起版权诉讼,是行业“被诉大户”。而本案审理地——加州北区法院(旧金山)——目前已受理25起AI相关版权案,占全美同类案件超50%,其判决结果或将确立AI训练数据合法性的全国性先例。

故意侵权 vs. 合理使用:法律边界待裁决

被告公司此前多以“合理使用”(Fair Use)抗辩,主张AI训练属“转化性使用”,不损害原作市场。但此次原告聚焦“盗版本质”——若训练数据本身即非法获取,则“合理使用”抗辩难以成立。法院若认定“故意侵权”,不仅赔偿金额飙升,还可能强制AI公司清洗模型、删除侵权数据,甚至暂停相关服务。

行业地震:AI训练数据供应链或将重构

无论结果如何,此案已敲响警钟:  

- 头部AI公司正加速与出版社、作者协会谈判授权(如OpenAI与美联社、Shutterstock合作);  

- 开源模型社区面临合规压力,需验证训练数据合法性;  

- “影子图书馆”或成执法重点,数据采集工具链将受审查。

AIbase认为,这场由作家发起的“版权保卫战”,不仅是对个体权益的捍卫,更是对AI发展伦理的终极拷问:技术创新,是否必须以牺牲创作者为代价? 当法律开始为“数据血汗”定价,AI的黄金时代,或将迎来一场深刻的合规革命。

相关资讯

为拿下市场和训练数据,OpenAI、谷歌在印度争相推出免费服务

为拿下市场和训练数据,OpenAI、谷歌在印度争相推出免费服务

AI在线 12 月 18 日消息,据路透社今日报道,在印度这一超大规模市场,OpenAI、谷歌和 Perplexity 正通过大幅免费策略正面交锋。 报道认为,争夺用户的真正目标并不仅是订阅规模,而是获取大量多语言数据,用于训练下一代 AI 模型。 印度拥有 7.3 亿部智能手机,移动数据价格处于全球低位,用户平均每月消耗 21GB 流量,每 GB 费用仅 9.2 美分(AI在线注:现汇率约合 0.65 元人民币),为 AI 产品迅速扩散提供了天然土壤。
12/18/2025 4:58:49 PM 清源
人工智能与版权:如何平衡作者权利与AI训练需求?

人工智能与版权:如何平衡作者权利与AI训练需求?

近年来,人工智能(AI)成为热议话题,尤其是在其使用及相关风险方面的讨论愈发激烈。 然而,AI 如何获取数据以及如何进行训练的问题也日益受到关注。 最近,位于墨尔本的一家出版社向其作者发出请求,希望使用其作品来训练 AI。
3/17/2025 11:32:00 AM AI在线
上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。 该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵盖文本、图片、音频、视频四大模态,数据总量超过1150万条,音视频时长超过2.6万小时,成为小语种多模态领域的重要资源。 “万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。
4/17/2025 9:01:05 AM AI在线