AI在线 AI在线

Meta AI 知法犯法? 哈利波特42%内容被 Llama吞下,面临巨额诉讼

近期一项由斯坦福大学、康乃尔大学及西维吉尼亚大学研究人员发表的论文显示,Meta 的 Llama3.1AI 模型能够逐字重现大量受版权保护的书籍内容,这为这家科技巨头带来了潜在的巨额法律风险。 研究指出,Llama3.170B 模型在测试中能够重现《哈利波特:神秘的魔法石》高达42% 的文本内容,远超第一代 Llama 模型的4.4%。 人工智能模型,如 OpenAI 的 ChatGPT 和 Meta 的 Llama,通常通过海量数据训练,旨在识别并生成新的模式。

近期一项由斯坦福大学、康乃尔大学及西维吉尼亚大学研究人员发表的论文显示,Meta 的 Llama3.1AI 模型能够逐字重现大量受版权保护的书籍内容,这为这家科技巨头带来了潜在的巨额法律风险。研究指出,Llama3.170B 模型在测试中能够重现《哈利波特:神秘的魔法石》高达42% 的文本内容,远超第一代 Llama 模型的4.4%。

人工智能模型,如 OpenAI 的 ChatGPT 和 Meta 的 Llama,通常通过海量数据训练,旨在识别并生成新的模式。然而,该研究的关键发现是,Meta 的 Llama 模型似乎并非仅仅学习语言模式,而是能够近乎“完整地记住”某些书籍,例如《哈利波特》和《1984》。斯坦福技术法律专家马克·莱姆利表示,如果 AI 能够生成其训练数据的完整摘录,那么它就不再被视为基于学习的“变革性作品”,而更像是一个包含版权作品的“巨型 .ZIP 文件”,用户可以随意复制。

版权

 版权之争新焦点:逐字重现 VS. 学习模式

在测试 OpenAI、DeepSeek 和微软等公司的 AI 模型时,莱姆利的研究团队发现 Meta 的 Llama 是唯一一款能够准确复述书籍内容的模型。除了《哈利波特》系列的首部作品,该模型还展现出对 F·斯科特·菲茨杰拉德的《了不起的盖茨比》和乔治·奥威尔的《1984》的显著记忆能力。

Meta 使用受版权保护的材料训练 AI 备受争议。该公司目前正面临多起版权诉讼,其中包括知名作家(如喜剧演员莎拉·西尔弗曼)提起的诉讼,指控 Meta 的模型基于非法获取的“Books3”数据集进行训练,该数据集包含近20万份受版权保护的出版物。据法庭文件显示,一名 Meta 工程师在下载种子文件时曾表示“用(Meta 旗下的)公司笔记本电脑下载种子,感觉不对劲”。

律师莱姆利估计,如果“Books3”数据集中的“仅有”3% 的内容被认定为侵权,Meta 可能面临近10亿美元的法定赔偿,这还不包括利润分成。如果侵权比例更高,Meta 潜在的法律责任将更为严峻。

法律专家立场转变,Meta 拒绝回应

值得注意的是,莱姆利本人曾代表 Meta 在之前的生成式 AI 版权诉讼(Kadrey v Meta Platforms)中进行辩护。然而,随着他领导了这项关于 AI 模型记忆和重现受版权内容的研究,他于今年早些时候宣布不再代理 Meta,以抗议该公司及其首席执行官马克·扎克伯格的某些行为。尽管他先前认为 Meta 应该胜诉,但新研究结果似乎已改变了他的看法。

Meta 对莱姆利的最新研究发现拒绝置评。

相关资讯

首批中文版Llama3模型来了,解释成语、答弱智吧问题

中文问题,中文回答。最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。和以往的原始 Llama 模型一样,Llama 3 对中文的支持效果欠佳,经常会出现你用中文提问,它用英文或中文 英文回复的现象。因此,要想让国内用户用上该模型,开发者还需对其进行微调。最近,在 Github 以及 HuggingFace 平台上,我们已经陆陆续续地看到了一些这样的项目,比如 llama3-Chinese-chat 和 Llama3-8B-Chinese-Chat。这篇文章将逐一介绍。llama3-Chinese
4/25/2024 11:23:00 AM
机器之心

斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

斯坦福 Llama3-V vs 清华 MiniCPM-Llama3-V-2.5在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?5 月 29 日,一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品:Llama3-V,号称只要 500 美元(约为人民币 3650 元),就能基于 Llama3 训练
6/3/2024 4:10:00 PM
机器之心

人工智能与版权:如何平衡作者权利与AI训练需求?

近年来,人工智能(AI)成为热议话题,尤其是在其使用及相关风险方面的讨论愈发激烈。 然而,AI 如何获取数据以及如何进行训练的问题也日益受到关注。 最近,位于墨尔本的一家出版社向其作者发出请求,希望使用其作品来训练 AI。
3/17/2025 11:32:00 AM
AI在线
  • 1