AI在线 AI在线

AI 数据版权新纪元:Real Simple Licensing 协议引发行业关注

随着人工智能(AI)行业面临日益严峻的版权问题,尤其是在 Anthropic 与版权方达成15亿美元和解后,许多企业开始重视其训练数据的合法性。 目前,有多达40起未授权数据使用的诉讼案正在进行中,其中包括一起因 Midjourney 制作超人形象而被起诉的案件。 在没有有效的授权体系的情况下,AI 公司可能面临大规模的版权诉讼,这让行业前景堪忧。

随着人工智能(AI)行业面临日益严峻的版权问题,尤其是在 Anthropic 与版权方达成15亿美元和解后,许多企业开始重视其训练数据的合法性。目前,有多达40起未授权数据使用的诉讼案正在进行中,其中包括一起因 Midjourney 制作超人形象而被起诉的案件。

在没有有效的授权体系的情况下,AI 公司可能面临大规模的版权诉讼,这让行业前景堪忧。为了应对这一挑战,一群技术专家和网络出版商联合推出了一项名为 Real Simple Licensing(RSL)的新系统,旨在实现大规模的数据授权。该系统已经得到了 Reddit、Quora 和 Yahoo 等大型网络出版商的支持,但行业内能否形成合力,吸引主要的 AI 实验室参与仍然是个未知数。

版权,盗版

RSL 的联合创始人 Eckart Walther 表示,他们的目标是创建一个可以在互联网上广泛应用的训练数据授权体系。他指出,“我们需要为互联网提供机器可读的许可协议,而 RSL 正是解决这一问题的工具。”

多年来,诸如数据提供者联盟等组织一直在推动更清晰的数据采集实践,但 RSL 是第一个旨在提供实际技术和法律基础设施的尝试。技术上,RSL 协议定义了出版商可以为其内容设定的具体许可条款,这包括 AI 公司是否需要定制许可或采用知识共享(Creative Commons)条款。参与的网页将把条款纳入其 “robots.txt” 文件,以便轻松识别哪些数据受哪些条款保护。

在法律层面,RSL 团队建立了一个名为 RSL Collective 的集体许可组织,旨在为出版商谈判条款并收取版税,类似于音乐行业的 ASCAP 或电影行业的 MPLC。目前,已经有许多知名出版商加入了这一集体,包括 Yahoo、Reddit 和 Medium 等。

尽管如此,确定 AI 模型具体使用哪些训练数据以计算版税的挑战依然存在。对于实时获取网络数据的产品,如谷歌的 AI 搜索摘要,数据使用的追踪相对简单,但如果训练过程未被记录,确认特定文档是否被某个大语言模型(LLM)使用就变得困难重重。

尽管存在这些挑战,RSL 的创建者们相信 AI 公司能够应对。“他们在之前的某些授权协议中已经需要能够报告数据使用情况,因此这并不是不可能的,”RSL 的另一位联合创始人 Doug Leeds 表示。“只要足够好,就能让人们得到应有的报酬。”

最后,RSL 的未来能否成功,关键在于 AI 公司是否愿意接受这一新体系。随着越来越多的 AI 行业领袖呼吁建立这样的系统,RSL 团队希望他们能够信守承诺。

相关资讯

Meta AI 知法犯法? 哈利波特42%内容被 Llama吞下,面临巨额诉讼

近期一项由斯坦福大学、康乃尔大学及西维吉尼亚大学研究人员发表的论文显示,Meta 的 Llama3.1AI 模型能够逐字重现大量受版权保护的书籍内容,这为这家科技巨头带来了潜在的巨额法律风险。 研究指出,Llama3.170B 模型在测试中能够重现《哈利波特:神秘的魔法石》高达42% 的文本内容,远超第一代 Llama 模型的4.4%。 人工智能模型,如 OpenAI 的 ChatGPT 和 Meta 的 Llama,通常通过海量数据训练,旨在识别并生成新的模式。
6/18/2025 10:01:54 AM
AI在线

Perplexity AI 推出版权分成计划,将向新闻发行商付费

在人工智能技术迅猛发展的今天,版权问题成为了行业内的热门话题。 为了解决这一争议,Perplexity AI 近日宣布推出一项 “出版商收入分成计划”,并设立4250万美元的专项基金。 这项计划旨在帮助传统媒体机构从其平台上生成的内容流量中获得收益,成为首个提出 “直接分成” 模式的 AI 公司。
8/26/2025 11:31:19 AM
AI在线

人工智能与版权:如何平衡作者权利与AI训练需求?

近年来,人工智能(AI)成为热议话题,尤其是在其使用及相关风险方面的讨论愈发激烈。 然而,AI 如何获取数据以及如何进行训练的问题也日益受到关注。 最近,位于墨尔本的一家出版社向其作者发出请求,希望使用其作品来训练 AI。
3/17/2025 11:32:00 AM
AI在线
  • 1