AI在线 AI在线

上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。 该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵盖文本、图片、音频、视频四大模态,数据总量超过1150万条,音视频时长超过2.6万小时,成为小语种多模态领域的重要资源。 “万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵盖文本、图片、音频、视频四大模态,数据总量超过1150万条,音视频时长超过2.6万小时,成为小语种多模态领域的重要资源。

微信截图_20250417083637.png

“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。它不仅扩充了语种数量,还全面升级了数据模态和总量,新增了图片 - 文本、音频 - 文本、视频 - 文本、特色指令微调(SFT)四大模态数据,覆盖多模态研究全链路。数据经过成熟生产管线及安全加固,结合过滤算法与当地专家人工精细化标注质检,成为覆盖多模态、多领域的高质量数据集,适配文化旅游、商业贸易、科技教育等不同场景。

此次开源的内容包括:图片 - 文本累计开源超过200万条;音频 - 文本开源超过1600小时;视频 - 文本开源超过2.5万小时;SFT 数据开源18万条。开源数据覆盖了多种语种,为开发者提供了丰富的多模态数据资源。

“万卷·丝路2.0”展现出显著的模型赋能效应。基于7B 参数基础模型训练时,模型综合性能跃升52.3%;在700亿参数的大模型训练中,仍保持12.8% 的性能增益。该数据集使轻量化模型在多语言处理领域展现出超越大模型的卓越表现,为多语言模型的微调提供了有力支持。

数据集地址:

https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

一键微调框架:

https://github.com/modelscope/ms-swift

相关资讯

人工智能与版权:如何平衡作者权利与AI训练需求?

人工智能与版权:如何平衡作者权利与AI训练需求?

近年来,人工智能(AI)成为热议话题,尤其是在其使用及相关风险方面的讨论愈发激烈。 然而,AI 如何获取数据以及如何进行训练的问题也日益受到关注。 最近,位于墨尔本的一家出版社向其作者发出请求,希望使用其作品来训练 AI。
3/17/2025 11:32:00 AM AI在线
为拿下市场和训练数据,OpenAI、谷歌在印度争相推出免费服务

为拿下市场和训练数据,OpenAI、谷歌在印度争相推出免费服务

AI在线 12 月 18 日消息,据路透社今日报道,在印度这一超大规模市场,OpenAI、谷歌和 Perplexity 正通过大幅免费策略正面交锋。 报道认为,争夺用户的真正目标并不仅是订阅规模,而是获取大量多语言数据,用于训练下一代 AI 模型。 印度拥有 7.3 亿部智能手机,移动数据价格处于全球低位,用户平均每月消耗 21GB 流量,每 GB 费用仅 9.2 美分(AI在线注:现汇率约合 0.65 元人民币),为 AI 产品迅速扩散提供了天然土壤。
12/18/2025 4:58:49 PM 清源
普利策得主领衔起诉六大AI巨头!集体诉讼直指“盗版书训练模型”,索赔或达百亿级

普利策得主领衔起诉六大AI巨头!集体诉讼直指“盗版书训练模型”,索赔或达百亿级

AI训练数据的“原罪”问题迎来最强法律挑战。 由两届普利策奖得主约翰·卡雷鲁(John Carreyrou)领衔,数十位知名作家近日向美国加州北区地方法院提起集体诉讼,将OpenAI、谷歌、Meta、Anthropic、xAI与Perplexity AI六大AI公司列为共同被告,指控其系统性地使用盗版书籍训练大模型,构成“故意版权侵权”。 若罪名成立,每部作品最高可索赔15万美元,总赔偿或达数十亿乃至上百亿美元。
12/24/2025 9:46:49 AM AI在线