AI在线 AI在线

重磅发布!中文互联网基础语料3.0助力AI发展,数据量高达120GB

9月18日,在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式发布。 这一新版本的数据量达到了惊人的120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。 中文互联网基础语料3.0的发布,是在中央网信办的指导下,由中国网络空间安全协会与国家互联网应急中心等单位协同合作的成果。

9月18日,在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式发布。这一新版本的数据量达到了惊人的120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。

中文互联网基础语料3.0的发布,是在中央网信办的指导下,由中国网络空间安全协会与国家互联网应急中心等单位协同合作的成果。此次语料的开发与构建,得益于企业、高校和科研单位之间的紧密合作,充分利用了网安协会人工智能安全治理专委会建立的语料共建共享机制。与前两版相比,3.0版本在信源范围上进行了扩大,进一步提升了数据的质量。

代码 互联网  (2)

图源备注:图片由AI生成,图片授权服务商Midjourney

在数据处理方面,语料3.0经过了严格的信源筛选、内容过滤和数据去重等一系列细致的加工处理措施。这些措施确保了发布的数据更加可信,有助于过滤掉违法和不良信息,为人工智能的研究和应用提供一个更为健康的环境。

用户可以通过登录中国网络空间安全协会网站,点击 “中文互联网语料资源平台” 链接,注册并认证后下载相关语料。该负责人表示,中文互联网基础语料3.0的推出标志着各界对高质量中文语料的共同努力与成果,未来还将继续加强中文互联网基础语料的建设,以支撑人工智能技术的创新与产业发展。

中文互联网基础语料3.0的发布,无疑为人工智能的发展注入了新的动力,也为相关领域的研究提供了更为坚实的基础。

相关资讯

中国联通发布全球最长距离大模型异构混训成果:超 1500 公里跨域,仅损失不到 5% 算力

AI在线 7 月 20 日消息,在 2025 中国联通合作伙伴大会期间,中国联通研究院联合上海人工智能实验室等合作伙伴,于 7 月 19 日正式发布了全球最长距离大模型异构混训试验成果。 随着人工智能技术的高速发展和大模型时代的加速来临,模型训练对算力基础设施的高吞吐、低时延、高性能提出了更高要求。 然而,当前算力资源呈现出异构化和多中心化的格局,面临着跨域资源互联互通机制不健全、长距离传输存在带宽与时延瓶颈、异构资源统一调度与高效融合能力有限等挑战。
7/20/2025 9:24:29 AM
汪淼

​谷歌前CEO:DeepSeek崛起标志着全球AI竞赛新阶段

谷歌前首席执行官埃里克·施密特(Eric Schmidt)在发表的专栏文章中呼吁美国加大开源人工智能的研发力度,以应对DeepSeek的崛起。 图源备注:图片由AI生成,图片授权服务商Midjourney施密特认为,DeepSeek的崛起标志着全球人工智能竞赛的转折点,证明中国可以利用更少的资源与大科技公司竞争。 施密特指出,为了对抗DeepSeek,美国必须开发更多的开源模型,投资人工智能基础设施(如星际之门),并鼓励领先的实验室分享他们的训练方法。
1/29/2025 10:33:00 AM
AI在线

割韭菜?博主卖Deepseek付费课4天赚20万

近日,国产大模型 DeepSeek 的发布引起了科技圈和投资市场的广泛关注。 随着这一新技术的热度飙升,各类 DeepSeek 的付费培训课程也随之涌现。 据北京日报报道,春节假期后,网络上出现了大量与 DeepSeek 相关的课程,吸引了众多用户付费参与。
2/8/2025 11:30:00 AM
AI在线
  • 1