AI在线 AI在线

重磅发布!中文互联网基础语料3.0助力AI发展,数据量高达120GB

9月18日,在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式发布。 这一新版本的数据量达到了惊人的120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。 中文互联网基础语料3.0的发布,是在中央网信办的指导下,由中国网络空间安全协会与国家互联网应急中心等单位协同合作的成果。

9月18日,在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式发布。这一新版本的数据量达到了惊人的120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。

中文互联网基础语料3.0的发布,是在中央网信办的指导下,由中国网络空间安全协会与国家互联网应急中心等单位协同合作的成果。此次语料的开发与构建,得益于企业、高校和科研单位之间的紧密合作,充分利用了网安协会人工智能安全治理专委会建立的语料共建共享机制。与前两版相比,3.0版本在信源范围上进行了扩大,进一步提升了数据的质量。

代码 互联网  (2)

图源备注:图片由AI生成,图片授权服务商Midjourney

在数据处理方面,语料3.0经过了严格的信源筛选、内容过滤和数据去重等一系列细致的加工处理措施。这些措施确保了发布的数据更加可信,有助于过滤掉违法和不良信息,为人工智能的研究和应用提供一个更为健康的环境。

用户可以通过登录中国网络空间安全协会网站,点击 “中文互联网语料资源平台” 链接,注册并认证后下载相关语料。该负责人表示,中文互联网基础语料3.0的推出标志着各界对高质量中文语料的共同努力与成果,未来还将继续加强中文互联网基础语料的建设,以支撑人工智能技术的创新与产业发展。

中文互联网基础语料3.0的发布,无疑为人工智能的发展注入了新的动力,也为相关领域的研究提供了更为坚实的基础。

相关资讯

中国联通发布全球最长距离大模型异构混训成果:超 1500 公里跨域,仅损失不到 5% 算力

中国联通发布全球最长距离大模型异构混训成果:超 1500 公里跨域,仅损失不到 5% 算力

AI在线 7 月 20 日消息,在 2025 中国联通合作伙伴大会期间,中国联通研究院联合上海人工智能实验室等合作伙伴,于 7 月 19 日正式发布了全球最长距离大模型异构混训试验成果。 随着人工智能技术的高速发展和大模型时代的加速来临,模型训练对算力基础设施的高吞吐、低时延、高性能提出了更高要求。 然而,当前算力资源呈现出异构化和多中心化的格局,面临着跨域资源互联互通机制不健全、长距离传输存在带宽与时延瓶颈、异构资源统一调度与高效融合能力有限等挑战。
7/20/2025 9:24:29 AM 汪淼
新手必看!AI训练师必须掌握的大模型训练流程

新手必看!AI训练师必须掌握的大模型训练流程

你知道 ChatGPT 背后到底经历了哪些训练流程吗? AI 训练师在其中扮演了什么角色? 本篇文章用最接地气的方式,拆解大模型训练的三大阶段,带你看懂那些“看不见的幕后工程”。
11/14/2025 5:38:42 AM 小五-
AI训练师必看!5个章节带你快速掌握RAG检索增强项目

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

在 AI 应用日益深入的今天,RAG(Retrieval-Augmented Generation)正成为提升模型实用性的关键技术。 本文将从 AI 训练师的视角出发,系统拆解 RAG 的核心机制、应用场景与训练要点,帮助你在构建高质量智能体时少走弯路、精准发力。 今天我向大家介绍检索增强也就是 RAG,在公司里面也是一个独立的项目,并且有自己的考核指标。
11/18/2025 12:01:32 AM 小五-