AI在线 AI在线

性能跃迁,幻觉清零!中国移动“九天”3.0震撼登场,多项核心技术同步开源

7月26日,在2025世界人工智能大会“AI 焕新 产业共赢”企业人工智能产业发展论坛上,中国移动隆重发布了其自主研发的 “九天”基础大模型3.0。 此次发布不仅彰显了中国移动在大模型领域的深厚自研实力和持续创新能力,更标志着其在人工智能产业化发展道路上迈出了坚实一步。 作为国务院国资委战新“百大工程”的重要成果,“九天”基础大模型3.0在继承“高安全、高可控、全国产、全行业”四大特性的基础上,实现了三大关键“焕新”:一、九天众擎语言大模型:架构与性能双重跃迁“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。

7月26日,在2025世界人工智能大会“AI 焕新 产业共赢”企业人工智能产业发展论坛上,中国移动隆重发布了其自主研发的 “九天”基础大模型3.0。此次发布不仅彰显了中国移动在大模型领域的深厚自研实力和持续创新能力,更标志着其在人工智能产业化发展道路上迈出了坚实一步。

人工智能大脑,大模型

作为国务院国资委战新“百大工程”的重要成果,“九天”基础大模型3.0在继承“高安全、高可控、全国产、全行业”四大特性的基础上,实现了三大关键“焕新”:

一、九天众擎语言大模型:架构与性能双重跃迁

“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系,其推理能力得到显著强化。该模型还创新构建了113域 ×53能力的二维分级后训练框架,结合动态强化学习策略,使复杂推理能力提升了 35%

在权威榜单评测中,“九天”语言大模型成绩斐然:

  • GPQA-Diamond 评测中,以 77.67分斩获全球第二,超越 DeepSeekR1和 Qwen3。

  • ArenaHard V1.0 中,以 67.2分位居全球第一。

  • BFCL V3 评测中,达到 68分

在性能大幅跃升的同时,模型进一步强化了可控生成能力,通过精确流程内置等技术细节,实现了专业场景下的零幻觉,破解了沉浸式角色演绎难题。

基于最新的语言大模型,中国移动还同步推出了多个专项模型:

  • 九天代码大模型: 采用两阶段持续训练技术,支持代码生成、注释生成、单元测试生成、代码智能问答等任务,覆盖 Python、Java、JS、TS、Go、C++ 等10余种主流编程语言。在 EvalPlus、MHPP、LivecodeBenchv6等多个代码生成榜单上表现领先。

  • 九天数学大模型: 在短思考、长思考模式下均达到业界 SOTA 水平,多项指标超越 Qwen2.5Math、Qwen3、DeepSeek Math、DeepSeek R1-Distill 等同参数量级模型。

二、九天善智多模态大模型:生成可控性与理解能力全面提升

“九天善智多模态大模型”引入复杂时空建模、流匹配图片视频渐进式联合训练、端到端局部可控注意力机制等创新技术。同时,通过融合多模态理解信息和联合图文交织数据训练,显著提升了模型对文本指令和输入条件图像视频的感知能力。这意味着模型不仅能生成高质量的图像视频,还能进行多轮对话式高可控精确编辑操作,大幅提升了视觉生成的灵活便利性。例如,在图片生成方面可支持多轮精准局部修改,如修改文字、修改背景、增加元素等。

模型的图理解和视频理解性能也得到了全面提升:

  • 图理解方面: 在 MMStar、HallusionBench 和 OCRBench 等图理解任务中,九天模型分别获得了 82.2、64.3和94.9的高分,处于业界领先水平。

  • 视频理解方面: 在 Videomme 和 MVbench 两个任务中均表现领先,超越 Qwen2-VL 和 InternVideo2。

三、模型及核心技术开放开源,助力产业生态发展

中国移动此次还采取了开放策略,将多项模型及核心技术进行开源,旨在推动行业共同发展:

  1. 开源九天数童结构化数据大模型: 包括 JT-DA-8B 模型及后续演进版本,支持下载模型权重、微调代码、推理代码等。

  2. 开源九天数学大模型: 包括 JT-Math-8B 系列模型,支持下载模型权重、推理代码、技术报告。

  3. 开源九天代码大模型: 包括 JT-Coder-8B 系列模型,支持下载模型权重、推理代码、技术报告。

  4. 开源业界首创的结构化数据模型评测数据及 TReB 评测体系: 涵盖6大任务、34个能力,包括高质量、全面的数据、推理模式及评价指标,支持下载评测数据集、测试代码。

  5. 开源 CCR-Bench 行业场景复杂指令遵循评测数据集: 包含174条高质量、多样化、高难度复杂指令数据,高度模拟健康专家、智能客服、医疗助手等典型工业场景,支持下载数据集。

以上所有开源内容均已上线焕新社区、Github、HuggingFace、魔搭社区、Gitee 和 Arxiv,将为开发者和研究人员提供宝贵的资源,共同加速人工智能技术的创新与应用。

相关资讯

推理水平对标OpenAI o1!阿里云通义开源最新推理模型QwQ

11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview,并同步开源。 评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。 QwQ(Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型,也是阿里云首个开源的AI推理模型。
11/28/2024 5:31:00 PM
新闻助手

SOTA大模型遇上加密数据评测:Qwen3未破10%,o1也栽了丨上海AI Lab等联合研究

大语言模型遇上加密数据,即使是最新Qwen3也直冒冷汗! 尽管当前的推理模型在各类基准测试中展现出卓越的性能,但在密码学这一对逻辑严密性和细节精确度要求近乎苛刻的专业领域,模型的推理能力仍有待深入探索。 密码学不仅需要模型具备高阶数学运算能力和严密的逻辑推理链条,更要求其能够精准识别复杂加密模式中的潜在规律;成功解密需要模型具有极强的综合推理能力。
5/30/2025 9:03:00 AM

智源发布FlagEval“百模”评测结果 丈量模型生态变局

2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。
12/19/2024 6:00:00 PM
  • 1