AI在线 AI在线

刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力

当业界还在为自回归与扩散这两种主流技术路线孰优孰劣而激辩时,答案可能已经显现。 今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。 这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。

当业界还在为自回归与扩散这两种主流技术路线孰优孰劣而激辩时,答案可能已经显现。刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力

今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5

这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。

通过在超过 10 万亿的多模态 Token(主要源自互联网视频,总时长约 790 年)上进行端到端预训练,Emu3.5 得以学习并内化了现实物理世界的动态规律。

这种原生的世界建模能力,是 Emu3.5 与其他生成模型的根本区别,并自然地外化为一系列高级功能:不仅能生成图文并茂的故事,更展现出在长时程视觉指导、复杂图像编辑、世界探索和具身操作等任务上的强大潜力。

不仅如此,Emu3.5 首次揭示了 “多模态 Scaling 范式” 的存在,这是继语言预训练、推理和后训练之后,人工智能的第三条 Scaling 范式。也是团队将其称为 “世界大模型”(World Foundation Model)的原因。

智源在悟道 1.0 发布会上率先提出 “大模型” 一词,他们相信本次悟界・Emu3.5 的发布,“世界大模型”(World Foundation Model)将开启一个全新的探索方向。

为了破解自回归模型在图像生成上的速度瓶颈,团队还提出了离散扩散自适应(DiDA)技术,将每张图像的推理速度提升了近 20 倍,且几乎没有性能损失。这使得 Emu3.5 成为首个在推理速度和生成质量上,能与顶级闭源扩散模型相媲美的自回归模型。

在多个基准测试中,Emu3.5 在图像编辑任务上达到了与谷歌 Gemini-2.5-Flash-Image(Nano Banana)相当的性能,并在文本渲染和一系列交错内容生成任务上显著超越对手。

智源研究院宣布后续将开源 Emu3.5,以支持社区的进一步研究。

  • 悟界・Emu3.5 项目主页:https://zh.emu.world

  • 悟界・Emu3.5 技术报告:https://zh.emu.world/Emu35_tech_report.pdf

Emu3.5:不止于生成  更在于对世界动态的理解和预测

现有的多模态大模型大多遵循一种 “多模块” 模式:以一个强大的 LLM 作为基础,这样做固然以很好地利用已有的强大的 LLM,但这也意味着图像、视频、语音等其他模态需要先转换到文本模态,再进行处理。各个模态之间仍是被区分开的。

智源去年发布的悟界・Emu3 提出了 “原生多模态” 的理念,只基于下一个 token 预测,实现了文本、图像、视频三种模态数据的理解和生成大一统。

Emu3.5 继承了 Emu3 的极简架构,基于一个 34B 的稠密 Transformer 模型。它的创新之处在于其模型的目标统一为 “下一状态预测”(Next-State Prediciton)。

这种 “原生” 特性赋予了 Emu3.5 一种独特的能力:生成交错的视觉 - 语言输出。当用户给出一个指令,Emu3.5 的回答可以是一段文字,紧接着一幅图像,然后是另一段解释性的文字和下一幅图像。这种能力使其天然胜任两类极具挑战性的新任务:

1. 视觉叙事(Visual Narrative):Emu3.5 能生成一系列图文并茂的卡片,起点处从牛顿与索尼克在森林相遇、提出一场关于速度与引力的挑战开始,到两个交流和思考,再到最后在月光下共同仰望星空,整个过程逻辑连贯,画面风格统一。

图片

2. 视觉指导(Visual Guidance):模型可以生成分步的、带有视觉示例的教程。例如,当被问及 “如何画图中的猫?”,Emu3.5 会生成几个步骤,每个步骤都配有一张清晰的图片,直观地展示从轮廓到最终完成猫图片的全过程。

刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力这种能力标志着多模态模型从 “看图说话” 或 “按需作画” 的单一任务执行者,向着能够进行连续、多步、跨模态创造的 “世界学习器” 迈出了关键一步。

十万亿多模态 Tokens 的世界基座模型训练

悟界・Emu3.5 之所以能具备如此强大的原生多模态能力,其背后是一套极其庞大且精密的训练流程。与以往模型主要依赖静态的 “图像 - 文本对” 不同,Emu3.5 的训练数据主体,是包含超过 10 万亿 Tokens 的视觉 - 语言交错数据,主要来源于互联网视频及其对应的语音转录文本,视频时长总计约 790 年。

为什么视频数据如此重要?因为静态图文对只能教会模型 “这是什么”,而连续的视频帧和同步的解说,则能教会模型现实世界的物理动态、时空连续性和因果等规律

整个流程分为四个核心阶段:

1. 大规模预训练

这是奠定模型基础的阶段。Emu3.5 在超过 10 万亿 Tokens 的数据上,采用统一的 “下一状态预测”(Next-State Predicttion)目标进行端到端训练。这一阶段分为两步,第一步在 10 万亿 Tokens 上进行大规模基础学习,第二步则在 3 万亿更高质量、更高分辨率和更丰富标注的数据上进行能力增强。

值得注意的是,模型在训练过程中,验证集上多个分布外(Out-of-Distribution)任务的损失持续下降,这表明模型涌现出了强大的泛化能力,而不仅仅是记忆训练数据。

图片

曲线表明 Emu3.5 实现了平滑且稳定的优化过程,并在多组验证集上保持了一致的泛化能力

2. 监督微调

在预训练之后,模型在一个包含 1500 亿样本的高质量数据集上进行微调。这些数据覆盖了从通用图文生成、视觉问答,到前文提到的视觉叙事、视觉指导、世界探索和具身操作等多种复杂任务。SFT 阶段的目标是建立一个统一的多模态交互接口,让模型学会如何 “听懂” 并完成各种具体指令,并促进不同任务之间的知识迁移。

3. 大规模多模态强化学习

为了进一步提升多模态推理和生成质量,Emu3.5 首次在多模态领域进行大规模强化学习。团队构建了一个复杂的多维度奖励系统,能够同时评估生成内容的美学质量、图文对齐度、叙事连贯性、文本渲染准确度等多个指标。

通过在统一的奖励空间中进行优化,模型学会在多个目标之间取得平衡,避免了 “奖励欺骗”(Reward Hacking)现象,实现了跨任务的持续改进。

4. 高效自回归推理加速

为了解决自回归模型在生成速度方面的挑战,Emu3.5 团队提出了一种叫做 “离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)的方法。在不牺牲生成质量的前提下,Emu3.5 的单图生成速度提升了约 20 倍。这意味着,Emu3.5 在保持自回归模型强大可控性的同时,获得了接近主流扩散模型的推理效率,成功弥合了两种技术路线之间的鸿沟。

图片

DiDA 的核心思想借鉴了扩散模型,但将其应用于离散的 Token 空间。它将自回归模型的单向、顺序预测,转化为一种并行的、双向的去噪过程。

从视觉叙事到世界探索:Emu3.5 的惊人能力

得益于其原生多模态架构、海量视频数据训练和 DiDA 加速,Emu3.5 在一系列任务中展现了 SOTA 或极具竞争力的表现。

通用图像编辑与生成:在需要精确控制和多模态指令遵循的图像编辑任务上,Emu3.5 表现出色,能够实现开放世界的编辑和时空操作。在文字渲染方面,其准确性和自然度超越了包括 Gemini-2.5-Flash-Image(Nano Banana)在内的领先模型。

图片图片图片图片

世界建模与探索:项目主页中展示的 “世界探索” 和 “具身操作” 能力,使其与谷歌的 Genie 等前沿世界模型处于同一水平。Emu3.5 能够根据指令,生成在虚拟环境中连续移动的视觉序列,并保持场景的几何、语义和外观一致性。

刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力具身操作任务:它能将一个复杂的、长期的机器人操作任务(如倒水、折叠衣物)分解为一系列带有语言指令和关键帧图像的子任务,为训练更通用的具身智能体提供了基础。刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力这些能力的涌现,验证了 Emu3.5 技术报告的核心观点:通过在海量视频数据上进行大规模训练,模型能够内化现实世界的运行规律,从而进行更深层次的模拟和推理。

无限生成,赋能具身智能的新引擎

图片

Emu3.5 的突破,也为具身智能的发展补全了一块关键的拼图。

一直以来,具身智能领域都苦于缺乏高质量的数据,Emu3.5 可以作为一个无限数据生成器:它不仅能够生成丰富多样的虚拟环境和任务,大幅拓展 AI 学习和测试的空间,还能生成从高层目标到具体操作的分步规划数据,帮助具身智能系统理解和实践复杂任务的全过程。

智源研究院在很早就预判大模型正从数字世界加速迈入物理世界。“悟界” 系列模型,正是这一预判的集中体现。

Emu3.5 通过 “下一状态预测” 和原生多模态融合,自然涌现出对时空、物理规律、因果等世界动态的内在理解,这正是机器人进行自主导航、精细操作、复杂决策等任务的基础。

通往下一代多模态智能

智源悟界・Emu3.5 展示出了作为 “世界模型的基础模型” 的巨大潜力。

通过原生多模态架构、以视频为主的训练数据和创新的 DiDA 加速技术,也向我们展示了如何构建一个更强大、更高效、更接近人类自然学习方式的世界模型。

当然,Emu3.5 也存在局限。技术报告中表示,其视觉分词器(Tokenizer)的压缩率仍有提升空间,DiDA 的加速潜力也未完全挖掘。同时,对于视觉叙事、世界探索等新能力的评估,也需要建立更系统化的基准。

它的开源,无疑将为全球 AI 研究社区提供一个强大的新基座。感兴趣的读者可以填写报名表,申请获取 Emu3.5 的内测资格。

报名链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b

相关资讯

智源大会发布“悟界”系列大模型,加速迈向物理AGI时代

在今日举行的 2025 北京智源大会上,北京智源人工智能研究院正式发布“悟界”系列大模型,全面展示其在物理通用人工智能(AGI)方向的最新研究成果与战略布局。 “悟界”系列意在突破虚实边界、赋能物理世界,涵盖四款前沿模型:多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能大脑RoboBrain 2. 0 以及微观生命模型OpenComplex2,构建了从世界理解、神经建模到具身控制和生命模拟的全链条AI体系。
6/6/2025 12:01:06 PM
AI在线

智源研究院推出Emu3等“悟界”系列大模型

在刚刚闭幕的第七届 “北京智源大会” 上,智源研究院重磅推出了一系列名为 “悟界” 的大模型。 这些模型的发布标志着人工智能领域又一次技术的飞跃,吸引了众多科技爱好者的目光。 此次发布的模型包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、以及跨本体的具身大小脑协作框架 RoboOS2.0和具身大脑 RoboBrain2.0。
6/6/2025 4:00:55 PM
AI在线

智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

当大模型不再只是“看图说话”或“文生图”,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态AI正迎来质的飞跃。 10月30日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5,首次将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从“感知理解”迈向“智能操作”的关键一步。 NSP架构:让AI学会“预测世界如何变化”Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。
10/30/2025 3:36:16 PM
AI在线
  • 1