智源研究院发布“悟界”系列大模型，含全球首个原生多模态世界模型 Emu3

作者：清源 2025-06-06 11:21

北京智源人工智能研究院今日发布“悟界”系列大模型，包括全球首个原生多模态世界模型“悟界・Emu3”、全球首个脑科学多模态通用基础模型“悟界・见微 Brainμ”。

智源研究院还发布了悟界・具身智能大模型，包括全球首个支持 MCP 的跨本体大小脑协作框架悟界・RoboOS 2.0、具身大脑大模型悟界・RoboBrain 2.0 和全原子微观生命模型悟界・OpenComplex2 也一并发布。

去年 10 月，智源研究院发布了原生多模态世界模型 Emu3。据AI在线此前报道，该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。Emu3 支持多模态输入、多模态输出的端到端映射，验证了自回归框架在多模态领域的普适性与先进性，为跨模态交互提供了强大的技术基座。

见微 Brainμ 基于 Emu3 底层架构，将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化，利用预训练模型多模态对齐的优势，可以实现多模态脑信号与文本、图像等模态的多向映射，并实现跨任务、跨模态、跨个体的统一通用建模，以单一模型完成多种神经科学的下游任务。

智源研究院发布“悟界”系列大模型，含全球首个原生多模态世界模型 Emu3

▲ Emu3 生成的图像

相关阅读：

《智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统》

智源开源多模态向量模型BGE-VL：多模态检索新突破

BGE 系列模型自发布以来广受社区好评。近日，智源研究院联合多所高校开发了多模态向量模型 BGE-VL，进一步扩充了原有生态体系。 BGE-VL 在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。

3/6/2025 4:00:00 PM 机器之心

智源研究院开源轻量级超长视频理解模型Video-XL-2

近日，智源研究院联合上海交通大学等机构正式发布了一款新一代超长视频理解模型——Video-XL-2。这一模型的推出标志着长视频理解技术在开源领域取得了重大突破，为多模态大模型在长视频内容理解方面的发展注入了新的活力。在技术架构方面，Video-XL-2主要由视觉编码器、动态Token合成模块（DTS）以及大语言模型(LLM)三个核心组件构成。

6/3/2025 2:00:54 PM AI在线

智源研究院推出Emu3等“悟界”系列大模型

在刚刚闭幕的第七届 “北京智源大会” 上，智源研究院重磅推出了一系列名为 “悟界” 的大模型。这些模型的发布标志着人工智能领域又一次技术的飞跃，吸引了众多科技爱好者的目光。此次发布的模型包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、以及跨本体的具身大小脑协作框架 RoboOS2.0和具身大脑 RoboBrain2.0。

6/6/2025 4:00:55 PM AI在线

智源研究院发布“悟界”系列大模型，含全球首个原生多模态世界模型 Emu3

相关资讯

智源开源多模态向量模型BGE-VL：多模态检索新突破

智源研究院开源轻量级超长视频理解模型Video-XL-2

智源研究院推出Emu3等“悟界”系列大模型