VLA统一架构新突破：自回归世界模型引领具身智能

作者： 2025-07-10 02:50

本文来自：王宇琪，中国科学院自动化所博士，研究方向为世界模型，自动驾驶感知与决策等，在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。王鑫龙团队，北京智源研究院，研究方向为原生多模态大模型，Emu 系列工作核心负责人。张兆翔团队，中国科学院自动化研究所，研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。

本文来自：王宇琪，中国科学院自动化所博士，研究方向为世界模型，自动驾驶感知与决策等，在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。

王鑫龙团队，北京智源研究院，研究方向为原生多模态大模型，Emu 系列工作核心负责人。

张兆翔团队，中国科学院自动化研究所，研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。

从 Sora 到 Genie2，从语言驱动的视频生成到世界的交互模拟，世界模型正加速成为连接感知、理解与决策的关键基座。随着视觉 - 语言 - 动作（VLA）模型在具身智能领域的快速发展，多模态之间的边界正被重塑。

然而，现有方法多以语言模态为中心，往往忽视了视觉信息蕴含的丰富时序动态与因果结构。

为此，北京智源研究院联合中国科学院自动化研究所提出 UniVLA —— 一种全新的 VLA 模型架构，基于全离散、自回归机制，原生建模视觉、语言与动作信号，并在后训练阶段引入世界模型建模，从大规模视频中学习时序信息与因果逻辑，有效增强了模型在下游决策任务的性能和学习效率。

UniVLA 在 CALVIN、LIBERO、SimplerEnv 等主流具身智能基准上全面刷新多项 SOTA 纪录，并展现出在真机操控和自动驾驶等现实场景中的广泛潜力。

论文标题：Unified Vision-Language-Action Model
网站链接：https://robertwyq.github.io/univla.github.io/
论文链接：https://arxiv.org/abs/2506.19850
代码链接：https://github.com/baaivision/UniVLA

统一视觉 - 语言 - 动作的

全离散自回归模型

该框架将视觉、语言与动作信号统一转化为离散 token，并构建视觉 - 动作交错的多模态时序序列，实现原生统一建模。在训练范式上，采用自回归方式进行学习，不仅高效稳定，更具大规模扩展的潜力。

得益于这种时序化的多模态表示，模型天然支持多种任务的统一训练，包括视觉理解、文生视频、动作预测等，具备良好的通用性与数据扩展能力。

统一的视觉 - 语言 - 动作模型架构

世界模型助力下游决策

在这套统一框架下，世界模型的后训练显著提升了下游决策性能，且无需依赖大量动作数据，仅凭海量视频即可高效学习。

对比语言生成图像的训练范式，时序动态信息被证明至关重要；而与纯视频建模相比，多模态语义对齐同样不可或缺。这为机器人从大规模视频中学习真实世界知识打开了新路径，展现出世界模型在多模态感知与决策融合中的巨大潜力。

刷新多项仿真基准纪录

该方法在当前主流的具身仿真基准上 —— 包括 CALVIN、LIBERO 和 SimplerEnv—— 均展现出强劲的性能优势，全面刷新多项任务纪录。

CALVIN 的长程任务评测

LIBERO 的泛化评测

SimplerEnv 的泛化测试

解锁更广应用：

真机双臂操控与端到端驾驶

VLA统一架构新突破：自回归世界模型引领具身智能

双臂协作倒水

探索新的VLA技术路径

未来展望

相比于基于视觉语言模型（VLM）拓展而来的 VLA 框架，本文提出了一条全新的技术路线，展现出更大的潜力与探索空间。

一方面，我们构建了一个视频版本的 VLA 架构，使模型能够有效捕捉视频中的时空动态特征，并在推理过程中更充分地利用历史信息；同时，即便缺乏动作标签，模型仅通过大规模视频数据的训练，依然在下游任务中表现出显著优势。

另一方面，我们引入全离散的自回归训练范式，显著提升了训练效率，并为大规模数据下的模型扩展性提供了坚实基础。未来，我们将进一步探索该框架与多模态强化学习的深度融合，推动其在开放世界中的感知、理解与决策能力持续演进。

相关标签：

AI 模型训练

相关资讯

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型，使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑，例如调整主体姿势、表情和改变视点，同时保持内容一致性。此外，该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

1/20/2025 10:36:00 AM

AIGC Studio

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像，ComfyUI可使用

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像，ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID，旨在从单个ID参考图像生成定制的保ID图像，优势在于很强的语义一致性，同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点，以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。目前，EcomID 的 Comfyui 原生实现官方插件也已经发布，大家可以从文章中的链接获取。

1/20/2025 11:00:00 AM

AIGC Studio

o1推理框架最新成果：斯坦福&伯克利提出元链式思维，升级模型推理能力

o1推理框架最新成果：斯坦福&伯克利提出元链式思维，升级模型推理能力

o1背后的推理原理，斯坦福和伯克利帮我们总结好了！在最新的一篇长达100页的论文中，他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维（Meta-CoT）。这个元链式思维（Meta-CoT）到底是什么意思呢？

1/20/2025 1:08:25 PM

量子位