AI在线 AI在线

宇树:开源机器人世界大模型!

一觉醒来,宇树带着最新开源模型来了! 这次开源的是一个世界模型-动作架构,名叫UnifoLM-WMA-0。 它的核心之处在于拥有一个世界模型能够理解机器人和环境相互作用时的物理规律。

一觉醒来,宇树带着最新开源模型来了!

这次开源的是一个世界模型-动作架构,名叫UnifoLM-WMA-0。它的核心之处在于拥有一个世界模型能够理解机器人和环境相互作用时的物理规律

咱先瞧瞧真机部署后的表现。

玩堆积木,稳稳当当。重点是,右上角小窗口呈现出世界模型对后续动作视频的预测,能发现和实际操作情形十分吻合

宇树:开源机器人世界大模型!

两只机械臂搭档干活也可以:

宇树:开源机器人世界大模型!

像收纳文具这类稍精细的活儿,都能轻松拿捏:

宇树:开源机器人世界大模型!

将相机放入包装盒,世界模型的预测同样和实际操作几乎无差:

宇树:开源机器人世界大模型!

视频链接:https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ

官方称,UnifoLM-WMA-0属于UnifoLM(Unitree机器人统一大模型)系列成果,是团队专为通用机器人学习量身打造的,能适配多种机器人本体

宇树:开源机器人世界大模型!

目前UnifoLM-WMA-0训练代码、推理代码、模型Checkpoints通通开源,GitHub迅速揽获100+Star。

宇树:开源机器人世界大模型!

网友看后纷纷点赞。

宇树:开源机器人世界大模型!

官方介绍了模型的训练策略,具体流程和设计思路可以拆解成这几步来看。

首先,团队先拿Open-X数据集对视频生成模型做了针对性微调,核心目的就是让模型原本的生成能力适配机器人的实际作业场景。

至于微调后模型在测试集上的实际生成效果,是这样婶儿的:

宇树:开源机器人世界大模型!

团队进一步提出了基于世界模型打造的策略架构,即UnifoLM-WMA-0。

这个架构里的世界模型不是单一模式运行,而是支持两种核心功能模式。

一种是决策模式,简单说就是能提前预测机器人和环境进行物理交互时的关键信息,辅助策略更精准地生成下一步动作。

另一种是仿真模式,主要是根据机器人已经做出的动作,生成高度还原真实场景的环境反馈,相当于给机器人模拟出一个逼真的交互环境。

针对这两种模式,团队在下游任务数据集上分别做了后训练优化。

宇树:开源机器人世界大模型! 宇树:开源机器人世界大模型!

以下是完整的系统架构及工作流程:

宇树:开源机器人世界大模型!

视频链接:https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ

团队用了宇树科技公开的五个开源数据集,最终完成了全流程训练。

宇树:开源机器人世界大模型!

从测试结果来看,这个模型要是当作仿真引擎来用,效果突出。

只要给它“当前场景的图像”,再加上一定数量的“机器人未来要做的动作指令”,它就能实现可控的交互生成,生成的内容能精准匹配预期。

生成结果和原视频的对比情况,大家可以通过下面的图直观感受:

宇树:开源机器人世界大模型! 宇树:开源机器人世界大模型!

面对长程任务的持续交互生成也能应对,生成结果和原视频的对比如下:

宇树:开源机器人世界大模型!

GitHub:https://github.com/unitreerobotics/unifolm-world-model-action/tree/main 项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/

相关资讯

宇树机器人首次亮相李佳琦直播间 展示高科技互动魅力

宇树机器人在淘宝直播间与知名主播李佳琦合作,首次向公众展示了其最新产品 —— 宇树机器人 G1和机器狗 Go2。 直播于晚上8点开始,吸引了大量观众的关注。 这两款机器人在直播中表现出色,展现了惊人的交互能力。
3/8/2025 9:56:00 AM
AI在线

与DeepMind展开合作,英伟达的物理世界AI正在拓展版图

老黄:机器人的时代已经来临了。
3/19/2025 4:53:00 PM
李泽南

智源研究院发布“悟界”系列大模型,含全球首个原生多模态世界模型 Emu3

北京智源人工智能研究院今日发布“悟界”系列大模型,包括全球首个原生多模态世界模型“悟界・Emu3”、全球首个脑科学多模态通用基础模型“悟界・见微 Brainμ”。
6/6/2025 11:21:19 AM
清源
  • 1