AI在线 12 月 19 日消息,12 月 18 日,北京人形机器人创新中心正式开源国内首个且唯一通过具身智能国标测试的具身 VLA 大模型 XR-1,以及配套的数据基础 RoboMIND 2.0、ArtVIP 最新版。
围绕“具身天工”平台,北京人形已发布具身天工 2.0、天轶 2.0 等多类型通用本体,为人形机器人干活奠定物理本体基础。而具身大脑和小脑的协同是人形机器人干活的另一前提,目前围绕“慧思开物”,北京人形已开源 WoW(我悟)世界模型和 Pelican-VL(天鹕)等具身大脑相关成果。
本次开源的系列内容,是面向具身小脑能力的 VLA 模型 XR-1,以及为 XR-1 等模型提供数据训练支持的 RoboMIND 2.0 和 ArtVIP。

在今年 8 月的 WRC 世界机器人大会上,北京人形正式发布了跨本体 VLA 模型 XR-1,它具备多场景、多本体、多任务特性,并且还拥有高泛化性等优势特点。
背后的技术原理在于,XR-1 具备跨数据源学习、跨模态对齐、跨本体控制三大核心支柱能力。首先,通过跨数据源学习让机器人能够利用海量人类视频进行训练,降低训练成本提升训练效率;其次,依靠跨模态对齐能够打破视觉和动作的隔阂,让机器人做到真正的知行合一;最后,借助跨本体控制可以让 XR-1 快速匹配不同类型、不同品牌的机器人本体。


XR-1 首创结合虚实数据的三阶段训练范式:
第一阶段:输入积累超百万级的虚实多本体数据、人类视频数据,由 XR-1 把这些复杂的画面和动作压缩成一个包含许多离散代码的“字典”,便于机器人后续随时调用需要的“动作代码”;
第二阶段:用大规模的跨本体机器人数据来预训练 XR-1,让它懂得物理世界的基本规律,比如“松手东西会掉”、“推门门会开”;
第三阶段:针对不同的任务场景(例如:分拣、搬箱子、叠衣服等)用少量的特定数据进行微调;最终让机器人从一个“学富五车”的理论大师,蜕变为一个“心灵手巧”的干活专家。
AI在线附 XR-1 项目主页:
https://github.com/Open-X-Humanoid/XR-1
RoboMIND2.0:
https://modelscope.cn/collections/X-Humanoid/RoboMIND20
ArtVIP:
https://huggingface.co/datasets/x-humanoid-robomind/ArtVIP