AI在线 AI在线

提升机器人 3D 操作能力,北京大学与智元机器人联合实验室发布 OmniManip

上海智元新创技术有限公司官方今日发文宣布,团队与北⼤联合提出 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。

如何将视觉语⾔基础模型(Vision  Language  Models,  VLMs)应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题,这⼀⽬标的实现受两⼤关键挑战制约:

  • VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式训练、仅以 2D 图像 / ⽂本作为输⼊的 VLM 的天然局限;

  • ⽆法输出低层次动作:将 VLM 在机器⼈数据上进⾏微调以得到视觉 - 语⾔ - 动作(VLA)模型是⼀种有前景的解决⽅案,但⽬前仍受到数据收集成本和泛化能⼒的限制。

提升机器人 3D 操作能力,北京大学与智元机器人联合实验室发布 OmniManip

上海智元新创技术有限公司官方今日发文称,北⼤携⼿智元机器⼈团队提出 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。

针对⼤模型幻觉问题和真实环境操作的不确定性,OmniManip 引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,实现了操作性能突破。目前项⽬主⻚与论⽂已上线,代码与测试平台即将开源

图片

AI在线从智元机器人官方获悉,OmniManip 的关键设计包括:

  • 基于 VLM 的任务解析:利⽤ VLM 强⼤的常识推理能⼒,将任务分解为多个结构化阶段(Stages),每个阶段明确指定了主动物体(Active)、被动物体(Passive)和动作类型(Action)。

  • 以物体为中⼼的交互基元作为空间约束:通过 3D 基座模型⽣成任务相关物体的 3D 模型和规范化空间(canonical space),使 VLM 能够直接在该空间中采样 3D 交互基元,作为 Action 的空间约束,从⽽优化求解出 Active 物体在 Passive 物体规范坐标系下的⽬标交互姿态。

  • 闭环 VLM 规划:将⽬标交互姿态下的 Active / Passive 物体渲染成图像,由 VLM 评估与重采样,实现 VLM 对⾃身规划结果的闭环调整。

  • 闭环机器⼈执⾏:通过物体 6D 姿态跟踪器实时更新 Active / Passive 物体的位姿,转换为机械臂末端执⾏器的操作轨迹,实现闭环执⾏。

此外,OmniManip 具备通⽤泛化能⼒,不受特定场景和物体限制。团队已将其应⽤于数字资产⾃动标注 / 合成管道,实现⼤规模的机器⼈轨迹⾃动采集。该研究团队将开源泛化操作⼤规模数据集和对应的仿真评测基准。

据AI在线此前报道,以“天才少年”身份加入华为的稚晖君于 2022 年底宣布离职,创业智元机器人。2024 年 9 月 3 日,智元机器人完成 A++++++ 轮融资,估值已超过 70 亿元,得到了包括北汽、上汽、比亚迪在内的国内汽车巨头支持。

目前,智元机器人量产的第 1000 台通用具身机器人已于本月(1 月 6 日)正式下线,其中包括 731 台双足人形机器人(远征 A2 / 灵犀 X1)和 269 台轮式通用机器人(远征 A2-D / A2-W)。

提升机器人 3D 操作能力,北京大学与智元机器人联合实验室发布 OmniManip

相关资讯

苹果测试全新AI语音控制功能

近日,科技记者古尔曼透露,苹果正在积极测试一项创新的 Siri 语音控制功能。 这项新功能旨在为 iPhone 用户提供更为精准的操作体验,用户可以通过语音指令完成各类任务,极大提升使用便利性。 据了解,这项全新的 Siri 功能将基于苹果最新的 App Intents 技术,赋予用户更强大的跨应用语音控制能力。
8/11/2025 9:21:47 AM
AI在线

化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/22/2025 1:20:00 PM
机器之心

腾讯混元3D-Omni:3D版ControlNet突破多模态控制,实现高精度3D资产生成

近年来,3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。 然而,大多数现有方法仍主要依赖图像作为条件输入,缺乏细粒度、多模态的控制能力,限制了其在实际生产流程中的应用。 为解决这一瓶颈,腾讯混元团队推出了混元 3D-Omni,一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。
9/29/2025 3:05:00 PM
机器之心
  • 1