AI在线 AI在线

李飞飞团队「具身智能」最新研究:机器人接手所有家务

李飞飞「具身智能」又出新研究了。 「机器人学习领域中的一个『圣杯』级挑战是执行通用的日常家庭移动操作任务。 借助一款新型双臂移动机器人,我们的最新成果 ——BEHAVIOR Robot Suite(简称 BRS)正在尝试攻克这一极为困难且尚未解决的难题!

李飞飞「具身智能」又出新研究了。

「机器人学习领域中的一个『圣杯』级挑战是执行通用的日常家庭移动操作任务。借助一款新型双臂移动机器人,我们的最新成果 ——BEHAVIOR Robot Suite(简称 BRS)正在尝试攻克这一极为困难且尚未解决的难题!」

image.png李飞飞团队「具身智能」最新研究:机器人接手所有家务

在日常生活中,你有没有想过这样一个问题,即机器人究竟需要具备哪些能力才能真正帮助人类完成家务任务?BRS 就是为了解决这项任务而诞生的 —— 简单来讲,BRS 就是一个综合性框架,用于掌握机器人多样化家庭任务中移动全身操作。无论是倒垃圾、摆放衣物还是清洁马桶,BRS 都能让机器人应对这些日常实用活动。

例如,基于 BRS 的机器人可以帮助用户捡垃圾:

图片

将扔在地上的物体重新放在架子上:

图片

还能帮你清洁马桶,看起来是一个任劳任怨的机器人:

图片

Party 过后帮你收拾桌子:

图片

还能帮你去衣柜拿衣服:

图片

这么全能的机器人是如何实现的呢?我们接着往下看。

方法介绍

image.png

论文主页:https://behavior-robot-suite.github.io/

机器人需要具备哪些关键能力才能有效执行日常家务?

通过分析,研究团队确定了成功执行这些任务所必需的三项全身控制能力:双手协调、稳定精确的导航以及广泛的末端执行器可达性。

例如,搬运大型重物需要双手操作,而在房屋中检索工具则依赖于稳定精确的导航。复杂任务 —— 如一边拿着杂货一边开门,需要协调运用这两种能力。此外,日常物品分布在不同位置和高度,这要求机器人能够相应地调整其触及范围。

image.png

经过精心设计的机器人硬件,配备双臂、移动底座和灵活躯干,是实现全身操作的关键。

然而,这类复杂设计给策略学习方法带来了重大挑战,尤其是在数据采集规模化和全身协调动作方面。

为应对这些挑战,研究团队推出了 BRS,旨在通过全身操作技术解决各种真实家庭任务。

BRS 有两项关键创新,两者协同解决机器人硬件和学习方面的挑战。

  • JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms);

  • WB-VIMA(Whole-Body VisuoMotor Attention)。

image.png

JoyLo李飞飞团队「具身智能」最新研究:机器人接手所有家务

为实现对高自由度移动机械臂的流畅控制,同时便于为后续策略学习收集数据,研究团队推出了 JoyLo —— 一种构建经济实惠的全身远程操作界面的通用框架。

图片

研究团队在 R1 机器人上实现了 JoyLo,设计目标如下:

  • 高效的全身协调控制系统,实现复杂动作的流畅衔接;

  • 丰富的用户反馈机制,带来直观的远程操作体验;

  • 确保高质量的示范动作,提升策略学习效果;

  • 低成本实现方案,大幅提高系统可及性;

  • 实时、便捷的控制器设计,确保操作无缝顺畅。

项目还提到,JoyLo 的成本总共不到 500 美元,团队还贡献了物料清单和组装说明。

  • 物料清单地址:https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom

  • 组装说明:https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html

WB-VIMA 策略

图片

WB-VIMA 是一种模仿学习算法,旨在通过利用机器人的固有运动学层次结构来建模全身动作。

WB-VIMA 的一个关键见解是,机器人关节之间存在强烈的相互依赖关系 —— 上游链接(例如躯干)的小幅移动可能会导致下游链接(例如末端执行器)的大幅位移。为了确保所有关节之间的精确协调,WB-VIMA 将下游组件的动作预测条件化于上游组件的预测,从而实现更同步的全身运动。

此外,WB-VIMA 通过自注意力动态聚合多模态观察,使其能够学习表现力强的策略,同时减轻对本体感知输入的过拟合。

实验

实验探讨了以下问题:

  • Q1:BRS 支持哪些类型的家庭任务?

  • Q2:JoyLo 与其他方法相比表现如何?

  • Q3:WB-VIMA 是否优于基线方法?

  • Q4:哪些组件促成了 WB-VIMA 的有效性?

对于问题 1:BRS 适用于各种家庭任务,比如扔垃圾:

机器人先是导航到客厅中的垃圾袋旁边,将其捡起(子任务 1),然后将垃圾携带到一扇关闭的门前(子任务 2),打开门(子任务 3),移动到室外,并将垃圾袋放入垃圾桶(子任务 4)。李飞飞团队「具身智能」最新研究:机器人接手所有家务又比如,机器人打扫餐桌。机器人从客厅出发,导航到厨房的洗碗机(子任务 1)并打开洗碗机(子任务 2)。然后,它移动到游戏桌(子任务 3)收集碗(子任务 4)。最后,机器人返回洗碗机(子任务 5),将碗放入洗碗机内并关闭洗碗机(子任务 6)。稳定且精确的导航是完成这一任务的最关键能力。 李飞飞团队「具身智能」最新研究:机器人接手所有家务

对于问题 2:JoyLo 能够为策略学习提供高质量的数据

研究团队对 10 名参与者进行了全面的用户研究,以评估 JoyLo 的效果及其收集数据对策略学习的适用性。下图为将 JoyLo 与 VR 控制器和 Apple Vision Pro 进行比较。

图片

效率优势:

  • JoyLo 整体任务成功率是 VR 控制器的 5 倍(Apple Vision Pro 无人完成全任务);

  • 中位完成时间较 VR 控制器缩短 23%;

  • 在铰接物体操作等精细任务中表现突出。

image.png

                                用户研究结果(10 名参与者)。

用户体验:

  • 所有参与者最终评价 JoyLo 为最友好交互;

  • 70% 用户最初认为 IK 更直观,但实操后偏好逆转;

  • 用户反馈 IK 方法在移动底座 / 躯干控制上存在显著困难。

image.png

                               用户研究参与者的人口统计数据和调查结果。

对于问题 3:WB-VIMA 始终优于基线方法

实验显示,WB-VIMA 在所有任务中全面超越基准方法:端到端任务成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任务表现分别优于 DP3(1.6 倍)和 RGB-DP(3.4 倍)。

image.png

                               五项代表性家庭活动的成功率。「ET」表示整个任务,「ST」表示子任务。

image.png

                              评估期间的安全违规情况。WB-VIMA 与环境物体的碰撞极少,且几乎不会因施加过度力量而导致电机失去动力。

对于问题 4:WB-VIMA 组件对任务性能的影响

研究团队针对 WB-VIMA 展开消融实验,分别移除自回归全身动作去噪和多模态观察注意力机制模块。实验表明,任一组件缺失均导致性能显著下降:在「将物品放上架子」及「整理衣物」任务的「打开衣柜」子任务中,移除自回归去噪模块使成功率骤降 53%;而多模态注意力机制缺失则全面削弱各任务表现。

image.png

                                                      「放置物品到架子上」和「铺展衣物」任务的消融实验结果。

最后,研究团队还展示了几个失败案例。包括:

1) 尽管机器人已经抓住把手,但未能完全打开洗碗机;

2) 未能按下冲水按钮;

3) 未能从地板上拾起垃圾袋;

4) 未能抬起地上的箱子;

5) 未能关闭衣柜门。

图片

了解更多内容,请查看原论文。

相关资讯

李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]在不久之前的 2024 TED 演讲中,李飞飞详细解读了 空间智能(Spatial Intelligence)概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱,并为此正在创
5/21/2024 5:42:00 PM
机器之心

Ideal Auto's Organizational Restructuring: Two New Robotics Departments Established, Targeting In-Car Intelligent Ecosystem

Li Auto recently released an internal announcement, establishing two entirely new secondary departments: "Space Robot" and "Wearable Robot." This marks the company's official entry into the robotics sector, taking a significant step towards its "smart space" strategic layout.According to "Late Auto," both newly established departments are under the leadership of Senior Vice President Han Yuhu’s product department. Shuai Yifan will take charge of the Space Robot department; he previously served as the head of Li Auto's product planning and senior product director. Zhang Wenbo will lead the Wearable Robot department; he was once the software product manager at Li Auto.Notably, Shuai Yifan and Zhang Wenbo are early employees of Li Auto, with deep understanding of the company culture and technical accumulation.
6/16/2025 9:49:02 AM
AI在线

在12个视频理解任务中,Mamba先打败了Transformer

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。探索视频理解的新境界,Mamba 模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型 Mamba 以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。来自南京
4/30/2024 3:21:00 PM
机器之心
  • 1