芝浦工大创新Vote-based框架，大幅提升手持物体姿态估计精度

作者：AI在线 2025-05-06 12:00

在增强现实（AR）等应用中，手持物体的姿态估计是一项至关重要但颇具挑战性的任务。近期，日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架，显著提高了这一领域的准确性，令人瞩目地提升了13.9% 的姿态估计精度。这一新方法的核心在于有效整合来自 RGB（颜色）和深度图像的数据，特别是在手遮挡物体的情况下。

在增强现实（AR）等应用中，手持物体的姿态估计是一项至关重要但颇具挑战性的任务。近期，日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架，显著提高了这一领域的准确性，令人瞩目地提升了13.9% 的姿态估计精度。

这一新方法的核心在于有效整合来自 RGB（颜色）和深度图像的数据，特别是在手遮挡物体的情况下。研究团队指出，现有的姿态估计技术往往在手部遮挡时遇到精度下降的难题，而手与物体之间的非刚性转换则进一步加剧了这一问题。例如，当我们握住一个软球时，手的力量会扭曲物体的形状，导致估计变得更加复杂。

为了解决这些挑战，芝浦工大的团队设计了一个创新的深度学习框架。该框架包含四个主要部分:从 RGB-D 图像中提取高维特征的主干网络、Vote 模块、基于 Vote 的新型融合模块以及手部感知物体姿态估计模块。首先，研究者通过2D 和3D 骨架预测手和物体的关键点。随后，各个骨干中的 Vote 模块独立为关键点进行投票，最后通过基于 Vote 的融合模型将投票结果整合。

这套新颖的 Vote 机制利用了局部信息并结合通道关注机制，动态地将 RGB 和深度数据结合，克服了手部遮挡和数据不对齐带来的困难，从而实现了更加精准的手持物体姿态估计。此外，手感知物体姿态估计模块通过自注意机制捕捉手与物体关键点间的复杂关系，进一步提高了估计精度。

研究者在多个公共数据集上进行了实验，结果显示，该框架的准确性和稳健性都有了显著提高，最高可达15%。在实际应用中，框架实现了76.8% 的平均精度和仅40毫秒的推理时间，显示出其良好的实用性和部署潜力。这一方法不仅提升了姿态估计的准确性，还为 AI 系统在沉浸式 AR/VR 技术中的应用开辟了新的可能性。

ICLR 2022 | 操作3D铰接物体的视觉操作轨迹学习

本文是 ICLR 2022入选论文《VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects》的解读。该论文由北京大学前沿计算研究中心董豪课题组与斯坦福大学、腾讯人工智能实验室合作完成。文章提出了一种新型的物体功能可操作性表示，设计了一个通过交互进行感知学习的框架以学习这个表示，并在多样的物体上完成操作任务。

7/18/2022 5:05:00 PM

北京大学前沿计算研究中心

跳过人脸检测和关键点定位，Facebook等提出实时3D人脸姿态估计新方法

来自 Facebook AI 和美国圣母大学的研究者提出了一种 6 自由度的实时 3D 人脸姿态估计技术，可以不依赖人脸检测和人脸关键点定位独立运行。

2/9/2021 3:53:00 PM

机器之心

百度研究院RAL团队登顶nuScenes三维目标检测公开挑战赛榜单

随着自动驾驶技术在不同场景下的持续落地，目标检测作为其中的一项核心模块，对检测算法的精度和稳定性要求越来越高。近日，在国际机器人技术与自动化会议（ICRA 2021）举办的第四届nuScenes三维目标检测挑战赛中，来自百度研究院的机器人与自动驾驶实验室(RAL)团队在三维物体检测任务的多项评价指标中荣获第一，并将关键指标nuScenes Detection Score (NDS)从上一届的71.4%提升至74.9%，刷新了三维目标检测比赛成绩。ICRA2021 nuScenes三维物体检测挑战赛官方排行榜榜单地址

6/23/2021 6:01:00 PM

新闻助手

芝浦工大创新Vote-based框架，大幅提升手持物体姿态估计精度

相关资讯

ICLR 2022 | 操作3D铰接物体的视觉操作轨迹学习

跳过人脸检测和关键点定位，Facebook等提出实时3D人脸姿态估计新方法

百度研究院RAL团队登顶nuScenes三维目标检测公开挑战赛榜单