AI在线 AI在线

芝浦工大创新Vote-based框架,大幅提升手持物体姿态估计精度

在增强现实(AR)等应用中,手持物体的姿态估计是一项至关重要但颇具挑战性的任务。 近期,日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架,显著提高了这一领域的准确性,令人瞩目地提升了13.9% 的姿态估计精度。 这一新方法的核心在于有效整合来自 RGB(颜色)和深度图像的数据,特别是在手遮挡物体的情况下。

在增强现实(AR)等应用中,手持物体的姿态估计是一项至关重要但颇具挑战性的任务。近期,日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架,显著提高了这一领域的准确性,令人瞩目地提升了13.9% 的姿态估计精度。

这一新方法的核心在于有效整合来自 RGB(颜色)和深度图像的数据,特别是在手遮挡物体的情况下。研究团队指出,现有的姿态估计技术往往在手部遮挡时遇到精度下降的难题,而手与物体之间的非刚性转换则进一步加剧了这一问题。例如,当我们握住一个软球时,手的力量会扭曲物体的形状,导致估计变得更加复杂。

image.png

为了解决这些挑战,芝浦工大的团队设计了一个创新的深度学习框架。该框架包含四个主要部分:从 RGB-D 图像中提取高维特征的主干网络、Vote 模块、基于 Vote 的新型融合模块以及手部感知物体姿态估计模块。首先,研究者通过2D 和3D 骨架预测手和物体的关键点。随后,各个骨干中的 Vote 模块独立为关键点进行投票,最后通过基于 Vote 的融合模型将投票结果整合。

这套新颖的 Vote 机制利用了局部信息并结合通道关注机制,动态地将 RGB 和深度数据结合,克服了手部遮挡和数据不对齐带来的困难,从而实现了更加精准的手持物体姿态估计。此外,手感知物体姿态估计模块通过自注意机制捕捉手与物体关键点间的复杂关系,进一步提高了估计精度。

研究者在多个公共数据集上进行了实验,结果显示,该框架的准确性和稳健性都有了显著提高,最高可达15%。在实际应用中,框架实现了76.8% 的平均精度和仅40毫秒的推理时间,显示出其良好的实用性和部署潜力。这一方法不仅提升了姿态估计的准确性,还为 AI 系统在沉浸式 AR/VR 技术中的应用开辟了新的可能性。

相关资讯

机器人“会用手”了!银河通用首破手掌任意朝向旋转难题,拧螺丝、砸钉子样样精通

做灵巧手如果不会用工具,跟咸鱼(夹爪)有什么区别? 别急,能拧螺丝、抡锤子,玩“转”各类工具的灵巧手,这就来了。 上面这位拧螺丝的“老师傅”,出自银河通用最新推出的灵巧手神经动力学模型DexNDM。
11/11/2025 5:57:21 PM
量子位的朋友们

ICLR 2022 | 操作3D铰接物体的视觉操作轨迹学习

本文是 ICLR 2022入选论文《VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects》的解读。该论文由北京大学前沿计算研究中心董豪课题组与斯坦福大学、腾讯人工智能实验室合作完成。文章提出了一种新型的物体功能可操作性表示,设计了一个通过交互进行感知学习的框架以学习这个表示,并在多样的物体上完成操作任务。
7/18/2022 5:05:00 PM
北京大学前沿计算研究中心

跳过人脸检测和关键点定位,Facebook等提出实时3D人脸姿态估计新方法

来自 Facebook AI 和美国圣母大学的研究者提出了一种 6 自由度的实时 3D 人脸姿态估计技术,可以不依赖人脸检测和人脸关键点定位独立运行。
2/9/2021 3:53:00 PM
机器之心