AI在线 AI在线

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

在人类技能习得过程中,需要在两个视角之间进行流畅的转换。 我们在观看别人的演示过程时,会尝试在脑海中想象自己进行这些操作的场景。 然而这一跨视角理解的能力对于计算机和机器人来说却是一个巨大的挑战,制约着机器人学习、VR 交互等关键领域的发展。

在人类技能习得过程中,需要在两个视角之间进行流畅的转换。我们在观看别人的演示过程时,会尝试在脑海中想象自己进行这些操作的场景。然而这一跨视角理解的能力对于计算机和机器人来说却是一个巨大的挑战,制约着机器人学习、VR 交互等关键领域的发展。

近期,INSAIT、复旦大学等单位联合提出ObjectRelator 框架,让 AI 精准匹配不同视角下的同一物体,为具身智能落地迈出关键一步。

截屏2025-10-09 15.50.04

  • 论文标题:ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives
  • 论文链接:https://arxiv.org/pdf/2411.19083
  • 项目主页:https://yuqianfu.com/ObjectRelator/ (代码已开源)
  • 项目demo:https://huggingface.co/spaces/YuqianFu/ObjectRelatorDemo
  • 会议 Poster:October 21, 15:00–17:00, Exhibit Hall I, Hawaii (欢迎前往现场与作者交流)

第一人称视觉(ego)与第三人称视觉(exo)之间的鸿沟

第一人称视角具备较强的沉浸感与交互细节捕捉能力,能够精确刻画主体与环境之间的动态交互过程。然而,其视觉范围受限、画面稳定性较差,难以全面反映场景全貌。相比之下,第三人称视角具有更广阔的空间感知能力,能够清晰呈现场景与动作的整体结构及时空关系,但其画面中目标物体通常较小,细节信息相对不足。如何在物体级别上建立第一人称与第三人称视角之间的视觉对应与语义关联,进而实现跨视角的统一表征与理解,仍是当前领域亟待解决的核心问题。

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

现有工作的不足与挑战

尽管近年来出现了诸如Mask2Former、SAM、SAM2等高性能图像分割模型,但如下图所示,他们普遍受限于从单一图像(视角)中进行图像分割任务,难以驾驭我们所研究的跨视角分割问题。ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

PSALM是为数不多可以接受双视角输入进行分割的模型,然而其在面临Ego-Exo跨视角物体分割任务时仍面临两大核心挑战:

  1. 复杂的背景干扰: 在复杂场景下拍摄的Ego/Exo画面,尤其是Exo,其场景通常包含大量结构复杂、语义多样的背景元素,其中部分对象在外观或形态上与目标高度相似。此类高相似度干扰使得仅依赖视觉特征进行匹配极易导致目标混淆或误识别,从而显著削弱模型在跨视角目标辨识与追踪中的判别能力。
  2. 显著的视觉变换:同一个物体,在Ego视角中可能占据图像的大部分区域,而在Exo视角中则仅表现为画面中的一个小尺度目标,其外观形态、姿态角度以及相对空间位置均发生剧烈变化。此外,由于光照、遮挡和相机参数不同,物体的颜色、纹理等视觉特征在两个视角下也会呈现出明显的视觉差异。

如下对比图显示,(a)PSALM会定位到形状相似而语义错误的物体类型; (b)PSALM不能分割出形状变化较大的正确物体。

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

ObjectRelator两大创新模块,解锁跨视角“通感”

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

为了攻克上述难题,ObjectRelator基于PSALM构建了第一个跨视角多模态分割模型,能够有效支持以Ego-Exo为代表的跨视角物体关联人物。方法主要包含两个核心模块:

多模态条件融合模块(MCFuse

为了让模型不只“看形状”,还要“懂语义”,MCFuse首次将语言描述引入跨视角分割任务。它通过预训练的视觉语言模型(LLaVA)为查询物体生成一句简短的文本描述(如“一把黑色的剪刀”),再与视觉掩码特征进行融合。融合过程中,模型通过交叉注意力机制、残差链接、以及动态融合权重三种策略共同权衡视觉与语言信息的重要性,从而更准确地锁定目标物体。

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

跨视角对象对齐模块(XObjAlign

为了应对物体在不同视角下的外观变化,XObjAlign提出了一种自监督对齐策略:在训练中,模型会同时提取同一物体在Ego视角和Exo视角下的特征,并通过一个一致性损失函数拉近它们的距离。这意味着,模型被强制学习一种“视角不变”的物体表示,从而在面对视角变化时仍能保持稳定的识别能力。

实验结果:SOTA性能+任意跨视角的泛化能力

ObjectRelator在两大跨视角数据集上进行了验证:

  • Ego-Exo4D:目前最大的Ego-Exo跨视角数据集,涵盖烹饪、维修、运动等六大场景。
  • HANDAL-X:作者构建的新基准,专注于机器人操作场景下的物体分割。

主要实验结果与指标

实验结果显示,ObjectRelator在Ego→Exo和Exo→Ego两个任务上都显著超越了所有基线模型,在Small TrainSet上相比于微调后的PSALM模型IoU指标分别提升4.6% 和5.1%,达到SOTA性能。

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

模块有效性验证

消融实验充分验证了各个模块的有效性与必要性。无论是单独引入 MCFuse 还是 XObjAlign,都能带来显著的性能提升。这一结果表明:融入语义信息与强化跨视角一致性是解决该任务的两个正确且相互补的方向。

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

强大的泛化能力

在HANDAL-X数据集上的零样本测试中,使用Ego-Exo4D数据训练的ObjectRelator模型,其性能远超在COCO等传统数据集上训练的模型。这证明了通过在跨视角数据上进行训练,模型能够学到一种可泛化到全新场景的跨视角理解能力。 同样的,针对HANDAL-X数据集微调后的ObjectRelator模型能达到进一步的性能提醒,超越PSALM的同时达到SOTA的效果。

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

可视化结果

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

ICCV 2025 Highlight | ObjectRelator: 打破视角次元壁,让AI拥有第一人称与第三人称的“通感”

更多的视频可视化结果可以点击文章开头的项目主页或项目demo进行观看。

最后,感谢阅读以及欢迎试用我们的预训练模型以及代码。

相关资讯

ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞

通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。 但尽管 Scaffold 实现了显著的性能提升,这种优越性是以增加安全漏洞为代价的。 本文中,NTU、0G Labs等机构提出了 BadSFL,这是首个针对 Scaffold 的后门攻击方法,它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。
8/9/2025 12:52:00 PM
机器之心

ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题

本文一作为陈骁,香港中文大学 MMLab - 上海人工智能实验室具身智能中心联培博士生,研究方向是三维计算机视觉和具身智能,导师为薛天帆教授。 个人主页:xiao-chen.tech/。 研究背景当人类走入陌生房间时,会通过移动和观察来掌握室内结构。
8/11/2025 3:51:00 PM
机器之心

AI 技术获全球顶级学术会议认可,小米 2 篇论文入选 ICCV 2025

AI在线 7 月 8 日消息,据小米技术消息,计算机视觉国际大会 ICCV 2025 论文录用结果公布,小米两篇论文凭借创新性研究成果成功入选:视频理解大模型核心技术 Q-Frame,推出行业首个动态帧选择与分辨率自适应框架,实现即插即用;持续学习框架 Analytic Subspace Routing (Any-SSR),成功解决大语言模型在持续学习领域的核心难题「灾难性遗忘」问题。 据介绍,计算机视觉国际大会 ICCV 与国际计算机视觉与模式识别会议 CVPR、欧洲计算机视觉国际会议 ECCV 并称为计算机领域世界三大顶级学术会议,每两年举办一次。 其中,ICCV 2025 年投稿量达 11239 篇,录用率为 24%。
7/8/2025 6:55:32 PM
归泷
  • 1