AI在线 AI在线

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

henry 发自 凹非寺. 量子位 | 公众号终于有人要给大模型安“脖子”了! 在最新的论文Thinking in 360°: Humanoid Visual Search in the Wild中,来自纽约大学的研究团队让大模型能够环顾四周,进行360度的全方位思考。

henry 发自 凹非寺

量子位 | 公众号

终于有人要给大模型安“脖子”了!

在最新的论文Thinking in 360°: Humanoid Visual Search in the Wild中,来自纽约大学的研究团队让大模型能够环顾四周,进行360度的全方位思考。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

他们通过定义一套全新的数据集和基础测试H*,让模型可以在火车站、购物中心等真实环境中,进行像人类一样的视觉搜索。

谢赛宁(也参与了这篇论文)在转发中,直接表示:这不就是给模型安了个脖子吗?

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

这是怎么回事?

整体而言,研究团队首先提出了一项在360度空间中实现人类主动空间推理的新任务——

类人视觉搜索(Humanoid Visual Search),这项任务能让类人智能体在全景图像构建的沉浸式环境中,通过自主旋转头部搜索目标物体或路径。

为进一步评估智能体在视觉拥挤的真实场景中的搜索能力,研究团队还构建了全新的针对性基准测试 ——H*Bench

这一基准突破了传统测试多聚焦简单家庭场景的局限,涵盖交通枢纽、大型零售场所、城市街道、公共机构等真实世界复杂环境,对智能体的高级视觉 -空间推理能力提出了更严苛的考验。

该研究的推进,为视觉空间推理从 “脱离身体的被动范式” 向 “具身的主动范式” 转型奠定了重要基础。

接下来,我们具体来看。

在论文的开头,研究提出了一个非常直觉的问题——如何开发出既能像人类一样高效,又能绕过硬件限制在复杂现实场景中进行主动视觉搜索的具身智能体?

众所周知,相比于脑袋、手腕、身体各处“长眼”的机器人,人类仅凭转动脖子和眼睛,就能高效地搜索360°范围内的视觉信息,从而完成视觉搜索任务(比如在地铁站中寻找下一个出口)。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

而现在的大模型,不但只能处理单张、静态、低分辨率的图像,而且在后续的操作中,也局限于将图像放大、裁剪的计算操作。

这就意味着与生物视觉相比,大模型既无法改变初始视角以获取视野以外的信息,同时也由于缺乏物理实体,不能移步换景,将视觉推理和物理行动结合起来。

基于此,研究提出了类人视觉搜索(Humanoid Visual Search,HVS)将主动的头部转动融入智能体在复杂环境中的视觉推理,其具备以下特性:

  • 交互性:智能体从窄视角开始,在360度的全景图中行动,每次头部旋转都会改变其视觉输入。
  • 具身性:将视觉推理与物理动作结合在一起,要求智能体有意识地协调头部运动,将其作为思维过程的一部分。

具体地,类人视觉搜索进一步将研究聚焦于以下两类搜索问题:

类人物体搜索(Humanoid Object Search,HOS):定位并将视线聚焦于目标物体,作为操作的先决条件。在基准中,难度根据初始可见度比率分为简单、中等和困难三个等级。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

类人路径搜索(Humanoid Path Search,HPS):识别通往目的地的可通行路径并调整身体朝向,作为移动的先决条件。在基准中,难度分为四个级别,由场景中文本线索的存在以及视觉/文本线索与实际路径方向的一致性决定。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

为了将搜索问题形式化,研究将其构建为一个多模态的推理任务

简单来说,多模态大模型通过一个策略网络来实现工具使用与头部旋转,其将时间步、当前观测、语言指令和历史状态作为输入,输出文本思维链和动作。

值得一提的是,由于人类的推理是间歇性的,仅在关键决策点才会被调用,所以研究仅利用在决策点采集的单个360°全景图构建闭环搜索环境,而无需使用3D模拟器或硬件。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

知道了找什么,去哪,和怎么走之后,为了找到最佳的测试环境,研究又构建了一个数据集、基准测试和基线——H*,旨在实现真实360度环境中类人的视觉搜索。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

具体来说,H包含约3000个带标注的任务实例,这些实例来源于多样化的高分辨率全景视频。

研究通过为每个任务实例设置四个不同的起始方向来初始化智能体,总共获得了12000个搜索回合。

H*Bench 的数据来源于全球大都市地区(纽约、巴黎、阿姆斯特丹、法兰克福)自行采集的素材以及开放平台(YouTube和360+x数据集),从而提供了广泛的地理覆盖范围。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

具体的场景主要包含6个主要类别——零售环境、交通枢纽、城市街道、公共机构、办公室和娱乐场所。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

此外,由于多模态大模型是在静态、非具身的互联网数据上训练的,它们本质上缺乏拟人化视觉搜索所需的空间常识和主动 3D 规划能力。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

因此,研究又通过上面pipeline将多模态大模型转化为有效的视觉搜索智能体:

  • 监督微调:首先在一个精选的多轮数据集上执行SFT,以灌输基本的任务导向推理和工具使用能力。这教会模型从多模态输入中生成结构化的动作计划,建立了强大的行为先验。
  • 多轮强化学习:使用GRPO算法来精炼策略。根据以往的发现,这一 RL 阶段鼓励长程推理,对于开发超越模仿学习基线的鲁棒、可泛化的搜索策略至关重要。

在部署环节,研究基于Qwen2.5-VL-3B-Instruct模型展开上述pipeline,

  • 微调:利用GPT-4o生成结构化的思维链解释,并通过人工审核修正,构建高质量的多轮对话轨迹 。
  • 多轮强化学习:使用GRPO,对于HPS任务,额外增加了“距离目标的角度距离”作为奖励项。

测试表明,经训练后,Qwen2.5-VL-3B-Instruc在目标搜索(14.83%→47.38%)和路径搜索(6.44%→24.94%)上的搜索准确率均有所提高。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

其中,路径搜索的上限较低,表明其难度在于需要复杂的空间常识。

而在其他多模态大模型的测试中, 谷歌的Gemini 2.5 Pro是整体表现最强的模型,在HOS任务中达到31.96%,在HPS任务中达到33%。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

此外,研究发现,更大的模型尺寸并不一定能保证更好的性能。

无论是Gemma-3还是Qwen2.5-VL系列,较小的4B/3B模型在HOS任务中均超越了其较大的12B/7B对应模型,并在 HPS 任务中表现持平。

通过分析错误类型,研究发现

  • HOS错误主要源于感知能力不足(无法在杂乱环境中识别目标)和感知-动作差距(检测到目标但无法精细对齐)。
  • HPS错误则更为复杂,包括缺乏物理常识(如试图穿墙)、缺乏社会空间常识(如不懂排队区或员工通道规则)以及视觉-动作不匹配 。
  • 主动 vs. 被动:主动视觉搜索(在全景图中旋转)优于被动分析(直接输入全景图),因为前者更符合人类直觉且避免了全景图的畸变

总的来说,研究通过引入H*Bench基准和利用后训练技术,探讨了由 MLLM 驱动的in wild类人视觉搜索。

研究表明尽管后训练能够有效地提高低级感知-运动能力(例如视觉定位和探索),但它也暴露了高级推理方面的根本瓶颈,这些推理需要物理、空间和社会常识。

这篇研究出自纽约大学的李一鸣团队,在推文中,他感谢了谢赛宁chen feng的指导。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

李一鸣目前在英伟达就职,担任研究科学家,与Marco Pavone教授合作,研究物理人工智能和自动驾驶。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

他于2025年在纽约大学取得博士学位,师从chen feng教授,研究机器人感知。

值得一提的是,在他的简介中,他还表明自己将于2026年入职清华大学人工智能学院,担任助理教授。

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

参考链接 [1]https://yimingli-page.github.io/ [2]https://x.com/YimingLi9702/status/1993676992303268142 [3]https://x.com/sainingxie/status/1993776740154610084?s=20 [4]https://arxiv.org/pdf/2511.20351

相关资讯

王炸!中国AI再添“王牌军”!昆仑万维 Skywork R1V 多模态推理模型震撼开源!

昆仑万维今日正式宣布,他们打造的 Skywork R1V 多模态推理模型,正式开源了!这不仅是中国首个工业界开源的多模态推理模型,更标志着中国AI力量在多模态理解和推理领域,迈出了里程碑式的一步!即日起,模型权重和技术报告完全对外敞开怀抱!想象一下,一个AI模型不仅能看懂图片,还能像人类一样进行逻辑推理,解决复杂的视觉难题——这不再是科幻电影里的场景,而是 Skywork R1V 正在实现的能力!这款模型就像一位“AI界的福尔摩斯”,它擅长抽丝剥茧,通过多步骤的逻辑分析,从海量视觉信息中挖掘出深层含义,最终给出精准答案。 无论是破解视觉逻辑谜题,解答高难度的视觉数学题,还是分析图像中的科学现象,甚至是辅助医学影像的诊断推理,Skywork R1V 都能展现出惊人的实力。 要衡量一个AI模型的“智商”,数据最有说服力!在 Reasoning 推理能力方面,Skywork R1V 在权威的 MATH500和 AIME 基准测试中,分别斩获94.0和72.0的超高分!这意味着,无论是破解复杂的数学难题,还是进行严谨的逻辑推理,Skywork R1V 都能轻松胜任。
3/18/2025 6:05:00 PM
AI在线

上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理

本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。 第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取-结构化-推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。 论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。
8/9/2025 12:41:00 PM
机器之心

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。 图片这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。
9/15/2025 2:42:55 PM