AI在线 AI在线

解锁机器人的 3D 视觉:原力灵机推出 GeoVLA 框架,颠覆传统 VLA 模型!

在人工智能和机器人技术快速发展的今天,视觉 - 语言 - 行动(VLA)模型被广泛认为是构建通用机器人的关键。 然而,许多现有的 VLA 模型(如 OpenVLA、RT-2等)在处理复杂的非结构化环境时暴露出一个严重的短板:空间失明。 它们依赖于2D RGB 图像作为视觉输入,导致模型在三维空间中的表现受限,难以准确判断物体的深度和位置。

在人工智能和机器人技术快速发展的今天,视觉 - 语言 - 行动(VLA)模型被广泛认为是构建通用机器人的关键。然而,许多现有的 VLA 模型(如 OpenVLA、RT-2等)在处理复杂的非结构化环境时暴露出一个严重的短板:空间失明。它们依赖于2D RGB 图像作为视觉输入,导致模型在三维空间中的表现受限,难以准确判断物体的深度和位置。

image.png

为了解决这一问题,原力灵机的研究团队推出了一种全新的 VLA 框架 ——GeoVLA。该框架在保持现有视觉 - 语言模型(VLM)强大预训练能力的同时,采用了创新的双流架构。具体来说,GeoVLA 引入了专用的点云嵌入网络(PEN)和空间感知动作专家(3DAE),使机器人具备真正的三维几何感知能力。这一设计不仅在仿真环境中取得了领先的性能,更在真实世界的各种鲁棒性测试中表现出色。

GeoVLA 的核心逻辑在于将任务进行解耦:让 VLM 负责 “看懂是什么”,让点云网络负责 “看清在哪里”。这个全新的端到端框架包含了三个关键组件的协同工作,分别是语义理解流、几何感知流和动作生成流。这种方法使得模型能够更精准地进行任务。

image.png

在一系列实验中,GeoVLA 展现出了明显的优势。在 LIBERO 基准测试中,GeoVLA 的成功率高达97.7%,超越了之前的 SOTA 模型。此外,在 ManiSkill2等更加复杂的物理仿真测试中,GeoVLA 的表现也相当出色,尤其在处理复杂物体和视角变化时,保持了较高的成功率。

更为令人瞩目的是,GeoVLA 在分布外场景中的鲁棒性,证明了其在应对各种不确定性和变化条件下的强大适应能力。这一突破将为未来的机器人应用带来新的可能性,推动智能机器人技术向更高水平迈进。

项目地址:https://linsun449.github.io/GeoVLA/

相关资讯

Figure完成史上最大重组:三大技术团队合并成AI核心小组Helix

Figure完成史上最大重组:三大技术团队合并成AI核心小组Helix

人形机器人公司Figure今日宣布完成公司历史上规模最大的组织重组,CEO Brett Adcock通过推特透露,上周已将三个独立技术团队合并进新成立的AI小组Helix,旨在打破部门壁垒,加速人形机器人的商业化进程。 以AI模型命名的战略整合新成立的Helix小组以Figure三个月前推出的首个VLA(视觉-语言-行动)具身模型Felix的核心技术命名,凸显了AI在公司战略中的核心地位。 据Figure此前发布的资料显示,Helix技术在多个关键领域取得了突破性进展,专门为Figure人形机器人提供通用智能控制能力,是实现机器人自主操作的关键技术基础。
5/30/2025 3:00:54 PM AI在线
调查:超72% 的企业选择 AI 工具时最看重易用性

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM AI在线
可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity,用于保护创意工作者的作品署名权,即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试,用户上传需要保护的图像,应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签,帮助确认作品归属和保护作品免遭 AI 训练。
4/24/2025 9:32:18 PM 准泽(实习)