这届世界机器人大会(WRC)上,英伟达与国内明星机器人公司共同展示了「物理 AI」的未来。
本周五,银河通用展出了 Galbot—— 全球首款搭载英伟达新一代端侧芯片 Jetson AGX THOR 的机器人。在大会现场,Galbot 完成了一系列工业场景的应用,向观众展示了具身智能与顶尖算力深度融合的前沿突破与潜力。
基于银河通用面向零售行业的端到端大模型 GroceryVLA,在面对密集陈列、多种类型及多变包装形态的商超环境时,Galbot 展现了出强大的识别与抓取能力。机器人能够快速、精准地定位目标商品,完成稳定高效的取送操作,整个过程无需遥控,也无需场景数据的预采集。
银河通用推出了全球首个机器人全自主服务快闪店「银河太空舱」,支持多品类售卖,24 小时自主运营。
Galbot 还攻克了传统机器人难以突破的复杂难题,在汽车零件分拣领域中表现出很强的环境适应能力。据介绍,Galbot 已与多家国际知名汽车制造企业展开合作,正在多个生产线进行实际落地测试。
银河通用还宣布与清华大学和上海期智研究院合作,发布了 OpenWBT_Isaac。该平台用于人形机器人全身遥操作仿真,支持多机型跨平台兼容,实现快速部署和高效率数据采集。
与此同时,宇树科技也展示了新型人形机器人 R1 上部署的英伟达全栈机器人技术。这款起售价仅 3.99 万元的机器人通过 Isaac Sim 高仿真平台优化运动与操控能力,并借由 Isaac Lab 系统实现了快速策略迭代。
Unitree R1 支持开发 / 改制,具有灵活超轻量的特点,重量约 25Kg,还集成了语音和图像多模态大模型。
世界机器人大会上展出的很多机器人,都是由英伟达端侧算力提供的支撑,英伟达的仿真数据平台也对一系列多模态基础模型的训练作出了贡献。除了宇树和银河通用智能,基于英伟达技术栈的还包括阿里云、北京人形机器人创新中心、傅利叶、加速进化、优必选、智元机器人等机构的产品。
在去年 10 月,英伟达提出「三台计算机」的解决方案,旨在利用覆盖全链路的能力推动下一波 AI 机器人技术发展。
大会上,英伟达 Omniverse 和仿真技术副总裁 Rev Lebaredian 向我们深入介绍了该公司的通用机器人及物理 AI 技术。英伟达强调,生成式推理模型、仿真与合成数据生成技术对实现物理 AI 正在发挥关键作用。
「为了构建具身智能模型,你需要获得足够的训练数据,」 Rev Lebaredian 说道。「与大语言模型不同,物理世界相关的数据大多不存在于互联网上,我们要么在现实世界中利用传感器来收集信息,要么就需要把物理规律带入计算机中进行模拟。模拟环境是数据的生成器,我们可以利用这些数据来构建机器人的大脑。」
Rev Lebaredian 在分享活动中。
英伟达认为,通用化机器人有望成为下一个万亿美元级别的市场。为了赋予机器人以「常识」,英伟达提出了推理视觉语言模型(VLM)Cosmos Reason,可以让机器人具备对现实世界通用场景的理解能力,使其具备处理模糊情境和适应新场景的能力。
针对具身智能模型重要的数据挑战,英伟达开源了仿真框架 NVIDIA Isaac Sim 和 Isaac Lab,支持开发者通过物理规律建模生成规模化合成数据集,并同步构建强化学习训练环境。它们能为视觉语言模型(VLM)和视觉 - 语言 - 动作模型(VLA)等先进机器人模型提供高保真训练数据。
端到端的 VLA 模型正在成为驱动机器人理解环境、进行决策的新范式,在能力和通用性实现突破的同时,它们也对端侧算力、时延提出了更高的要求。英伟达希望能够通过基于 Blackwell 架构打造的机器人超级计算机 NVIDIA Jetson AGX Thor 在物理世界中实现实时感知、规划与控制。
与上代同级的 NVIDIA AGX Orin 相比,Jetson Thor 系列的 AI 计算性能提高了 7.5 倍以上,同时能效也提高至 3.5 倍。
英伟达提供的技术栈无疑加速了具身智能技术的部署,北京大学助理教授、银河通用机器人创始人及 CTO 王鹤表示:「因为英伟达的全套仿真引擎技术,我们采集的真实世界数据只占训练数据的 1%,合成数据占到剩下的 99%,大量大量物理、材质资产进入到了动作合成管线当中。」
银河通用机器人创始人、CTO 王鹤。
宇树科技创始人、CEO、CTO 王兴兴表示:「从整个周期来看,未来机器人在工业、服务业等场景中的应用还需要时间。类比新能源汽车,当下的新一代通用机器人技术仅发展了两到三年,正处于初步阶段,但我们可以看到整个行业已进入快速发展。个人感觉,未来该行业达到每年出货量翻一番的程度,是很有可能实现的。」
宇树科技创始人、CEO、CTO 王兴兴。
王兴兴还透露了宇树科技在具身智能「大脑」基础模型方面的探索思路。
他表示,架构的统一对于具身智能的发展至关重要。在去年,宇树探索过使用视频生成模型,直接当做事件模型来驱动对齐到机械臂的方式,发现能达到一定的效果。
几天前,谷歌提出的视频生成模型 Genie 3 展示了极其优秀的效果,谷歌已表示希望能够把该模型生成的环境直接对齐到机械臂和具身智能上。王兴兴认为,这是一个值得探索的方向,视频生成模型已经开始展现出自身的 Scaling Laws。
「如果我控制视频生成模型生成一个视频,里面有一个机器人帮忙打扫房间,它能生成出来不错的效果,那理论上我只要把这个视频对齐到机器人上面,理论上也跑得通,」王兴兴表示。「但以我们的经验,对齐起来仍是非常有挑战和困难的一件事,这需要大量的算力和人才投入。」
此外,王兴兴认为,目前的基础模型仍处在快速进步的阶段,有很多潜力等待发掘,所有研究机构、科技公司都有实现突破的机会。如果在后训练的过程中加入一些机器人的指令,则 AI 对于机器人控制和理解、对空间理解,或许也会有明显的提升。
英伟达通过三台计算机实现机器人训练、仿真与部署的蓝图提出才过半年,在国内机器人厂商这里已经是一条充分实践过的道路了。对此,英伟达也感到兴奋。
Rev Lebaredian 表示:「在物理 AI 的实践上,中国是一个完美的地点。这里有独一无二的产业、AI 技术基础,顶尖的大学,大量专家和工程师。中国的制造业体量也是独一无二的,它也会成为机器人潜在的市场,可以快速迭代技术。」