银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

作者：沛霖（实习） 2025-01-10 02:54

银河通用昨日宣布，联合北京智源人工智能研究院（BAAI）及北京大学和香港大学研究人员，发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。

银河通用昨日（1 月 9 日）宣布，联合北京智源人工智能研究院（BAAI）及北京大学和香港大学研究人员，发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。

AI在线注：“具身智能”是指将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

据介绍，GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据，训练数据达到了有史以来最大的数据体量 —— 十亿帧「视觉-语言-动作」对，掌握泛化闭环抓取能力、达成基础模型。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

预训练后，模型可直接 Sim2Real（AI在线注：从模拟到现实）在未见过的、千变万化的真实场景和物体上零样本测试，官方宣称满足大多数产品的需求；而针对特别需求，后训练仅需小样本学习即可迁移基础能力到特定场景，维持高泛化性的同时形成符合产品需求的专业技能。

官方公布了 VLA 达到基础模型需满足的七大泛化“金标准”：光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 光照泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 背景泛化，三倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 平面位置泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 空间高度泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 动作策略泛化，三倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 动态干扰泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 物体类别泛化，三倍速播放

相关标签：

具身智能银河通用

相关资讯

独家 | 银河通用机器人最新一轮估值 4.25 亿美元

独家 | 银河通用机器人最新一轮估值 4.25 亿美元

作者 | 赖文昕编辑 | 陈彩娴AI 科技评论独家获悉，在新一轮融资后，银河通用的最新估值为 4.25 亿美元。此前在 7月19日，「港版淡马锡」香港投资管理有限公司正式宣布投资银河通用机器人。而在 6 月，这家具身智能创企宣布获得了超 7 亿人民币天使轮融资，被称为「年度最大天使轮」——投资方包括美团战投、北汽产投、商汤国香资本、讯飞创投等战略及产业投资方，以及启明创投、蓝驰创投、经纬创投、源码资本、IDG资本等头部财务机构。

8/16/2024 5:15:00 PM 赖文昕

具身智能公司银河通用官宣再获 5 亿战略轮，累计完成 12 亿融资

具身智能公司银河通用官宣再获 5 亿战略轮，累计完成 12 亿融资

“具身智能”是指将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。

11/20/2024 8:23:15 PM 沛霖（实习）

银河通用发布全球首个产品级端到端具身 FSD 大模型，联合宇树机器狗完成长程验证

银河通用发布全球首个产品级端到端具身 FSD 大模型，联合宇树机器狗完成长程验证

银河通用推出TrackVLA导航大模型，具备纯视觉环境感知、语言指令驱动等能力，让机器人实现自主跟随。该模型已搭载于宇树机器狗，完成真实场景验证。#机器人##人工智能#

6/1/2025 10:35:02 AM 远洋