编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
宇树、银河通用、穹彻智能……当国内顶尖的机器人玩家同框,能碰撞出什么样的火花?
在今天智源做的AI春晚上,搞了一个很炸裂的“具身智能会客厅”,请来了王兴兴、熊友军、王鹤等顶尖大佬,分享最新进展和自己对行业的判断和洞察。
会上,王兴兴首次回应了机器人格斗“秀肌肉”的质疑,他表示格斗的关键在于动作的演示:
因为我们公司终极目标还是希望机器人是干活的,无论是家里还是工厂。最近几年,如果让一个人形机器人马上去家里干活还是不太现实的。我们公司的核心本质是希望通过AI技术,让一个机器人尤其人形机器人可以做各种全身动作,跳舞和格斗是全身动作的一部分,而且我们真正的理念是希望一个人形机器人可以做各种动作。
几位大佬从各自公司的新发布,聊到具身智能的技术选型、和最硬核的VLA(视觉语言行动模型),对于关注具身智能和泛AI的朋友,绝对不可错过!
图片
左起:
主持人 | 王仲远
王兴兴 | 宇树科技CEO
熊友军 | 北京人形机器人创新中心总经理
王 鹤 | 北京大学助理教授、智源具身智能研究中⼼主任、银河通用创始⼈兼CTO
卢策吾 | 穹彻智能联合创始⼈、上海交通⼤学教授、上海创智学院副院⻓
Karol Hausman | Physical Intelligence联合创始⼈兼CEO(线上)
以下是经过整理的圆桌全文,enjoy:
1.人形机器人秀了把最新进展!落地家庭成主攻方向
王仲远:各位嘉宾请入座。
兴兴,咱们第一次见面是去年4月份,我们去宇树交流,我对宇树机器人印象最深刻不需要移动吊架可以随时展示。过去一年里,宇树科技有了很多变化,还有机器人春晚,宇树16台H1表演的《秧BOT》。5⽉25日全球首个人形机器人格斗赛引爆杭州,宇树G1“AI策算师”获得冠军,我听工作人员说,这个冠军机器人也到了现场,请你介绍一下吧!
王兴兴:大家好,非常感谢参加此次活动,我们也带来了新的机器人,在这里给大家做一下演示。这是去年最新的G1,前段时间也参加了格斗比赛,让它展示一些动作。
我们过去无论是春晚上的表演还是格斗比赛,我们希望给大家真正展示一下当前全球机器人发展的情况,并且也能带动整个机器人行业的发展。大家觉得目前机器人,相对来说还不能直接去家里干活和工厂干活,这是全球都面临的问题。我们希望机器人真正去干活,但在真正干活之前,我们已经达到的技术成果,也是希望可以做更多的商业化拓展和尝试,所以我们做了这些事情。
我相信机器人格斗,在今年和明年,会成为全球受欢迎的体育赛事。后面大家有兴趣,可以来我们公司体验和玩一下,这是非常激动人心的事情。
王仲远:谢谢兴兴,机器人一上台的表演,立刻调动起了现场的气氛。除了这台冠军机器人外,北京人形机器人创新中心也有一个冠军机器人。在北京举办的半马比赛中,天工也获得了冠军,听说今天带来了天工升级版天工2.0,请您分享一下天工夺冠背后的故事,也介绍一下天工2.0有哪些升级。
熊友军:我是来自北京人形机器人创新中心总经理的熊友军,今天是天工6.0,这也是一个开源开放的平台。天工6.0在1.0基础上做了更新,天工1.0在半程马拉松2小时40分的成绩跑完马拉松,被证明是能跑的机器人。天工2.0,我们希望它好用,能做更多的事情,所以升级是在于上肢,有更多的自由度、有灵巧手、有负重能力,今天也会现场展示一些能力。
下面有请天工跟大家打招呼。
机器人:大家好,我是来自北京人形机器人创新中心的天工2.0,很高兴告诉大家。
熊友军:天工,给大家准备一些茶点吧?
机器人:好的,没问题。
熊友军:天工在参加马拉松之后,我们进行了系统性更新,因为北京人形机器人创新中心成立于2023年11月2日,是全国首个省级的创新中心。在2024年10月份升级为与国家与地方共建的人形机器人创新中心。这个升级是体系化的能力,我们在这个上面有四个方面的平台能力的升级。
一是,我们一直在建设的硬件平台,我们主打场地、草地、沙地、秋林、石子,对各种路面的适应能力,它是最能跑的。现在的升级,让它能在工厂和各种危险和有伤害的环境去完成一些事情,这是硬件方面的升级。更多的升级是在大脑软件方面,我们在今年3月份发布了第一个通用的具身智能体慧智开悟,这是一脑多机、一脑多能的平台。包括具身智能的大脑和小脑,大脑主要负责人机交互、环境感知、意图识别、问路规划。小脑负责运动和执行能力,且把这个执行结果反馈给大脑,完成一个闭环。这是第二个平台。
第三个平台,我们训练它的具身智能体,我们构建了一个国内大型数据采集和机器人训练中心,我们构建了20多个场景,是虚实结合的数据采集平台。并且在上面也构建了一些数据的采集处理和服务、人才培养的一整套体系。并且去不断迭代和升级慧智开悟的具身智能化。为了保证机器人的稳定可靠性,我们也在牵头建设北京的中试平台。基本就是这么多。
王仲远:谢谢友军,王鹤老师更是智源好朋友,2021年王老师从斯坦福回到北大任教,现在是智源研究中心的负责人。2023年王老师创立了北京银河通用机器人有限公司,今年非常恭喜王老师获得了MIT主办方。王老师做的银河通用机器人模型,最新有什么新的进展,请介绍一下。
王鹤:谢谢王仲远博士的介绍。今年是银河通用机器人第二次亮相智源大会,去年在智源大会我们展示了盒装物体在货架上的吸取,今天用VLA技术,也是刚刚Physical Intelligenc提到的端到端具身大模型打造了适用性更强,更贴近一般商超的货架场景。下面我也展示一下,跟Galbot模型的互动。我中午又饿又热,Gbot给我搞点吃的和喝的。
机器人:根据您提到的,为您推荐安慕希酸奶和果粒爽果冻,您想要哪个?
王鹤:成年人不做选择,我都要。所以我们在现场用轮式底盘的机器人,基于自研的端到端大模型,在非常密集的货架上,它没有办法规避碰撞,不使用轨迹生成方式取下来。我们这样的模型能对货架琳琅满目的各种各样的货品,除了袋装,各种薯片,这是一个用于吸的果冻,这个过程是闭环的,它拿的过程中你抢,它也会抓。建筑物有我们的展区,那边大家可以在IPAD端下单,机器人送到你的手边。我们是全球第一次VLA在这样的泛化非常多的SKU品类里,做这样的演示。我们的技术特点就是背后的训练数据不同于π,我们主要是合成数据,价格非常低廉,是可以扩增的合成数据。欢迎大家关注明天的智源分论坛,我们会介绍更多的技术细节。
王仲远:谢谢王老师。卢老师,去年3月份时我们在上海交大第一次见面,当时我印象很深,您所展示的叠衣服、刮胡子,基于力反馈的具身智能系统非常厉害,不知道最近有没有什么新的进展?
卢策吾:从产品级角度来讲,去年发布了穹彻大脑V1版本,马上在7月份会发布V2版本。这里体现了对于世界物理的理解和交互。
为什么会有力反馈呢?在做很多动作时,其实人都是下意识的。这里对于什么样经济价值比较高的场景会有用呢?需要复杂动态的接触和操作。比如刮胡子就很典型,抓取之后,基本固定不动了,但是要连续不停地去接触,这个事情力气大一点会刮伤,力气小一点会刮不干净,所以鲁棒性极高模仿人类下意识的环境。刮胡子有点炫技,其实我们很早已经把它应用到实际场景中了。
视频,这是我们一个朴素版本,在很多食品加工行业里已经批量化落地了,这里就需要非常好的力学。刮冰淇淋试试看,和一次性抓取不太一样,它每一毫秒都要非常精确地得到它的动作,特别是动作比较硬的时候,是刮不出来这种结果的,像人的手感一样。因为已经批量化在食品加工、食品处理行业落地了,这几段视频是因为我们厂商有保密协议,可能你们吃的食品是我们机器人在背后做的,因为食品是高密度、高持续的接触,同时对于物理的理解会有更大的难度。但是拓展到生活场景是非常必要的,比如将来可以照顾人,帮你擦脸,有很多跟人的交互,应用到生活场景也是必需的,所以我们的模型就用了力和位置,也是全球唯一用力和位置反馈的大模型。
王仲远:谢谢卢老师。Karol Hausman,Physical Intelligence在中国是非常受到欢迎和关注的,每次只要发布一款模型或一个视频都会受到大量的转发,包括π0、π0.5、Hi Robot都在中国得到了大量的关注。不知道您刚才有没有看到现场机器人的表演,包括卢老师所展示的精细化的操作,也想请您介绍一下Physical Intelligence最新的具身机器人和具身模型的能力有什么新的进展?
Karol Hausman:非常感谢您提的这个问题,我也意识到这一点。确实看到很多人都比较关注π和Physical Intelligence,我们也愿意给大家提供更多的模型,这样能够让全球的机器人承担更多有效的任务。
关于π0.5模型,这是我们感到非常骄傲的地方,之前会认为很难让机器人在陌生的环境下完成相关的任务,但发现这是大家都面临的挑战。家庭是非常复杂的环境,每个人的家庭都不一样,如果能够把机器人带到一个之前从来没有去过的家庭,之后进行任务的完成,这是非常重要的突破。因为每个工厂都比较类似,但家庭场景各不相同,所以我们开始关注有多少多元化的数据才能够帮助机器人在陌生环境下完成任务,我们有上百个不同的家庭环境,先生成上百个不同家庭的数据,其实并不是每次机器人都会完美地完成任务,也会有这样或那样的失误,但确实展现出非常大的潜力,机器人并不需要考虑数据集的多元性才能够实现最终的泛化。我们现在还处在整个研究的初级阶段,但是这个研究领域确实有很大的前景。
王仲远:谢谢Karol Hausman。
2.机器人比赛是技术验证,还是“秀肌肉”?
王仲远:接下来聊一聊近期的热点,大家知道今年具身智能比较破圈,主要原因是进行各种各样机器人的赛事,比如马拉松比赛、格斗比赛。今年8月份,在北京市还将举办一场世界人形机器人运动会,我也想听听各位朋友对于运动会以及这种赛事活动怎么看,它们是一个技术的验证场,还是“秀肌肉”的表演?有没有可能拉高公众对机器人能力的预期?也想听听王兴兴和熊友军的看法。
王兴兴:从今年1月份的春晚,包括我们的格斗比赛,最大的点其实很好给到了展示水平,并且更早地让大家接触目前机器人发展到了什么阶段。因为比赛很多,有些企业参加,有些企业没参加,因为每家企业有各自的特点。
因为我们公司终极目标还是希望机器人是干活的,无论是家里还是工厂。最近几年,如果让一个人形机器人马上去家里干活还是不太现实的。我们公司的核心本质是希望通过AI技术,让一个机器人尤其人形机器人可以做各种全身动作,跳舞和格斗是全身动作的一部分,而且我们真正的理念是希望一个人形机器人可以做各种动作,无论是跳舞、极限、格斗,包括家里的端茶倒水或者洗衣做饭,它是全身动作的一部分。所以我一直相信一部分,当AI技术包括具身智能技术发展到一定阶段时,一个足够智能的能家用的机器人肯定是可以跳舞了,肯定是可以打格斗赛的。
所以我们的目标一直是希望通过AI技术让机器人做各种的全身动作来实现终极目标,去真正解放人类的生产力,尤其解放一些辛苦的工作。但在这个终极目标未实现之前,我们先参加一些表演、参加一些格斗比赛来给大家展示一下机器人的情况,并且产生一部分商业价值。
今年上半年,包括人形机器人租赁市场也比较火爆,本身已经带来了一些产业价值,我们无论是做比赛也好,或者真正想做的事情,做这样一个说明。
熊友军:我觉得举办机器人比赛非常有意义,尤其是像即将在北京鸟巢举办的机器人运动会,从以下几个方面说:
1.它是一个机器人知识普及的盛会,通过比赛,能够普罗大众对机器人现在发展的状况、现在的技术水平有一个比较全面的了解。据我们所知,这次在鸟巢举行的比赛会有一些田径比赛,比如短跑、长跑、障碍赛、接力赛,还有足球、舞蹈等大家喜闻乐见的方式,他们非常愿意看,看的过程中,潜移默化就会对机器人的知识、发展状况有比较深的了解,普及了科技水平。
2.它是一个非常好的机器技术的训练场,因为很多比赛的场景是来自于人类真实的生活场景,之前在实验室里很多都是我们自己构建的场景。据我所知比赛还有很多实际场景,有一些是工厂提出来的物流搬运的,也有一些是医院提出来的医药分拣,还有给病人送药,以及酒店服务性场景,这些都是一些具体的企业或场景提出来的,所以非常符合机器人即将要发展的方向。因为我们毕竟希望机器人真正走入我们生活、服务人类,所以这是很好的训练场,对提升机器人的技术有很大的帮助。
3.这也是机器人潜在客户了解和跟机器人企业沟通的桥梁。通过比赛,有可能会促成机器人加速产业化,或加速在真实场景里做试点的应用。谢谢!
王仲远:Karol ,有没有关注到中国机器人比赛,海外有没有类似的机器人比赛,你怎么看?
Karol Hausman:海外没有中国这么受欢迎的比赛,中国有各种各样的机器人比赛。在海外也有一些比赛,还有很多学术性的竞赛,但和中国的规模无法相比,所以我非常期待能看到中国的比赛和机器人技术的发展和验证。
王仲远:机器人通过比赛可以不断展示它的极限能力,我们更希望机器人可以帮我们解决一些实际的问题,进到工厂和进到家庭。王鹤老师和卢老师做的产品非常落地,听听你们关于比赛和落地之间的看法。
王鹤:今天我们谈具身智能,这有一个当下的目标,就是我们一定要推动具身智能的产业化。虽然我们看到了很多炫酷的技能,我们一定要反思这样的技能在新的环境里,在新的物品下,在用户非常挑剔,需要成功率接近百分之百的情况下,它能不能成功。所以这也是我们银河通用和智源联合团队做这件事的思考,就是先把最重要的技能打通。在这里面,主要是指mobile peak and place(音)。刚刚看到π在家庭里做的事情,也是通过Navigation,从地面上去Piak,是一些行为组合而成。我们关注的是一般性货架,无论是超市还是工厂的料库区,还是在外卖前置仓。
如果我们能用人形机器人在24小时服务,这样就构成了具身智能真正走向产业化,真正能服务人民,创造生产力的开始。这是我一直谈的要推动人形机器人生产力时刻的到来,一个好消息是今天银河通用机器人已经在北京开了7家无人药店,24小时由我们的人形机器人在里面捡药,对接骑手。这样的无人药店为夜间急需用药的患者送去了温暖,同时不会把一个人24小时锁在房子里面,解决了招聘员工的问题。我们今年将在北京、上海、深圳一共开100家药店。
相信以后给超市下订单,在车厂里配料,是由我们的人形机器人在里面当家作主。这些我希望跟后续赛事,在操作级别上对接起来,用赛事引领有价值、可落地的技能形成,不断把生态给转起来。
王仲远:谢谢,卢老师怎么看。
卢策吾:我同意王老师的观点,这个赛事很好,可以看到机器人的性能,这是很好的起点。下一步能看到机器人产生价值,能干活,就是有干活的比赛,是生产力的比赛。这一点我同意王老师的看法,我们逐步把技能提高。穹彻也是逐步把一些大模型,特别是物理世界的高持续接触、有力反馈模型,应用于各种食品食材加工等各种场景里面去。如果有很多技能比赛,我们可以看到劳动最光荣。
3.“人形”不是具身智能的唯一解,却是得到训练数据的最优解
王仲远:谢谢卢老师。接下来聊些技术!首先是关于机器人构型问题。清华大学举办的学术会议上,张博院士表示,人形机器人不是具身智能和AGI的最佳路径,走向通用机器人,硬件要多样化,软件要通用性。王兴兴对这个观点有什么评价?
王兴兴:我过去公开好几次,我不坚持一定要做人形。对我们公司来说,做机器狗和人形机器人是顺理成章的事情。尤其对于腿来说,可以有轮子底盘,这是非常实用的。为什么现在大家喜欢用人形,尤其是上半身保持人的样子。因为现在AI基于人的数据进行采集和训练,尤其是上半身和人的动作一致,数据采集方便很多,也方便AI做训练。对于全身也是一样,比如跳舞、格斗比赛,如果你做成别的样式,就没办法做这个事情。
我相信机器人在AGI或通用AI发生以后,机器人才会千奇百怪,工厂里干活、医疗的机器人,到时候形式比现在多很多,甚至会多100倍。因为目前的AI是由数据驱动的,因为长得像人的机器人在落地和训练时,还是有很大的优势。
熊友军:我同意王兴兴的说法,现在具身智能的发展和形式,确实是多种多样,不一定要局限于人形,人形只是一个比较好的载体。我认可人形机器人是具身智能研究的一个最佳载体,我主要从未来市场的容量来考虑。今天机器人可以不必像人,也可以是四足与轮式,这没问题。从市场应用情况来看,最多的市场是走路、商用和家庭,今天的工厂应用场景只是开胃小菜。我认为人形机器人的市场容量比其他的机器人容量要大。
第二,从人机交互来讲,既然以后会走入家庭和生活,成为我们的朋友,甚至以后成为我们的爱人都有可能。所以人机交互自然,并被人接受,从这方面来讲,人形机器人有非常好的优势。
第三,现在的环境大部分是为人设计的,部署人形机器人和适应环境过程非常便利,可以方便地使用我们的工具,不需要做太多的改造。否则为了部署,还要去改造环境。从这几个角度来讲,人形机器人是最好的一种选择。我明白大家的担心,现在成本和技术不占优势。但放在历史比较长的角度来看,我坚持人形机器人是一个很好的载体。
王仲远:听现在,大家对机器人的构型的长期和短期有共识。真正要让机器人有用,模型非常关键。今天上午的开幕式的主旨演讲和各位嘉宾的讨论都谈到了VLA视觉语言行动模型。王鹤老师也绍了VLA模型,在无人驾驶领域,VLA已经成为了很主流的解决方案。但毕竟无人驾驶的操作空间是相对有限,机器人面临的环境和实际的行动数量非常多,不知道大家对于VLA的泛化性怎么看?
王鹤:自动驾驶其实验证了一件事情,就是端到端的方案有更好的扩展性,它能够通过数据真正驱动模型,而不是靠无穷无尽的规则,比如先检测出来车的三维包围盒,再机遇这些包围盒想下一步该怎么走,最后规划出轨迹以后,再交给控制,这条路其实自动驾驶走了很多年,但是现在全国各地都能开的车不是通过这种模块化的,而是端到端的。从这个角度上讲,VLA的意义在于什么?直接是视觉观测,最主要的信息来源,可以给自然语言下达任何命令,最终这个模型端到端输出动作,不经过中间任何中间产物。所以从端到端的角度上来讲,真正能够充分地吸收数据背后的知识,让它能够发挥出最大的性能,而不受制于一些模块化方案中间阶段的错误级联误差和要写无穷无尽规则兜底的问题。
今天的VLA是具身研究的热点,但是针对VLA究竟要突破什么,也有不同的观点,有些人认为VLA应该把人类能做的一切事情在里面快速地做进去,然后形成一个基座模型。从这个角度来讲,有点太着急了。人类视觉的输入之外,还有力觉、触觉,做饭时还有嗅觉和味觉,我们抓一些热的东西还有温觉,还有听觉,掉地上,听见了。所以VLA只能是一个起点,要真的想做到人类级别的具身智能,只能是不断地融合新的模态。
VLA现在最适合干什么?我认为就是移动抓取和放置。这几个技能基本上靠视觉为主,末端再加触觉或力觉的传感器,就能够很好地执行,而且它面对的很多任务,在工业、商业、服务等里有非常广泛的应用,如果我们能把这样一个VLA先做好,做work,在各种场景里部署进去,将会是见证具身智能第一次真正高潮的到来。
卢策吾:VLA确实很火,我觉得这个东西也是很本质的,V理解世界、L沟通人类、A改变世界,我觉得这是集合了机器人几件要干的事情。L很妙,语言是一个黏合剂,各种高层的语义都能把数据联结在一起。
我跟王老师观点很像,它有很好的扩展性,但还是有limitation,我们还是要去推进的。我也很同意具身智能要逐步落地,但是也要星辰大海,想把它推到通用智能。它面临很大的问题是,如果想做到通用的话,空间很大,跟无人车不一样,无人车有两个决策维度,而且不用碰撞,不用接触,场景也相对固定,所以整个空间会比较小。如果做通用情况下,VLA就得压缩不确定性,相当于VLA是一个火锅底料,现在只能清汤寡水服务一部分人,要服务更多人,需要不停往里面加东西,加东西本质是增加更多额外信息,使得这个事情更加的powerful,而且能够兼容这个框架里加更多的信息,在端到端的模型里压缩它的空间。
压缩空间有很多方式,比如穹彻一直在做的用力反馈,因为很多人下意识动作是不用动脑的,比如擦桌子不用动脑,其实不用每毫秒去计算。有了力反馈之后,稳定性很高。如果用加力反馈话,可能会一掯一掯(ken)的,因为看起来是可以的,但它的鲁棒性存在问题,所以加了力反馈之后,很多时候把空间压缩了。
我们可以做的事情,就是对于物理世界的理解,其实你看到的视觉是偷偷在理解整个世界,如果我们能够更好地理解这个世界,物理理解是否能够进一步压缩空间。在我们下个月发布的第二版大脑里加了很多东西,比如进一步压缩空间的话,会有一个数字基因的东西,因为仿真合成很重要,产生数据资产很关键,各种操作仿真数据产生很好的数据模型,力反馈其实又带来新的模型,其实一步一步再压缩,会使得数据量需求大大下降。因为这里面不确定的地方是那么大的空间,究竟有多少数据量去fitting它,所以找到好的模态,压缩它的空间,找到聪明的更加理解世界的方式把它融到里面去,VLA才能逐步推进。
我们也很期待这样一步一步去推进到它的整个通用拐点。
王仲远:谢谢卢老师。Karol Hausman也听到各位嘉宾对于VLA的一些观点,在您今天早上也提到了VLA,还有令我印象比较深刻的build model等,跨本体的VLA现在在实践过程中有没有什么样的瓶颈是绕不过去的,抑或我们等待就是时间和数据的规模呢?
Karol Hausman:确实还是有瓶颈存在的,最大的瓶颈是现在这个模型有一些完成的并不是我们需要的,我想应该有一些算法的提升,这是必需的。因为现在数据是海量、无尽的,要使用现在的算法来运用这些无尽的数据,所以我们的算法需要提升和改善,并且也需要新的技术,这些是我们现在正在做的,也是我们正在解决的。这是现在最大的一个瓶颈。
如果你问我的话,几个月之前,现在π5的出现已经能够更好地处理,并且能够更好地获取数据。所以现在更多还是算法的问题,并非数据的问题。
王仲远:谢谢,因为时间关系,今天会客厅就到这里结束,感谢大家精彩的分享,希望我们常聚常聊,一起推动具身智能研究与产业的发展。
如果大家对这个主题依然意犹未尽,可以关注智源大会还有两场具身智能相关的主题论坛,在会议中心有具身机器人现场展示,也欢迎大家前去体验。
会客厅就到这里,谢谢大家!