字节发了个机器人全能大模型，带队人李航

机器人终于不用散装大脑了！字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。经常做机器人的朋友都知道，以前想让机器人干活，得先解决一个烦人的问题——模块之间的信息代沟。

机器人终于不用散装大脑了！

字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。

经常做机器人的朋友都知道，以前想让机器人干活，得先解决一个烦人的问题——

模块之间的信息代沟。

能听懂指令和能完成指令可完全不是一回事，以前要让机器人听懂人话，得装个专门的语言交互模块；要让它能避开障碍从客厅走到阳台，又得搭一套任务规划模块；要想……还得……

于是不同模块在机器人身上拼凑使用苦开发者久矣。

但现在，字节Seed推出了Robix视觉——语言单模型，把三件事全包了，也不用搞多模块拼接那套了。

所以，这是怎么做到的呢？

核心采用思维链推理和三阶段训练策略

Robix是一款专门给机器人用的模型。核心想法是让一个模型同时搞定三件事：

首先，团队的思路是把机器人系统分为两层，高层认知和底层执行，Robix就是管高层认知的。

底层（VLA）来执行Robix发出的命令。

而Robix本身也并不是多个模块拼合的散装大脑，而是一个视觉-语言融合的单模型，能同时处理画面、语言，还能把思考过程、动作指令、人类回复整合在一个逻辑循环里，避免模块间沟通卡顿。

Robix核心采用思维链推理和三阶段训练策略。

在推理与决策方面，采用思维链，根据输入信息进行深思熟虑的推理。

在推理过程中，它会考虑当前场景中的物体、空间关系、任务要求等因素，预测下一步的思考方向、行动方案以及可选的语言回复。

这个过程是一个迭代的决策过程，每一步决策都基于当前的观察和之前的交互历史。

再来说说Robix是怎么训练的。

三阶段是分为持续预训练、监督微调和强化学习。

在持续预训练阶段，用大量机器人相关的数据，教它看懂3D空间、把语言和画面对应上，学会能判断任务进度的能力。

在监督微调阶段，模拟收拾餐桌、超市购物这些真实场景，教它处理各种指令、按逻辑一步步想问题，同时让它学会跟人简单对话，做到能听懂、会规划、能聊天。

在强化学习阶段，用专门算法纠正“想的和做的不一样”的问题，通过“做对给奖励、做错给提醒”的方式，让它在长时间任务里决策更稳、动作更准。

至于效果，团队给出了一些测试数据。

在基础能力测试上，Robix的两个版本（7B和32B）在8个空间理解任务中有7个比Qwen2.5-VL 表现好，平均准确率更高；

并且在多数基准测试中超越了闭源的GPT-4o、Gemini 2.5 Pro等。

离线评估中，Robix-32B-RL在所有评估集上排名第一。

在模拟真实环境的交互测试，使用UMI设备在线评估，Robix-32B在5个任务中的3个超越Gemini 2.5 Pro，且平均任务进度略高，且大幅超越Qwen2.5-VL-32B。

而使用GR-3进行在线评估时，在自动化真实机器人评估中，Robix-32B的平均任务进度达到92.5%，分别比Gemini 2.5 Pro和GPT-4o高出4.3和28.1个百分点。

看来，机器人模型以后拼的可能就不是模块数量而是单一模型的综合能力了。

值得关注的是，Robix项目的负责人，正是字节AI实验室的负责人李航博士，更早之前，他曾担任华为诺亚方舟实验室主任和首席科学家。

△图源：李航微博

他于2017年加入字节，后带领团队开展字节的机器人项目。

在今年6月，有知情人透露李航已经退休，但字节相关负责人则马上表示他还将以返聘顾问的形式进行工作，且工作范围不变。