近日,智元机器人宣布其真机强化学习(Real-world Reinforcement Learning)技术,已在合作伙伴龙旗科技的验证产线成功落地。此举标志着该技术正从学术研究走向真实工业应用,为消费电子等精密制造领域提供了新的「即插即用」式智能升级方案。
核心突破:不依赖仿真,在真实产线实现 100% 成功率
精密制造产线长期面临「刚性」痛点:传统机械臂依赖复杂夹具,调试周期长、换型成本高;而「视觉+力控」等柔性方案则存在部署复杂、参数敏感等问题,难以适应高频的产品迭代。
智元此次落地的方案,其核心在于一套不依赖仿真、基于真实产线数据的「预训练+真机微调」技术路径。
据智元科技合伙人兼首席科学家罗剑岚博士介绍,该方案并非从零开始学习。机器人首先通过预训练模型及少量示范纠错快速掌握基础策略,随后在真实物理环境中通过强化学习自主交互与持续优化,最终达到工业级标准。
在龙旗的 FCT(功能测试)精密产线上,新技能的训练与稳定部署周期从传统方案的数周缩短至数十分钟。

罗剑岚在采访中指出,工业环境对稳定性、节拍和成功率有极致要求,实现 100% 任务完成率才是真正的难点。该方案的突破点在于,它直接在产线环境中,以通过率、节拍、良品率等真实生产指标作为「第一性目标」进行优化,而非解一个近似目标。
技术路径:真机原生数据闭环,规避「仿真鸿沟」
与业内探索的仿真器(World Model)路径不同,智元的方案采用了「真机原生」的数据闭环。
罗剑岚澄清,该方案在预训练和微调环节均未使用仿真数据。其优势在于:
规避现实鸿沟: 无需解决仿真环境与物理世界(Sim-to-Real)的差异问题。 数据效率: 强化学习在与环境的真实交互中自主产生数据,数据成本低,适应速度快。 突破性能上限: 罗剑岚提到,模仿学习(VLA)的效果受限于数据质量。而强化学习能从正反例中共同学习,使其性能可以超越数据本身的局限,这对于达到产线要求的 100% 成功率至关重要。
在部署初期,为确保安全,系统会采用类似「影子模式」的方式运行,并辅以远程兜底,确保在达到工业标准后才正式上线。

系统工程的胜利:从算法到可落地的工业资产
此次落地被视为一次「系统性工程」的成功,而非单一算法的突破。罗剑岚表示,这得益于算法团队、工程团队(Genie 业务部)以及合作伙伴龙旗科技三方的深度协同。
在应用场景上,目前技术主要集中于传统自动化难以覆盖的柔性上下料环节,例如对精度和稳定性要求极高的 iPad 电检工位。
对于未来的规模化,智元 CEO 邓泰华与罗剑岚均提到了 「数据闭环」和「OTA 分发」的模式。未来,部署在产线的机器人可将学习经验上传至工厂私有云,在不同工序间共享共性经验,再通过真机强化学习优化差异性,实现持续迭代。
罗剑岚认为,强化学习方案的成本优势不在于单点设备,而在于 「换线成本」 这一隐性成本的大幅降低。其「软件优先」的特性使产线成为一种能够持续优化的「资产」,更能适应未来制造业「小批量、多批次」的柔性需求。
龙旗科技董事长杜军红表示,智元的技术为构建新一代 AI 智造体系提供了重要支撑。双方将持续推进技术迭代,推动其在消费电子、汽车电子等更多精密制造场景的复制与应用。