AI在线 AI在线

智元机器人真机强化学习落地工业产线,开启具身智能规模化新阶段

近日,智元机器人宣布其真机强化学习(Real-world Reinforcement Learning)技术,已在合作伙伴龙旗科技的验证产线成功落地。 此举标志着该技术正从学术研究走向真实工业应用,为消费电子等精密制造领域提供了新的「即插即用」式智能升级方案。 核心突破:不依赖仿真,在真实产线实现 100% 成功率精密制造产线长期面临「刚性」痛点:传统机械臂依赖复杂夹具,调试周期长、换型成本高;而「视觉 力控」等柔性方案则存在部署复杂、参数敏感等问题,难以适应高频的产品迭代。

近日,智元机器人宣布其真机强化学习(Real-world Reinforcement Learning)技术,已在合作伙伴龙旗科技的验证产线成功落地。此举标志着该技术正从学术研究走向真实工业应用,为消费电子等精密制造领域提供了新的「即插即用」式智能升级方案。

核心突破:不依赖仿真,在真实产线实现 100% 成功率

精密制造产线长期面临「刚性」痛点:传统机械臂依赖复杂夹具,调试周期长、换型成本高;而「视觉+力控」等柔性方案则存在部署复杂、参数敏感等问题,难以适应高频的产品迭代。

智元此次落地的方案,其核心在于一套不依赖仿真、基于真实产线数据的「预训练+真机微调」技术路径。

据智元科技合伙人兼首席科学家罗剑岚博士介绍,该方案并非从零开始学习。机器人首先通过预训练模型及少量示范纠错快速掌握基础策略,随后在真实物理环境中通过强化学习自主交互与持续优化,最终达到工业级标准。

在龙旗的 FCT(功能测试)精密产线上,新技能的训练与稳定部署周期从传统方案的数周缩短至数十分钟。

智元机器人真机强化学习落地工业产线,开启具身智能规模化新阶段

罗剑岚在采访中指出,工业环境对稳定性、节拍和成功率有极致要求,实现 100% 任务完成率才是真正的难点。该方案的突破点在于,它直接在产线环境中,以通过率、节拍、良品率等真实生产指标作为「第一性目标」进行优化,而非解一个近似目标。

技术路径:真机原生数据闭环,规避「仿真鸿沟」

与业内探索的仿真器(World Model)路径不同,智元的方案采用了「真机原生」的数据闭环。

罗剑岚澄清,该方案在预训练和微调环节均未使用仿真数据。其优势在于:

规避现实鸿沟: 无需解决仿真环境与物理世界(Sim-to-Real)的差异问题。 数据效率: 强化学习在与环境的真实交互中自主产生数据,数据成本低,适应速度快。 突破性能上限: 罗剑岚提到,模仿学习(VLA)的效果受限于数据质量。而强化学习能从正反例中共同学习,使其性能可以超越数据本身的局限,这对于达到产线要求的 100% 成功率至关重要。

在部署初期,为确保安全,系统会采用类似「影子模式」的方式运行,并辅以远程兜底,确保在达到工业标准后才正式上线。

智元机器人真机强化学习落地工业产线,开启具身智能规模化新阶段

系统工程的胜利:从算法到可落地的工业资产

此次落地被视为一次「系统性工程」的成功,而非单一算法的突破。罗剑岚表示,这得益于算法团队、工程团队(Genie 业务部)以及合作伙伴龙旗科技三方的深度协同。

在应用场景上,目前技术主要集中于传统自动化难以覆盖的柔性上下料环节,例如对精度和稳定性要求极高的 iPad 电检工位。

对于未来的规模化,智元 CEO 邓泰华与罗剑岚均提到了 「数据闭环」和「OTA 分发」的模式。未来,部署在产线的机器人可将学习经验上传至工厂私有云,在不同工序间共享共性经验,再通过真机强化学习优化差异性,实现持续迭代。

罗剑岚认为,强化学习方案的成本优势不在于单点设备,而在于 「换线成本」 这一隐性成本的大幅降低。其「软件优先」的特性使产线成为一种能够持续优化的「资产」,更能适应未来制造业「小批量、多批次」的柔性需求。

龙旗科技董事长杜军红表示,智元的技术为构建新一代 AI 智造体系提供了重要支撑。双方将持续推进技术迭代,推动其在消费电子、汽车电子等更多精密制造场景的复制与应用。

相关资讯

智元机器人AgiBot Digital World仿真框架上线,数据集丰富多样

智元机器人今日正式宣布推出自主研发的大型仿真框架AgiBot Digital World,为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,并同步开源海量仿真数据。 AgiBot Digital World是专为机器人操作技能研究与应用设计的仿真框架,集成海量逼真三维资产、多样化专家轨迹生成机制和全面模型评估工具。 它通过高保真模拟训练场景,全链自动化生成数据,实现一系列具身仿真服务。
2/26/2025 11:18:00 AM
AI在线

UC伯克利教授Pieter Abbeel开课了:六节课入门「深度强化学习」,讲义免费下载

课程视频时间有点长,但希望你能享受学习的快乐。将传统强化学习与深度神经网络结合的深度强化学习,一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力,强化学习具备决策能力但对感知问题束手无策,因此将两者结合起来可以达到优势互补的效果,为复杂系统的感知决策问题提供了解决思路。想要入门深度强化学习的同学们,请高度注意,一份优秀、细致、全面的新教材出现了。今天,UC 伯克利教授 Pieter Abbeel 上传了自己的新课程《深度强化学习基础》的最后一节视频,并在推特上安利了一下。这份
8/26/2021 2:01:00 PM
机器之心

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开
9/10/2021 4:16:00 PM
ScienceAI
  • 1