AI在线 AI在线

​谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。 他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。 这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。

近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。

Gemini,Google DeepMind,人工智能,AI

随着大数据的应用,现有的语言模型已经展现出处理文本的超越能力,甚至能够在交互环境中做出基于知识的决策。然而,这些模型在实际决策时却常常出现 “纸上谈兵” 的问题,虽然能推导出正确的策略,却无法有效地执行。此外,它们还倾向于选择短期内能够获得更高回报的选项,同时较小的模型常常因为频率偏见而重复常见的动作。

传统的强化学习方法,比如 UCB 算法,虽然可以在一定程度上平衡探索与利用,但仍然无法完全解决模型推理与行动之间的脱节问题。为此,DeepMind 团队创新性地引入了强化学习微调技术,利用模型自生成的思维链作为训练信号。系统将评估每个推理步骤所对应的行动奖励,促使模型优先选择逻辑自洽且有效的行动方案。

在实际实施过程中,模型根据输入指令及历史行动与奖励生成包含推理过程和动作的序列。通过蒙特卡洛基线评估和广义优势估计进行优化,若采取无效动作,则会触发惩罚机制。同时,奖励塑造技术的引入不仅保证了输出的规范性,还保留了探索的空间。

在实验中,研究团队测试了多臂老虎机模型。在10臂的测试中,2B 参数模型的动作覆盖率提升了12个百分点。在20臂的测试中,虽然改善幅度较小,但频次偏见率从70% 降至35%,显示出研究的有效性。井字棋的实验结果显示,模型与随机对手对战的胜率提升了5倍,对阵最优蒙特卡洛树搜索代理时的平均回报从 -0.95归零。此外,27B 大模型生成正确推理的概率达到了87%,而未微调时仅有21% 能够执行最优动作。这一系列的数据充分证明了强化学习微调在缩小推理与行动之间差距方面的有效性。

划重点:

📊 研究采用强化学习微调(RLFT)技术提升 AI 语言模型的决策能力。  

🧩 通过自生成思维链进行训练,模型的逻辑推理和行动选择得到有效提升。  

🏆 实验显示,模型在多臂老虎机及井字棋中均显著改善了表现,缩小了推理与执行之间的差距。  

相关资讯

告别传统家务!Figure 2025 年将启动人形机器人家庭测试

加州湾区的机器人初创公司 Figure 日前宣布,其人形机器人 Figure02将在2025年开始进行家庭环境中的 “alpha测试”。 该公司的首席执行官布雷特・阿德科克(Brett Adcock)表示,这一时间表的提前得益于其自主研发的 “通用” 视觉 - 语言 - 行动(VLA)模型 Helix。 在 Figure 宣布 Helix 平台的消息不久后,阿德科克在一次活动中透露,该平台旨在处理视觉数据和自然语言输入,从而加快机器人学习新任务的速度。
2/28/2025 5:29:00 PM
AI在线

​中央网信办启动 “清朗” 专项行动,整治 AI 技术滥用现象

中央网信办发布通知,决定在全国范围内开展为期三个月的 “清朗・整治 AI 技术滥用” 专项行动,旨在规范人工智能(AI)服务和应用,促进行业的健康发展,同时保障公民的合法权益。 此次专项行动的实施,标志着对 AI 技术滥用现象的高度重视和系统治理的决心。 图源备注:图片由AI生成,图片授权服务商Midjourney此次专项行动分为两个阶段进行。
4/30/2025 6:00:51 PM
AI在线

谷歌DeepMind:大模型明知到最优解,但还是故意绕了一圈

现在的大模型(LLMs)已经非常智能。 写文章、编代码、当医生、当老师,样样精通。 于是乎,有人就想了:既然它们这么聪明,能不能让它们自己做决定,当个“智能体”呢?比如,在复杂的环境里自己探索、自己解决问题。
5/6/2025 11:00:51 AM
AI在线
  • 1