AI在线 AI在线

谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”

科技媒体 marktechpost 昨日(5 月 19 日)发布博文,报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室,通过强化学习微调(RLFT)技术,提升语言模型的决策能力。

科技媒体 marktechpost 昨日(5 月 19 日)发布博文,报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室,通过强化学习微调(RLFT)技术,提升语言模型的决策能力。

AI在线援引博文介绍,基于海量互联网数据训练的语言模型已展现出超越文本处理的决策潜力,可以通过内部知识推理,在交互环境中做出行动选择。

谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”

不过这些语言模型在决策过程存在显著缺陷:模型能推导正确策略却无法执行(knowing-doing gap,纸上谈兵),过度偏好短期高回报选项(greediness,贪婪选择),较小模型还会机械重复常见动作(frequency bias,频次偏见)。

传统强化学习方法如 UCB 算法虽能平衡探索与利用,但难以解决模型内在的推理-行动脱节问题。

DeepMind 团队创新采用强化学习微调技术,以模型自生成的思维链作为训练信号,系统会评估每个推理步骤对应的行动奖励,促使模型优先选择逻辑自洽且实际高效的行动方案。

具体实施时,模型根据输入指令和行动-奖励历史生成包含推理过程与动作的序列,通过蒙特卡洛(Monte Carlo)基线评估和广义优势估计进行优化;无效动作会触发惩罚机制,而奖励塑造技术既保证输出格式规范,又保留探索空间。

在 10 臂的多臂老虎机(multi-armed bandit,MAB,有拥有 N 根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布)测试中,2B 参数模型的动作覆盖率提升 12 个百分点;面对 20 臂时改善幅度虽小但仍有意义,其频次偏见率从 70% 骤降至 35%。

谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”

井字棋实验中,模型对阵随机对手的胜率提升 5 倍,与最优蒙特卡洛树搜索代理的对战平均回报从-0.95 归零。值得注意的是,27B 大模型生成正确推理的概率达 87%,但未微调时仅 21% 会执行最优动作,该强化学习微调有效缩小了这一差距。

相关资讯

超越国际数学奥林匹克金牌得主:谷歌 DeepMind AI 系统展现超强几何解题能力

谷歌旗下人工智能研究实验室 DeepMind 开发的人工智能系统 AlphaGeometry2 在解决国际数学奥林匹克竞赛(IMO)几何问题方面取得了突破性进展,其表现甚至超过了平均金牌得主。
2/8/2025 7:36:10 AM
远洋

AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害

谷歌团队和 LSE 发表了一项研究,他们发现,LLM 能够做出避免痛苦的权衡选择,这也许是实现「有意识 AI」的第一步。
2/10/2025 12:14:54 PM
清源

谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。
2/14/2025 2:48:02 PM
故渊
  • 1