谷歌 DeepMind 新研究强化思维链训练，让 AI 语言模型不再“纸上谈兵”

作者：故渊 2025-05-20 01:54

科技媒体 marktechpost 昨日（5 月 19 日）发布博文，报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室，通过强化学习微调（RLFT）技术，提升语言模型的决策能力。

科技媒体 marktechpost 昨日（5 月 19 日）发布博文，报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室，通过强化学习微调（RLFT）技术，提升语言模型的决策能力。

AI在线援引博文介绍，基于海量互联网数据训练的语言模型已展现出超越文本处理的决策潜力，可以通过内部知识推理，在交互环境中做出行动选择。

不过这些语言模型在决策过程存在显著缺陷：模型能推导正确策略却无法执行（knowing-doing gap，纸上谈兵），过度偏好短期高回报选项（greediness，贪婪选择），较小模型还会机械重复常见动作（frequency bias，频次偏见）。

传统强化学习方法如 UCB 算法虽能平衡探索与利用，但难以解决模型内在的推理-行动脱节问题。

DeepMind 团队创新采用强化学习微调技术，以模型自生成的思维链作为训练信号，系统会评估每个推理步骤对应的行动奖励，促使模型优先选择逻辑自洽且实际高效的行动方案。

具体实施时，模型根据输入指令和行动-奖励历史生成包含推理过程与动作的序列，通过蒙特卡洛（Monte Carlo）基线评估和广义优势估计进行优化；无效动作会触发惩罚机制，而奖励塑造技术既保证输出格式规范，又保留探索空间。

在 10 臂的多臂老虎机（multi-armed bandit，MAB，有拥有 N 根拉杆的老虎机，拉动每一根拉杆都对应一个关于奖励的概率分布）测试中，2B 参数模型的动作覆盖率提升 12 个百分点；面对 20 臂时改善幅度虽小但仍有意义，其频次偏见率从 70% 骤降至 35%。

谷歌 DeepMind 新研究强化思维链训练，让 AI 语言模型不再“纸上谈兵”

井字棋实验中，模型对阵随机对手的胜率提升 5 倍，与最优蒙特卡洛树搜索代理的对战平均回报从-0.95 归零。值得注意的是，27B 大模型生成正确推理的概率达 87%，但未微调时仅 21% 会执行最优动作，该强化学习微调有效缩小了这一差距。

相关资讯