AI在线 AI在线

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

背景简介

大型语言模型(LLMs)近年来在推理能力上的突破,让强化学习(RL)的应用范围从单一任务扩展到更广泛的场景,这种进步赋予了模型更强的泛化能力和逻辑推理能力。

然而,与传统的模仿学习不同,强化学习需要更高的计算资源来支持从经验中学习,核心问题在于策略熵(反映了模型在利用已知策略和探索新策略之间的平衡)的下降。

熵值过低会导致模型过度依赖已有策略,丧失探索能力。这一探索-利用权衡(exploitation-exploration trade-off)是强化学习的基础,如何控制策略熵成为训练中的关键难题。

策略熵崩溃的理论与实践突破

为解决这一问题,研究团队提出了一个经验公式:R = −a exp H + b,其中 H 代表策略熵,R 为下游任务表现,a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系,指出熵耗尽是性能瓶颈。

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

研究进一步分析了熵动态变化,发现其受动作概率与 logits 变化协方差的驱动。为此,团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术,分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

实验基于 Qwen2.5 模型和 DAPOMATH 数据集,覆盖数学任务,结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能,尤其在 AIME24 和 AIME25 等高难度基准测试中,32B 模型性能提升高达 15.0%。

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试,参数规模从 0.5B 到 32B 不等,涵盖数学和编程任务的 8 个公开基准测试。

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

训练采用 veRL 框架和零样本设置,结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明,Clip-Cov 和 KL-Cov 技术能维持更高的熵水平,例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

这不仅解决了策略熵崩溃问题,也为强化学习在语言模型中的扩展提供了理论支持。研究强调,熵动态是性能提升的关键瓶颈,未来需进一步探索熵管理策略,以推动更智能语言模型的发展。

AI在线附上参考地址

  • The Entropy Mechanism of Reinforcement Learning for Large Language Model Reasoning

  • The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

相关资讯

OpenAI开源客户服务代理框架 加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架,标志着该公司在企业级AI解决方案布局上迈出重要一步。 该框架通过提供透明工具链和清晰实施案例,旨在推动智能代理系统从实验室走向实际商业应用。 技术细节与核心优势.
6/19/2025 2:01:33 PM
AI在线

专家揭示构建稳健AI编排层的最佳实践

随着企业加速采用人工智能技术,如何有效管理复杂的AI工作流程成为关键挑战。 最新行业分析指出,建立稳健的AI编排层是解决"提示词混乱"问题的有效方案。 AI编排框架的选择困境.
6/19/2025 2:01:28 PM
AI在线

2025年VentureBeat女性AI大奖入围名单正式公布

2025年6月18日,科技媒体VentureBeat正式公布了2025年度女性AI大奖的最终入围名单。 该奖项旨在表彰人工智能领域做出杰出贡献的女性从业者,推动行业多元化发展。 奖项背景与意义VentureBeat女性AI大奖创立于2020年,已成为AI行业最具影响力的女性专项荣誉之一。
6/19/2025 2:01:33 PM
AI在线
  • 1