上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

作者：故渊 2025-06-04 07:37

上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府，组建国际团队研发新方法，通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府，组建国际团队研发新方法，通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

背景简介

大型语言模型（LLMs）近年来在推理能力上的突破，让强化学习（RL）的应用范围从单一任务扩展到更广泛的场景，这种进步赋予了模型更强的泛化能力和逻辑推理能力。

然而，与传统的模仿学习不同，强化学习需要更高的计算资源来支持从经验中学习，核心问题在于策略熵（反映了模型在利用已知策略和探索新策略之间的平衡）的下降。

熵值过低会导致模型过度依赖已有策略，丧失探索能力。这一探索-利用权衡（exploitation-exploration trade-off）是强化学习的基础，如何控制策略熵成为训练中的关键难题。

策略熵崩溃的理论与实践突破

为解决这一问题，研究团队提出了一个经验公式：R = −a exp H + b，其中 H 代表策略熵，R 为下游任务表现，a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系，指出熵耗尽是性能瓶颈。

上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

研究进一步分析了熵动态变化，发现其受动作概率与 logits 变化协方差的驱动。为此，团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术，分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。

上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

实验基于 Qwen2.5 模型和 DAPOMATH 数据集，覆盖数学任务，结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能，尤其在 AIME24 和 AIME25 等高难度基准测试中，32B 模型性能提升高达 15.0%。

上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试，参数规模从 0.5B 到 32B 不等，涵盖数学和编程任务的 8 个公开基准测试。

上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

训练采用 veRL 框架和零样本设置，结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明，Clip-Cov 和 KL-Cov 技术能维持更高的熵水平，例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。

上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

这不仅解决了策略熵崩溃问题，也为强化学习在语言模型中的扩展提供了理论支持。研究强调，熵动态是性能提升的关键瓶颈，未来需进一步探索熵管理策略，以推动更智能语言模型的发展。

AI在线附上参考地址

The Entropy Mechanism of Reinforcement Learning for Large Language Model Reasoning
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

相关标签：

AI

相关资讯

OpenAI开源客户服务代理框架加速企业级AI应用落地

OpenAI开源客户服务代理框架加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架，标志着该公司在企业级AI解决方案布局上迈出重要一步。该框架通过提供透明工具链和清晰实施案例，旨在推动智能代理系统从实验室走向实际商业应用。技术细节与核心优势.

6/19/2025 2:01:33 PM

AI在线

专家揭示构建稳健AI编排层的最佳实践

专家揭示构建稳健AI编排层的最佳实践

随着企业加速采用人工智能技术，如何有效管理复杂的AI工作流程成为关键挑战。最新行业分析指出，建立稳健的AI编排层是解决"提示词混乱"问题的有效方案。 AI编排框架的选择困境.

6/19/2025 2:01:28 PM

AI在线

2025年VentureBeat女性AI大奖入围名单正式公布

2025年VentureBeat女性AI大奖入围名单正式公布

2025年6月18日，科技媒体VentureBeat正式公布了2025年度女性AI大奖的最终入围名单。该奖项旨在表彰人工智能领域做出杰出贡献的女性从业者，推动行业多元化发展。奖项背景与意义VentureBeat女性AI大奖创立于2020年，已成为AI行业最具影响力的女性专项荣誉之一。

6/19/2025 2:01:33 PM

AI在线