SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

作者彭若天是西湖大学和浙江大学联培博士生，任毅是不列颠哥伦比亚大学博士，郁昼亮是香港中文大学博士生，刘威杨是香港中文大学计算机系助理教授，温研东是西湖大学人工智能系助理教授随着 Deepseek-R1，Kimi1.5 等模型展示了强化学习在提升大型语言模型复杂推理能力上的巨大潜力，使用可验证强化学习（RLVR）在数学、逻辑与编程等领域进行训练提升模型性能受到了广泛关注。然而，尽管现有 RLVR 方法在提升模型的 pass@1 性能（单次尝试正确的概率）方面取得了显著成果，但其在 pass@K（K 次尝试中至少一次正确的概率，K1）上的性能相比基础模型却下降了。这一现象表明，虽然模型在「利用」（Exploitation）单一正确路径的能力有所增强，但牺牲了对多样化正确解的「探索」（Exploration）能力。

作者彭若天是西湖大学和浙江大学联培博士生，任毅是不列颠哥伦比亚大学博士，郁昼亮是香港中文大学博士生，刘威杨是香港中文大学计算机系助理教授，温研东是西湖大学人工智能系助理教授

随着 Deepseek-R1，Kimi1.5 等模型展示了强化学习在提升大型语言模型复杂推理能力上的巨大潜力，使用可验证强化学习（RLVR）在数学、逻辑与编程等领域进行训练提升模型性能受到了广泛关注。

然而，尽管现有 RLVR 方法在提升模型的 pass@1 性能（单次尝试正确的概率）方面取得了显著成果，但其在 pass@K（K 次尝试中至少一次正确的概率，K>1）上的性能相比基础模型却下降了。

这一现象表明，虽然模型在「利用」（Exploitation）单一正确路径的能力有所增强，但牺牲了对多样化正确解的「探索」（Exploration）能力。

针对这一问题，研究团队从「模型预测下一个词的概率分布」这一新视角出发，深入研究了「探索」能力下降的内在机制。大量实验发现，经过现有 RLVR 算法训练后的模型，多数存在概率集中于单一推理路径的问题。

受该现象启发，研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization)，显著优化了 pass@K（K=1 及 K>1）性能。

图 1

论文地址：https://arxiv.org/abs/2510.14807
项目主页：https://spherelab.ai/simko/
代码仓库：https://github.com/CLR-Lab/SimKO

问题分析：导致 RLVR 探索能力下降的原因是什么？

当前主流的大语言模型强化学习算法（如 GRPO、DAPO 等）采用 RLVR 范式，其训练方法可以直观理解为：模型对每个问题生成多个答案，对正确答案给予奖励，对错误答案施加惩罚。在理想的探索状态下，模型能够在多个潜在正确推理路径之间分配相对均匀的概率质量，不应将概率过度集中于某一条正确路径上，如图 2 (a) 和 (b) 所示。

同时，团队认为当前的用熵（Entropy）作为指标衡量多样性存在局限：熵无法具体反映概率分布的形态。如图 2（c）所示，两个具有相同熵值的分布，一个可能包含多个峰值，而另一个则可能高度集中于一个峰值。

因此，熵无法精确描述模型在推理过程中对不同推理路径的真实探索程度。

图 2

因此，团队引入了一种新的分析指标，用于更加精细地观察训练过程中的学习动态：该指标通过测量模型在生成过程中，反映下一 token 后验概率分布的不同排名候选词（rank-k candidate）的平均对数概率（average log-probability），从而实现对概率分布演化动态的直接观测。

通过这一新指标，作者发现 RLVR 训练机制存在一个系统性偏差（如图 3 所示）：

它会持续强化 rank-1 候选词的概率，同时显著抑制其他较低排名（rank-k, k>1）的候选路径，即使那些路径同样是正确的。

这种机制导致了模型输出分布的「过度集中」。模型的概率质量过度汇聚于单一的推理路径，导致其丧失了生成多样化正确答案的能力。

更重要的是，进一步实验分析明确揭示了概率过度集中问题与 pass@K 性能的下降之间存在强相关性：当模型概率分布越集中于 rank-1 答案，而 rank-2 和 rank-3 的概率越低的时候，其 pass@K 指标也随之降低。

图 3

SimKO：一种非对称的梯度调节策略

图 4

为解决上述的概率过度集中问题，研究团队提出了 SimKO (Simple Pass@K Optimization)。其核心机制在于对探索 token 施加非对称的更新策略（如图 4 所示）：即在正确的推理路径上实现概率平滑，而在错误的推理路径上施加精准惩罚。

(A) 关键节点的识别

SimKO 并非对所有 token 进行无差别调节。它首先识别推理路径中具有高熵的 token，这些 token 代表了模型面临多个高概率选项、可能产生不同推理方向的关键节点。因此 SimKO 更新策略只应用于这些关键节点。

(B) 正确路径：实施 top-K Label Smoothing

传统方法 (GRPO): 仅提升被采样到的单个正确 token 的概率。由于推理路径是由模型自行采样的，因此采样到的的 token 是 rank-1 候选 token 的概率较高高，这是导致概率过度集中于 rank-1 的直接原因。这种机制容易使概率质量集中在单路径，从而抑制了对其他潜在正确路径的探索。
SimKO ：对正确的 token 使用 top-K label smoothing 策略。当一个采样路径被验证为正确时，SimKO 将奖励均匀分配给路径上的关键节点处概率最高的 top-K 个候选 token。该策略防止概率分布集中在单一的正确路径上，从而在强化正确路径的同时，维持了模型的探索多样性。

(C) 错误路径：对 rank-1 token 精准惩罚

传统方法 (GRPO): 对所有被采样到的错误 token 施加统一强度的惩罚。这种统一惩罚常导致「挤压效应」（Squeezing Effect）。即当一个非 rank-1 的错误候选 token 被惩罚时，这部分概率会被 rank-1 候选 token 吸收，从而提高 rank-1 token 的概率，这会让模型的概率分布更加集中。
SimKO ：对错误的 token 进行非对称惩罚。当采样的错误 token 恰好是 rank-1 候选时，施加显著更强的惩罚；而对其他（rank-k, k>1）错误候选则降低惩罚强度。这种策略缓解了惩罚非 rank-1 token 带来的概率集中问题，同时对 rank-1 token 实施更强的惩罚也防止模型陷入单一的错误推理模式。

实验分析：实现「探索」与「利用」的平衡

团队在多个数学推理基准（MATH500、AIME 2024/25、Minerva Math、OlympiadBench、AMC23）上对 Llama 和 Qwen 模型进行了系统性评估。如表 1 所示，SimKO 策略在显著提升 pass@K 性能的同时，成功保持（或略微提升）了 pass@1 准确率，证明其有效平衡了「探索」与「利用」。

表 1

为了验证 SimKO 是否有效缓解了概率分布过度集中问题，研究团队使用上述新提出的分析指标，追踪了模型使用不同 RLVR 算法训练过程中的学习动态（如图 5 所示）：

GRPO：随着训练的进行，模型表现出严重的概率过度集中现象。rank-1 的概率迅速收敛至接近 1，而 rank-2 与 rank-3 的概率则降低至 10⁻⁸ 与 10⁻¹⁰以下。这表明，几乎所有的概率质量都集中到了 rank-1 token 上，导致模型训练后丧失了探索能力。
SimKO：相比之下，SimKO 展示出了有效的缓解概率集中效果。其 rank-1 的概率显著低于 GRPO，同时为 rank-2 与 rank-3 保留了更高的概率质量。这一结果有力地表明了 SimKO 通过缓解了概率过度集中问题，从而提升了模型的探索能力，进而提升 pass@K 性能。

图 5

SimKO 不仅在数学推理任务上表现优异，在逻辑推理任务中同样具有出卓越的泛化效果（见表 2）：

Synlogic (分布内任务): SimKO 相比 GRPO 表现出更好的性能，pass@1 提升 31.6%，pass@128 提升 26.3%。相比之下，NSR 和 W-REINFORCE 在此任务上未能有效收敛（pass@1 仅 1.1% 和 0.8%）。
BBH (分布外任务): SimKO 在提升 pass@1（+16%）的同时，pass@128 依然有良好的性能（92%）表现。而对照组 GRPO（88.2%）和 PSR （82.8%）则在 pass@128 相比基础模型出现了显著的性能衰减。