1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

当大模型在数学题和代码任务里“卷”参数规模时，一支来自快手和清华的团队给出了不同答案——. 他们用1.5B参数的小模型，在多个推理基准上干过了同量级SOTA。秘密在于给模型的“学习过程”做了精细化管理：让该记牢的知识稳住，让该灵活的推理放开。

当大模型在数学题和代码任务里“卷”参数规模时，一支来自快手和清华的团队给出了不同答案——

他们用1.5B参数的小模型，在多个推理基准上干过了同量级SOTA。

秘密在于给模型的“学习过程”做了精细化管理：让该记牢的知识稳住，让该灵活的推理放开。

在多个挑战性的数学、代码评测基准上，该团队提出的Archer方法都展现出了强大的实力。

1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

目前，Archer的代码已开源，详细链接可见文末。

通过预训练，LLM能记住海量的知识。但要让这些知识转化为解决数学题、写复杂代码的推理能力，还得靠后续的强化学习（RL）优化。

其中，带可验证奖励的强化学习（RLVR）是当前的主流方法——简单地说，就是让模型不断尝试解题，通过“是否做对”的反馈调整行为，有点像人类“做题纠错”。

但问题来了：模型输出的内容里，有些是“知识型”的（比如“1+1=2”这类事实），有些是“推理型”的（比如“先算括号里，再算乘除”这类逻辑规划步骤）。

过去的RLVR方法要么“一视同仁”，给所有内容用一样的训练信号；要么“粗暴分割”，用梯度屏蔽把两类内容拆开训练。

结果往往是：要么知识逐渐变差（比如把公式记错），要么推理放不开（比如总用老套思路解题）。

快手和清华团队发现：这两类内容在模型里其实有明显特征：

低熵Token
（确定性高）：比如“3.14”、“def函数”，对应事实性知识，训练时不能乱改；
高熵Token
（不确定性高）：比如“因此”、“接下来”、“循环条件”，对应逻辑推理，需要多尝试。

但关键在于，这两类Token在句子里是“绑在一起”的——比如解数学题时，“因为2+3=5（低熵），所以下一步算5×4（高熵）”，拆开会破坏语义逻辑。

团队提出的Archer方法，核心是“双Token约束”——不拆分Token，而是给它们定制不同的训练规则。

简单说就是两步：

1.先给Token“贴标签”：用熵值分类型

通过计算每个Token的熵值（不确定性），自动区分“知识型”和“推理型”：

高熵Token：比如数学推理里的“接下来”、“综上”，代码里的“循环”、“判断”，是逻辑转折点；
低熵Token：比如“123”、“print”，是必须准确的事实性内容。

团队用“句子级熵统计”替代传统的“批次级统计”——比如同一道数学题，不同解法的Token熵分布不同，按句子单独划分，避免把“关键推理Token”误判成“知识Token”。

2.再给训练“定规矩”：差异化约束

对贴好标签的Token，用不同的规则训练：

推理型（高熵）Token：松约束。用更高的裁剪阈值（允许更大幅度调整）和更弱的KL正则（减少对原始策略的依赖），鼓励模型多尝试不同推理路径；
知识型（低熵）Token：紧约束。用更低的裁剪阈值和更强的KL正则，让模型“死死记住”正确知识，避免越训越错。

这样一来，知识和推理既能同步更新，又不互相干扰——就像老师教学生：基础公式要背牢，解题思路可以大胆试。

在最考验推理能力的数学和代码任务上，Archer的表现都很出色。

数学推理：解题正确率大幅提升

在AIME 2024/2025、Minerva等硬核数学基准上：

相比同基座的原始模型，Archer在AIME24上正确率提升18.1%，AIME25提升10.3%；
对比当前SOTA方法DAPO，Archer在AIME24上多对6.6%的题，AIME25多对5.2%；
1.5B参数的Archer-Math，直接超过了FastCuRL、Nemotron等同量级SOTA模型，平均正确率登顶。

代码生成：刷题能力显著增强

在LiveCodeBench（主流代码生成基准）v5/v6上：

相比DAPO，Archer在v5上正确率提升3.4%，v6提升2.6%；
超过了专门优化代码的DeepCoder-1.5B，成为同量级最佳代码生成模型之一。

效率方面，Archer只用单阶段训练、1900 H800 GPU小时（对比Nemotron的16000 H100小时），就实现了这些提升。

没有复杂的多轮训练，达到了“花小钱办大事”的效果。

Archer的核心洞察是：LLM推理能力不是“死记硬背”或“盲目试错”，而是知识稳定性和推理探索性的平衡。

团队通过实验验证了这种平衡的重要性：

若不给低熵Token加约束（KL=0），模型会很快“记混知识”，输出重复内容，性能崩塌；
若给高熵Token加严约束（裁剪阈值太小），模型推理“放不开”，学不到新方法；
只有让知识Token“稳”、推理Token“活”，才能既不丢基础，又能提升逻辑能力。

这种思路也解释了为什么小模型能逆袭——大模型的参数优势能堆出更多知识，但如果训练时“管不好”知识和推理的关系，能力提升反而受限。

Archer用精细化的Token管理，让小模型的每一个参数都用在刀刃上，学会如何更好的组织使用已有的知识。

论文链接：http://arxiv.org/abs/2507.15778 GitHub：https://github.com/wizard-III/ArcherCodeR

1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

相关资讯

阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

微软顶尖AI研究员加盟清华大学，强化中美科技人才竞争

1.5B刷新数学代码SOTA！快手&amp;清华精细化Token管理，LLM推理能力飙升

相关资讯

阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

微软顶尖AI研究员加盟清华大学，强化中美科技人才竞争

1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力