AI在线 AI在线

JustRL

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗? 清华团队用两个 1.5B 模型给出了答案:不仅可行,还特别高效。 核心发现: 单阶段训练 固定超参数 = SOTA 性能 省一半算力意外之喜: 训练曲线平滑得像教科书,4000 步没遇到任何 "典型问题"关键启示: 充分 scale 的简单 baseline,可能比我们想象的强大得多技术博客::::RL 训练小模型的 "技术军备竞赛"2025 年初,DeepSeek-R1 开源后,如何用 RL 训练 1.5B 级别的推理模型成为了热门研究方向。
11/13/2025 10:44:00 AM
机器之心