AI在线 AI在线

分布锐化

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大,几乎已经成为推理模型训练流程中的标配,也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。 现在,问题来了:要让大模型学会推理,强化学习是必需的吗? 近日,哈佛大学一篇论文探索了能否不使用任何额外训练,通过纯粹的采样让基础模型表现出推理能力。
10/22/2025 5:08:00 PM
机器之心
  • 1