AI在线 AI在线

QuestA

1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。 通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果:Pass@1 的 SOTA 性能:在 1.5B 模型上实现了最先进的结果,甚至在关键基准测试中超越了早期的 32B 模型。 提升 Pass@k:在提高 Pass@1 的同时,QuestA 不会降低 Pass@k 性能 —— 事实上,它通过让模型在多次尝试中进行更有效的推理,从而提升了模型能力。
10/3/2025 8:29:00 PM
机器之心
  • 1