AI在线 AI在线

RiskPO

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。 研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。 从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。
10/15/2025 11:18:00 AM
机器之心
  • 1