AI在线 AI在线

GVPO

NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式

大模型后训练(post-training)正在成为 AI 进化的关键一环。 从最早的 SFT(监督微调),再到近来大火的 GRPO,一条核心主线贯穿始终:如何让大模型具有更强的推理能力、更好地对齐人类偏好,同时保持稳定和高效。 然而,GRPO 虽然在 DeepSeek-R1 等项目中大放异彩,但其训练不稳定、超参数敏感的问题一直限制其大规模落地。
10/14/2025 10:27:00 AM
机器之心
  • 1