AI在线 AI在线

Training-Free GRPO

X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习

年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。 无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。 GRPO 的核心思路很简单却强大:对同一个问题,同时生成多条解答路径(rollout)给这些路径打分,比较组内优劣再根据优势信号来更新模型参数,让模型越来越偏好高质量解法这种「多路径并行 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数,💰 太贵了!
10/22/2025 5:02:00 PM
机器之心
  • 1