AI在线 AI在线

X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习

年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。 无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。 GRPO 的核心思路很简单却强大:对同一个问题,同时生成多条解答路径(rollout)给这些路径打分,比较组内优劣再根据优势信号来更新模型参数,让模型越来越偏好高质量解法这种「多路径并行 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数,💰 太贵了!
图片

年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。

GRPO 的核心思路很简单却强大:

  • 对同一个问题,同时生成多条解答路径(rollout)

  • 给这些路径打分,比较组内优劣

  • 再根据优势信号来更新模型参数,让模型越来越偏好高质量解法

这种「多路径并行 + 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数,💰 太贵了!

  • 在 32B 量级的模型上训练一次 RL,就可能要花掉上万美元

  • 如果是 600B 级别的超大模型,成本和工程难度更是上天

这让 GRPO 虽然强大,却几乎只能由巨头来玩,中小团队和个人开发者根本「玩不起」。

能不能不改模型参数,也来跑一遍 GRPO?

腾讯优图的一篇最新论文就提出了一个非常有意思的答案:既然更新参数这么贵,那就不更新参数,直接把 GRPO 的「学习过程」搬进上下文空间!

图片
  • 论文标题:Training-Free Group Relative Policy Optimization

  • arXiv 链接:https://arxiv.org/abs/2510.08191

  • GitHub 地址:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中:

图片
  • 训练集上多轮迭代学习,然后在独立的测试集上验证

  • 每轮中,对同一道题目并行生成多条解答(Rollout)

  • 对比组内不同解法的差异,提取文本型组内优势(Semantic Group Advantage),对齐 GRPO 里的数值型组内优势

  • 根据这些文本优势优化一个文本型 LoRA,对齐 GRPO 里的参数型 LoRA

举个例子,对于训练集里这道数学几何题,模型会生成多个不同的解答路径(Rollout),可能会出现不同的解题路径,有的做对了有的做错了。

图片

随后,模型总结不同解法的过程与正确性,从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势:总结出有的做法为什么对,有的做法为什么错。比如例子里:

  • 错误的解法不仅设错方向,还没有做条件约束检查

  • 成功的解法则正确了设定坐标方向,也系统化验证了所有条件

在一个迭代里,得到每道题的文本型组内优势后,模型就把当前批次的优势都更新文本型 LoRA 里,也就是对经验库进行增删改,沉淀学习到的经验。

实验效果

在数学推理上,仅用 100 个训练样本,花费约 8-18 美元,就能在已经足够强大的 671B 模型上继续提升性能。

无论是否采用代码工具(CI,code interpreter)帮助解题,在 AIME 榜单上的 Mean@32 指标都能实现提升。

图片

令人惊喜的是,在三个轮次中,训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会代理找捷径,更高效明智地使用工具。

图片

而在网页搜索场景中,Training-Free GRPO 同样无需更新模型参数,即可在 DeepSeek-V3.1-Terminus 强悍水平之上,实现了 4.6% 的 Pass@1 显著提升。

图片

为什么需要 Training-Free GRPO?

  • 保留 GRPO 的强化学习优势

多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少,全部在上下文层面重现了出来。

  • 成本暴降

不用训练模型参数,仅需少量数据,并且全程只靠 API 随用随付!

图片

只需 8~18 美元以及 100 条训练数据,就能在 671B LLM 上跑完多轮的强化学习训练!远远低于 32B 模型的训练成本。

  • 泛化更好

与 Self-Refine 这类就地改写不同,Training-Free GRPO 是在独立数据集上多轮迭代训练的,对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。

并且,参数微调后的 32B 级别模型往往只能胜任特定窄域任务,可能需要多个专用模型来覆盖完整业务需求,显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景!

小结:RL 不一定非得有梯度

过去我们默认,强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 与他们不同,完全对齐了参数空间 RL 训练的流程和细节:

  • 把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式,整体迁移到上下文空间,在不训练模型的情况下,也能获得强化学习效果。

  • 这让超大模型的 RL 优化变得廉价、灵活、可持续,也给每个开发者的小业务提供了用得起的新方案。

本文方法已开源,欢迎 Star 和试用!

预告:Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中,帮助开发者们进一步提升各种自定义场景的效果。 

注:成本计算基于 DeepSeek API 官方定价,实际可能因使用情况而有所波动。

相关资讯

NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT:仅30个样本教会大模型高效推理,token消耗降低50%

NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT:仅30个样本教会大模型高效推理,token消耗降低50%

近年来,以 OpenAI-o1、Qwen3、DeepSeek-R1 为代表的大型推理模型(LRMs)在复杂推理任务上取得了惊人进展,它们能够像人类一样进行长链条的思考、反思和探索。 然而,这些模型在面对精确的数学计算时,仍然会「心有余而力不足」,常常出现效率低下甚至算错的问题。 一个直观的解决方案,是为模型配备代码解释器(Code Interpreter)等计算工具。
11/13/2025 10:16:00 AM 机器之心
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。 不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 critic 模型的需求。 但是,这又需要为每个问题都采样一组完成结果,进而让训练过程的计算成本较高。
4/1/2025 11:54:00 AM 机器之心
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。 不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。 与此同时,离散扩散大语言模型(dLLM)成为有潜力的语言建模的非自回归替代。
4/20/2025 2:34:00 PM 机器之心