AI在线 AI在线

X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习

年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。 无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。 GRPO 的核心思路很简单却强大:对同一个问题,同时生成多条解答路径(rollout)给这些路径打分,比较组内优劣再根据优势信号来更新模型参数,让模型越来越偏好高质量解法这种「多路径并行 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数,💰 太贵了!
图片

年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。

GRPO 的核心思路很简单却强大:

  • 对同一个问题,同时生成多条解答路径(rollout)

  • 给这些路径打分,比较组内优劣

  • 再根据优势信号来更新模型参数,让模型越来越偏好高质量解法

这种「多路径并行 + 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数,💰 太贵了!

  • 在 32B 量级的模型上训练一次 RL,就可能要花掉上万美元

  • 如果是 600B 级别的超大模型,成本和工程难度更是上天

这让 GRPO 虽然强大,却几乎只能由巨头来玩,中小团队和个人开发者根本「玩不起」。

能不能不改模型参数,也来跑一遍 GRPO?

腾讯优图的一篇最新论文就提出了一个非常有意思的答案:既然更新参数这么贵,那就不更新参数,直接把 GRPO 的「学习过程」搬进上下文空间!

图片
  • 论文标题:Training-Free Group Relative Policy Optimization

  • arXiv 链接:https://arxiv.org/abs/2510.08191

  • GitHub 地址:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中:

图片
  • 训练集上多轮迭代学习,然后在独立的测试集上验证

  • 每轮中,对同一道题目并行生成多条解答(Rollout)

  • 对比组内不同解法的差异,提取文本型组内优势(Semantic Group Advantage),对齐 GRPO 里的数值型组内优势

  • 根据这些文本优势优化一个文本型 LoRA,对齐 GRPO 里的参数型 LoRA

举个例子,对于训练集里这道数学几何题,模型会生成多个不同的解答路径(Rollout),可能会出现不同的解题路径,有的做对了有的做错了。

图片

随后,模型总结不同解法的过程与正确性,从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势:总结出有的做法为什么对,有的做法为什么错。比如例子里:

  • 错误的解法不仅设错方向,还没有做条件约束检查

  • 成功的解法则正确了设定坐标方向,也系统化验证了所有条件

在一个迭代里,得到每道题的文本型组内优势后,模型就把当前批次的优势都更新文本型 LoRA 里,也就是对经验库进行增删改,沉淀学习到的经验。

实验效果

在数学推理上,仅用 100 个训练样本,花费约 8-18 美元,就能在已经足够强大的 671B 模型上继续提升性能。

无论是否采用代码工具(CI,code interpreter)帮助解题,在 AIME 榜单上的 Mean@32 指标都能实现提升。

图片

令人惊喜的是,在三个轮次中,训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会代理找捷径,更高效明智地使用工具。

图片

而在网页搜索场景中,Training-Free GRPO 同样无需更新模型参数,即可在 DeepSeek-V3.1-Terminus 强悍水平之上,实现了 4.6% 的 Pass@1 显著提升。

图片

为什么需要 Training-Free GRPO?

  • 保留 GRPO 的强化学习优势

多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少,全部在上下文层面重现了出来。

  • 成本暴降

不用训练模型参数,仅需少量数据,并且全程只靠 API 随用随付!

图片

只需 8~18 美元以及 100 条训练数据,就能在 671B LLM 上跑完多轮的强化学习训练!远远低于 32B 模型的训练成本。

  • 泛化更好

与 Self-Refine 这类就地改写不同,Training-Free GRPO 是在独立数据集上多轮迭代训练的,对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。

并且,参数微调后的 32B 级别模型往往只能胜任特定窄域任务,可能需要多个专用模型来覆盖完整业务需求,显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景!

小结:RL 不一定非得有梯度

过去我们默认,强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 与他们不同,完全对齐了参数空间 RL 训练的流程和细节:

  • 把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式,整体迁移到上下文空间,在不训练模型的情况下,也能获得强化学习效果。

  • 这让超大模型的 RL 优化变得廉价、灵活、可持续,也给每个开发者的小业务提供了用得起的新方案。

本文方法已开源,欢迎 Star 和试用!

预告:Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中,帮助开发者们进一步提升各种自定义场景的效果。 

注:成本计算基于 DeepSeek API 官方定价,实际可能因使用情况而有所波动。

相关资讯

彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

从 125M 到 1.3B 的大模型,性能都有提升。难以置信,这件事终于发生了。一种全新的大语言模型(LLM)架构有望代替至今在 AI 领域如日中天的 Transformer,性能也比 Mamba 更好。本周一,有关 Test-Time Training(TTT)的论文成为了人工智能社区热议的话题。论文链接:、加州大学伯克利分校、加州大学圣迭戈分校和 Meta。他们设计了一种新架构 TTT,用机器学习模型取代了 RNN 的隐藏状态。该模型通过输入 token 的实际梯度下降来压缩上下文。该研究作者之一 Karan
7/10/2024 11:20:00 AM
机器之心

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

昨天,The Information 的一篇文章让 AI 社区炸了锅。 这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继。 此外,OpenAI 研究者 Noam Brown 指出,更先进的模型可能在经济上也不具有可行性,因为花费数千亿甚至数万亿美元训练出的模型会很难盈利。
11/12/2024 1:15:00 PM
机器之心

Google DeepMind Launches AlphaEvolve: AI Breaks a 56-Year Record in Mathematics and Optimizes Its Own Training System

Google DeepMind today released AlphaEvolve, an artificial intelligence agent with self-evolution capabilities that can independently invent complex computer algorithms and has been widely applied in Google's data centers, chip design, and AI model training, achieving significant results.AlphaEvolve combines the Gemini large language model with evolutionary optimization methods to automatically test, improve, and enhance the entire codebase, not just a single function. This system has quietly run internally for over a year, improving computing resource scheduling efficiency, accelerating model training, and achieving breakthroughs in mathematical research.From Servers to Chips: AlphaEvolve Optimizes Google's Underlying ArchitectureThe scheduling algorithm proposed by AlphaEvolve has already been deployed in Google's global data centers, addressing the "resource stranded" problem and recovering 0.7% of resources.
5/15/2025 10:01:58 AM
AI在线
  • 1