GRPO

大模型开始打王者荣耀了

9/2/2025 10:03:34 AM

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

GRPO 就像一个树节点，从这里开始开枝散叶。大语言模型的发展真是日新月异。从 DeepSeek 横空出世以来，其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。

9/1/2025 11:33:00 AM 机器之心

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

大家好，我是肆〇柒。今天，我们来探讨一篇来自IBM Research的前沿论文《REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS: GRPO’S EFFECTIVE LOSS, DYNAMICS, AND SUCCESS AMPLIFICATION》。这篇论文由Youssef Mroueh撰写，聚焦于强化学习（Reinforcement Learning, RL）领域中一个极具潜力的研究方向——如何通过可验证奖励（RLVR）来优化大型语言模型（LLM）的训练。

5/30/2025 4:00:00 AM 肆零柒

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

DeepSeek-R1引爆了LLM推理革命。至今，过去一百多天了，引发了持续复制DeepSeek-R1的热潮。 DeepSeek-R1的秘籍在于强化学习微调算法：群体相对策略优化（Group Relative Policy Optimization，GRPO）。

5/26/2025 4:00:00 AM 新智元

逆天改命！Flow-GRPO 让图像生成模型秒变 “大神”

家人们，今天必须给你们唠唠科研界的一项超酷新成果 ——Flow-GRPO!这东西可不得了，它就像是给图像生成模型打了一针 “超级进化剂”，直接让它们从 “青铜” 一路飙升到 “王者”。想知道它是怎么做到的吗?快搬好小板凳，听我细细道来!图像生成模型的 “成长烦恼”现在的图像生成模型，比如基于流匹配（Flow matching）的那些，理论基础那叫一个扎实，生成的高质量图像也让人眼前一亮。但它们也有自己的 “小烦恼”，遇到复杂场景，像要安排好多物体、处理各种属性和关系，或者是在图像里准确渲染文本的时候，就有点 “抓瞎” 了。

5/14/2025 11:00:52 AM AI在线

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。与此同时，离散扩散大语言模型（dLLM）成为有潜力的语言建模的非自回归替代。

4/20/2025 2:34:00 PM 机器之心

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化（Group Relative Policy Optimization，GRPO）已被证明是一种有效的算法，可用于训练大语言模型（LLMs），使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调（Supervised Fine-Tuning）与 GRPO 技术的结合，引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。为了进一步探索其实践应用，我们尝试将这些技术应用于现实场景中。

4/7/2025 2:25:00 AM

机器学习|从0开发大模型之DeepSeek的GRPO

DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩，论文发表于2024年2月份：，以下是该论文的摘要原文：复制翻译如下：复制对比数据1、什么是GRPOGRPO 是一种在线学习算法，核心思想是通过组内相对奖励来估计基线，从而避免使用额外的价值函数模型。通过在训练期间使用受训模型自身生成的数据来迭代改进，GRPO 旨在最大化生成补全的优势，同时确保模型保持接近参考策略，下图是论文中的算法流程图：GRPOGRPO 是 PPO (Proximal Policy Optimization，近端策略优化，是一种强化学习算法，由OpenAI于2017年提出，旨在解决策略梯度方法中的训练不稳定问题) 的变体，主要区别是：GRPO 省略 value function modelGRPO 奖励计算，改成了一个 q 生成多个 r，然后 reward 打分GRPO算法流程：采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练，逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练，参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。

4/3/2025 3:40:41 PM 周末程序猿

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 critic 模型的需求。但是，这又需要为每个问题都采样一组完成结果，进而让训练过程的计算成本较高。

4/1/2025 11:54:00 AM 机器之心

GRPO在《时空谜题》中击败o1、o3-mini和R1

近日，海外大模型产品平台 OpenPipe 上发布了一项研究，阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Research 的强化学习研究员 Brad Hilton 和 OpenPipe 的创始人 Kyle Corbitt。他们的研究表示，他们不仅将模型与 Sonnet 3.7 的差距缩小至个位百分比，同时实现超过100倍的推理成本优化。

3/27/2025 4:19:00 PM 洪雨欣

Groundlight 开源框架，搞定复杂的视觉推理

一直专注于让AI看懂世界的 Groundlight 研究团队，近日放大招，宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理，让AI不仅能“看图识物”，更能像福尔摩斯一样，从图像中推理出更深层次的信息。我们都知道，现在的AI在识别猫猫狗狗方面已经炉火纯青，但要让它们理解图片背后的逻辑关系，进行更复杂的推理，就常常“卡壳”。 Groundlight 的研究人员指出，当前的视觉语言模型（VLM）在理解图像本身尚且不足的情况下，更难以完成需要深度解读的任务。

3/17/2025 3:00:00 PM AI在线

通俗讲解DeepSeek中的GRPO：强化学习里的神奇算法

在人工智能快速发展的时代，强化学习是其中的关键技术，它让机器能够像人一样，在不断尝试中学习怎么做是最好的。今天要讲的 GRPO（Group Relative Policy Optimization），也就是群体相对策略优化算法，是强化学习里非常厉害的存在。接下来，就带大家走进deepseek（Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升） GRPO 的奇妙世界，看看它到底是怎么回事。

3/11/2025 1:00:00 AM 大模型之路

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法》。简单来说，GRPO 算法丢弃了 critic model，放弃了价值函数近似，转而通过组内样本的相对比较来计算策略梯度，从而有效降低了训练的不稳定性，同时提高了学习效率。

3/2/2025 2:16:00 PM 机器之心

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。 VLM-R1的灵感源自于去年 DeepSeek 开源的 R1方法，该方法利用了 GRPO（Generative Reward Processing Optimization）强化学习技术，在纯文本处理上取得了优异的表现。

2/20/2025 4:44:00 PM AI在线

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, LLMs）推理能力的重要技术手段，特别是在需要复杂推理的任务中。 DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的突破性成果，充分展示了强化学习在增强语言模型数学推理和问题解决能力方面的巨大潜力。这些成果的取得源于一种创新性的强化学习方法——群组相对策略优化（Group Relative Policy Optimization, GRPO）。

2/17/2025 10:40:20 AM 佚名

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

RTX 3080 移动版能训练哪种大模型？本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。

2/7/2025 1:48:00 PM 机器之心

DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。 GRPO 是一种在线学习算法（online learning algorithm），它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。

2/7/2025 1:45:58 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

GRPO

大模型开始打王者荣耀了

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

逆天改命！Flow-GRPO 让图像生成模型秒变 “大神”

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

机器学习|从0开发大模型之DeepSeek的GRPO

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

GRPO在《时空谜题》中击败o1、o3-mini和R1

Groundlight 开源框架，搞定复杂的视觉推理

通俗讲解DeepSeek中的GRPO：强化学习里的神奇算法

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破