强化学习

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。指导老师：万方，中国科学院大学计算机学院副教授，博导。

8/13/2025 9:25:06 AM

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

面对对抗攻击，具身智能体除了被动防范，也能主动出击！在人类视觉系统启发下，清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。该框架让智能体也能学会“看第二眼”，提升对抗场景下的感知鲁棒性。

8/13/2025 9:07:00 AM

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习任意一张牌，往往就是王炸。专注于LLM RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。只需一个MCP Server的地址，agent就能自动发现工具、生成任务，通过强化学习在闭环反馈中摸索出最优调用策略。

8/8/2025 9:15:00 AM

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

刘子儒博士毕业于香港城市大学数据科学专业，导师为赵翔宇教授及数学家周定轩教授。目前就职于华为香港研究所小艺团队，负责 RLVR 算法与扩散语言模型方向的研究。龚成目前在香港城市大学攻读博士学位，导师为张青富教授。

7/28/2025 9:12:00 AM

AREAL 开源：解耦架构与创新算法驱动的强化学习系统

大家好，我是肆〇柒。推理能力在当下 AI 领域，尤其自然语言处理、智能决策系统、科学研究辅助等众多关键领域，已然成为推动技术革新的关键要素。然而，目前大型语言模型虽已取得瞩目成果，但在处理复杂逻辑时，常受困于逻辑连贯性把控，长链推理面临信息丢失、逻辑断裂问题，长序列输出任务下推理耗时久、资源消耗大，这些痛点严重制约模型应用场景拓展与性能深化。

7/25/2025 9:03:24 AM

肆零柒

投奔小扎，Jason Wei连发两篇博文公布“屠龙术”：一个公式看透AI，一条心法指引人生

Jason Wei:OpenAI研究科学家，OpenAI思维链研究开创者，《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者，谷歌学术他引17000余次（CoT单篇），高中学历，毕业于全美顶级的科技高中：托马斯·杰弗逊科学技术高中，sat 2390（2400满分），强化学习大神。在刚刚爆出被小扎挖走，加入meta超级智能实验室后，Jason Wei 连发两篇文章，一篇是关于 AI 发展的核心驱动力公式——“验证者定律”，另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”，这可能就是jason wei 在OpenAI最后的遗作了吧。验证者定律说的是：训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。

7/17/2025 9:24:08 AM

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）Meta 化身“人才收割机”的节奏简直停不下来。此前从 OpenAI、谷歌花天价薪酬挖走了多达 8 位顶尖人才。现在，那个让我们非常熟悉的、经常在直播宣发中出现的大佬，o 系列模型的两位核心研究人员 Jason Wei 和 Hyung Won Chung，也被 Meta 一道挖走了。

7/16/2025 3:28:52 PM

云昭

打造全球首个强化学习云平台，九章云极是如何做到的？

从 ChatGPT 引发的通用聊天机器人热潮，到如今正迅猛发展的智能体模型，AI 正在经历一次深刻的范式转变：从被动响应的「语言模型」，走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。在这场转变中，强化学习（RL）正在重新登上舞台中央，成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能（AGI）的关键技术。

7/16/2025 1:10:00 PM

机器之心

强化学习也遇到了“天花板”？Andrej Karpathy构建了一个新算法

RL还行不行？表面上很风光，但真实情况怎样呢？大神Karpathy提出了一种超越当前RL范式、更接近人类学习机制的新思路强化学习的强大与局限Karpathy首先肯定了强化学习的巨大价值。

7/14/2025 9:26:45 AM

OctoThinker：借“中期训练”之力，缩小 Llama 和 Qwen 模型的差距

大家好，我是肆〇柒，大型语言模型（LLM）通过链式思考（CoT）进行深度推理，并借助大规模强化学习（RL）在复杂任务（如竞赛级数学问题解决）上取得了显著进展。 OpenAI 的 o1、o3 等模型在数学推理任务上表现卓越，这些模型通常采用多层神经网络架构，通过大规模数据训练捕捉语言的复杂模式，从而实现高效的文本生成和推理。而 DeepSeek-R1-Zero 等模型在基础语言模型上直接应用大规模 RL 也展现了有趣的推理行为。

7/10/2025 10:25:23 AM

肆零柒

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B模型的数学推理能力和顶尖商业大模型差在哪里？香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：. 通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

7/9/2025 2:58:32 PM

不圆

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

henry 发自凹非寺. 量子位 | 公众号 QbitAI学好数理化，走遍天下都不怕！这一点这在大语言模型身上也不例外。

7/8/2025 5:08:45 PM

henry

RL 圈的夏夜之约！12 人唠嗑局：当强化学习撞上大模型 Agent

🌟 嘿！ RL 圈的潮玩咖看过来！大模型时代卷起技术狂潮，强化学习（RL）早已不是 “小众玩家”，当它牵手大模型智能体，直接开启「王炸组合」模式！

7/8/2025 12:48:00 PM

机器之心

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小型模型强化学习能力的探索。

7/3/2025 12:00:57 PM

AI在线

重大突破！研究团队揭示大语言模型内部潜藏的 “奖励机制”

近日，南京大学的周志华教授团队发布了一项重要研究，首次理论证明了在大语言模型中可以发现内源性奖励模型，并有效应用强化学习（RL）来提升模型表现。当前，许多对齐方法依赖于人类反馈强化学习（RLHF），这种方法需要大量高质量的人类偏好数据来训练奖励模型。然而，构建这样一个数据集不仅耗时费力，还面临成本高昂的挑战。

7/2/2025 6:00:45 PM

AI在线

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

肆零柒

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型特斯拉场景深度学习亚马逊架构 Transformer MCP Copilot 编程视觉

强化学习

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

AREAL 开源：解耦架构与创新算法驱动的强化学习系统

投奔小扎，Jason Wei连发两篇博文公布“屠龙术”：一个公式看透AI，一条心法指引人生

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

打造全球首个强化学习云平台，九章云极是如何做到的？

强化学习也遇到了“天花板”？Andrej Karpathy构建了一个新算法

OctoThinker：借“中期训练”之力，缩小 Llama 和 Qwen 模型的差距

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

RL 圈的夏夜之约！12 人唠嗑局：当强化学习撞上大模型 Agent

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

重大突破！研究团队揭示大语言模型内部潜藏的 “奖励机制”

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

无需数据标注：RLSC 如何用“自我信心”优化语言模型

强化学习

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

AREAL 开源：解耦架构与创新算法驱动的强化学习系统

投奔小扎，Jason Wei连发两篇博文公布“屠龙术”：一个公式看透AI，一条心法指引人生

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

打造全球首个强化学习云平台，九章云极是如何做到的？

强化学习也遇到了“天花板”？Andrej Karpathy构建了一个新算法

OctoThinker：借“中期训练”之力，缩小 Llama 和 Qwen 模型的差距

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&amp;字节Seed&amp;复旦

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

RL 圈的夏夜之约！12 人唠嗑局：当强化学习撞上大模型 Agent

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

重大突破！研究团队揭示大语言模型内部潜藏的 “奖励机制”

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

无需数据标注：RLSC 如何用“自我信心”优化语言模型

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦