强化学习

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

刘子儒博士毕业于香港城市大学数据科学专业，导师为赵翔宇教授及数学家周定轩教授。目前就职于华为香港研究所小艺团队，负责 RLVR 算法与扩散语言模型方向的研究。龚成目前在香港城市大学攻读博士学位，导师为张青富教授。

7/28/2025 9:12:00 AM

AREAL 开源：解耦架构与创新算法驱动的强化学习系统

大家好，我是肆〇柒。推理能力在当下 AI 领域，尤其自然语言处理、智能决策系统、科学研究辅助等众多关键领域，已然成为推动技术革新的关键要素。然而，目前大型语言模型虽已取得瞩目成果，但在处理复杂逻辑时，常受困于逻辑连贯性把控，长链推理面临信息丢失、逻辑断裂问题，长序列输出任务下推理耗时久、资源消耗大，这些痛点严重制约模型应用场景拓展与性能深化。

7/25/2025 9:03:24 AM

肆零柒

投奔小扎，Jason Wei连发两篇博文公布“屠龙术”：一个公式看透AI，一条心法指引人生

Jason Wei:OpenAI研究科学家，OpenAI思维链研究开创者，《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者，谷歌学术他引17000余次（CoT单篇），高中学历，毕业于全美顶级的科技高中：托马斯·杰弗逊科学技术高中，sat 2390（2400满分），强化学习大神。在刚刚爆出被小扎挖走，加入meta超级智能实验室后，Jason Wei 连发两篇文章，一篇是关于 AI 发展的核心驱动力公式——“验证者定律”，另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”，这可能就是jason wei 在OpenAI最后的遗作了吧。验证者定律说的是：训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。

7/17/2025 9:24:08 AM

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）Meta 化身“人才收割机”的节奏简直停不下来。此前从 OpenAI、谷歌花天价薪酬挖走了多达 8 位顶尖人才。现在，那个让我们非常熟悉的、经常在直播宣发中出现的大佬，o 系列模型的两位核心研究人员 Jason Wei 和 Hyung Won Chung，也被 Meta 一道挖走了。

7/16/2025 3:28:52 PM

云昭

打造全球首个强化学习云平台，九章云极是如何做到的？

从 ChatGPT 引发的通用聊天机器人热潮，到如今正迅猛发展的智能体模型，AI 正在经历一次深刻的范式转变：从被动响应的「语言模型」，走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。在这场转变中，强化学习（RL）正在重新登上舞台中央，成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能（AGI）的关键技术。

7/16/2025 1:10:00 PM

机器之心

强化学习也遇到了“天花板”？Andrej Karpathy构建了一个新算法

RL还行不行？表面上很风光，但真实情况怎样呢？大神Karpathy提出了一种超越当前RL范式、更接近人类学习机制的新思路强化学习的强大与局限Karpathy首先肯定了强化学习的巨大价值。

7/14/2025 9:26:45 AM

OctoThinker：借“中期训练”之力，缩小 Llama 和 Qwen 模型的差距

大家好，我是肆〇柒，大型语言模型（LLM）通过链式思考（CoT）进行深度推理，并借助大规模强化学习（RL）在复杂任务（如竞赛级数学问题解决）上取得了显著进展。 OpenAI 的 o1、o3 等模型在数学推理任务上表现卓越，这些模型通常采用多层神经网络架构，通过大规模数据训练捕捉语言的复杂模式，从而实现高效的文本生成和推理。而 DeepSeek-R1-Zero 等模型在基础语言模型上直接应用大规模 RL 也展现了有趣的推理行为。

7/10/2025 10:25:23 AM

肆零柒

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B模型的数学推理能力和顶尖商业大模型差在哪里？香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：. 通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

7/9/2025 2:58:32 PM

不圆

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

henry 发自凹非寺. 量子位 | 公众号 QbitAI学好数理化，走遍天下都不怕！这一点这在大语言模型身上也不例外。

7/8/2025 5:08:45 PM

henry

RL 圈的夏夜之约！12 人唠嗑局：当强化学习撞上大模型 Agent

🌟 嘿！ RL 圈的潮玩咖看过来！大模型时代卷起技术狂潮，强化学习（RL）早已不是 “小众玩家”，当它牵手大模型智能体，直接开启「王炸组合」模式！

7/8/2025 12:48:00 PM

机器之心

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小型模型强化学习能力的探索。

7/3/2025 12:00:57 PM

AI在线

重大突破！研究团队揭示大语言模型内部潜藏的 “奖励机制”

近日，南京大学的周志华教授团队发布了一项重要研究，首次理论证明了在大语言模型中可以发现内源性奖励模型，并有效应用强化学习（RL）来提升模型表现。当前，许多对齐方法依赖于人类反馈强化学习（RLHF），这种方法需要大量高质量的人类偏好数据来训练奖励模型。然而，构建这样一个数据集不仅耗时费力，还面临成本高昂的挑战。

7/2/2025 6:00:45 PM

AI在线

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

大模型可以不再依赖人类调教，真正“自学成才”啦？新研究仅通过RLVR（可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会“自学”！当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表，这使得它们在面对复杂任务时难以实现真正的智能行为演化。

7/1/2025 9:05:28 AM

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

本文第一作者是西湖大学博士生冯睿骐，通讯作者为西湖大学人工智能系助理教授吴泰霖。吴泰霖实验室专注于解决 AI 和科学交叉的核心问题，包含科学仿真、控制、科学发现。在解决离线强化学习、图片逆问题等任务中，对生成模型的能量引导（energy guidance）是一种可控的生成方法，它构造灵活，适用于各种任务，且允许无额外训练条件生成模型。

6/30/2025 8:36:00 AM

无需数据标注：RLSC 如何用“自我信心”优化语言模型

大家好，我是肆〇柒。当下，大型语言模型（LLM）如 ChatGPT、Qwen 等展现出了卓越的推理能力，能够在多种任务中提供高质量的解决方案。然而，尽管这些模型具有强大的基础能力，但要使其行为与特定任务目标精准对齐，后训练优化仍然是不可或缺的关键步骤。

6/27/2025 4:00:00 AM

肆零柒

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

近日，来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习（RL），在视觉生成任务中显著提升了 AI 的语义和空间推理能力，成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

6/26/2025 1:00:48 PM

AI在线

让多模态大模型「想明白再画」！港大等开源GoT-R1：强化学习解锁视觉生成推理新范式

当前，多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展，但在处理包含精确空间关系、多对象属性及复杂组合的指令时，仍面临挑战。针对此，来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队，继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后，现推出重要进展 ——GoT-R1。该新框架通过引入强化学习，显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力，使其能够超越预定义模板，自主探索和学习更优的推理策略。

6/26/2025 9:13:22 AM

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

第一作者谢云飞是莱斯大学博士生，导师为通讯作者魏晨教授，研究方向包括多模态生成与理解。 Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生，导师为 Bloomberg Distinguished Professor Alan Yuille。第二作者马崟淞是约翰斯・霍普金斯大学博士生。

6/25/2025 9:28:38 AM

资讯热榜

阿里推出 AI 医学助手 App“氢离子”：收录千万级核心期刊文献，还可查疾病、找药品 Lovart 实战深度测评！仅需4小时帮你完成一整套品牌全案设计！性能比肩 Gemini-2.5 pro、o4-mini：阿里通义千问 Qwen 3 推理模型超级进化，现已开源 Meta 被指控盗用 2000 余部成人影片训练 AI，或面临 3.5 亿美元天价赔偿刷新无监督异常检测上限！首提「匹配代价滤波for异常检测」范式 | ICML'25 AI和云基础设施初创企业E2B如何成为88%的财富100强企业的必备选择 OpenAI 董事会主席：如果你想快速烧掉百万美元，就开发自己的 AI 模型吧业界首个，腾讯混元 3D 世界模型正式发布并开源

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini AI创作马斯克论文智能体 Anthropic 英伟达代码算法训练 Stable Diffusion 芯片蛋白质开发者腾讯生成式 LLM 苹果 Claude 神经网络 AI新词 3D 研究机器学习生成 AI for Science Agent xAI 计算人形机器人 Sora AI视频 GPU AI设计百度华为搜索大语言模型工具场景字节跳动具身智能 RAG 大型语言模型预测深度学习伟达视觉 Transformer AGI 视频生成神器推荐亚马逊 Copilot DeepMind 架构模态应用

强化学习

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

AREAL 开源：解耦架构与创新算法驱动的强化学习系统

投奔小扎，Jason Wei连发两篇博文公布“屠龙术”：一个公式看透AI，一条心法指引人生

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

打造全球首个强化学习云平台，九章云极是如何做到的？

强化学习也遇到了“天花板”？Andrej Karpathy构建了一个新算法

OctoThinker：借“中期训练”之力，缩小 Llama 和 Qwen 模型的差距

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&amp;字节Seed&amp;复旦

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

RL 圈的夏夜之约！12 人唠嗑局：当强化学习撞上大模型 Agent

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

重大突破！研究团队揭示大语言模型内部潜藏的 “奖励机制”

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

无需数据标注：RLSC 如何用“自我信心”优化语言模型

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

让多模态大模型「想明白再画」！港大等开源GoT-R1：强化学习解锁视觉生成推理新范式

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦