强化学习

强化学习之父：LLM主导只是暂时，扩展计算才是正解

这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。就在刚刚的新加坡国立大学建校120周年（NUS120）之际，Sutton受邀发表演讲——塑造AI和强化学习的未来。其实，这已经不是Sutton第一次在公开场合表达类似的观点，早在他19年的著作《痛苦的教训》中，他就明确提出：让AI尤其是LLM模仿人类思维方式，只能带来短期的性能提升，长期看只会阻碍研究的持续进步。

6/10/2025 11:22:09 AM

智能体式推理与工具集成：ARTIST 基于强化学习的新思路

大家好，我是肆〇柒。这两天，我看到一篇论文《Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning》讲述的是ARTIST 框架，为 LLM 赋予智能体式推理与工具集成的全新维度。今天，就一起了解一下这个 ARTIST 框架，看看 LLM 如何借助强化学习突破局限，开启智能体式推理与工具集成。

6/10/2025 2:30:00 AM

肆零柒

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

本文主要作者是吕昂和谢若冰。吕昂，中国人民大学博士生，研究方向为语言模型结构优化，导师为严睿教授；谢若冰，腾讯高级研究员，研究方向为大语言模型、推荐系统。最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

6/9/2025 9:04:00 AM

MARFT：多智能体协作与强化学习微调的协同进化

大家好，我是肆〇柒。今天，继续 RL 相关话题，我们来探讨一个在人工智能领域极具应用潜力的话题 —— Multi-Agent Reinforcement Fine-Tuning（MARFT）。这个概念融合了大型语言模型（LLM）、多智能体系统（LaMAS）和强化学习（RL）的精华，为解决复杂任务提供了全新的视角和方法论。

6/3/2025 6:12:03 AM

肆零柒

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

大家好，我是肆〇柒。今天，我们来探讨一篇来自IBM Research的前沿论文《REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS: GRPO’S EFFECTIVE LOSS, DYNAMICS, AND SUCCESS AMPLIFICATION》。这篇论文由Youssef Mroueh撰写，聚焦于强化学习（Reinforcement Learning, RL）领域中一个极具潜力的研究方向——如何通过可验证奖励（RLVR）来优化大型语言模型（LLM）的训练。

5/30/2025 4:00:00 AM

肆零柒

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

近期的推理大模型（LRMs）通过强化学习（RL）展现出强大的推理能力，但这些改进主要体现在短上下文推理任务中。相比之下，如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入，仍然是一个尚未解决的关键挑战。来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式，并识别出其中的两个核心挑战：次优的训练效率与不稳定的优化过程。

5/28/2025 11:46:52 AM

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。常见的 MLLM 结构。

5/26/2025 9:16:00 AM

机器之心

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）真实搜索引擎，可以有效提升大模型检索-推理能力。但问题来了：一方面，搜索引擎返回的文档质量难以预测，给训练过程带来了噪音和不稳定性。另一方面，RL训练需要频繁部署，会产生大量API开销，严重限制可扩展性。

5/19/2025 8:47:00 AM

DanceGRPO：首个统一视觉生成的强化学习框架

本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生，在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。项目通讯作者为黄伟林博士和罗平教授。

5/15/2025 9:04:00 AM

OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

ChatGPT推出后，迅速震惊了全球。自那以后，OpenAI一直站在AI技术发展的最前沿。去年9月，他们推出o系列模型，再次引领AI推理的浪潮。

5/14/2025 9:03:00 AM

新研究用逆强化学习识别 Reddit 用户行为：部分网友“就是爱抬杠”

以往的方法多半着眼于用户说了什么或和谁互动，但这些方式本身也有盲点。新研究提出了一个更有效的视角：观察用户的行为模式，而不仅仅是他们说的话。

5/12/2025 10:36:09 PM

清源

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？ OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

5/12/2025 9:02:00 AM

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

强化学习（RL）是当今 AI 领域最热门的词汇之一。近日，一篇长文梳理了新时代的强化学习范式对于模型提升的作用，同时还探索了强化学习对去中心化的意义。原文地址：「有时候几十年什么也不会发生；有时候几周时间仿佛过了几十年。

5/8/2025 9:16:00 AM

OTC‑PO重磅发布 | 揭开 o3 神秘面纱，让 Agent 少用工具、多动脑子！

王鸿儒目前就读于香港中文大学博士四年级（预计今年7月毕业），导师为黄锦辉教授，研究方向主要包括对话系统，工具学习以及大语言模型智能体等，英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者，在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文，其中包括10多篇一作或共一论文，代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等，谷歌学术引用超600次，NeurIPS Area Chair以及多个国际顶级会议审稿人，NICE社区初创成员，曾获得国际博士生论坛最佳论文奖，ACL 2024@SIGHAN 最佳论文奖，WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手，可以自主进行推理，与环境进行交互并获取环境以及人类反馈，从而最终完成给定的任务，比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。强化学习（Reinforcement Learning）被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。

5/7/2025 1:47:43 PM

机器之心

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

随着 Deepseek 等强推理模型的成功，强化学习在大语言模型训练中越来越重要，但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域，经过强化学习优化的视频生成模型，生成效果更加自然流畅，更加合理。并且分别在 VDC（Video Detailed Captioning）[1] 和 VBench [2] 两大国际权威榜单中斩获第一。

5/6/2025 3:28:14 PM

机器之心

全球开发者组团训练，首个异步强化学习32B推理模型震撼来袭！数据已开源

最近，全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布！任何人都能用自己的异构计算资源参与，无需授权。这种全新的范式，让去中心化训练在编码、数学和科学领域，迈向前沿的推理性能。

4/27/2025 9:19:00 AM

新智元

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。 OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后，测试时缩放（TTS）技术功不可没。测试时缩放（TTS，Test-Time Scaling）是一种提升大语言模型推理能力的新兴策略，通过在测试阶段优化推理过程（如多数投票、蒙特卡洛树搜索等）提升大型语言模型（LLMs）的性能，而无需修改模型参数。

4/25/2025 9:12:00 AM

机器之心

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

ICLR（国际学习表征会议）是机器学习领域三大顶会之一，以推动深度学习基础理论和技术创新著称。每年，ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。今年这一殊荣花落Adam优化器（Adaptive Moment Estimation），该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

4/24/2025 9:16:00 AM

新智元

资讯热榜

Bilibili开源动漫视频生成模型AniSora V3版，一键生成多种风格动漫视频镜头 Chai Discovery发布Chai- 2 模型：零样本抗体设计突破16-20%命中率 xAI控制台新增Grok4及Grok4Code引用，标志着下一代AI模型即将发布 Chai-2震撼发布：AI驱动零样本抗体设计，药物研发提速百倍 Cursor手机版震撼发布！随时随地编码，开发者迎来新自由 PerMAXity：AI驱动投资分析，自动生成综合财务报告 OpenAI四位华人学者集体被挖，还是Meta重金出手 Qwen-TTS新版发布新增支持生成三种中文方言

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 Meta GPT 学习图像技术 Gemini AI创作马斯克论文代码 Anthropic 英伟达算法 Stable Diffusion 芯片智能体训练开发者生成式腾讯蛋白质苹果 AI新词神经网络 3D 研究生成 Claude 机器学习 LLM 计算 Sora AI设计 AI for Science AI视频 GPU xAI 人形机器人百度华为搜索大语言模型场景 Agent 字节跳动预测深度学习伟达工具大型语言模型 Transformer RAG 视觉神器推荐模态 Copilot 亚马逊具身智能 LLaMA 文本算力驾驶 API

强化学习

强化学习之父：LLM主导只是暂时，扩展计算才是正解

智能体式推理与工具集成：ARTIST 基于强化学习的新思路

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

MARFT：多智能体协作与强化学习微调的协同进化

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

DanceGRPO：首个统一视觉生成的强化学习框架

OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

新研究用逆强化学习识别 Reddit 用户行为：部分网友“就是爱抬杠”

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

OTC‑PO重磅发布 | 揭开 o3 神秘面纱，让 Agent 少用工具、多动脑子！

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

全球开发者组团训练，首个异步强化学习32B推理模型震撼来袭！数据已开源

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

OTC‑PO重磅发布 | 揭开 o3 神秘面纱，让 Agent 少用工具、多动脑子！