强化学习

MARFT：多智能体协作与强化学习微调的协同进化

大家好，我是肆〇柒。今天，继续 RL 相关话题，我们来探讨一个在人工智能领域极具应用潜力的话题 —— Multi-Agent Reinforcement Fine-Tuning（MARFT）。这个概念融合了大型语言模型（LLM）、多智能体系统（LaMAS）和强化学习（RL）的精华，为解决复杂任务提供了全新的视角和方法论。

6/3/2025 6:12:03 AM 肆零柒

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

大家好，我是肆〇柒。今天，我们来探讨一篇来自IBM Research的前沿论文《REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS: GRPO’S EFFECTIVE LOSS, DYNAMICS, AND SUCCESS AMPLIFICATION》。这篇论文由Youssef Mroueh撰写，聚焦于强化学习（Reinforcement Learning, RL）领域中一个极具潜力的研究方向——如何通过可验证奖励（RLVR）来优化大型语言模型（LLM）的训练。

5/30/2025 4:00:00 AM 肆零柒

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

近期的推理大模型（LRMs）通过强化学习（RL）展现出强大的推理能力，但这些改进主要体现在短上下文推理任务中。相比之下，如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入，仍然是一个尚未解决的关键挑战。来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式，并识别出其中的两个核心挑战：次优的训练效率与不稳定的优化过程。

5/28/2025 11:46:52 AM

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。常见的 MLLM 结构。

5/26/2025 9:16:00 AM 机器之心

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）真实搜索引擎，可以有效提升大模型检索-推理能力。但问题来了：一方面，搜索引擎返回的文档质量难以预测，给训练过程带来了噪音和不稳定性。另一方面，RL训练需要频繁部署，会产生大量API开销，严重限制可扩展性。

5/19/2025 8:47:00 AM

DanceGRPO：首个统一视觉生成的强化学习框架

本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生，在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。项目通讯作者为黄伟林博士和罗平教授。

5/15/2025 9:04:00 AM

OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

ChatGPT推出后，迅速震惊了全球。自那以后，OpenAI一直站在AI技术发展的最前沿。去年9月，他们推出o系列模型，再次引领AI推理的浪潮。

5/14/2025 9:03:00 AM

新研究用逆强化学习识别 Reddit 用户行为：部分网友“就是爱抬杠”

以往的方法多半着眼于用户说了什么或和谁互动，但这些方式本身也有盲点。新研究提出了一个更有效的视角：观察用户的行为模式，而不仅仅是他们说的话。

5/12/2025 10:36:09 PM 清源

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？ OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

5/12/2025 9:02:00 AM

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

5/8/2025 9:16:00 AM

OTC‑PO重磅发布 | 揭开 o3 神秘面纱，让 Agent 少用工具、多动脑子！

王鸿儒目前就读于香港中文大学博士四年级（预计今年7月毕业），导师为黄锦辉教授，研究方向主要包括对话系统，工具学习以及大语言模型智能体等，英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者，在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文，其中包括10多篇一作或共一论文，代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等，谷歌学术引用超600次，NeurIPS Area Chair以及多个国际顶级会议审稿人，NICE社区初创成员，曾获得国际博士生论坛最佳论文奖，ACL 2024@SIGHAN 最佳论文奖，WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手，可以自主进行推理，与环境进行交互并获取环境以及人类反馈，从而最终完成给定的任务，比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。强化学习（Reinforcement Learning）被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。

5/7/2025 1:47:43 PM 机器之心

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

随着 Deepseek 等强推理模型的成功，强化学习在大语言模型训练中越来越重要，但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域，经过强化学习优化的视频生成模型，生成效果更加自然流畅，更加合理。并且分别在 VDC（Video Detailed Captioning）[1] 和 VBench [2] 两大国际权威榜单中斩获第一。

5/6/2025 3:28:14 PM 机器之心

全球开发者组团训练，首个异步强化学习32B推理模型震撼来袭！数据已开源

最近，全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布！任何人都能用自己的异构计算资源参与，无需授权。这种全新的范式，让去中心化训练在编码、数学和科学领域，迈向前沿的推理性能。

4/27/2025 9:19:00 AM 新智元

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。 OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后，测试时缩放（TTS）技术功不可没。测试时缩放（TTS，Test-Time Scaling）是一种提升大语言模型推理能力的新兴策略，通过在测试阶段优化推理过程（如多数投票、蒙特卡洛树搜索等）提升大型语言模型（LLMs）的性能，而无需修改模型参数。

4/25/2025 9:12:00 AM 机器之心

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

ICLR（国际学习表征会议）是机器学习领域三大顶会之一，以推动深度学习基础理论和技术创新著称。每年，ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。今年这一殊荣花落Adam优化器（Adaptive Moment Estimation），该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

4/24/2025 9:16:00 AM 新智元

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

4/23/2025 11:11:00 AM 郑佳美||梁丙鉴

UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

本文的作者来自伊利诺伊大学香槟分校（UIUC）、马萨诸塞大学（UMass）和谷歌。本文的第一作者为 UIUC 博士生金博文，主要研究方向为与大语言模型相关的智能体、推理和强化学习研究。其余学生作者为 UMass 博士生曾翰偲和 UIUC 博士生岳真锐。

4/22/2025 9:06:00 AM 机器之心

更长思维并不等于更强推理性能，强化学习可以很简洁

今天早些时候，著名研究者和技术作家 Sebastian Raschka 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的原因。他写到：「众所周知，推理模型通常会生成较长的响应，这会增加计算成本。现在，这篇新论文表明，这种行为源于强化学习的训练过程，而并非更高的准确度实际需要更长的答案。

4/14/2025 1:46:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

强化学习

MARFT：多智能体协作与强化学习微调的协同进化

IBM 研究：可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

DanceGRPO：首个统一视觉生成的强化学习框架

OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

新研究用逆强化学习识别 Reddit 用户行为：部分网友“就是爱抬杠”

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

OTC‑PO重磅发布 | 揭开 o3 神秘面纱，让 Agent 少用工具、多动脑子！

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

全球开发者组团训练，首个异步强化学习32B推理模型震撼来袭！数据已开源

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

更长思维并不等于更强推理性能，强化学习可以很简洁

OTC‑PO重磅发布 | 揭开 o3 神秘面纱，让 Agent 少用工具、多动脑子！