AI在线 AI在线

强化学习

清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路

超高规格团队,重新审视RL推理领域发展策略。 在人工智能的发展中,强化学习 (RL) 一直是一种非常重要的方法。 自 1998 年 Sutton 提出强化学习概念以来,就明确了只要给出明确的奖励信号,智能体就能学会在复杂环境中超越人类。
9/13/2025 6:20:00 PM
机器之心

攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍

强化学习的训练效率,实在是太低了! 随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,强化学习(RL)无疑是那把最关键的密钥。 然而,这场竞赛的背后,一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理,RL训练更像一个效率低下的“手工作坊”,投入巨大但产出缓慢。
9/13/2025 4:45:23 PM
鹭羽

从"调用工具"到"思考策略":Chain-of-Agents实现智能体技术的临界点突破

大家好,我是肆零柒。 今天,我们一起来了解一篇由OPPO AI Agent Team研究的论文。 这项工作名为Chain-of-Agents(CoA),它不只是一个新的AI框架,更是一次对"智能体"本质的深刻探索。
9/5/2025 9:00:43 AM
肆零柒

Prime Intellect 推出开放平台“环境中心”,对抗AI强化学习领域的封闭趋势

位于旧金山的人工智能初创公司 Prime Intellect 正式发布“环境中心”(Environments Hub),这是一个用于构建和共享强化学习(RL)环境的开放平台,旨在对抗当前由大型人工智能实验室主导的封闭生态。 Prime Intellect 指出,交互式训练环境已成为下一阶段 AI 发展的关键瓶颈。 在强化学习中,AI 代理通过与规则驱动的环境互动来学习,仅在面对动态变化时才能实现真正的智能。
9/2/2025 10:37:12 AM
AI在线

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。 人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。 在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。
9/1/2025 11:41:00 AM
机器之心

不愧是中国机器人,乒乓打得太6了

机器人打乒乓球,这(zhei)您受得了吗? 关键玩的还都是高难度:并步接球! 0.42秒极限反应回击扣球!
8/30/2025 4:57:04 PM
henry

Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了

小扎在这头疯狂挖人,结果家里的老员工纷纷跑路了? ? 最新消息,Meta万引强化学习大佬Rishabh Agarwal即将离职,还留下了一篇让人浮想联翩的小作文:这是我在Meta的最后一周。
8/27/2025 9:05:00 AM

突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法

AI Agent正在被要求处理越来越多复杂的任务。 但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。 针对这一难题,MIT和新加坡国立大学联合提出了MEM1框架。
8/22/2025 4:35:00 PM
时令

微软Agent Lightning:零代码接入RL,“解耦”任何AI Agent学会“在实践中学习”

大家好,我是肆〇柒。 我从工程落地角度出发,看到一篇很有意思的研究想要分享出来。 这是一项来自微软研究团队的研究工作——Agent Lightning。
8/22/2025 9:56:18 AM
肆零柒

突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法

AI Agent正在被要求处理越来越多复杂的任务。 但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。 针对这一难题,MIT和新加坡国立大学联合提出了MEM1框架。
8/21/2025 9:10:00 AM

如何训练你的大型语言模型

打造一个听起来很智能的大型语言模型 (LLM) 助手,就像在反复塑造泥塑一样。 你从一块泥土开始,把它挤压成一个可行的结构,然后开始精雕细琢,直到最终成品。 越接近最终成品,那些精妙的点缀就越重要,正是这些点缀决定了最终成品是杰作还是恐怖谷效应。
8/19/2025 10:10:46 AM
晓晓

混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。 特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。 然而,现有关于强化学习和模型的研究多聚焦于单一领域优化,缺乏对跨领域知识迁移和协同推理能力的系统性探索,让模型能够在多领域协同工作,发挥更好的推理能力。
8/15/2025 9:00:00 AM

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。 现在,我们或许有了解决方案。 这两天,微软研究员 Dimitris Papailiopoulos 在 𝕏 上曝出一个新成果:Group Filtered Policy Optimization(GFPO)—— 一种颠覆性的强化学习算法。
8/14/2025 1:18:00 PM
机器之心

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

本文作者为徐兴成博士,任上海人工智能实验室青年研究员,北京大学与英国牛津大学联合培养数学博士,上海市启明星项目(扬帆专项)获得者。 研究方向:大模型后训练、强化学习与基础理论研究。 强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
8/13/2025 1:01:00 PM
机器之心

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。 刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。  指导老师:万方,中国科学院大学计算机学院副教授,博导。
8/13/2025 9:25:06 AM

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。 该框架让智能体也能学会“看第二眼”,提升对抗场景下的感知鲁棒性。
8/13/2025 9:07:00 AM

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

强化学习 任意一张牌,往往就是王炸。 专注于LLM RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。 只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。
8/8/2025 9:15:00 AM

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

刘子儒博士毕业于香港城市大学数据科学专业,导师为赵翔宇教授及数学家周定轩教授。 目前就职于华为香港研究所小艺团队,负责 RLVR 算法与扩散语言模型方向的研究。 龚成目前在香港城市大学攻读博士学位,导师为张青富教授。
7/28/2025 9:12:00 AM