强化学习
清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
超高规格团队,重新审视RL推理领域发展策略。 在人工智能的发展中,强化学习 (RL) 一直是一种非常重要的方法。 自 1998 年 Sutton 提出强化学习概念以来,就明确了只要给出明确的奖励信号,智能体就能学会在复杂环境中超越人类。
9/13/2025 6:20:00 PM
机器之心
攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍
强化学习的训练效率,实在是太低了! 随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,强化学习(RL)无疑是那把最关键的密钥。 然而,这场竞赛的背后,一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理,RL训练更像一个效率低下的“手工作坊”,投入巨大但产出缓慢。
9/13/2025 4:45:23 PM
鹭羽
从"调用工具"到"思考策略":Chain-of-Agents实现智能体技术的临界点突破
大家好,我是肆零柒。 今天,我们一起来了解一篇由OPPO AI Agent Team研究的论文。 这项工作名为Chain-of-Agents(CoA),它不只是一个新的AI框架,更是一次对"智能体"本质的深刻探索。
9/5/2025 9:00:43 AM
肆零柒
Prime Intellect 推出开放平台“环境中心”,对抗AI强化学习领域的封闭趋势
位于旧金山的人工智能初创公司 Prime Intellect 正式发布“环境中心”(Environments Hub),这是一个用于构建和共享强化学习(RL)环境的开放平台,旨在对抗当前由大型人工智能实验室主导的封闭生态。 Prime Intellect 指出,交互式训练环境已成为下一阶段 AI 发展的关键瓶颈。 在强化学习中,AI 代理通过与规则驱动的环境互动来学习,仅在面对动态变化时才能实现真正的智能。
9/2/2025 10:37:12 AM
AI在线
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。 人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。 在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。
9/1/2025 11:41:00 AM
机器之心
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
小扎在这头疯狂挖人,结果家里的老员工纷纷跑路了? ? 最新消息,Meta万引强化学习大佬Rishabh Agarwal即将离职,还留下了一篇让人浮想联翩的小作文:这是我在Meta的最后一周。
8/27/2025 9:05:00 AM
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
AI Agent正在被要求处理越来越多复杂的任务。 但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。 针对这一难题,MIT和新加坡国立大学联合提出了MEM1框架。
8/22/2025 4:35:00 PM
时令
微软Agent Lightning:零代码接入RL,“解耦”任何AI Agent学会“在实践中学习”
大家好,我是肆〇柒。 我从工程落地角度出发,看到一篇很有意思的研究想要分享出来。 这是一项来自微软研究团队的研究工作——Agent Lightning。
8/22/2025 9:56:18 AM
肆零柒
突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法
AI Agent正在被要求处理越来越多复杂的任务。 但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。 针对这一难题,MIT和新加坡国立大学联合提出了MEM1框架。
8/21/2025 9:10:00 AM
如何训练你的大型语言模型
打造一个听起来很智能的大型语言模型 (LLM) 助手,就像在反复塑造泥塑一样。 你从一块泥土开始,把它挤压成一个可行的结构,然后开始精雕细琢,直到最终成品。 越接近最终成品,那些精妙的点缀就越重要,正是这些点缀决定了最终成品是杰作还是恐怖谷效应。
8/19/2025 10:10:46 AM
晓晓
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab
近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。 特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。 然而,现有关于强化学习和模型的研究多聚焦于单一领域优化,缺乏对跨领域知识迁移和协同推理能力的系统性探索,让模型能够在多领域协同工作,发挥更好的推理能力。
8/15/2025 9:00:00 AM
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。 现在,我们或许有了解决方案。 这两天,微软研究员 Dimitris Papailiopoulos 在 𝕏 上曝出一个新成果:Group Filtered Policy Optimization(GFPO)—— 一种颠覆性的强化学习算法。
8/14/2025 1:18:00 PM
机器之心
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
本文作者为徐兴成博士,任上海人工智能实验室青年研究员,北京大学与英国牛津大学联合培养数学博士,上海市启明星项目(扬帆专项)获得者。 研究方向:大模型后训练、强化学习与基础理论研究。 强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
8/13/2025 1:01:00 PM
机器之心
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。 刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。 指导老师:万方,中国科学院大学计算机学院副教授,博导。
8/13/2025 9:25:06 AM
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架
面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。 该框架让智能体也能学会“看第二眼”,提升对抗场景下的感知鲁棒性。
8/13/2025 9:07:00 AM
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
强化学习 任意一张牌,往往就是王炸。 专注于LLM RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。 只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。
8/8/2025 9:15:00 AM
首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
刘子儒博士毕业于香港城市大学数据科学专业,导师为赵翔宇教授及数学家周定轩教授。 目前就职于华为香港研究所小艺团队,负责 RLVR 算法与扩散语言模型方向的研究。 龚成目前在香港城市大学攻读博士学位,导师为张青富教授。
7/28/2025 9:12:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
生成
人形机器人
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
MCP