强化学习

图灵奖颁给强化学习师徒，一个造船改行写代码，一个痛批AI投身AGI

计算机最高奖图灵奖揭晓！强化学习先驱Andrew Barto与Richard Sutton共同获奖，他们被评价为“引领基础AI技术开发的研究人员”。值得一提的是，两位是师徒关系，Richard Sutton是Andrew Barto他第一位博士生。

3/6/2025 10:07:00 AM

量子位

万字梳理：揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

在 DeepSeek 能够破圈而出的一众原因中，完全摒弃传统的监督微调（SFT）、转而采用大规模强化学习（RL）的创新之处是关键所在，这使得模型推理能力在质上取得显著突破，更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。近几年，学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。在 AI 智能体推理与决策研讨会（AIR 2025）上，来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论，回答了诸多问题，例如：AI 系统如何模拟类人推理和决策过程？

3/3/2025 8:26:00 PM

王悦

UCL强化学习派：汪军与他的学生们

作者 | 赖文昕编辑 | 陈彩娴作为一支在 AI 领域历经数十年的研究分支，强化学习一直在历久弥新。从推荐系统到强化学习 2006 年暑假的一个午后，汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车，他将在阿姆斯特丹换乘飞机，飞往美国西雅图参加第 29 届国际计算机协会信息检索大会（ACM SIGIR）。此时的信息检索领域如日中天，加上微软、雅虎和谷歌三巨头最核心的业务也是搜索，ACM SIGIR 每年都能汇集学术界与工业界的最高人才，来开一场信息检索界的“年会”。

2/27/2025 7:15:00 PM

赖文昕

慢思考助力医学大语言模型突破数据瓶颈：上海交大联合上海AI Lab推出MedS3系统

编辑 | ScienceAIOpenAI o1、DeepSeek R1 等模型成功实现了在数学、编程等领域的智能慢思考推理，通过自我反思和修正实现了运行时的性能外推。然而，在医疗领域，仍然很少有模型可以实现具有长链慢思考的推理。目前医疗领域的推理模型大多是通过在医疗考试题上对 OpenAI 系列的模型进行蒸馏，并没有考虑推理过程的可验证性，以及医疗任务的覆盖度。

2/21/2025 4:04:00 PM

ScienceAI

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

最近，OpenAI 发了一篇论文，宣称 o3 模型在 2024 IOI 上达到了金牌水平，并且在 CodeForces 上获得了与精英级人类相当的得分。他们是怎么做到的呢？ OpenAI 在论文开篇就用一句话进行了总结：「将强化学习应用于大型语言模型（LLM）可显著提高在复杂编程和推理任务上的性能。

2/19/2025 7:05:00 PM

机器之心

大模型强化学习新发现：删减84%数据反提升效果

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/19/2025 6:59:00 PM

机器之心

OpenAI联创Schulman闪电跳槽！从Anthropic转投Murati新公司

跑去隔壁Anthropic的OpenAI联创John Schulman，又又又跳槽了。《财富》爆料，Schulman新的去向，是加入原OpenAI首席技术官Mira Murati的新创业公司。此时距离他转投Anthropic，仅仅不到半年。

2/7/2025 10:13:16 AM

量子位

波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展

波士顿动力公司于本周三宣布了一项新合作，旨在提升其电动 Atlas 人形机器人的强化学习能力。这一合作伙伴关系是与机器人与人工智能研究所（RAI Institute）建立的，后者曾名为波士顿动力人工智能研究所。该研究所由前麻省理工学院教授、波士顿动力前 CEO 马克・雷伯特创立于2022年，旨在继续推动为波士顿动力奠定基础的研究。

2/6/2025 9:23:00 AM

AI在线

世界模型再进化！博士AdaWM：自适应世界模型规划新SOTA

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：：基于自适应世界模型的自动驾驶规划。基于世界模型的强化学习（RL）已经成为一种有前景的自动驾驶方法，它学习潜在动态模型并且用其训练规划策略。

1/26/2025 11:00:00 AM

自动驾驶专栏

轨迹跟踪误差直降50％，清华汪玉团队强化学习策略秘籍搞定无人机

12/27/2024 11:57:00 AM

机器之心

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

12/17/2024 8:39:00 PM

机器之心

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

11/16/2024 1:52:00 PM

机器之心

伯克利罗剑岚：机器人的范式革命，藏在真实世界中

作者 | 赖文昕编辑 | 陈彩娴近日，伯克利大学 Sergey Levine 团队发布了一项强化学习方向的重磅工作——HIL-SERL，引起了具身智能领域的广泛讨论与关注。根据实验结果，基于强化学习框架 HIL-SERL，研究者可以直接在现实世界中训练基于视觉的通用机器人操作策略。其中，机器人经过 1~2.5 小时的训练后，就能完成主板、仪表盘以及正时皮带组装等操作任务。

11/12/2024 4:23:00 PM

赖文昕

伯克利具身智能图谱：深度强化学习浪尖上的中国 90 后们

作者 | 赖文昕编辑 | 陈彩娴短短不到一年内，边塞科技、星动纪元、星海图和千寻智能接连成立，跻身国内明星创企之列；大洋彼岸，Covariant 和 Anyware Robotics 也正在湾区闪耀。六家具身智能公司，八位 90 后创始人，他们都成长于深度强化学习的摇篮。作为最早一批开启新范式的人，他们探索 AI 和 Robotics 的故事要从踏入伯克利校园说起。

11/12/2024 4:06:00 PM

赖文昕

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

10/29/2024 1:21:00 PM

机器之心

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本篇综述工作已被《IEEE 模式分析与机器智能汇刊》（IEEE TPAMI）接收，论文第一作者顾尚定博士来自慕尼黑工业大学、加州大学伯克利分校，论文通讯作者陈广教授来自同济大学计算机科学与

10/8/2024 2:15:00 PM

机器之心

强化学习成为OpenAI o1灵魂，速来学习下Self-play增强大模型

在机器学习尤其是强化学习领域，自我博弈（Self-play）是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息，也能通过自己与自己的博弈来学习并获得提升，这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表，通过自己与自己对战，持续掌握和积累围棋知识和比赛经验，最终击败顶级人类棋手。随着大语言模型的发展，自我博弈因其能够充分利用计算资源和合成数据成为提升模型性能的方法之一。最近发布的 OpenAI 发布的 o1 模型再次震撼了科技圈，o1 能像人类一样「思考」复

9/18/2024 8:47:00 PM

机器之心

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

9/15/2024 1:41:00 PM

机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型特斯拉场景深度学习亚马逊架构 Transformer MCP Copilot 编程视觉

强化学习

图灵奖颁给强化学习师徒，一个造船改行写代码，一个痛批AI投身AGI

万字梳理：揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

UCL强化学习派：汪军与他的学生们

慢思考助力医学大语言模型突破数据瓶颈：上海交大联合上海AI Lab推出MedS3系统

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

大模型强化学习新发现：删减84%数据反提升效果

OpenAI联创Schulman闪电跳槽！从Anthropic转投Murati新公司

​波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展

世界模型再进化！博士AdaWM：自适应世界模型规划新SOTA

轨迹跟踪误差直降50％，清华汪玉团队强化学习策略秘籍搞定无人机

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

伯克利罗剑岚：机器人的范式革命，藏在真实世界中

伯克利具身智能图谱：深度强化学习浪尖上的中国 90 后们

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

强化学习成为OpenAI o1灵魂，速来学习下Self-play增强大模型

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展