AI在线 AI在线

强化学习

具身智能的“Z 世代”,来了

年初,DeepSeek闪亮登上大模型的银幕,镁光灯下,观众看到了一群年轻的身影。 少年浩气展虹霓,日新月异的AI时代,年轻人悄然撑起了半边天。 大模型的新浪潮已翩然而至,具身智能的新浪潮还有多远?
6/12/2025 10:36:00 AM
洪雨欣

谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?

谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。 他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。
6/11/2025 2:45:57 PM

大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少? 难道是因为大模型(LLM)其实是伪装的大脑扫描仪? 」近日,加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。
6/11/2025 8:45:00 AM

强化学习之父:LLM主导只是暂时,扩展计算才是正解

这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。 就在刚刚的新加坡国立大学建校120周年(NUS120)之际,Sutton受邀发表演讲——塑造AI和强化学习的未来。 其实,这已经不是Sutton第一次在公开场合表达类似的观点,早在他19年的著作《痛苦的教训》中,他就明确提出:让AI尤其是LLM模仿人类思维方式,只能带来短期的性能提升,长期看只会阻碍研究的持续进步。
6/10/2025 11:22:09 AM

智能体式推理与工具集成:ARTIST 基于强化学习的新思路

大家好,我是肆〇柒。 这两天,我看到一篇论文《Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning》讲述的是ARTIST 框架,为 LLM 赋予智能体式推理与工具集成的全新维度。 今天,就一起了解一下这个 ARTIST 框架,看看 LLM 如何借助强化学习突破局限,开启智能体式推理与工具集成。
6/10/2025 2:30:00 AM
肆零柒

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

本文主要作者是吕昂和谢若冰。 吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模型、推荐系统。 最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。
6/9/2025 9:04:00 AM

MARFT:多智能体协作与强化学习微调的协同进化

大家好,我是肆〇柒。 今天,继续 RL 相关话题,我们来探讨一个在人工智能领域极具应用潜力的话题 —— Multi-Agent Reinforcement Fine-Tuning(MARFT)。 这个概念融合了大型语言模型(LLM)、多智能体系统(LaMAS)和强化学习(RL)的精华,为解决复杂任务提供了全新的视角和方法论。
6/3/2025 6:12:03 AM
肆零柒

IBM 研究:可验证奖励强化学习(RLVR)通过 GRPO 提升模型推理能力

大家好,我是肆〇柒。 今天,我们来探讨一篇来自IBM Research的前沿论文《REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS: GRPO’S EFFECTIVE LOSS, DYNAMICS, AND SUCCESS AMPLIFICATION》。 这篇论文由Youssef Mroueh撰写,聚焦于强化学习(Reinforcement Learning, RL)领域中一个极具潜力的研究方向——如何通过可验证奖励(RLVR)来优化大型语言模型(LLM)的训练。
5/30/2025 4:00:00 AM
肆零柒

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

近期的推理大模型(LRMs)通过强化学习(RL)展现出强大的推理能力,但这些改进主要体现在短上下文推理任务中。 相比之下,如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入,仍然是一个尚未解决的关键挑战。 来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式,并识别出其中的两个核心挑战:次优的训练效率与不稳定的优化过程。
5/28/2025 11:46:52 AM

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。 然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。 常见的 MLLM 结构。
5/26/2025 9:16:00 AM
机器之心

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

强化学习(RL) 真实搜索引擎,可以有效提升大模型检索-推理能力。 但问题来了:一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。 另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。
5/19/2025 8:47:00 AM

DanceGRPO:首个统一视觉生成的强化学习框架

本文由字节跳动 Seed 和香港大学联合完成。 第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。
5/15/2025 9:04:00 AM

OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

ChatGPT推出后,迅速震惊了全球。 自那以后,OpenAI一直站在AI技术发展的最前沿。 去年9月,他们推出o系列模型,再次引领AI推理的浪潮。
5/14/2025 9:03:00 AM

新研究用逆强化学习识别 Reddit 用户行为:部分网友“就是爱抬杠”

以往的方法多半着眼于用户说了什么或和谁互动,但这些方式本身也有盲点。新研究提出了一个更有效的视角:观察用户的行为模式,而不仅仅是他们说的话。
5/12/2025 10:36:09 PM
清源

九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
5/12/2025 9:02:00 AM

万字长文带你读懂强化学习,去中心化强化学习又能否实现?

强化学习(RL)是当今 AI 领域最热门的词汇之一。 近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意义。 原文地址:「有时候几十年什么也不会发生;有时候几周时间仿佛过了几十年。
5/8/2025 9:16:00 AM

OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。
5/7/2025 1:47:43 PM
机器之心

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。 复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。 并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
5/6/2025 3:28:14 PM
机器之心