RL

万字长文实录：RL 界与 CV 界的“世界模型”有什么不同？丨GAIR Live

世界模型在人工智能领域中扮演着重要角色，能够有效为智能体提供对复杂现实世界的内在表征，使其像人类一样理解世界运行的逻辑与因果关系，对自动驾驶、具身智能的突破性发展至关重要，它已成为学术界和工业界的研究热点。圆桌主持人为清华大学智能产业研究院（AIR）助理教授、智源学者赵昊，并邀请了宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊一起进行了一场深度的讨论。会上主持人赵昊带头讨论世界模型，先是探讨其定义、范围，接着分析强化学习界与计算机视觉界的世界模型的不同，随后围绕视频生成、三维重建等内容，剖析通用视频生成模型向真正的世界模型的发展路径，最后关注于落地场景，聚焦于自动驾驶以及具身智能，并探讨构建其世界模型的难点和方向。

9/8/2025 5:11:00 PM

刘欣

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

在没有标准答案的开放式对话中，RL该怎么做？多轮对话是大模型最典型的开放任务：高频、多轮、强情境依赖，且“好回复”因人而异。然而，当用RL去优化大模型在真实交互中的“情商”时，RLVR一度陷入“三大困境”：环境困境.

7/18/2025 4:32:19 PM

不圆

最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

最近，国外一家 AI 初创公司 Mechanize 的三位创始人联合撰文，提出一个大胆的判断：RL 或许要迎来属于它的 “GPT-3 时刻”，但还需要拥有相当于数千至上万年“模型处理任务所用时间”的训练。在他们看来，当前的 RL 模型还存在明显短板，比如泛化能力差、难以适应新任务等，这种局面其实很像 GPT-3 出现之前的语言模型——能解决特定问题，但难以迁移和扩展。为了解决这个问题，他们提出了一种新的训练范式，叫作“复制训练”（Replication Training）：让模型在虚拟环境中模拟真实软件的操作过程，比如使用浏览器、编写代码、处理命令行任务等等。

7/14/2025 4:36:00 PM

郑佳美

量子控制也能RL上天？强化学习×弱测量×卡尔曼滤波，稳定量子平衡新范式！

一眼概览Quantum Cartpole 提出了一个结合弱测量与强化学习的量子控制基准环境，展示了深度强化学习在非线性量子系统控制中的显著优势，支持从经典模型迁移学习到量子系统。核心问题传统的反馈控制方法难以直接应用于量子系统，主要由于测量引起的反作用和不可完全观测性。论文的核心问题是：在弱测量条件下，如何稳定控制一个处于非稳定势阱顶端的量子粒子，特别是在面对非线性系统和无法准确建模的噪声时，如何实现有效控制。

6/30/2025 2:25:00 AM

萍哥学AI

LLM 的 SFT 与 RL：差异几何？

在大型语言模型（LLM）的训练领域，监督微调（SFT）和强化学习（RL）是两种备受瞩目的训练策略。尽管它们各自有着独特的机制和侧重点，但笔者经过深入研究和实践观察发现，二者之间的差别并非如表面上那般显著，以下是具体的分析与对比。一、核心原理的相近性SFT 的本质：SFT 主要是利用标注好的数据集对预训练的 LLM 进行进一步训练，通过最小化模型输出与标注答案之间的差异，来调整模型的参数。

6/6/2025 4:10:00 AM

小智

Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

在 Pokee.ai 内测之前，我们就先感受了一把这款 Agent 的能力。 “你发给我一个邮件就行，我的 Agent 能自动生成日程表。 ”在跟朱哲清约电话会议的时候，微信那头的这个人如是说。

5/8/2025 11:09:00 AM

郑佳美

70亿参数干翻320亿？小米扔出“核弹级”AI MiMo 你的“破电脑”也能跑赢奥数题和复杂代码！

小米正式在Hugging Face平台发布其首个专为推理（Reasoning）设计的开源大模型——MiMo-7B。据AIbase了解，MiMo-7B通过从预训练到后训练的强化学习(RL)优化，展现了在数学、代码和通用推理任务上的卓越性能，超越了多个32亿参数以上的基线模型。社交平台上的热烈讨论凸显了其对AI社区的深远影响，相关细节已通过Hugging Face(huggingface.co/xiaomi/MiMo-7B)与小米官网(xiaomi.com)公开。

4/30/2025 2:00:40 PM

AI在线

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。

4/23/2025 11:11:00 AM

郑佳美||梁丙鉴

强化学习之于 AI Agent，是灵魂、还是包袱？

自主决策能力是 Agent 受到重视，并被称为 AI 时代“新基建”原因。从这个角度看，Workflow 似乎做不出真正的通用 Agent。而要谈真正具备决策能力和自我意识的 Agent，其实要从 AlphaGo 的问世说起。

4/23/2025 10:57:00 AM

郑佳美

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。论文标题：1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities论文链接：链接：，强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来，该方法通过试错让智能体学会在复杂环境中完成任务。尽管自监督学习近年在语言和视觉领域取得了显著突破，但 RL 领域的进展相对滞后。

3/22/2025 9:01:00 PM

机器之心

新开普：星普大模型表现出色，算力消耗显著降低

在最近的一次机构电话交流会上，新开普公司透露了其自研的星普大模型的最新测评结果。该模型采用了 SFT（监督微调）与 RL(强化学习)的训练技术，在智能推理效果上与 DeepSeek-R1相近，且算力消耗仅为 DeepSeek-R1的1/20。这一成果不仅彰显了新开普在人工智能领域的研发实力，同时也为降低硬件投入提供了可能。

3/7/2025 6:00:00 PM

AI在线

Sebastian Raschka：关于DeepSeek R1和推理模型，我有几点看法

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次，他将立足于 DeepSeek 技术报告，介绍用于构建推理模型的四种主要方法，也就是如何通过推理能力来增强 LLM。 Sebastian Raschka 表示：「我希望这能提供有价值的见解，并帮助你了解围绕这一主题的快速演变的文献和话题炒作。

2/9/2025 2:42:00 PM

机器之心

提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。官方宣称，HybridFlow（开源项目名：veRL）是一个灵活且高效的大模型 RL 训练框架，兼容多种训练和推理框架，支持灵活的模型部署和多种 RL 算法实现。该框架采用混合编程模型，融合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，可更好实现和执行多种 RL 算法，显著提升训练吞吐量，降低开发和维护复杂度。

11/3/2024 3:24:59 PM

沛霖（实习）

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

11/1/2024 2:44:00 PM

新闻助手

机器学习可以更好地进行量子纠错

编辑 | 白菜叶自主量子纠错（AQEC）通过设计耗散来保护逻辑量子位，从而避免频繁、容易出错的测量反馈循环的必要性。玻色码空间（其中单光子丢失代表了主要的错误来源）由于其灵活性和可控性而成为 AQEC 的重要候选者。虽然现有的文献已经证明了具有玻色码空间的 AQEC 原则上的可行性，但这些方案通常基于 Knill-Laflamme 条件的精确实现，因此需要实现哈密顿距离 d≥2。实现这种哈密顿距离需要多个非线性相互作用和控制场，这使得这些方案在实验上具有挑战性。在这里，RIKEN 量子计算中心（RIKEN Cent

9/18/2023 4:05:00 PM

ScienceAI

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石，它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力，可以解决对于经典强化学习（RL）技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中，我们将尝试在不涉及技术细节的情况下，揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的（例如，拨动开

9/10/2021 4:16:00 PM

ScienceAI

资讯热榜

OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务软银豪掷225亿美元加码OpenAI，AI音乐与超级融资计划全面提速全网刷屏的「电影感」三宫格图片，教你用AI快速生成！ LangChain V1.0 深度解析：手把手带你跑通全新智能体架构 LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）中小企业AI落地的算力“最优解”：一台插电即用的Mac mini 消息称软银批准对 OpenAI 追加 225 亿美元投资，助力未来上市 Efficiency Law, 物理精确世界模型，及世界模型引擎驱动的具身智能学习新范式

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Stable Diffusion Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习 DeepMind 架构生成式AI 编程视觉 Transformer 预测 AI模型伟达亚马逊 MCP