RL
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
在没有标准答案的开放式对话中,RL该怎么做? 多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。 然而,当用RL去优化大模型在真实交互中的“情商”时,RLVR一度陷入“三大困境”:环境困境.
7/18/2025 4:32:19 PM
不圆
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
最近,国外一家 AI 初创公司 Mechanize 的三位创始人联合撰文,提出一个大胆的判断:RL 或许要迎来属于它的 “GPT-3 时刻”,但还需要拥有相当于数千至上万年“模型处理任务所用时间”的训练。 在他们看来,当前的 RL 模型还存在明显短板,比如泛化能力差、难以适应新任务等,这种局面其实很像 GPT-3 出现之前的语言模型——能解决特定问题,但难以迁移和扩展。 为了解决这个问题,他们提出了一种新的训练范式,叫作“复制训练”(Replication Training):让模型在虚拟环境中模拟真实软件的操作过程,比如使用浏览器、编写代码、处理命令行任务等等。
7/14/2025 4:36:00 PM
郑佳美
量子控制也能RL上天?强化学习×弱测量×卡尔曼滤波,稳定量子平衡新范式!
一眼概览Quantum Cartpole 提出了一个结合弱测量与强化学习的量子控制基准环境,展示了深度强化学习在非线性量子系统控制中的显著优势,支持从经典模型迁移学习到量子系统。 核心问题传统的反馈控制方法难以直接应用于量子系统,主要由于测量引起的反作用和不可完全观测性。 论文的核心问题是:在弱测量条件下,如何稳定控制一个处于非稳定势阱顶端的量子粒子,特别是在面对非线性系统和无法准确建模的噪声时,如何实现有效控制。
6/30/2025 2:25:00 AM
萍哥学AI
LLM 的 SFT 与 RL:差异几何?
在大型语言模型(LLM)的训练领域,监督微调(SFT)和强化学习(RL)是两种备受瞩目的训练策略。 尽管它们各自有着独特的机制和侧重点,但笔者经过深入研究和实践观察发现,二者之间的差别并非如表面上那般显著,以下是具体的分析与对比。 一、核心原理的相近性SFT 的本质 :SFT 主要是利用标注好的数据集对预训练的 LLM 进行进一步训练,通过最小化模型输出与标注答案之间的差异,来调整模型的参数。
6/6/2025 4:10:00 AM
小智
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
在 Pokee.ai 内测之前,我们就先感受了一把这款 Agent 的能力。 “你发给我一个邮件就行,我的 Agent 能自动生成日程表。 ”在跟朱哲清约电话会议的时候,微信那头的这个人如是说。
5/8/2025 11:09:00 AM
郑佳美
70亿参数干翻320亿?小米扔出“核弹级”AI MiMo 你的“破电脑”也能跑赢奥数题和复杂代码!
小米正式在Hugging Face平台发布其首个专为推理(Reasoning)设计的开源大模型——MiMo-7B。 据AIbase了解,MiMo-7B通过从预训练到后训练的强化学习(RL)优化,展现了在数学、代码和通用推理任务上的卓越性能,超越了多个32亿参数以上的基线模型。 社交平台上的热烈讨论凸显了其对AI社区的深远影响,相关细节已通过Hugging Face(huggingface.co/xiaomi/MiMo-7B)与小米官网(xiaomi.com)公开。
4/30/2025 2:00:40 PM
AI在线
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
清华和上交的最新论文中,上演了一场“学术打假”的戏码。 文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。
4/23/2025 11:11:00 AM
郑佳美||梁丙鉴
强化学习之于 AI Agent,是灵魂、还是包袱?
自主决策能力是 Agent 受到重视,并被称为 AI 时代“新基建”原因。 从这个角度看,Workflow 似乎做不出真正的通用 Agent。 而要谈真正具备决策能力和自我意识的 Agent,其实要从 AlphaGo 的问世说起。
4/23/2025 10:57:00 AM
郑佳美
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities论文链接: 链接:,强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来,该方法通过试错让智能体学会在复杂环境中完成任务。 尽管自监督学习近年在语言和视觉领域取得了显著突破,但 RL 领域的进展相对滞后。
3/22/2025 9:01:00 PM
机器之心
新开普:星普大模型表现出色,算力消耗显著降低
在最近的一次机构电话交流会上,新开普公司透露了其自研的星普大模型的最新测评结果。 该模型采用了 SFT(监督微调)与 RL(强化学习)的训练技术,在智能推理效果上与 DeepSeek-R1相近,且算力消耗仅为 DeepSeek-R1的1/20。 这一成果不仅彰显了新开普在人工智能领域的研发实力,同时也为降低硬件投入提供了可能。
3/7/2025 6:00:00 PM
AI在线
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。 这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。 Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。
2/9/2025 2:42:00 PM
机器之心
提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架
字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。 官方宣称,HybridFlow(开源项目名:veRL)是一个灵活且高效的大模型 RL 训练框架,兼容多种训练和推理框架,支持灵活的模型部署和多种 RL 算法实现。 该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,可更好实现和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。
11/3/2024 3:24:59 PM
沛霖(实习)
豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍
强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。 近日,字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。 这是一个灵活高效的 RL/RLHF 框架,可显著提升训练吞吐量,降低开发和维护复杂度。
11/1/2024 2:44:00 PM
新闻助手
机器学习可以更好地进行量子纠错
编辑 | 白菜叶自主量子纠错(AQEC)通过设计耗散来保护逻辑量子位,从而避免频繁、容易出错的测量反馈循环的必要性。玻色码空间(其中单光子丢失代表了主要的错误来源)由于其灵活性和可控性而成为 AQEC 的重要候选者。虽然现有的文献已经证明了具有玻色码空间的 AQEC 原则上的可行性,但这些方案通常基于 Knill-Laflamme 条件的精确实现,因此需要实现哈密顿距离 d≥2。实现这种哈密顿距离需要多个非线性相互作用和控制场,这使得这些方案在实验上具有挑战性。在这里,RIKEN 量子计算中心(RIKEN Cent
9/18/2023 4:05:00 PM
ScienceAI
揭开深度强化学习的神秘面纱
编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开
9/10/2021 4:16:00 PM
ScienceAI
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用