强化学习
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
近期的推理大模型(LRMs)通过强化学习(RL)展现出强大的推理能力,但这些改进主要体现在短上下文推理任务中。 相比之下,如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入,仍然是一个尚未解决的关键挑战。 来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式,并识别出其中的两个核心挑战:次优的训练效率与不稳定的优化过程。
5/28/2025 11:46:52 AM
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。 然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。 常见的 MLLM 结构。
5/26/2025 9:16:00 AM
机器之心
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
强化学习(RL) 真实搜索引擎,可以有效提升大模型检索-推理能力。 但问题来了:一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。 另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。
5/19/2025 8:47:00 AM
DanceGRPO:首个统一视觉生成的强化学习框架
本文由字节跳动 Seed 和香港大学联合完成。 第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。
5/15/2025 9:04:00 AM
OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键
ChatGPT推出后,迅速震惊了全球。 自那以后,OpenAI一直站在AI技术发展的最前沿。 去年9月,他们推出o系列模型,再次引领AI推理的浪潮。
5/14/2025 9:03:00 AM
新研究用逆强化学习识别 Reddit 用户行为:部分网友“就是爱抬杠”
以往的方法多半着眼于用户说了什么或和谁互动,但这些方式本身也有盲点。新研究提出了一个更有效的视角:观察用户的行为模式,而不仅仅是他们说的话。
5/12/2025 10:36:09 PM
清源
九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
5/12/2025 9:02:00 AM
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
强化学习(RL)是当今 AI 领域最热门的词汇之一。 近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意义。 原文地址:「有时候几十年什么也不会发生;有时候几周时间仿佛过了几十年。
5/8/2025 9:16:00 AM
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。
5/7/2025 1:47:43 PM
机器之心
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。 复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。 并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
5/6/2025 3:28:14 PM
机器之心
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
最近,全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布! 任何人都能用自己的异构计算资源参与,无需授权。 这种全新的范式,让去中心化训练在编码、数学和科学领域,迈向前沿的推理性能。
4/27/2025 9:19:00 AM
新智元
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。 OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后,测试时缩放(TTS)技术功不可没。 测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
4/25/2025 9:12:00 AM
机器之心
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。 每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。 今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
4/24/2025 9:16:00 AM
新智元
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
清华和上交的最新论文中,上演了一场“学术打假”的戏码。 文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。
4/23/2025 11:11:00 AM
郑佳美||梁丙鉴
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换
本文的作者来自伊利诺伊大学香槟分校(UIUC)、马萨诸塞大学(UMass)和谷歌。 本文的第一作者为 UIUC 博士生金博文,主要研究方向为与大语言模型相关的智能体、推理和强化学习研究。 其余学生作者为 UMass 博士生曾翰偲和 UIUC 博士生岳真锐。
4/22/2025 9:06:00 AM
机器之心
更长思维并不等于更强推理性能,强化学习可以很简洁
今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较长响应的原因。 他写到:「众所周知,推理模型通常会生成较长的响应,这会增加计算成本。 现在,这篇新论文表明,这种行为源于强化学习的训练过程,而并非更高的准确度实际需要更长的答案。
4/14/2025 1:46:00 PM
机器之心
小鹏汽车推新物理大模型,定位AI汽车公司
近日,小鹏汽车创始人何小鹏在社交媒体上透露,作为将 “智能化” 作为核心的车企之一,小鹏汽车的本质定位在于 “AI 汽车公司”。 他强调,人工智能(AI)最大的价值不仅在于数字世界的应用,更在于能够改变我们的物理世界。 这一观点引发了行业内外的关注与讨论。
4/14/2025 11:01:07 AM
AI在线
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
「推理」已成为语言模型的下一个主要前沿领域,近期学术界和工业界都取得了突飞猛进的进展。 在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效? 什么无效?
4/13/2025 3:10:00 PM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉