强化学习
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。 刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。 指导老师:万方,中国科学院大学计算机学院副教授,博导。
8/13/2025 9:25:06 AM
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架
面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。 该框架让智能体也能学会“看第二眼”,提升对抗场景下的感知鲁棒性。
8/13/2025 9:07:00 AM
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
强化学习 任意一张牌,往往就是王炸。 专注于LLM RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。 只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。
8/8/2025 9:15:00 AM
首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
刘子儒博士毕业于香港城市大学数据科学专业,导师为赵翔宇教授及数学家周定轩教授。 目前就职于华为香港研究所小艺团队,负责 RLVR 算法与扩散语言模型方向的研究。 龚成目前在香港城市大学攻读博士学位,导师为张青富教授。
7/28/2025 9:12:00 AM
AREAL 开源:解耦架构与创新算法驱动的强化学习系统
大家好,我是肆〇柒。 推理能力在当下 AI 领域,尤其自然语言处理、智能决策系统、科学研究辅助等众多关键领域,已然成为推动技术革新的关键要素。 然而,目前大型语言模型虽已取得瞩目成果,但在处理复杂逻辑时,常受困于逻辑连贯性把控,长链推理面临信息丢失、逻辑断裂问题,长序列输出任务下推理耗时久、资源消耗大,这些痛点严重制约模型应用场景拓展与性能深化。
7/25/2025 9:03:24 AM
肆零柒
投奔小扎,Jason Wei连发两篇博文公布“屠龙术”:一个公式看透AI,一条心法指引人生
Jason Wei:OpenAI研究科学家,OpenAI思维链研究开创者,《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者,谷歌学术他引17000余次(CoT单篇),高中学历,毕业于全美顶级的科技高中:托马斯·杰弗逊科学技术高中,sat 2390(2400满分),强化学习大神。 在刚刚爆出被小扎挖走,加入meta超级智能实验室后,Jason Wei 连发两篇文章,一篇是关于 AI 发展的核心驱动力公式——“验证者定律”,另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”,这可能就是jason wei 在OpenAI最后的遗作了吧。 验证者定律说的是:训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。
7/17/2025 9:24:08 AM
天塌!OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职,疑似发推回应:要超越老师,须强化自己
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Meta 化身“人才收割机”的节奏简直停不下来。 此前从 OpenAI、谷歌花天价薪酬挖走了多达 8 位顶尖人才。 现在,那个让我们非常熟悉的、经常在直播宣发中出现的大佬,o 系列模型的两位核心研究人员 Jason Wei 和 Hyung Won Chung,也被 Meta 一道挖走了。
7/16/2025 3:28:52 PM
云昭
打造全球首个强化学习云平台,九章云极是如何做到的?
从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。 我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。 在这场转变中,强化学习(RL)正在重新登上舞台中央,成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能(AGI)的关键技术。
7/16/2025 1:10:00 PM
机器之心
强化学习也遇到了“天花板”?Andrej Karpathy构建了一个新算法
RL还行不行? 表面上很风光,但真实情况怎样呢? 大神Karpathy提出了一种超越当前RL范式、更接近人类学习机制的新思路强化学习的强大与局限Karpathy首先肯定了强化学习的巨大价值。
7/14/2025 9:26:45 AM
OctoThinker:借“中期训练”之力,缩小 Llama 和 Qwen 模型的差距
大家好,我是肆〇柒,大型语言模型(LLM)通过链式思考(CoT)进行深度推理,并借助大规模强化学习(RL)在复杂任务(如竞赛级数学问题解决)上取得了显著进展。 OpenAI 的 o1、o3 等模型在数学推理任务上表现卓越,这些模型通常采用多层神经网络架构,通过大规模数据训练捕捉语言的复杂模式,从而实现高效的文本生成和推理。 而 DeepSeek-R1-Zero 等模型在基础语言模型上直接应用大规模 RL 也展现了有趣的推理行为。
7/10/2025 10:25:23 AM
肆零柒
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
4B模型的数学推理能力和顶尖商业大模型差在哪里? 香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:. 通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。
7/9/2025 2:58:32 PM
不圆
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
henry 发自 凹非寺. 量子位 | 公众号 QbitAI学好数理化,走遍天下都不怕! 这一点这在大语言模型身上也不例外。
7/8/2025 5:08:45 PM
henry
RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
🌟 嘿! RL 圈的潮玩咖看过来! 大模型时代卷起技术狂潮,强化学习(RL)早已不是 “小众玩家”,当它牵手大模型智能体,直接开启「王炸组合」模式!
7/8/2025 12:48:00 PM
机器之心
探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。 然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。 这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小型模型强化学习能力的探索。
7/3/2025 12:00:57 PM
AI在线
重大突破!研究团队揭示大语言模型内部潜藏的 “奖励机制”
近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。 当前,许多对齐方法依赖于人类反馈强化学习(RLHF),这种方法需要大量高质量的人类偏好数据来训练奖励模型。 然而,构建这样一个数据集不仅耗时费力,还面临成本高昂的挑战。
7/2/2025 6:00:45 PM
AI在线
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
大模型可以不再依赖人类调教,真正“自学成才”啦? 新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”! 当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表,这使得它们在面对复杂任务时难以实现真正的智能行为演化。
7/1/2025 9:05:28 AM
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
本文第一作者是西湖大学博士生冯睿骐,通讯作者为西湖大学人工智能系助理教授吴泰霖。 吴泰霖实验室专注于解决 AI 和科学交叉的核心问题,包含科学仿真、控制、科学发现。 在解决离线强化学习、图片逆问题等任务中,对生成模型的能量引导(energy guidance)是一种可控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。
6/30/2025 8:36:00 AM
无需数据标注:RLSC 如何用“自我信心”优化语言模型
大家好,我是肆〇柒。 当下,大型语言模型(LLM)如 ChatGPT、Qwen 等展现出了卓越的推理能力,能够在多种任务中提供高质量的解决方案。 然而,尽管这些模型具有强大的基础能力,但要使其行为与特定任务目标精准对齐,后训练优化仍然是不可或缺的关键步骤。
6/27/2025 4:00:00 AM
肆零柒
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉