AI在线 AI在线

强化学习

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。 一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美? 人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。
4/8/2025 9:50:00 AM
机器之心

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办?
4/3/2025 9:23:08 AM
量子位

业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

用上动态强化学习,多模态大模型也能实现泛化推理了? 来自OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。 研究人员表示,这一技术使业界突破多模态泛化推理能力。
3/31/2025 9:22:00 AM
量子位

SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架

SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。 该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。 本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。
3/28/2025 10:16:15 AM
Jenray

清华与蚂蚁数科携手突破:BodyGen助力机器人性能跃升 60%

近年来,具身智能热度飙升,从春晚机器人精彩表演,到被写入政府工作报告,再到英伟达黄仁勋多次力推,它已成为AI领域的焦点。 具身智能旨在让机器人像人类一样,在真实世界中精准感知、灵活应对。 清华大学与蚂蚁数科的研究团队带来重大突破,他们在ICLR2025发表的论文中提出BodyGen算法框架。
3/25/2025 3:00:41 PM
AI在线

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1,并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。 据腾讯介绍,混元-T1在开发过程中高度依赖强化学习,高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。 在多项基准测试中,混元-T1展现出强大的性能。
3/25/2025 10:08:00 AM
AI在线

Fin-R1:基于Qwen2.5-7B强化学习训练的金融大模型,7B参数击败行业巨头

金融科技领域迎来一位强劲新秀。 上海财经大学统计与数据科学学院张立文教授团队(SUFE-AIFLM-Lab)联合财跃星辰共同研发的Fin-R1模型正式开源,以惊人的性能引发业界广泛关注。 这款基于Qwen2.5-7B的金融专用大模型通过强化学习训练,在多项金融基准测试中达到了领先水平。
3/24/2025 10:01:00 AM
AI在线

SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架

这个研究提出了一种新型强化学习(RL)框架SEARCH-R1,该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。 不同于传统的检索增强生成(RAG)或工具使用方法,SEARCH-R1通过强化学习训练LLM自主生成查询语句,并优化其基于搜索引擎结果的推理过程。 该模型的核心创新在于完全依靠强化学习机制(无需人工标注的交互轨迹)来学习最优的搜索查询策略及基于检索知识的推理方法,从而显著提升问答任务的性能表现。
3/21/2025 1:00:54 PM
佚名

小米大模型团队在音频推理领域取得重大突破,登顶国际评测榜

近日,小米大模型团队在音频推理领域的研究中取得了突破性进展,成功应用强化学习算法于多模态音频理解任务,准确率达到了64.5%,这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。 这一成果的背后,离不开团队对 DeepSeek-R1的启发。 MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是衡量音频推理能力的重要标准,通过对包含语音、环境声和音乐的多种音频样本进行分析,测试模型在复杂推理任务中的表现。
3/17/2025 2:13:00 PM
AI在线

小米大模型团队登顶音频推理 MMAU 榜,受到DeepSeek-R1启发

小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。 他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。 团队在短短一周内便以64.5% 的 SOTA(State Of The Art)准确率,登顶国际权威的 MMAU 音频理解评测榜,并同步将相关技术开源。
3/17/2025 11:43:00 AM
AI在线

首创GRPO方案!AlphaDrive:VLM+RL破解自动驾驶长尾难题

写在前面 & 笔者的个人理解OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平,强化学习(RL)和推理在其中发挥了关键作用。 在自动驾驶领域,最近的端到端模型极大地提高了规划性能,但由于常识和推理能力有限,仍然难以应对长尾问题。 一些研究将视觉-语言模型(VLMs)集成到自动驾驶中,但它们通常依赖于预训练模型,并在驾驶数据上进行简单的监督微调(SFT),没有进一步探索专门为规划设计的训练策略或优化方法。
3/14/2025 10:22:03 AM
Bo Jiang等

360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS

近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。 该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。 与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。
3/14/2025 10:07:00 AM
AI在线

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹,并包含了试图实现某些「算法」的 token:例如反思前一个答案、规划或实现某种形式的线性搜索。 这些方法包括显式地微调预训练 LLM 以适应算法行为,例如对搜索数据进行监督微调(SFT)或针对 0/1 正确性奖励运行结果奖励(outcome-reward,OR)RL。
3/13/2025 11:07:30 AM
机器之心

蚂蚁医疗大模型荣获MedBench评测双料冠军,引领医疗AI新纪元

近日,国内知名医疗大模型评测平台 MedBench 公布了最新榜单,其中,蚂蚁医疗团队研发的蚂蚁医疗大模型凭借卓越表现,一举夺得了评测榜单和自测榜单的双料冠军,分别以97.5和98.2的高分引发了业界的广泛关注。 蚂蚁医疗大模型的成功离不开其团队在医疗推理模型研发上的不断努力。 该团队近期采用了基于强化学习的技术,打造了新一代的医疗推理模型。
3/12/2025 3:28:00 PM
AI在线

阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力

3月11日,通义实验室团队宣布开源R1-Omni模型,为全模态模型的发展带来了新的突破。 该模型结合了强化学习与可验证奖励(RLVR)方法,专注于提升多模态情感识别任务中的推理能力和泛化性能。 R1-Omni的训练分为两个阶段。
3/12/2025 8:21:00 AM
AI在线

图灵奖颁给强化学习师徒,一个造船改行写代码,一个痛批AI投身AGI

计算机最高奖图灵奖揭晓! 强化学习先驱Andrew Barto与Richard Sutton共同获奖,他们被评价为“引领基础AI技术开发的研究人员”。 值得一提的是,两位是师徒关系,Richard Sutton是Andrew Barto他第一位博士生。
3/6/2025 10:07:00 AM
量子位

万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。 近几年,学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。 在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论,回答了诸多问题,例如:AI 系统如何模拟类人推理和决策过程?
3/3/2025 8:26:00 PM
王悦

UCL强化学习派:汪军与他的学生们

作者 | 赖文昕编辑 | 陈彩娴作为一支在 AI 领域历经数十年的研究分支,强化学习一直在历久弥新。 从推荐系统到强化学习 2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车,他将在阿姆斯特丹换乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检索大会(ACM SIGIR)。 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索,ACM SIGIR 每年都能汇集学术界与工业界的最高人才,来开一场信息检索界的“年会”。
2/27/2025 7:15:00 PM
赖文昕