强化学习
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
                        SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。 该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。 本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。
                    
                    3/28/2025 10:16:15 AM
                        Jenray
                    清华与蚂蚁数科携手突破:BodyGen助力机器人性能跃升 60%
                        近年来,具身智能热度飙升,从春晚机器人精彩表演,到被写入政府工作报告,再到英伟达黄仁勋多次力推,它已成为AI领域的焦点。 具身智能旨在让机器人像人类一样,在真实世界中精准感知、灵活应对。 清华大学与蚂蚁数科的研究团队带来重大突破,他们在ICLR2025发表的论文中提出BodyGen算法框架。
                    
                    3/25/2025 3:00:41 PM
                        AI在线
                    腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配
                        腾讯近日宣布推出其最新的大型语言模型——混元-T1,并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。 据腾讯介绍,混元-T1在开发过程中高度依赖强化学习,高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。 在多项基准测试中,混元-T1展现出强大的性能。
                    
                    3/25/2025 10:08:00 AM
                        AI在线
                    Fin-R1:基于Qwen2.5-7B强化学习训练的金融大模型,7B参数击败行业巨头
                        金融科技领域迎来一位强劲新秀。 上海财经大学统计与数据科学学院张立文教授团队(SUFE-AIFLM-Lab)联合财跃星辰共同研发的Fin-R1模型正式开源,以惊人的性能引发业界广泛关注。 这款基于Qwen2.5-7B的金融专用大模型通过强化学习训练,在多项金融基准测试中达到了领先水平。
                    
                    3/24/2025 10:01:00 AM
                        AI在线
                    SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架
                        这个研究提出了一种新型强化学习(RL)框架SEARCH-R1,该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。 不同于传统的检索增强生成(RAG)或工具使用方法,SEARCH-R1通过强化学习训练LLM自主生成查询语句,并优化其基于搜索引擎结果的推理过程。 该模型的核心创新在于完全依靠强化学习机制(无需人工标注的交互轨迹)来学习最优的搜索查询策略及基于检索知识的推理方法,从而显著提升问答任务的性能表现。
                    
                    3/21/2025 1:00:54 PM
                        佚名
                    小米大模型团队在音频推理领域取得重大突破,登顶国际评测榜
                        近日,小米大模型团队在音频推理领域的研究中取得了突破性进展,成功应用强化学习算法于多模态音频理解任务,准确率达到了64.5%,这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。 这一成果的背后,离不开团队对 DeepSeek-R1的启发。 MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是衡量音频推理能力的重要标准,通过对包含语音、环境声和音乐的多种音频样本进行分析,测试模型在复杂推理任务中的表现。
                    
                    3/17/2025 2:13:00 PM
                        AI在线
                    小米大模型团队登顶音频推理 MMAU 榜,受到DeepSeek-R1启发
                        小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。 他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。 团队在短短一周内便以64.5% 的 SOTA(State Of The Art)准确率,登顶国际权威的 MMAU 音频理解评测榜,并同步将相关技术开源。
                    
                    3/17/2025 11:43:00 AM
                        AI在线
                    首创GRPO方案!AlphaDrive:VLM+RL破解自动驾驶长尾难题
                        写在前面 & 笔者的个人理解OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平,强化学习(RL)和推理在其中发挥了关键作用。 在自动驾驶领域,最近的端到端模型极大地提高了规划性能,但由于常识和推理能力有限,仍然难以应对长尾问题。 一些研究将视觉-语言模型(VLMs)集成到自动驾驶中,但它们通常依赖于预训练模型,并在驾驶数据上进行简单的监督微调(SFT),没有进一步探索专门为规划设计的训练策略或优化方法。
                    
                    3/14/2025 10:22:03 AM
                        Bo Jiang等
                    360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS
                        近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。 该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。 与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。
                    
                    3/14/2025 10:07:00 AM
                        AI在线
                    超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
                        大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹,并包含了试图实现某些「算法」的 token:例如反思前一个答案、规划或实现某种形式的线性搜索。 这些方法包括显式地微调预训练 LLM 以适应算法行为,例如对搜索数据进行监督微调(SFT)或针对 0/1 正确性奖励运行结果奖励(outcome-reward,OR)RL。
                    
                    3/13/2025 11:07:30 AM
                        机器之心
                    蚂蚁医疗大模型荣获MedBench评测双料冠军,引领医疗AI新纪元
                        近日,国内知名医疗大模型评测平台 MedBench 公布了最新榜单,其中,蚂蚁医疗团队研发的蚂蚁医疗大模型凭借卓越表现,一举夺得了评测榜单和自测榜单的双料冠军,分别以97.5和98.2的高分引发了业界的广泛关注。 蚂蚁医疗大模型的成功离不开其团队在医疗推理模型研发上的不断努力。 该团队近期采用了基于强化学习的技术,打造了新一代的医疗推理模型。
                    
                    3/12/2025 3:28:00 PM
                        AI在线
                    阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力
                        3月11日,通义实验室团队宣布开源R1-Omni模型,为全模态模型的发展带来了新的突破。 该模型结合了强化学习与可验证奖励(RLVR)方法,专注于提升多模态情感识别任务中的推理能力和泛化性能。 R1-Omni的训练分为两个阶段。
                    
                    3/12/2025 8:21:00 AM
                        AI在线
                    图灵奖颁给强化学习师徒,一个造船改行写代码,一个痛批AI投身AGI
                        计算机最高奖图灵奖揭晓! 强化学习先驱Andrew Barto与Richard Sutton共同获奖,他们被评价为“引领基础AI技术开发的研究人员”。 值得一提的是,两位是师徒关系,Richard Sutton是Andrew Barto他第一位博士生。
                    
                    3/6/2025 10:07:00 AM
                        量子位
                    万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
                        在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。 近几年,学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。 在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论,回答了诸多问题,例如:AI 系统如何模拟类人推理和决策过程?
                    
                    3/3/2025 8:26:00 PM
                        王悦
                    UCL强化学习派:汪军与他的学生们
                        作者 | 赖文昕编辑 | 陈彩娴作为一支在 AI 领域历经数十年的研究分支,强化学习一直在历久弥新。 从推荐系统到强化学习 2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车,他将在阿姆斯特丹换乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检索大会(ACM SIGIR)。 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索,ACM SIGIR 每年都能汇集学术界与工业界的最高人才,来开一场信息检索界的“年会”。
                    
                    2/27/2025 7:15:00 PM
                        赖文昕
                    慢思考助力医学大语言模型突破数据瓶颈:上海交大联合上海AI Lab推出MedS3系统
                        编辑 | ScienceAIOpenAI o1、DeepSeek R1 等模型成功实现了在数学、编程等领域的智能慢思考推理,通过自我反思和修正实现了运行时的性能外推。 然而,在医疗领域,仍然很少有模型可以实现具有长链慢思考的推理。 目前医疗领域的推理模型大多是通过在医疗考试题上对 OpenAI 系列的模型进行蒸馏,并没有考虑推理过程的可验证性,以及医疗任务的覆盖度。
                    
                    2/21/2025 4:04:00 PM
                        ScienceAI
                    OpenAI:强化学习确实可显著提高LLM性能,DeepSeek R1、Kimi k1.5发现o1的秘密
                        最近,OpenAI 发了一篇论文,宣称 o3 模型在 2024 IOI 上达到了金牌水平,并且在 CodeForces 上获得了与精英级人类相当的得分。 他们是怎么做到的呢? OpenAI 在论文开篇就用一句话进行了总结:「将强化学习应用于大型语言模型(LLM)可显著提高在复杂编程和推理任务上的性能。
                    
                    2/19/2025 7:05:00 PM
                        机器之心
                    大模型强化学习新发现:删减84%数据反提升效果
                        AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
                    
                    2/19/2025 6:59:00 PM
                        机器之心
                    
        资讯热榜
    
    
                LangChain V1.0 深度解析:手把手带你跑通全新智能体架构
        全网刷屏的「电影感」三宫格图片,教你用AI快速生成!
        消息称软银批准对 OpenAI 追加 225 亿美元投资,助力未来上市
        OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务
        软银豪掷225亿美元加码OpenAI,AI音乐与超级融资计划全面提速
        OpenAI进军音乐创作领域,携手茱莉亚学院学生打造全新AI音乐模型
        Transformer 之父“叛逃”:我已经受够了 Transformer!警告:AI研究变得越来越窄,我们需要找到新的架构
        LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    机器人
                    
                    
                    大模型
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    智能
                    
                    
                    微软
                    
                    
                    用户
                    
                    
                    AI新词
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Stable Diffusion
                    
                    
                    Claude
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    生成
                    
                    
                    大语言模型
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    DeepMind
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    伟达
                    
                    
                    亚马逊
                    
                    
                    MCP
                    
        
     
                     
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                