强化学习
九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
                        近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
                    
                    5/12/2025 9:02:00 AM
                        
                    万字长文带你读懂强化学习,去中心化强化学习又能否实现?
                        强化学习(RL)是当今 AI 领域最热门的词汇之一。 近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意义。 原文地址:「有时候几十年什么也不会发生;有时候几周时间仿佛过了几十年。
                    
                    5/8/2025 9:16:00 AM
                        
                    OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
                        王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。
                    
                    5/7/2025 1:47:43 PM
                        机器之心
                    VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
                        随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。 复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。 并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
                    
                    5/6/2025 3:28:14 PM
                        机器之心
                    全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
                        最近,全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布! 任何人都能用自己的异构计算资源参与,无需授权。 这种全新的范式,让去中心化训练在编码、数学和科学领域,迈向前沿的推理性能。
                    
                    4/27/2025 9:19:00 AM
                        新智元
                    TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
                        在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。 OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后,测试时缩放(TTS)技术功不可没。 测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
                    
                    4/25/2025 9:12:00 AM
                        机器之心
                    Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
                        ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。 每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。 今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
                    
                    4/24/2025 9:16:00 AM
                        新智元
                    RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
                        清华和上交的最新论文中,上演了一场“学术打假”的戏码。 文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。
                    
                    4/23/2025 11:11:00 AM
                        郑佳美||梁丙鉴
                    UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换
                        本文的作者来自伊利诺伊大学香槟分校(UIUC)、马萨诸塞大学(UMass)和谷歌。 本文的第一作者为 UIUC 博士生金博文,主要研究方向为与大语言模型相关的智能体、推理和强化学习研究。 其余学生作者为 UMass 博士生曾翰偲和 UIUC 博士生岳真锐。
                    
                    4/22/2025 9:06:00 AM
                        机器之心
                    更长思维并不等于更强推理性能,强化学习可以很简洁
                        今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较长响应的原因。 他写到:「众所周知,推理模型通常会生成较长的响应,这会增加计算成本。 现在,这篇新论文表明,这种行为源于强化学习的训练过程,而并非更高的准确度实际需要更长的答案。
                    
                    4/14/2025 1:46:00 PM
                        机器之心
                    小鹏汽车推新物理大模型,定位AI汽车公司
                        近日,小鹏汽车创始人何小鹏在社交媒体上透露,作为将 “智能化” 作为核心的车企之一,小鹏汽车的本质定位在于 “AI 汽车公司”。 他强调,人工智能(AI)最大的价值不仅在于数字世界的应用,更在于能够改变我们的物理世界。 这一观点引发了行业内外的关注与讨论。
                    
                    4/14/2025 11:01:07 AM
                        AI在线
                    强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
                        「推理」已成为语言模型的下一个主要前沿领域,近期学术界和工业界都取得了突飞猛进的进展。 在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效? 什么无效?
                    
                    4/13/2025 3:10:00 PM
                        机器之心
                    字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
                        字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了? 而且参数规模更小。 同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。
                    
                    4/11/2025 12:10:33 PM
                        量子位
                    AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
                        Manus 的出现将智能体推入当下 AI 格局的前列,使得这个过去略抽象的概念变得具体可感知。 然而行业中也不乏对 Manus 的争议,认为 Manus 没有底层技术创新力,更多的是将现有技术融合从而在工程上创新,即所谓的“套壳”。 虽说工程创新也是一种护城河,但“套壳”的说法也并非完全没道理。
                    
                    4/9/2025 8:23:00 PM
                        王悦
                    UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测
                        基于规则的强化学习(RL/RFT)已成为替代 SFT 的高效方案,仅需少量样本即可提升模型在特定任务中的表现。 该方法通过预定义奖励函数规避人工标注成本,如 DeepSeek-R1 在数学求解中的成功应用,以及多模态领域在图像定位等任务上的性能突破(通常使用 IOU 作为规则 reward)。 vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发,首次将基于规则的强化学习(RL)应用到了 GUI 智能体领域。
                    
                    4/8/2025 6:33:00 PM
                        机器之心
                    首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考
                        从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。 一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美? 人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。
                    
                    4/8/2025 9:50:00 AM
                        机器之心
                    大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
                        一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办?
                    
                    4/3/2025 9:23:08 AM
                        量子位
                    业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
                        用上动态强化学习,多模态大模型也能实现泛化推理了? 来自OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。 研究人员表示,这一技术使业界突破多模态泛化推理能力。
                    
                    3/31/2025 9:22:00 AM
                        量子位
                    
        资讯热榜
    
    
                LangChain V1.0 深度解析:手把手带你跑通全新智能体架构
        全网刷屏的「电影感」三宫格图片,教你用AI快速生成!
        消息称软银批准对 OpenAI 追加 225 亿美元投资,助力未来上市
        OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务
        软银豪掷225亿美元加码OpenAI,AI音乐与超级融资计划全面提速
        OpenAI进军音乐创作领域,携手茱莉亚学院学生打造全新AI音乐模型
        Transformer 之父“叛逃”:我已经受够了 Transformer!警告:AI研究变得越来越窄,我们需要找到新的架构
        LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    机器人
                    
                    
                    大模型
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    智能
                    
                    
                    微软
                    
                    
                    用户
                    
                    
                    AI新词
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Stable Diffusion
                    
                    
                    Claude
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    生成
                    
                    
                    大语言模型
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    DeepMind
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    伟达
                    
                    
                    亚马逊
                    
                    
                    MCP
                    
        
     
                     
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                