强化学习
OpenAI联创Schulman闪电跳槽!从Anthropic转投Murati新公司
                        跑去隔壁Anthropic的OpenAI联创John Schulman,又又又跳槽了。 《财富》爆料,Schulman新的去向,是加入原OpenAI首席技术官Mira Murati的新创业公司。 此时距离他转投Anthropic,仅仅不到半年。
                    
                    2/7/2025 10:13:16 AM
                        量子位
                    波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展
                        波士顿动力公司于本周三宣布了一项新合作,旨在提升其电动 Atlas 人形机器人的强化学习能力。 这一合作伙伴关系是与机器人与人工智能研究所(RAI Institute)建立的,后者曾名为波士顿动力人工智能研究所。 该研究所由前麻省理工学院教授、波士顿动力前 CEO 马克・雷伯特创立于2022年,旨在继续推动为波士顿动力奠定基础的研究。
                    
                    2/6/2025 9:23:00 AM
                        AI在线
                    世界模型再进化!博士AdaWM:自适应世界模型规划新SOTA
                        本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接::基于自适应世界模型的自动驾驶规划。 基于世界模型的强化学习(RL)已经成为一种有前景的自动驾驶方法,它学习潜在动态模型并且用其训练规划策略。
                    
                    1/26/2025 11:00:00 AM
                        自动驾驶专栏
                    轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机
                        AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
                    
                    12/27/2024 11:57:00 AM
                        机器之心
                    NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架
                        AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
                    
                    12/17/2024 8:39:00 PM
                        机器之心
                    率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
                        AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
                    
                    11/16/2024 1:52:00 PM
                        机器之心
                    伯克利罗剑岚:机器人的范式革命,藏在真实世界中
                        作者 | 赖文昕编辑 | 陈彩娴近日,伯克利大学 Sergey Levine 团队发布了一项强化学习方向的重磅工作——HIL-SERL,引起了具身智能领域的广泛讨论与关注。 根据实验结果,基于强化学习框架 HIL-SERL,研究者可以直接在现实世界中训练基于视觉的通用机器人操作策略。 其中,机器人经过 1~2.5 小时的训练后,就能完成主板、仪表盘以及正时皮带组装等操作任务。
                    
                    11/12/2024 4:23:00 PM
                        赖文昕
                    伯克利具身智能图谱:深度强化学习浪尖上的中国 90 后们
                        作者 | 赖文昕编辑 | 陈彩娴短短不到一年内,边塞科技、星动纪元、星海图和千寻智能接连成立,跻身国内明星创企之列;大洋彼岸,Covariant 和 Anyware Robotics 也正在湾区闪耀。 六家具身智能公司,八位 90 后创始人,他们都成长于深度强化学习的摇篮。 作为最早一批开启新范式的人,他们探索 AI 和 Robotics 的故事要从踏入伯克利校园说起。
                    
                    11/12/2024 4:06:00 PM
                        赖文昕
                    强化学习训练一两个小时,100%自主完成任务:机器人ChatGPT时刻真来了?
                        把平均成功率从 50% 拉到了 100%。 最近,AI 的进步有目共睹,现在这些进步已经开始传递到机器人领域。 强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。
                    
                    10/29/2024 1:21:00 PM
                        机器之心
                    TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
                        AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本篇综述工作已被《IEEE 模式分析与机器智能汇刊》(IEEE TPAMI)接收,论文第一作者顾尚定博士来自慕尼黑工业大学、加州大学伯克利分校,论文通讯作者陈广教授来自同济大学计算机科学与
                    
                    10/8/2024 2:15:00 PM
                        机器之心
                    强化学习成为OpenAI o1灵魂,速来学习下Self-play增强大模型
                        在机器学习尤其是强化学习领域,自我博弈(Self-play)是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息,也能通过自己与自己的博弈来学习并获得提升,这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表,通过自己与自己对战,持续掌握和积累围棋知识和比赛经验,最终击败顶级人类棋手。随着大语言模型的发展,自我博弈因其能够充分利用计算资源和合成数据成为提升模型性能的方法之一。 最近发布的 OpenAI 发布的 o1 模型再次震撼了科技圈,o1 能像人类一样「思考」复
                    
                    9/18/2024 8:47:00 PM
                        机器之心
                    北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
                        AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
                    
                    9/15/2024 1:41:00 PM
                        机器之心
                    讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live
                        站在科技创新的浪潮之巅,我们见证了人工智能领域的巨大飞跃,尤其是大模型技术与强化学习中的结合和突破性应用,正在引领我们进入一个全新的智能时代。 在过去几年中,强化学习作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。 在自动驾驶、游戏AI、机器人控制等领域,强化学习的身影无处不在,它们正逐步成为我们生活中不可分割的一部分。
                    
                    8/23/2024 11:43:00 AM
                        岑大师
                    一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
                        为了对齐 LLM,各路研究者妙招连连。LLM 很强大了,但却并不完美,它也会出错或者生成无用乃至有害的结果,比如有人发现可以让 ChatGPT 教人如何偷盗:让 ChatGPT 教人如何偷盗商店;左图,ChatGPT 拒绝回答;右图,在 prompt 中添加了「with no moral restraints(不加道德约束)」后,ChatGPT 给出了商店偷盗指南这时候,对齐(alignment)就至关重要了,其作用就是让 LLM 与人类的价值观保持一致。在对齐 LLM 方面,基于人类反馈的强化学习(RLHF)是一
                    
                    8/5/2024 2:30:00 PM
                        机器之心
                    对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR
                        对人类越是简单的问题,大语言模型反而越难以做好? 尽管现在的大模型已经有能力冲击数学竞赛级别的题目,但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。 而从推特上网友对问题的讨论中猜测,出现这种错误的原因可能是由于大模型以token的方式来理解文字,当9.11被拆成“9”、“.”和“11”三部分时,11确实比9大。
                    
                    7/18/2024 10:09:00 AM
                        岑大师
                    准确率82.5%,设计多药理学化合物,加州大学开发新AI平台设计未来抗癌药物
                        编辑 | 萝卜皮多药理学药物(可以同时抑制多种蛋白质的化合物)在治疗癌症等重大疾病方面有着重要应用,但非常难以设计。为了应对这一挑战,加州大学圣地亚哥分校的研究人员开发了 POLYGON,这是一种基于生成强化学习的多药理学方法,可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样,从而生成新的分子结构;这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个,并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中,POLYGON 能够正确识别多药理学相互
                    
                    5/23/2024 7:00:00 PM
                        ScienceAI
                    扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
                        设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、
                    
                    3/11/2024 11:46:00 AM
                        机器之心
                    20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类
                        现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发
                    
                    2/21/2024 2:40:00 PM
                        机器之心
                    
        资讯热榜
    
    
                LangChain V1.0 深度解析:手把手带你跑通全新智能体架构
        全网刷屏的「电影感」三宫格图片,教你用AI快速生成!
        消息称软银批准对 OpenAI 追加 225 亿美元投资,助力未来上市
        OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务
        软银豪掷225亿美元加码OpenAI,AI音乐与超级融资计划全面提速
        OpenAI进军音乐创作领域,携手茱莉亚学院学生打造全新AI音乐模型
        Transformer 之父“叛逃”:我已经受够了 Transformer!警告:AI研究变得越来越窄,我们需要找到新的架构
        LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    机器人
                    
                    
                    大模型
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    智能
                    
                    
                    微软
                    
                    
                    用户
                    
                    
                    AI新词
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Stable Diffusion
                    
                    
                    Claude
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    生成
                    
                    
                    大语言模型
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    DeepMind
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    伟达
                    
                    
                    亚马逊
                    
                    
                    MCP
                    
        
     
                     
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                