强化学习

强化学习成为OpenAI o1灵魂，速来学习下Self-play增强大模型

强化学习成为OpenAI o1灵魂，速来学习下Self-play增强大模型

在机器学习尤其是强化学习领域，自我博弈（Self-play）是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息，也能通过自己与自己的博弈来学习并获得提升，这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表，通过自己与自己对战，持续掌握和积累围棋知识和比赛经验，最终击败顶级人类棋手。随着大语言模型的发展，自我博弈因其能够充分利用计算资源和合成数据成为提升模型性能的方法之一。最近发布的 OpenAI 发布的 o1 模型再次震撼了科技圈，o1 能像人类一样「思考」复

9/18/2024 8:47:00 PM 机器之心

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

9/15/2024 1:41:00 PM 机器之心

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live

站在科技创新的浪潮之巅，我们见证了人工智能领域的巨大飞跃，尤其是大模型技术与强化学习中的结合和突破性应用，正在引领我们进入一个全新的智能时代。在过去几年中，强化学习作为人工智能的一个重要分支，已经从理论研究的深奥殿堂走向了实践应用的广阔天地，从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域，强化学习的身影无处不在，它们正逐步成为我们生活中不可分割的一部分。

8/23/2024 11:43:00 AM 岑大师

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。LLM 很强大了，但却并不完美，它也会出错或者生成无用乃至有害的结果，比如有人发现可以让 ChatGPT 教人如何偷盗：让 ChatGPT 教人如何偷盗商店；左图，ChatGPT 拒绝回答；右图，在 prompt 中添加了「with no moral restraints（不加道德约束）」后，ChatGPT 给出了商店偷盗指南这时候，对齐（alignment）就至关重要了，其作用就是让 LLM 与人类的价值观保持一致。在对齐 LLM 方面，基于人类反馈的强化学习（RLHF）是一

8/5/2024 2:30:00 PM 机器之心

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对人类越是简单的问题，大语言模型反而越难以做好？尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。

7/18/2024 10:09:00 AM 岑大师

准确率82.5%，设计多药理学化合物，加州大学开发新AI平台设计未来抗癌药物

准确率82.5%，设计多药理学化合物，加州大学开发新AI平台设计未来抗癌药物

编辑 | 萝卜皮多药理学药物（可以同时抑制多种蛋白质的化合物）在治疗癌症等重大疾病方面有着重要应用，但非常难以设计。为了应对这一挑战，加州大学圣地亚哥分校的研究人员开发了 POLYGON，这是一种基于生成强化学习的多药理学方法，可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样，从而生成新的分子结构；这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个，并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中，POLYGON 能够正确识别多药理学相互

5/23/2024 7:00:00 PM ScienceAI

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用扩散模型的规划模块能够同时生成长序列的轨迹规划，这更加符合人类的决策模式。此外，扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

3/11/2024 11:46:00 AM 机器之心

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

现在，机器人学会工厂精密操控任务了。近年来，机器人强化学习技术领域取得显著的进展，例如四足行走，抓取，灵巧操控等，但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战，这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中，任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调，解决强化学习技术实际落地的诸多难题，与算法本身的持续创新同等重要。面对这一挑战，来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发

2/21/2024 2:40:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉