RLC 2024

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

在奖励中减去平均奖励在当今的大模型时代，以 RLHF 为代表的强化学习方法具有无可替代的重要性，甚至成为了 OpenAI ο1 等模型实现强大推理能力的关键。但这些强化学习方法仍有改进空间。近日，强化学习之父、阿尔伯塔大学教授 Richard Sutton 的团队低调更新了一篇论文，其中提出了一种新的通用思想 Reward Centering，并称该思想适用于几乎所有强化学习算法。

11/1/2024 10:33:00 AM

机器之心

1

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models 微软发布 700 个真实 AI 案例，探索智能化工作新模式豆包App“一句话P图”功能全新升级基于SeedEdit 3.0实现全面优化 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注 Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period 苹果向开发者开放本地AI能力，推出全新Foundation Models框架支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 GPT Meta 学习图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法英伟达代码 Anthropic 芯片开发者生成式蛋白质腾讯神经网络训练 3D 研究生成智能体苹果计算机器学习 Sora Claude AI设计 AI for Science GPU AI视频人形机器人搜索华为百度场景大语言模型 xAI 预测伟达深度学习 LLM 字节跳动 Transformer Agent 模态具身智能神器推荐工具文本视觉 LLaMA 算力 Copilot 驾驶大型语言模型 API RAG 应用架构