Meta 推 LlamaRL 强化学习框架：全异步分布设计，训练 AI 模型提速 10.7 倍

作者：故渊 2025-06-11 03:24

科技媒体 marktechpost 昨日（6 月 10 日）发布博文，报道称 Meta 公司推出 LlamaRL 框架，采用全异步分布式设计，在 405B 参数模型上，LlamaRL 将强化学习步骤时间从 635.8 秒缩短至 59.5 秒，速度提升 10.7 倍。

科技媒体 marktechpost 昨日（6 月 10 日）发布博文，报道称 Meta 公司推出 LlamaRL 框架，采用全异步分布式设计，在 405B 参数模型上，LlamaRL 将强化学习步骤时间从 635.8 秒缩短至 59.5 秒，速度提升 10.7 倍。

AI在线注：强化学习（Reinforcement Learning，RL）通过基于反馈调整输出，让模型更贴合用户需求。随着对模型精准性和规则适配性的要求不断提高，强化学习在训练后阶段的重要性日益凸显，持续优化模型性能，成为许多先进大语言模型系统的关键组成部分。

将强化学习应用于大语言模型，最大障碍在于资源需求。训练涉及海量计算和多组件协调，如策略模型、奖励评分器等。模型参数高达数百亿，内存使用、数据通信延迟和 GPU 闲置等问题困扰着工程师。

Meta 推出的 LlamaRL 框架，采用 PyTorch 构建全异步分布式系统，简化协调并支持模块化定制。通过独立执行器并行处理生成、训练和奖励模型，LlamaRL 大幅减少等待时间，提升效率。

Meta 推 LlamaRL 强化学习框架：全异步分布设计，训练 AI 模型提速 10.7 倍

LlamaRL 通过分布式直接内存访问（DDMA）和 NVIDIA NVLink 技术，实现 405B 参数模型权重同步仅需 2 秒。

在实际测试中，LlamaRL 在 8B、70B 和 405B 模型上分别将训练时间缩短至 8.90 秒、20.67 秒和 59.5 秒，速度提升最高达 10.7 倍。

Meta 推 LlamaRL 强化学习框架：全异步分布设计，训练 AI 模型提速 10.7 倍

MATH 和 GSM8K 基准测试显示，其性能稳定甚至略有提升。LlamaRL 有效解决内存限制和 GPU 效率问题，为训练大语言模型开辟了可扩展路径。

相关标签：

AI Meta

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Meta更新Ray-Ban智能眼镜隐私政策，AI摄像头功能默认开启，语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析，物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#

4/30/2025 11:24:30 PM 远洋

Meta AI 全球市场扩张，并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外，扩展 Meta AI 服务到美国之外的 13 个国家和地区，还宣布上线专门的聊天网站：meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI，在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型，速度更快、智能性更高、功能更强，是执行各种任务的理想选择

4/19/2024 9:15:51 AM 故渊

Meta AI 应用新增隐私警告：避免分享个人或敏感信息

Meta更新AI应用，为“发布到信息流”按钮新增免责声明，提醒避免分享敏感信息。此前该应用信息流存在过度分享隐私问题遭批评。更新后分享有警告，信息流仅展示AI生成内容，变化情况未知。#MetaAI#

6/17/2025 9:08:13 AM 远洋

Meta 推 LlamaRL 强化学习框架：全异步分布设计，训练 AI 模型提速 10.7 倍

相关资讯

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Meta AI 全球市场扩张，并上线网页版 meta.ai

Meta AI 应用新增隐私警告：避免分享个人或敏感信息