AI在线 AI在线

Async 架构

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),「3A」彼此间并非孤立的技术堆砌,而是深度耦合,致力于共同推动「强化学习用于大语言模型(RL4LLM)」迈向高效、精细与可解释的新范式。 具体来看,ROLL Flash 以解耦为核心,通过「细粒度并行」与「采样 - 训练解耦」两大原则,将生成、环境交互、奖励计算与模型训练彻底流水线化,实现全链路异步执行,显著提升 GPU 利用率,同时通过「异步比」机制保障训练稳定性,集成主流 Off-policy 算法等,使得异步训练效果能与同步训练相媲美。 算法架构层面,AsyPPO 首次系统论证了评论家的参数规模与其价值估计能力并无必然关联,仅需两个小型评论家,即可在显著降低计算资源消耗的同时,提升推理性能与训练鲁棒性。
11/10/2025 1:36:00 PM
机器之心
  • 1