AI在线 AI在线

RL Scaling

开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练

还在为强化学习(RL)框架的扩展性瓶颈和效率低下而烦恼吗? 当模型和集群规模达到上千块 GPU 时,传统的中心化控制器架构难免会遇到性能瓶颈、内存溢出甚至系统崩溃。 事实上,当前最顶尖的基础模型,从 DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都离不开大规模强化学习的加持。
7/29/2025 4:08:00 PM
机器之心
  • 1