AI在线 AI在线

SPIRAL

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

本论文由新加坡国立大学、A*STAR 前沿人工智能研究中心、东北大学、Sea AI Lab、Plastic Labs、华盛顿大学的研究者合作完成。 刘博、Leon Guertler、余知乐、刘梓辰为论文共同第一作者。 刘博是新加坡国立大学博士生,研究方向为可扩展的自主提升,致力于构建能在未知环境中智能决策的自主智能体。
7/30/2025 2:14:00 PM
机器之心
  • 1