AI在线 AI在线

SSRL

自搜索强化学习SSRL:Agentic RL的Sim2Real时刻

本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。 第一作者为上海 AI Lab 博士生樊钰辰,研究方向是 Agent 以及强化学习;通讯作者为清华大学周伯文教授。 此前的 Agentic Search RL 任务大多采用真实搜索引擎,导致训练效率低,速度慢,稳定性差。
9/2/2025 10:15:00 AM
机器之心
  • 1