AI在线 AI在线

探索 - 利用级联失效

多轮Agent训练遇到级联失效?熵控制强化学习来破局

作者团队介绍:本文来自罗格斯大学和 Adobe 团队的合作,一作徐武将罗格斯二年级博士,研究兴趣在 LLM Agent Memory 以及 Agent RL 方向上。 师从 Dimitris N. 在训练多轮 LLM Agent 时(如需要 30 步交互才能完成单个任务的场景),研究者遇到了一个严重的训练不稳定问题:标准的强化学习方法(PPO/GRPO)在稀疏奖励环境下表现出剧烈的熵值震荡,导致训练曲线几乎不收敛。
10/17/2025 4:27:00 PM
机器之心
  • 1