赞美

  • 通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

    在这篇论文中,研究者提出了一个在 reward-space 进行摸索的新算法 RPG(Reward-Randomized Policy Gradient),并且在存在多个纳什均衡 (Nash Equilibrium, NE) 的挑战性的多智能恣意中进行了实验验证,实验结果表明,RPG 的表现显著优于经典的 policy/action-space 摸索的算法,并且发现了很多有趣的、人类可以理解的智能体行为政策。除此之外,论文进一步提出了 RPG 算法的扩展:利用 RR 失掉的多样性政策池训练一个新的具备自适应能力的策

    2021年 3月 11日