通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

在这篇论文中,研究者提出了一个在 reward-space 进行摸索的新算法 RPG(Reward-Randomized Policy Gradient),并且在存在多个纳什均衡 (Nash Equilibrium, NE) 的挑战性的多智能恣意中进行了实验验证,实验结果表明,RPG 的表现显著优于经典的 policy/action-space 摸索的算法,并且发现了很多有趣的、人类可以理解的智能体行为政策。除此之外,论文进一步提出了 RPG 算法的扩展:利用 RR 失掉的多样性政策池训练一个新的具备自适应能力的策

在这篇论文中,研究者提出了一个在 reward-space 进行摸索的新算法 RPG(Reward-Randomized Policy Gradient),并且在存在多个纳什均衡 (Nash Equilibrium, NE) 的挑战性的多智能恣意中进行了实验验证,实验结果表明,RPG 的表现显著优于经典的 policy/action-space 摸索的算法,并且发现了很多有趣的、人类可以理解的智能体行为政策。除此之外,论文进一步提出了 RPG 算法的扩展:利用 RR 失掉的多样性政策池训练一个新的具备自适应能力的政策。在法国启蒙思想家卢梭(Jean-Jacques Rousseau)的《论人类不平等起源》中,提到这样一个猎鹿(StagHunt)故事:一群猎人安静地在陷阱旁期待鹿的出现,猎到鹿的收益较大,可以让所有猎人都吃饱,但是由于鹿十分机敏,需要大家都耐心期待。这个时候一只兔子出现了,兔子体型较小,一人便可以成功捕猎,但是相应的收益也很小。于是每一个猎人有了两个采用:继续期待鹿的出现还是立刻跳起来捕兔?如果猎人采用立刻捕兔,那么他可以捕到兔,失掉较小的收益;如果猎人采用继续期待鹿,若所有其他猎人也都采用了继续期待鹿,那么他们最终可以猎到鹿,失掉最大收益,但是一旦有任何一个其他猎人采用立刻捕兔,那么采用期待鹿的猎人只能挨饿(既没有捕兔,也没有机会再猎到鹿)。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 1:StagHunt 游玩,a>b>=d>c我们考虑 2 个猎人的情况,然后把各种情况的收益抽象出来,就引出了博弈论中非常经典的 2×2 矩阵游玩 StagHunt。如图 1 所示,每个猎人可以执行两种动作:猎鹿(Stag,缩写为 S)和捕兔(Hare,缩写为 H),如果两个猎人都采用猎鹿(S,S),可以失掉最大收益 a(吃饱);如果两人都采用捕兔(H,H),失掉较小收益 d(需分享兔子);如果一人猎鹿一人捕兔(S,H),那么捕兔的人失掉收益 b(独自吃兔),而猎鹿的人失掉最小收益 c(挨饿)。这些收益情况满足大小关系  a (吃饱)> b (独自吃兔子)>=d (两个人分享兔子)> c (挨饿)。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 2:PPO 在 StagHunt 游玩中的表现,其中,a=4,b=3,d=1,10 个随机种子在这个游玩中存在两个纯政策纳什均衡(Nash Equilibrium,NE):一个是 Stag NE,即两个猎人都采用期待鹿,每一个猎人都可以失掉很高的回报,但这是一个风险很高的单干政策。因为一旦其中一个猎人采用不单干,该猎人本身的收益不会发生剧烈变化 — 从最大收益 a(吃饱)变为收益 b(独自吃兔),然而,对另一名猎人来说损失却是巨大的 — 从最大收益 a(吃饱)变为最小收益 c(挨饿)。而这个损失(也就是 a-c)越大,意味着猎人采用单干的风险也就越高。另一个纳什均衡是 Hare NE,即两个猎人都采用捕兔,尽管每个猎人只能失掉较低的回报,但这是一个保守的政策,因为无论对方怎么选,自己都会获得一定的收益 — 对方选猎鹿,自己获得较大收益 b(独自吃兔),对方选捕兔,自己获得较小收益 d(分享兔子)。在这个恣意中,现有的强化学习算法会收敛到哪个 NE 呢?作者做了一个实验,固定 a=4,b=3,d=1,变化 c 的取值,从图 2 可以看出:自猎鹿的惩罚越大,现有的算法收敛到 Stag NE 的概率会越低,也就是更倾向于采用保守的捕兔政策。这与之前的分析是也是吻合的。那么,如何才能让强化学习收敛到收益最优的政策呢?为了解决这个问题,来自清华大学、北京大学、UC 伯克利等机构的研究者提出了一个简单有效的技术,赞美随机化(Reward Randomization,RR)。不同于传统强化学习中的在状态空间(state-space)中进行摸索(exploration)的方法,赞美随机化是一个在赞美空间(reward-space)进行摸索的方法。这项研究已被 ICLR 2021 大会接收为 Poster 论文。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

论文地址:https://arxiv.org/abs/2103.04564如图 3 所示,在一个赞美设置比较极端的游玩里,强化学习通常很难摸索到最优政策(左图,灰色区域表示可能收敛到最优解的子空间,由于赞美极端而非常狭小);但是同样的政策在其他赞美设置的游玩中可能很容易被摸索到(右图)。这就演变出论文的核心观点:通过赞美随机化对原始游玩(StagHunt)的赞美(reward)进行扰动,将问题转化为在扰动后的游玩中寻找单干政策,然后再回到原始游玩中进行微调(fine-tune),进而找到最优政策。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 3:赞美随机化的示意图进一步地,论文将赞美随机化和政策梯度法(Policy Gradient,PG)相结合,提出一个在 reward-space 进行摸索的新算法 RPG(Reward-Randomized Policy Gradient)。实验结果表明,RPG 的表现显著优于经典的 policy/action-space 摸索的算法,并且作者还利用 RPG 发现了很多有趣的、人类可以理解的智能体行为政策。首先,论文在 GridWorld 中进行了实验,其中有一个恣意叫 Monster-Hunt(如图 4 所示),这个恣意设定是这样的:图中分别用黄色和蓝色表示两个智能体(Agent),他们可以在 5*5 格子中挪移,红色表示怪兽(Monster),怪兽可以在格子中随机游走,并且怪兽有一个特点是它会朝着离自己最近的智能体挪移。绿色表示食物苹果(Apple),苹果不能挪移。如果两个智能体同时碰到了怪兽,那么每个智能体将会获得 + 5 赞美,如果智能体单独碰到了怪兽,那么他将会受到 – 2 惩罚,智能体也可以吃苹果,每个苹果将会带来 + 2 赞美。显然,在这个恣意中存在两个纳什均衡,即两个智能体同时遇到怪兽(高风险,高收益)或者各自去吃苹果(低风险,低收益)。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 4:Monster-Hunt 恣意示意图

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 5:在 Monster-Hunt 恣意中不同算法的性能对比图 5 给出了 RPG 与不同算法对比的结果,这些算法包括标准的政策梯度法、智能体共享赞美的政策梯度法、population-based 算法和一些摸索(exploration)算法,包括 MAVEN, Count-based 和 Diayn。可以看出 RPG 在这个恣意中显著优于 baseline。并且从图中可以注意到,即便 RR 阶段并没有找到最优政策,RPG 依然可以通过 fine-tune 阶段进一步提升性能,找到最优政策。那么,RPG 到底发现了哪些政策呢?除了自然的各自单独吃苹果和单独碰到 Monster,作者还发现了另外两种单干政策:图 6(a)展示的是发现的次优单干政策,游玩开始后,两个智能体会挪移到 5*5 格子的同一个角落,然后合体原地不动,因为怪兽的一个特点是会朝着离自己最近的智能体挪移,因此两个智能体原地不动也会一起碰到怪兽,失掉较高的收益,这个单干政策看起来也十分合理,那么还有没有更优的单干政策呢?答案是有的,图 6(b)展示的是 RPG 发现的最优政策,游玩开始后,两个智能体会首先汇合,然后合体一起朝着怪兽挪移,加上怪兽也会朝着智能体挪移,这就大大加快了一起碰到怪兽的速度,因而可以失掉更高的收益。图 7 是最优单干政策的示范动图。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 6:Monster-Hunt 恣意中两种不同单干政策

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 7 Monster-Hunt 恣意中最优单干政策示范接下来介绍在论文中首次开源的新环境 Agar.io,这也是该论文的一大贡献。Agar.io 是一个非常流行的在线多玩家游玩(游玩地址:http://agar.io),每个玩家可以通过鼠标控制运动方向来吃掉比自己小的智能体(可以是食物,也可以是其他玩家)。论文只考虑 2 个玩家的情况,下图(a)表示恣意的示意图,同样用黄色和蓝色表示两个智能体。红色表示地图中随机生成的食物,玩家通过吃掉食物或者其他比自己小的玩家来获得赞美(赞美大小等于吃掉的品质),同理如果丢掉了品质也会受到相当的惩罚。下图(b)表示的是玩家常见的行为,例如用过分裂(Split)提高挪移速度完成捕食,分裂后的部分也可以合并(Merge)。随着智能体品质的增大,挪移速度也越来越慢,因此捕猎的难度也越来越大,玩家需要单干才能获得更高的收益。然而,当两个玩家距离较近时,品质较大的玩家极有可能采用攻击对于品质较小的玩家,从而立刻获得赞美,导致单干破裂。因此,对于品质较小的玩家,这种单干政策风险很高。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图7 Agar.io 恣意示意图如果你是玩家,你会采用什么政策呢?带着这个问题,看一下 RPG 发现的 7 种有趣的、人类可以理解的玩家政策。(1)Cooperative strategy(单干政策,图 8):两个玩家单干将食物驱赶至某一区域,然后分别捕食。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 8 (a)Agar.io 恣意中的单干政策(Cooperate)

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 8 (b)单干示范(2)Aggressive strategy(倾向攻击政策,图 9):两个玩家当两个玩家距离较近时,品质较大的玩家采用捕食品质较小玩家。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 9 (a)Agar.io 恣意中的攻击政策(Attack)

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 9 (b)攻击示范(3)Non-cooperative strategy(非单干政策,图 10):两个玩家各自单独捕食。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 10 Agar.io 恣意中单独捕食政策(Non-cooperate)

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 11 Agar.io 恣意中偶尔攻击政策(Aggressive cooperative)(4)Aggressive cooperative strategy(偶尔攻击政策,图 11):两个玩家大部分时间采用单干,偶尔也会发生攻击行为。(5)Sacrifice strategy(献祭政策,图 12):游玩开始后,两个玩家各自捕食,一段时间后,品质较小的玩家会在地图边界期待,将自己献祭给品质较大的玩家,由品质较大的玩家控制所有品质进行捕食。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 12 (a)Agar.io 恣意中献祭政策(Sacrifice)

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 12 (b)献祭示范(6)Perpetual strategy(永动机政策,图 13):游玩开始后,两个玩家各自捕食,一段时间后,品质较大的玩家会在地图边界期待,品质较小的玩家驱赶食物向品质较大玩家靠拢,然后捕食,之后品质较大的玩家会非常小心地吃掉一部分品质较小的玩家,而品质较小的玩家剩下的部分会继续出去驱赶食物。一段时间后,两个玩家会交换角色,周而复始,因此称为永动机。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 13 (a)Agar.io 恣意中永动机政策(Perpetual)

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 13 (b)永动机示范(7)Balance strategy(均衡政策,图 14):由 RPG fine-tune 之后失掉的最优政策实际上是一种在互相献祭,单独捕食和单干之间的平衡政策,从图 14 可以看出,尽管 RPG 学到的政策单干行为略低,但它的收益最高。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 14 RPG 学出了均衡政策(Balance)论文的最后给出了 RPG 算法的扩展:利用政策随机化失掉的多样性政策池训练一个新的具备自适应能力的政策(Adaptive policy),为了验证政策的适应性,作者在 Agar.io 种做了一个很有趣的实验:在游玩玩到一半时切换对手玩家的政策,然后与 Oracle 政策进行对比,如图 15 所示。例如,当对手玩家政策由单干型切换为竞争型,Adaptive 政策失掉的赞美略低于竞争型政策,但显著高于单干型政策;当对手玩家政策由竞争型切换为单干型,Adaptive 政策失掉的赞美略低于单干型政策,但显著高于竞争型政策。证明训练后的政策确实具有自适应性。

通过赞美随机化发现多智能体游玩中多样性政策行为,清华、UC伯克利等研究者提出全新算法RPG

图 15 Agar.io 恣意中 Adaptive 政策与 Oracle 政策结果对比,注意,只统计切换政策后的赞美以上就是论文的主要内容,更多详细的实验和分析可以查看论文原文,论文的源码以及开发的 Agar.io 环境已经开源,代码指路:https://github.com/staghuntrpg/RPG。参考链接:论文介绍主页:https://sites.google.com/view/staghuntrpg

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/tong-guo-zan-mei-sui-ji-hua-fa-xian-duo-zhi-neng-ti-you-wan/

(0)
上一篇 2021年 3月 11日 上午11:28
下一篇 2021年 3月 15日 下午6:56

相关推荐

  • 开启生成式视频压缩:谷歌基于GAN来实现,性能与HEVC相当

    来自谷歌的钻研者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩办法,该办法优于以前的神经视频压缩办法,并且在用户钻研中与 HEVC 性能相当。

    2021年 8月 11日
  • 地平线征程6正式发布:2024年开启量产,2025年交付超10款车型

    官宣10家首批量产合作车企,地平线征程6发布即爆款

    AI 2024年 4月 25日
  • INDEMIND: 打造标准化机器人AI方案,行业关键手艺供应商价值凸显

    4年深耕低速自动驾驶手艺,打造标准化机器人解决方案,INDEMIND已然破茧成蝶,成为国内最大的机器人关键AI手艺供应商之一。在疫情催化之下,爆发式增长的不只是办事机器人商场,根据数据统计,今年超10万家机器人相关企业成立,随着机器人公司、传统企业、新晋企业陆续进场,一场不可避免的“争夺战”已在悄然中激烈展开。根据IFR数据显示,2016 年以来,全球办事机器人商场规模年均增速达 23.8%,2021 年预计达到 125.26亿美元,到 2023 年,全球办事机器人商场有望突破 201亿美元

    2021年 12月 9日
  • 悲观智能文档批阅系统,推动证券非结构化文档处理提质提效

    悲观智能批阅系统,实行相关场景非结构化文档的辨别剖析、智能考核及与交易对接等,并通过平台化建设提供一定的可拓展性和泛化能力。

    2022年 1月 11日
  • PyFlink 开发情况利器:Zeppelin Notebook

    也许你早就听说过 Zeppelin,但是之前的文章都偏重讲述如何在 Zeppelin 里开发 Flink SQL,今天则来介绍下如何在 Zeppelin 里高效的开发 PyFlink Job,特别是解决 PyFlink 的情况问题。一句来总结这篇文章的主题,就是在 Zeppelin notebook 里利用 Conda 来创造 Python env 自动部署到 Yarn 集群中,你无需手动在集群上去安装任何 PyFlink 的包,并且你可以在一个 Yarn 集群里同时运用互相隔离的多个版本的 PyFlink。最后你

    2021年 9月 29日
  • 国内首届AI宁静大赛圆满收官,上交大、北交大、北理工等夺得三项赛道冠军

    从长远看,人工智能的宁静问题,还需从算法模型的原理上突破,唯有持续加强基础钻研,才能破解核心科学问题。

    2022年 9月 16日
  • 提升编码水平,这本Python软件工程开源册本为研讨职员量身打造

    在科研领域,计算机软件的应用无处不在。但是,一些研讨者因为自身并非毕业于计算机相关学科,所以有时不得不将大量的时间花费在自学软件工程上。对于有些想要提升自身编码与软件开发水平的研讨者来说,合适的学习资料至关重要。本文介绍的这本开源册本就是为这类研讨者「量身打造」的。

    2021年 2月 5日
  • 现在入行CV还有前途吗?来听AI年青学者怎么说

    为了推动 AI 技能的运用创新,促进人工智能范畴的学术交流、人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技能创新大赛,并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。AI年青说是大赛主办方为提升年青开发者对 AI 的认识而主办的系列运动,该运动邀请知名年青学者,探讨理论研讨与运用实践中的热点话题。4月29日,AI年青说将迎来第三期直播运动,中心为「将来五年的计算机视觉」。2012 年,Ale

    2021年 4月 28日
  • 伯克利大神一人投中16篇:ICLR 2021论文接管统计出炉

    ICLR 2021 会议中投稿量和论文接管量最多的作家和机构都有哪些?这个 GitHub 项目做了一个统计。

    2021年 1月 19日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注