当前,加强进修(包括深度加强进修DRL和多智能体加强进修MARL)在游戏、机器⼈等领域有⾮常出⾊的表现,但尽管如此,在达到相同⽔平的情况下,加强进修所需的样本量(交互次数)还是远远超过⼈类的。这种对⼤量交互样本的需求,严重阻碍了加强进修在现实场景下的应⽤。为了提升对样本的利⽤效率,智能体需要⾼效率地探究未知的情况,然后收集⼀些有利于智能体达到最优计谋的交互数据,以便促进智能体的进修。近年来,研究⼈员从不同的⻆度研究RL中的探究计谋,取得了许多进展,但尚⽆⼀个全⾯的,对RL中的探究计谋进⾏深度分析的综述。
论文地址:https://arxiv.org/pdf/2109.06668.pdf本⽂介绍深度加强进修领域第⼀篇系统性的综述⽂章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。该综述⼀共调研了将近200篇⽂献,涵盖了深度加强进修和多智能体深度加强进修两⼤领域近100种探究算法。总的来说,该综述的贡献次要可以总结为以下四⽅⾯:
三类探究算法。该综述⾸次提出鉴于⽅法性质的分类⽅法,根据⽅法性质把探究算法次要分为鉴于不确定性的探究、鉴于内在激励的探究和其他三⼤类,并从单智能体深度加强进修和多智能体深度加强进修两⽅⾯系统性地梳理了探究计谋。
四⼤挑衅。除了对探究算法的总结,综述的另⼀⼤特点是对探究挑衅的分析。综述中⾸先分析了探究过程中次要的挑衅,同时,针对各类⽅法,综述中也详细分析了其解决各类挑衅的能⼒。
三个规范benchmark。该综述在三个规范的探究benchmark中提供了具有代表性的DRL探究⽅法的全⾯统⼀的性能⽐较。
五点开放问题。该综述分析了现在尚存的亟需解决和进⼀步提升的挑衅,揭⽰了加强进修探究领域的未来研究⽅向。
接下来,本⽂从综述的四⼤贡献⽅⾯展开介绍。三类探究算法
上图展⽰了综述所遵循的分类⽅法。综述从单智能体深度加强进修算法中的探究计谋、多智能体深度加强进修算法中的探究计谋两⼤⽅向系统性地梳理了相关⼯作,并分别分成三个⼦类:⾯向不确定性的(Uncertainty-oriented)探究计谋、⾯向内在激励的(Intrinsic motivation oriented)探究计谋、以及其他计谋。1、⾯向不确定性的探究计谋通常遵循“乐观对待不确定性”的指导原则(OFU Principle)「1」。这类做法认为智能体对某区域更⾼的不确定性(Uncertainty)往往是因为对该区域不充分的探究导致的,因此乐观地对待不确定性,也即引导智能体去探究不确定性⾼的地⽅,可以实现⾼效探究的⽬的。加强进修中⼀般考虑两类不确定性,其中引导往认知不确定性⾼的区域探究可以促进智能体的进修,但访问情况不确定性⾼的区域不但不会促进智能体进修过程,反⽽由于情况不确定性的⼲扰会影响到正常进修过程。因此,更合理的做法是在乐观对待认知不确定性引导探究的同时,尽可能地避免访问情况不确定性更⾼的区域。鉴于此,根据是否在探究中考虑了情况不确定性,综述中将这类鉴于不确定性的探究计谋分为两个⼩类。第⼀类只考虑在认知不确定性的引导下乐观探究,规范⼯作有RLSVI「2」、Bootstrapped DQN「3」、OAC「4」、OB2I「5」等;第⼆类在乐观探究的同时考虑避免情况不确定性的影响,规范⼯作有IDS「6」、DLTV「7」等。2、⾯向内在激励旌旗灯号的探究计谋⼈类通常会通过不同⽅式的⾃我激励,积极主动地与世界交互并获得成就感。受此启发,内在激励旌旗灯号导向的探究⽅法通常通过设计内在奖赏来创造智能体的成就感。从设计内在激励旌旗灯号所使⽤的技术,单智能体⽅法中⾯向内在激励旌旗灯号的探究计谋可分为三类,也即估计情况动⼒学预测误差的⽅法、状况新颖性估计⽅法和鉴于信息增益的⽅法。⽽在多智能体问题中,⽬前的探究计谋次要通过状况新颖性和社会影响两个⻆度考虑设计内在激励旌旗灯号。估计情况动⼒学预测误差的⽅法次要是鉴于预测误差,⿎励智能体探究具有更⾼预测误差的状况,规范⼯作有ICM「8」、EMI「9」等。状况新颖性⽅法不局限于预测误差,⽽是直接通过衡量状况的新颖性(Novelty),将其作为内在激励旌旗灯号引导智能体探究更新颖的状况,规范⼯作有RND「10」、Novelty Search「11」、LIIR「12」等。鉴于信息增益的⽅法则将信息获取作为内在奖赏,旨在引导智能体探究未知领域,同时防⽌智能体过于关注随机领域,规范⼯作有VIME「13」等。⽽在多智能体加强进修中,有⼀类特别的探究计谋通过衡量“社会影响”,也即衡量智能体对其他智能体的影响作⽤,指导作为内在激励旌旗灯号,规范⼯作有EITI和 EDTI「14」等。3、其他除了上述两⼤类主流的探究算法,综述⾥还调研了其他⼀些分⽀的⽅法,从其他⻆度进⾏有效的探究。这些⽅法为如何在DRL中实现通⽤和有效的探究提供了不同的见解。这次要包括以下三类,⼀是鉴于分布式的探究算法,也即使⽤具有不同探究行为的异构actor,以不同的⽅式探究情况,规范⼯作包括Ape-x「15」、R2D2「16」等。⼆是鉴于参数空间噪声的探究,不同于对计谋输出增加噪声,采⽤噪声对计谋参数进⾏扰动,可以使得探究更加多样化,同时保持⼀致性,规范⼯作包括NoisyNet「17」等。除了以上两类,综述还介绍了其他⼏种不同思路的探究⽅法,包括Go-Explore「18」,MAVEN「19」等。四大挑衅综述重点总结了⾼效的探究计谋次要⾯临的四⼤挑衅。
⼤规模状况动作空间。状况动作空间的增加意味着智能体需要探究的空间变⼤,就⽆疑导致了探究难度的增加。
稀疏、延迟奖赏旌旗灯号。稀疏、延迟的奖赏旌旗灯号会使得智能体的进修⾮常困难,⽽探究机制合理与否直接影响了进修效率。
观测中的⽩噪声。现实世界的情况通常具有很⾼的随机性,即状况或动作空间中通常会出现不可预测的内容,在探究过程中避免⽩噪声的影响也是提升效率的重要因素。
多智能体探究挑衅。多智能体任务下,除了上述挑衅,指数级增长的状况动作空间、智能体间协同探究、局部探究和全局探究的权衡都是影响多智能体探究效率的重要因素。
综述中总结了这些挑衅产⽣的原因,及可能的解决⽅法,同时在详细介绍⽅法的部分,针对现有⽅法对这些挑衅的应对能⼒进⾏了详细的分析。如下图就分析了单智能体加强进修中鉴于不确定性的探究⽅法解决这些挑衅的能⼒。
三个经典的benchmark为了对不同的探究⽅法进⾏统⼀的实验评价,综述总结了上述⼏种有代表性的⽅法在三个代表性 benchmark上的实验结果: 《蒙特祖玛的复仇》,雅达利和Vizdoom。蒙特祖玛的复仇由于其稀疏、延迟的奖赏成为⼀个较难解决的任务,需要RL智能体具有较强的探究能⼒才能获得正反馈;⽽穿越多个房间并获得⾼分则进⼀步需要⼈类⽔平的记忆和对情况中事件的控制。整个雅达利系列侧重于对提⾼RL 智能体进修性能的探究⽅法进⾏更全⾯的评估。Vizdoom是另⼀个具有多种奖赏配置(从密集到⾮常稀疏)的代表性任务。与前两个任务不同的是,Vizdoom是⼀款带有第⼀⼈称视⻆的导航(和射击)游戏。这模拟了⼀个具有严重的局部可观测性和潜在空间结构的进修情况,更类似于⼈类⾯对的现实世界的进修情况。
鉴于上表所⽰的统⼀的实验结果,结合所提出的探究中的次要挑衅,综述中详细分析了各类探究计谋在这些任务上的优劣。关于探究计谋的开放问题和未来方向尽管探究计谋的研究取得了⾮常前沿的进展,但是仍然存在⼀些问题没有被完全解决。综述次要从以下五个⻆度讨论了尚未解决的问题。
在⼤规模动作空间的探究。在⼤规模动作空间上,融合表征进修、动作语义等⽅法,降低探究算法的计算复杂度仍然是⼀个急需解决的问题。
在复杂任务(时间步较长、极度稀疏、延迟的奖赏设置)上的探究,虽然取得了一定的进展,⽐如蒙特祖玛的复仇,但这些解决办法代价通常较⼤,甚⾄要借助⼤量⼈类先验知识。这其中还存在较多普遍性的问题值得探究。
⽩噪声问题。现有的⼀些解决⽅案都需要额外估计动态模型或状况表征,这⽆疑增加了计算消耗。除此之外,针对⽩噪声问题,利⽤对抗训练等⽅式增加探究的鲁棒性也是值得研究的问题。
收敛性。在⾯向不确定性的探究中,线性MDP下认知不确定性是可以收敛到0的,但在深度神经⽹络下维度爆炸使得收敛困难。对于⾯向内在激励的探究,内在激励往往是启发式设计的,缺乏理论上合理性论证。
多智能体探究。多智能体探究的研究还处于起步阶段,尚未很好地解决上述问题,如局部观测、不稳定、协同探究等。
次要作者介绍杨天培博⼠,现任University of Alberta博⼠后研究员。杨博⼠在2021年从天津⼤学取得博⼠学位,她的研究兴趣次要包括迁移加强进修和多智能体加强进修。杨博⼠致⼒于利⽤迁移进修、层次加强进修、对⼿建模等技术提升加强进修和多智能体加强进修的进修效率和性能。⽬前已在IJCAI、AAAI、ICLR、NeurIPS等顶级会议发表论⽂⼗余篇,担任多个会议期刊的审稿⼈。汤宏垚博⼠,天津⼤学博⼠在读。汤博⼠的研究兴趣次要包括加强进修、表征进修,其学术成果发表在AAAI、IJCAI、NeurIPS、ICML等顶级会议期刊上。⽩⾠甲博⼠,哈尔滨⼯业⼤学博⼠在读,研究兴趣包括探究与利⽤、离线加强进修,学术成果发表在ICML、NeurIPS等。刘⾦毅,天津⼤学智能与计算学部硕⼠在读,研究兴趣次要包括加强进修、离线加强进修等。郝建业博⼠,天津⼤学智能与计算学部副教授。次要研究⽅向为深度加强进修、多智能体系统。发表⼈⼯智能领域国际会议和期刊论⽂100余篇,专著2部。主持参与国家基⾦委、科技部、天津市⼈⼯智能重⼤等科研项⽬10余项,研究成果荣获ASE2019、DAI2019、CoRL2020最佳论⽂奖等,同时在游戏AI、⼴告及推荐、⾃动驾驶、⽹络优化等领域落地应⽤。Reference[1]P. Auer, N. Cesa-Bianchi, and P. Fischer, “Finite-time analysis of the multiarmed bandit problem,” Machinelearning, vol. 47, no. 2-3, pp. 235–256, 2002.[2]I. Osband, B. V. Roy, and Z. Wen, “Generalization and exploration via randomized value functions,” inInternational Conference on Machine Learning, 2016, pp. 2377–2386.[3]I. Osband, C. Blundell, A. Pritzel, and B. V. Roy, “Deep exploration via bootstrapped DQN,” in Advances inNeural Information Processing Systems 29, 2016, pp. 4026–4034.[4]K. Ciosek, Q. Vuong, R. Loftin, and K. Hofmann, “Better exploration with optimistic actor critic,” inAdvances in Neural Information Processing Systems, 2019, pp. 1785–1796.[5]C. Bai, L. Wang, L. Han, J. Hao, A. Garg, P. Liu, and Z. Wang, “Principled exploration via optimisticbootstrapping and backward induction,” in International Conference on Machine Learning, 2021.[6]J. Kirschner and A. Krause, “Information directed sampling and bandits with heteroscedastic noise,” inConference On Learning Theory, 2018, pp. 358–384.[7]B. Mavrin, H. Yao, L. Kong, K. Wu, and Y. Yu, “Distributional reinforcement learning for efficientexploration,” in International Conference on Machine Learning, 2019, pp. 4424–4434.[8]D. Pathak, P. Agrawal, A. A. Efros, and T. Darrell, “Curiosity-driven exploration by self-supervisedprediction,” in International Conference on Machine Learning, 2017, pp. 2778–2787.[9]H. Kim, J. Kim, Y. Jeong, S. Levine, and H. O. Song, “EMI: exploration with mutual information,” inInternational Conference on Machine Learning, 2019, pp. 3360–3369.[10]Y. Burda, H. Edwards, A. J. Storkey, and O. Klimov, “Exploration by random network distillation,” inInternational Conference on Learning Representations, 2019.[11]R. Y. Tao, V. François-Lavet, and J. Pineau, “Novelty search in representational space for sample efficientexploration,” in Advances in Neural Information Processing Systems, 2020.[12]Y. Du, L. Han, M. Fang, J. Liu, T. Dai, and D. Tao, “LIIR: learning individual intrinsic reward in multi-agentreinforcement learning,” in Advances in Neural Information Processing Systems, 2019, pp. 4405– 4416 [13]R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. D. Turck, and P. Abbeel, “VIME: variational information maximizing exploration,” in Advances in Neural Information Processing Systems, 2016, pp. 1109–1117. [14]T. Wang, J. Wang, Y. Wu, and C. Zhang, “Influence-based multi-agent exploration,” in International Conference on Learning Representations, 2020[15]D. Horgan, J. Quan, D. Budden, G. Barth-Maron, M. Hessel, H. van Hasselt, and D. Silver, “Distributed prioritized experience replay,” in International Conference on Learning Representations, 2018. [16]S. Kapturowski, G. Ostrovski, J. Quan, R. Munos, and W. Dabney, “Recurrent experience replay in distributed reinforcement learning,” in International Conference on Learning Representations, 2019. [17]M. Fortunato, M. G. Azar, B. Piot, J. Menick, M. Hessel, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg, “Noisy networks for exploration,” in International Conference on Learning Representations, 2018.[18]E. Adrien, H. Joost, L. Joel, S. K. O, and C. Jeff, “First return, then explore,” Nature, vol. 590, no. 7847, pp.580–586, 2021.[19]A. Mahajan, T. Rashid, M. Samvelyan, and S. Whiteson, “MAVEN: multi-agent variational exploration,” inAdvances in Neural Information Processing Systems, 2019, pp. 7611–7622.
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/31029