这场较量,让上百个AI智能体「卷起来了」

过去数年,随着神经网络、基于加强进修的自我博弈、多智能体进修和模仿进修等通用机器进修理论的突破,AI 智能体的计划才智实现了飞跃式发展。可以看到,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,在学术研究和产业落地上,它们的关注焦点都在从智能感知向智能计划过渡。「计划 AI」成了领域内的必争之地。今年 5 月,谷歌旗下的机构 DeepMind 发布 Gato,这款全新的 AI 智能体能够在「广泛的情况中」完成 604 项不同的任务。Gato 的诞生,再次刷新了单智能体的才智上限。当然,关于

过去数年,随着神经网络、基于加强进修的自我博弈、多智能体进修和模仿进修等通用机器进修理论的突破,AI 智能体的计划才智实现了飞跃式发展。可以看到,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,在学术研究和产业落地上,它们的关注焦点都在从智能感知向智能计划过渡。「计划 AI」成了领域内的必争之地。今年 5 月,谷歌旗下的机构 DeepMind 发布 Gato,这款全新的 AI 智能体能够在「广泛的情况中」完成 604 项不同的任务。Gato 的诞生,再次刷新了单智能体的才智上限。当然,关于 AI 计划才智的索求不会仅限于此,如果让海量智能体在一个接近真实世界的开放计划情况中「狭路相逢」,它们会做出何种判断和选择,又会怎样分工竞争、竞争呢? 近日,由超参数科技发起,麻省理工学院、清华大学深圳国际研究生院,以及知名数据科学挑战平台 AIcrowd 联合主办的「IJCAI 2022-Neural MMO 海量 AI 团队生活挑战赛」落幕。在这场较量中,我们发现了一些举行新索求的可能性。

图片

复杂情况中的多智能体博弈近年来,多智能体情况已经成为深度加强进修的一个有效研究平台。目前,加强进修情况要么足够复杂,但限制条件太多,普适性不强;要么限制条件很少,但过于简单。这些问题限制了更高复杂度任务的创建,也很难激发出多智能体更高阶的计划才智。2019 年,MIT 博士生 Joseph Suarez 在 OpenAI 实习期间开发了 Neural MMO,他借鉴大型多人在线游玩(MMO),模拟出一个庞大的生态系统,系统中包含数量不等的智能体,并让它们在持久、广阔的情况中竞争。行业人士普遍认为,「这个模拟相当有趣」。与过往着眼于技术水准的 AI 游玩对战情况不同,Neural MMO 涉及到了 AI 的长期判断和选择,更考验智能体的计划才智。 「IJCAI 2022-Neural MMO 海量 AI 团队生活挑战赛」使用的正是上述情况。主办方表示,选择 Neural MMO 主要基于两点:一是 Neural MMO 类似于开放世界生活游玩,本身有一个自运转系统,并且定义了采集、攻击、生活等基本机制,二是它支持海量 AI 共存、交互,并涌现策略。无论在学术界还是工业界,这种情况都不多见。

图片

Neural MMO情况在这场较量中,每局对战都包含 16 支步队,每支步队包含 8 个智能体,这些智能体小分队要在 128×128 的地图上举行自由对抗。根据主办方的设想,每个智能体小分队要达成觅食、索求、竞争、打怪四项成就。这意味着每个情况里有 128 个智能体同时计划,每支步队里的 8 个智能体要为了不同的目标举行有效的竞争分工。

图片

在这种情况下,每个智能体都要发挥自己的强项,必要时,为了团队能够获得「最后的胜利」,一部分智能体还要学会「主动送人头」。鉴于情况里有多个智能体在同时进修,智能体们不仅需要考虑自己期望得到何种奖励,还要考虑对手可能会采取什么策略。再加上每一局对战都要完成四项任务,层层设置之下,每个智能体面临的「抉择」都有更高的计划复杂度。让海量智能体「卷」起来对一场学术性质的较量来说,除了找到好问题,还要有足够多的好选手。为此,主办方从赛事规则、工具、赛事支持等方面对 Neural MMO 挑战赛举行了全面优化。 在工具层面,「IJCAI 2022-Neural MMO 海量 AI 团队生活挑战赛」升级了提交系统,让第一次成功提交到返回结果的时间从原来的两个多小时减少到十分钟;此外,挑战赛还提供了全新的 StarterKit 和 Baseline 。在 StarterKit 中,参赛者只需要跑一遍代码,就可以完成第一个提交;在 Baseline 中,用户只需要训练两天,就可以完成 Stage 1 0.5 的胜率,运行训练四天,就可以获得 Stage 1 0.8 的胜率。这些设想帮助参赛者在初始阶段迅速地熟悉规则,并以此节省大量时间。利用省下来的时间,参赛者们可以将思考重点放在定义智能体在 Neural MMO 情况中的计划方式上,比如举行奖励信号的设想等。在赛制上,这场 Neural MMO 挑战赛采取了 PvE 与 PvP 结合的方式。在 PvE 阶段,每个 Stage 的内置 AI 难度会逐渐增加,参赛者由此感受到「梯度」。Stage 1 的难度是最低的,包含了一些基于简单规则编写的开源脚本。之后,Stage 2 的难度会变得更高,主办方基于经典的 PPO 算法对内置 AI 举行训练,并加入自我博弈(Self-Play)的训练机制。到了 Stage 3,智能体的综合才智进一步升级,选手们面对的已经是高度团结的竞争对手步队。在 PvE 阶段获,成就分达到 25 的步队即可晋级;但在 PvP 阶段,难度上升,对战对象从内置 AI 变为其它参赛选手步队。让 8 个智能体组团完成任务,是竞争博弈中的一个经典问题。如果说在 PvE 阶段的前两个 Stage,依靠单打独斗还能取得一些成绩,那么随着情况内置 AI 不断变强,再到对手从情况内置 AI 变为真实世界中的参赛团队,出战的智能体小分队也需要随之完成脱胎换骨般的进化,以此去理解怎样达成「团队最优计划」。基于上述改进,不同水平的参赛者都能在这场赛事中找到适合自己的参赛目标。但同时,要想获得顶尖名次,智能体的综合计划才智要能经受住考验,这就要求选手在智能体的算法设想上具备更深刻的思考。RL 算法选手,后来者居上经过三个月的激烈角逐,两支来自业界的步队脱颖而出,斩获了本届挑战赛的冠亚军。有趣的是,这两支步队均采用加强进修算法,且都是在最后一个月才参赛。冠军团队 LastOrder 提到,相较现有的其他多智能体情况,MMO 有更丰富的内容,例如生活、战斗、升级、团队 PK、随机地图等。与其他同类较量不同的是,Neural MMO 挑战赛给参赛者的规则限制很少,这也为加强进修算法的应用提供了广阔的发挥空间。NeuralNoob 是亚军获得者,他认为 Neural MMO 最明显的特点在于支持的海量智能体,本场较量的设置为 128 个,但实际上可以增加到上千或者更多。「它是一个多任务的情况,每个智能体需要在必要的时候改变策略各司其职,具有更大的研究价值。」在较量过程中,LastOrder 设想了分布式加强进修训练框架 Newton,该框架具备高度灵活性及可扩展性。

图片

他们采用奖励设想等方法间接鼓励智能体做出合理的行为。在设想合理的奖励、神经网络结构等之后,他们观察到,深度加强进修训练后的智能体自行涌现了相互配合的行为。「启发式算法的优点是思路更加简明,反馈更加直接。相比之下,加强进修需要更长的训练时间,以举行网络结构和参数的调整。」LastOrder 表示,「但加强进修算法所能达到的才智上限更高,更具索求的价值。」NeuralNoob 同样采用加强进修算法,整体方案是 ppo 算法加自我博弈 ( self-play) 训练机制,所有智能体的训练都将 8 个智能体作为一个团队来训练,value 部分则会用到整个团队的共享表征,并按照 CTDE 的方式训练。在 LastOrder 看来,MMO 这个平台还存在更多想象空间:例如它可以引入更多游玩要素,甚至可以变成一个开放的线上游玩,促进 Human in the loop 等领域的相关研究。对此,NeuralNoob 持相似看法,他认为可以有更多样的装备供智能体选择,并设置一个安全区,智能体到达安全区后不能发动攻击,同时可以和敌方智能体举行装备交易。在 NeuralNoob 的设想里,甚至可以让智能体临时和敌方智能体举行竞争,联手击杀一些强大的内置 AI,而同敌方智能体的竞争将会让 MMO 更符合真实世界中竞争与竞争共存的关系。NeuralNoob 认为,这些是加强进修目前比较难胜任的地方,强大如 openai five,也是通过手写规则来实现出装路线,因为设想到装备选择的训练样本占比势必会很小,但依赖链却很长。智能计划的「今天」和「未来」更长远地看,Neural MMO 情况提供了一个广阔、高自由度的学术框架,可以推动一些种群层面的行为研究,比如如何高效组队,它甚至能衍生出社会学、经济学方面的概念研究,这些都是现阶段相关领域内瓶颈仍存的研究方向。正因此,「IJCAI 2022-Neural MMO 海量 AI 团队生活挑战赛」 在学术研究层面的意义也更加凸显。任何关于计划智能的学术研究,人们都希望它能在真实的产业场景中发挥价值,包括但不限于商业游玩、量化交易。在现实生活中,计划的代价可能会非常大,这是因为,一方面,计划会直接导致结果,所以计划水平的质量高低,跟结果带来的收益直接相关;另一方面,计划所设定的情况相当复杂,而想要在真实世界中做预演,成本也会非常高。在学界、业界对智能计划的索求过程中,Neural MMO 无疑有希望成为一个很好的试验载体。但现实中的智能计划往往更加复杂,有着更长的计划链条。如何进一步仿真模拟,让 Neural MMO 更大程度上地接近现实计划情况,这需要整个行业举行长期索求。据了解,超参数科技将依托 2022 NeurlPS 会议举办新一轮 NMMO 挑战赛。相较于「IJCAI 2022-Neural MMO 海量 AI 团队生活挑战赛」,新赛事增加了交易系统,丰富了装备品类、多职业分工以及毒圈机制,这使得它本就开放的情况变得更加贴合现实计划情况。同时,持续丰富的智能体之间竞争及竞争的交互方式也大大增加了计划多样性、策略深度以及竞争竞争的可能性。在Neural NMMO系列挑战赛中,智能体与情况中的内置AI、敌方智能体,以及队友之间产生了大量交互,形成实时反馈,在动态的计划情况中达成最优计划,研究结果推动智能计划技术的发展。不远的将来,智能计划技术将成为数字化转型的加速器,推进能源、物流、工业等产业领域的研究落地和成果转化,为更多「不确定」的真实计划场景提供相对「确定」的答案。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zhe-chang-jiao-liang-rang-shang-bai-ge-ai-zhi-neng-ti-juan/

(0)
上一篇 2022年 8月 19日 上午9:34
下一篇 2022年 8月 25日 下午12:48

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注