用ChatGPT和加强进修玩转《我的世界》,Plan4MC攻克24个简单恣意

Plan4MC 目前可以完毕 24 个简单多样恣意,成功率相比所有的基线方式有巨大提升。在开放式的环境中进修多种恣意是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游

Plan4MC 目前可以完毕 24 个简单多样恣意,成功率相比所有的基线方式有巨大提升。在开放式的环境中进修多种恣意是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的简单世界和大量开放的恣意,成为近几年开放式进修研究的重要测试环境。进修 Minecraft 中的简单恣意对当前的加强进修算法是巨大的挑战。一方面,智能体在无限大的世界中通过局部的观测查找资源,面临摸索的困难。另一方面,简单的恣意通常需要很长的执行时间,要求完毕许多隐含的子恣意。例如,制作一把石镐涉及砍树、制作木镐、挖原石等十余个子恣意,需要智能体执行数千步才能完毕。智能体只有在恣意完毕时能够赢得奖赏,难以通过稀疏奖赏学会恣意。

图片

图:Minecraft 中制作石镐的过程。目前围绕 MineRL 挖钻石竞赛的研究普遍运用专家演示的数据集,而 VPT 等研究运用大量带标签的数据进修策略。在缺少额外数据集的情况下,用加强进修训练 Minecraft 的恣意是非常低效的。MineAgent 运用 PPO 算法仅能完毕若干个简单恣意;基于模型的 SOTA 方式 Dreamer-v3 在简化环境模拟器的情况下,也需要采样 1000 万步学会赢得原石。北京大学和北京智源人工智能研究院的团队提出了在无专家数据的情况下高效解决 Minecraft 多恣意的方式 Plan4MC。作家结合加强进修和方案的方式,将解决简单恣意分解为进修基本技巧和技巧方案两个部分。作家运用内在奖赏的加强进修方式训练三类细粒度的基本技巧。智能体运用大型谈话模型构建技巧关系图,通过图上的搜索得到恣意方案。实验部分,Plan4MC 目前可以完毕 24 个简单多样恣意,成功率相比所有的基线方式有巨大提升。

图片

论文链接:https://arxiv.org/abs/2303.16563代码链接:https://github.com/PKU-RL/Plan4MC项目主页:https://sites.google.com/view/plan4mc

图片

1、Minecraft 多恣意Minecraft 中玩家通过摸索能够赢得数百种东西。恣意定义为初始条件和目标东西的组合,例如,“初始化工作台,赢得熟牛肉”。解决这个恣意包含 “赢得牛肉”、“用工作台和原石制作熔炉” 等步骤,这些细分的步骤称为技巧。人类在世界中掌握和组合此类技巧来完毕各种恣意,而不是独立地进修每个恣意。Plan4MC 的目标是进修策略掌握大量的技巧,再通过方案将技巧组合成恣意。作家在 MineDojo 模拟器上构建了 24 个测试恣意,它们涵盖了多种行为(砍树、挖原石、与动物交互)、多种地形,涉及 37 个基本技巧。需要数十步的技巧组合和数千步的环境交互来完毕各个恣意。

图片

图:24 个恣意的设置2、Plan4MC 方式

图片

进修技巧由于加强进修在训练中难以让玩家大范围跑动摸索世界,许多技巧仍不能被掌握。作家提出将摸索和查找的步骤分离出来,将 “砍树” 技巧进一步细化为 “找树” 和 “赢得木头”。Minecraft 中的所有技巧被分为三类细粒度的基本技巧:查找:给定目标东西,玩家要在世界中摸索,找到和接近该东西。操作:利用现有的工具在附近完毕一些恣意,如放置工作台、与动物交互、挖方块。合成:用低级东西合成高级东西。针对每一类技巧,作家设计了加强进修模型和内在奖赏进行高效的进修。查找类技巧运用分层的策略,其中上层策略负责给出目标位置、增大摸索范围,下层策略负责到达目标位置。操作类技巧运用 PPO 算法结合 MineCLIP 模型的内在奖赏训练。合成类技巧仅运用一个动作完毕。在未修改难度的 MineDojo 模拟器上,进修全部技巧仅需与环境交互 6.5M 步。

图片

方案算法Plan4MC 利用技巧之间的依赖关系进行方案,例如赢得石镐与赢得原石、木棍、放置的工作台等技巧间存在如下关系。

图片

作家通过与大谈话模型 ChatGPT 进行交互的方式生成出所有技巧之间的关系,构建了技巧的有向无环图。方案算法是技巧图上的深度优先搜索,如下图所示。

图片

相比 Inner Monologue、DEPS 等与大谈话模型交互式方案的方式,Plan4MC 能够有效避免大谈话模型方案过程中的错误。3、实验结果

图片

在关于进修技巧的研究中,作家引入了不做恣意分解的 MineAgent,以及不细分出查找类技巧的消融实验 Plan4MC w/o Find-skill。表 2 表明,Plan4MC 在三组恣意上均显著超过基线方式。MineAgent 在挤牛奶、剪羊毛等简单恣意上性能接近 Plan4MC,但无法完毕摸索困难的砍树、挖原石等恣意。不做技巧细分的方式在所有恣意上成功率均低于 Plan4MC。

图片

图 3 显示了在完毕恣意的过程中,各方式在查找目标的阶段均有较大的失败概率、导致成功率曲线下降。而不做技巧细分的方式在这些阶段的失败概率明显高于 Plan4MC 的概率。

图片

在关于方案的研究中,作家引入了利用ChatGPT做交互式方案的基线方式Interactive LLM,以及两个消融实验:技巧执行失败时不再重新方案的Zero-shot方式和运用一半最大交互步数的1/2-steps方式。表2表明Interactive LLM在与动物交互的恣意集上表现接近Plan4MC,而在另两个需要更多方案步骤的恣意集上表现不佳。Zero-shot的方式在所有恣意上均表现较差。运用一半步数的方式相比Plan4MC成功率下降不多,表面Plan4MC能用较少的步数高效完毕恣意。4、总结作家提出了 Plan4MC,运用加强进修和方案解决 Minecraft 中的多恣意。为解决摸索困难和样本效率的问题,作家运用内在奖赏的加强进修训练基本技巧,利用大谈话模型构建技巧图进行恣意方案。作家在大量困难 Minecraft 恣意上验证了 Plan4MC 相较包括 ChatGPT 等的各种基线方式的优势。结束语:加强进修技巧 + 大谈话模型 + 恣意方案有可能实现 Daniel Kahneman 所描述的 System1/2 人类决策模型。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/22987

(0)
上一篇 2023年4月21日 上午11:05
下一篇 2023年4月21日 下午2:12

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注