295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

除了论文本身超有技术含量之外，文中使用的图表也非常美观漂亮。

作为人工智能里最受关注的领域之一，加强进修的热度一直居高不下，在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。但是，加强进修的进修难度也同样不低。

加强进修定义了进修仅通过举措和观察做出好的决策的智能体所面临的成绩。要成为灵验的成绩解决者，这些智能体必须灵验地探索广阔的世界，从延迟的反馈中获得credit，并归纳出新的经验，同时利用有限的数据、盘算资源和感知带宽。

加强进修成绩。

形象(abstraction)对于所有这些努力都是必不可少的。通过形象，智能体可以搭建起关于其环境的简洁模型，这些模型支持一个合理的、适应性强的决策者所需的许多实践。

在前段时间结束的第36 届 AAAI 人工智能会议上，大会官方公布了新一届的 AAAI/ACM SIGAI 博士论文奖，其中一篇专门分解加强进修形象实践的论文《A Theory of Abstraction in Reinforcement Learning》获得了该奖项提名。论文作家David Abel 博士毕业于布朗大学，他于近日将这篇博士论文上传到了arXiv上，共有295页。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

在这篇论文中，作家提出了加强进修中蕴含的形象实践。

他首先指出执行形象过程的函数所必备的三要素：

维护类似最优举动的表示；

它们应该被灵验地进修和建立；

计划或进修时间不应该太长。

然后提出了一套新的算法和分解方案，阐明智能体如何根据这些要素学会形象。总的来说，这些研讨结果为发现和使用形象提供了一些途径，从而把灵验加强进修的复杂性降至最低。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

论文地址：https://arxiv.org/pdf/2203.00397.pdf

论文简介

这篇博士论文所涉及的核心成绩：加强进修智能体是如何发现和使用高质量的形象？

作家通过以下实践来回答这个成绩：借鉴盘算复杂性实践、决策实践和信息论的思想，是可能设计出高效的算法来启发形象，从而减少RL智能体寻找好的解决方案所需的"经验值"或"思考"时间。

为了论证本论文的思想，作家从三个方面阐述了哪些形象在RL中有用，并将其研讨成果高度概括为如下内容：

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

更具体地，作家通过以下四个一面对加强进修的形象实践展开了探讨。

第一一面。在第2章中，作家提供了关于RL以及形态形象、举措形象的必要背景知识。然后，他更详细地先容和激励形象必须的要素。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

不同族（family）的RL算法。

第二一面。作家致力于形态形象研讨，提出了新的算法以及三个密切相关的分解集，每个分解集的目标都是发现形态形象所必需的要素。

在第3章中，作家开发了一个形式化的框架，用于对维护类似最优举动的形态形象进行推理。论文中定理3.1总结该框架，它强调了四个值保留形态形象的充分条件。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

本章研讨了包括形象MDP(马尔科夫决策过程)在内的不同族的类似形态形象。

在第4章中，作家将此分解扩展到终身性加强进修，其中智能体必须不断与不同的任务进行互动并解决不同的任务。本章主要是对终身进修环境下的PAC形态形象的洞察，并阐明如何灵验盘算它们的结果。定理4.4阐明了保证这些形象保持良好举动的意义，定理4.5说明了要多少以前解决的任务才能盘算出PAC形态形象。作家重点先容了模拟实验的结果，这些结果说明了引入的形态形象类型在加速进修和规划方面的效用。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

具有形态形象的终身性加强进修。

第 5 章先容了信息论工具对形态形象的影响。作家在形态形象和数据率失真实践以及信息瓶颈方法之间建立了紧密的实践联系，并利用这种联系设计了新的算法来高效地建立形态形象，在压缩和良好举动的表示之间取得了优雅的平衡。作家通过多种方式扩展了该算法框架，充分展示了它发现形态形象的能力，并且为良好举动的灵验进修提供了样本。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

作家提出的通过形态形象权衡压缩与价值(value)的框架。

第三一面，作家转向举措形象。

在第6章中，作家先容了Jinnai等人的相关工作，它研讨了如何找到使规划尽可能快的形象动作的成绩。结果表明，这个成绩基本是NP难成绩，甚至很难在多项式时间内类似。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

举措形象。

在第 7 章中，作家讨论了如何建立规划中同时伴有高级举动的预测模型。这样的模型使智能体能够预估在给定形态下执行某举动的结果（打开这扇门后世界会是什么样子？）。作家先容并分解了这些高级次举动的新模型，并说明在不太严格的假设下，这个更简单的替代方案仍然灵验。作家在文中提供的经验证据表明，新的预测模型可以作为更复杂模型的合适替代品。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名

多时间模型（Multi-Time Model, MTM）与预期长度模型（Expected-Length Model）的比较。

在第8章中，作家研讨了形象举动改善探索过程的可能性。他先容了Jinnai等人开发的算法，该算法基于构造简易环境所有一面的形象动作的概念，并说明该算法可以加速基准任务的探索。

第四一面。作家研讨了形态-举措形象的联合处理过程。

在第 9章中，作家先容了一种将形态和举措形象结合在一起的简单方案，利用这个方案，作家说明了形态和举措形象的哪些组合可以在任何有限 MDP 中保持良好举动策略的表示，论文中定理9.1对此做了总结。接着，作家将研讨这些联合形象的重复应用，作为建立层次形象的机制。在关于层次结构和底层形态举措形象的温和假设下，作家说明这些层次结构还可以保持全局接近最优举措策略的表示，论文中定理9.3对此有阐述。

295页博士论文探索加强进修形象实践，获AAAI/ACM SIGAI博士论文奖提名