295页博士论文探索加强进修形象表面,获AAAI/ACM SIGAI博士论文奖提名

除了论文本身超有技术含量之外,文中使用的图表也非常美观漂亮。

作为人工智能里最受关注的领域之一,加强进修的热度一直居高不下,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。但是,加强进修的进修难度也同样不低。加强进修定义了进修仅通过言论和观察做出好的决策的智能体所面临的成绩。要成为无效的成绩解决者,这些智能体必须无效地探索广阔的世界,从延迟的反馈中获得credit,并归纳出新的经验,同时利用有限的数据、算计资源和感知带宽。

图片

加强进修成绩。形象(abstraction)对于所有这些努力都是必不可少的。通过形象,智能体可以搭建起关于其环境的简洁模型,这些模型支持一个合理的、适应性强的决策者所需的许多实践。在前段时间结束的第36 届 AAAI 人工智能会议上,大会官方公布了新一届的 AAAI/ACM SIGAI 博士论文奖,其中一篇专门分解加强进修形象表面的论文《A Theory of Abstraction in Reinforcement Learning》获得了该奖项提名。论文作家David Abel 博士毕业于布朗大学,他于近日将这篇博士论文上传到了arXiv上,共有295页。

图片

在这篇论文中,作家提出了加强进修中蕴含的形象表面。他首先指出执行形象过程的函数所必备的三要素:

维护相似最优举动的表示;

它们应该被无效地进修和建立;

计划或进修时间不应该太长。

然后提出了一套新的算法和分解方案,阐明智能体如何根据这些要素学会形象。总的来说,这些研讨结果为发现和使用形象提供了一些途径,从而把无效加强进修的复杂性降至最低。

图片

论文地址:https://arxiv.org/pdf/2203.00397.pdf论文简介这篇博士论文所涉及的核心成绩:加强进修智能体是如何发现和使用高质量的形象?作家通过以下表面来回答这个成绩:借鉴算计复杂性表面、决策表面和信息论的思想,是可能设计出高效的算法来启发形象,从而减少RL智能体寻找好的解决方案所需的"经验值"或"思考"时间。为了论证本论文的思想,作家从三个方面阐述了哪些形象在RL中有用,并将其研讨成果高度概括为如下内容:

图片

更具体地,作家通过以下四个部门对加强进修的形象表面展开了探讨。第一部门。在第2章中,作家提供了关于RL以及情态形象、言论形象的必要背景知识。然后,他更详细地先容和激励形象必须的要素。

图片

不同族(family)的RL算法。第二部门。作家致力于情态形象研讨,提出了新的算法以及三个密切相关的分解集,每个分解集的目标都是发现情态形象所必需的要素。在第3章中,作家开发了一个形式化的框架,用于对维护相似最优举动的情态形象进行推理。论文中定理3.1总结该框架,它强调了四个值保留情态形象的充分条件。

图片

本章研讨了包括形象MDP(马尔科夫决策过程)在内的不同族的相似情态形象。在第4章中,作家将此分解扩展到终身性加强进修,其中智能体必须不断与不同的任务进行互动并解决不同的任务。本章主要是对终身进修环境下的PAC情态形象的洞察,并阐明如何无效算计它们的结果。定理4.4阐明了保证这些形象保持良好举动的意义,定理4.5说明了要多少以前解决的任务才能算计出PAC情态形象。作家重点先容了模拟实验的结果,这些结果说明了引入的情态形象类型在加速进修和规划方面的效用。

图片

具有情态形象的终身性加强进修。第 5 章先容了信息论工具对情态形象的影响。作家在情态形象和数据率失真表面以及信息瓶颈方法之间建立了紧密的表面联系,并利用这种联系设计了新的算法来高效地建立情态形象,在压缩和良好举动的表示之间取得了优雅的平衡。作家通过多种方式扩展了该算法框架,充分展示了它发现情态形象的能力,并且为良好举动的无效进修提供了样本。

图片

作家提出的通过情态形象权衡压缩与价值(value)的框架。第三部门,作家转向言论形象。在第6章中,作家先容了Jinnai等人的相关工作,它研讨了如何找到使规划尽可能快的形象动作的成绩。结果表明,这个成绩基本是NP难成绩,甚至很难在多项式时间内相似。

图片

言论形象。在第 7 章中,作家讨论了如何建立规划中同时伴有高级举动的预测模型。这样的模型使智能体能够预估在给定情态下执行某举动的结果(打开这扇门后世界会是什么样子?)。作家先容并分解了这些高级次举动的新模型,并说明在不太严格的假设下,这个更简单的替代方案仍然无效。作家在文中提供的经验证据表明,新的预测模型可以作为更复杂模型的合适替代品。

图片

多时间模型(Multi-Time Model, MTM)与预期长度模型(Expected-Length Model)的比较。在第8章中,作家研讨了形象举动改善探索过程的可能性。他先容了Jinnai等人开发的算法,该算法基于构造简易环境所有部门的形象动作的概念,并说明该算法可以加速基准任务的探索。第四部门。作家研讨了情态-言论形象的联合处理过程。在第 9章中,作家先容了一种将情态和言论形象结合在一起的简单方案,利用这个方案,作家说明了情态和言论形象的哪些组合可以在任何有限 MDP 中保持良好举动策略的表示,论文中定理9.1对此做了总结。接着,作家将研讨这些联合形象的重复应用,作为建立层次形象的机制。在关于层次结构和底层情态言论形象的温和假设下,作家说明这些层次结构还可以保持全局接近最优言论策略的表示,论文中定理9.3对此有阐述。

图片

RL中的情态-言论形象。在第10章中总结了思考和研讨的前进方向。总之,以上各章内容阐述了加强进修的形象表面。下图为论文结构的可视化呈现。

图片

想要了解更多细节内容的读者,请阅读博士论文原文。作家简介David Abel现为DeepMind(伦敦)研讨科学家。他的研讨兴趣主要在于搞清楚围绕算计与进修的核心哲学成绩。他非常看中那些着力提供新见解的研讨,并往往对简单但基础性的成绩感到兴奋。更具体地将,David Abel致力于研讨加强进修成绩,并借鉴算计进修表面、算计复杂度和分解哲学等领域的工具和观点。目前,他感兴趣的研讨方向是「更好地定义AI成绩。」

图片

个人主页:https://david-abel.github.io/论文目录如下:

图片

图片

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/295-ye-bo-shi-lun-wen-tan-suo-jia-qiang-jin-xiu-xing-xiang/

(0)
上一篇 2022年 3月 16日 下午3:20
下一篇 2022年 3月 20日 下午12:53

相关推荐

  • 这款产品发布之后,每款游玩都能有高智商的AI

    想让游玩中的NPC变得跟AlphaGo一样聪明?其实不用那么复杂。

    2022年 1月 4日
  • 元宇宙中的这些新物种流派来了

    元宇宙有多火,已经无需赘言。似乎不投元宇宙的VC,已经是古典VC,没听过元宇宙,和没听过互联网一样out了。不过,一千个人心中有一千个元宇宙,如何定义它,它又如何从概念落地为应用呢?科幻电影《头号玩家》是最接近元宇宙想象的影视模型,故事虽然偏赛博朋克,但它提及的平行全国和元宇宙的设想不谋而合。Metaverse元宇宙,meta指“超越”,universe指“宇宙”。原始概念来自于1992年的一部美国小说《雪崩》。这部小说描述了一个相对实际全国平行但又超越其上的假造全国

    2022年 4月 11日
  • 物理学家在arXiv上怒斥自然封面常温超导论文,被禁言6个月

    在预印本平台上讨论学术问题也要文明、友好,这是 arXiv 刚刚给提交者上的一堂新课。

    2022年 3月 15日
  • ICLR2022:清华、腾讯AI Lab共同提出等变图力学网络,实现多刚体物理体系摹拟

    清华 AIR、计算机系与腾讯 AI Lab 合作,共同提出等变图力学网络,实现了理论力学中的一类重要任务—多刚体体系摹拟。

    2022年 3月 27日
  • DeepMind联合UCL,推出2021加强进修最新课程

    DeepMind 的研讨科学家和工程师亲身讲授了一套加强进修课程,目前已全部上线。DeepMind 作为全球顶级 AI 研讨机构,自 2010 年创建以来已有多项世界瞩目的研讨成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效展望的蛋白质结构的 AlphaFold。近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 加强进修系列课程」现已全部上线。该课程由 DeepMind 的研讨科学家和工程师亲身讲授,旨在为学生提供对现代加强进修的全面介绍。课程

    2021年 9月 16日
  • AI翻新标杆指南:呆板之心Pro·AI 趋势前锋 Insight 榜单发布

    呆板之心Pro 根据企业的技巧实力、产物翻新性、市场与行业潜力、翻新引导能力等多项标准,层层选拔,评比出四大板块的80+优质机构。2017年,呆板之心发布了中国最早的AI评比榜单「Synced Machine Intelligence Awards」。与全世界近 200 万从业者共同关注AI技巧的发展,见证人工智能与我们发生的每一次互动和进步。作为科技范畴的观察者和AI行业发展的见证者,五年时间里,AI技巧一直保持着跨越式前进,呆板之心的年度评比也逐渐成为了以AI为代表的产业科技风向标。随着传统产业对AI的认识更加成

    2022年 5月 14日
  • 为写论文,明尼苏达大学钻研者向Linux提交多条「恶意代码」,结果整个大学都被Linux封了

    为了写论文,明尼苏达大学的钻研者竟然向 Linux 内核发送了多个有漏洞的代码,结果惹怒了 Linux 社区,不仅禁止整所大学向 Linux 提交代码,还将该校提交的代码还原。

    2021年 4月 22日
  • 观点 | 物理车钥匙该退出历史舞台了吗?

    原作者 / BENGT HALVORSON:Green Car Reports编辑、Internet Brands Automotive Group高级编辑,已从事汽车行业报道工作20余年。编译 / Angelina上周五晚上(11月19日),一些特斯拉车主遇到了棘手难题——特斯拉的APP或者网络出现错误,致使他们无法连接到自己的车辆,并且其中一部分人,根本无法加入车内并驾驶。 这次错误致使特斯拉的手机钥匙功效,对部分人来说变得毫无用处,而并不是由车辆本身的硬件问题所致使。「看起来我们大概不小心增加了过多

    2021年 11月 23日
  • 解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer

    来自字节跳动的研讨者提出了一种能在现实工业场景中有效布置的下一代视觉 Transformer,即 Next-ViT。Next-ViT 能像 CNN 一样快速推断,并有 ViT 一样强大的功能。

    2022年 7月 22日
  • 崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

    2021 年英特尔架构日上,英特尔发布一系列重大技术架构的改变和创新:两款崭新的 x86 内核架构(能效核与机能核)、代号为 Alder Lake 的首个机能混合架构、英特尔硬件线程调剂器、专为数据中心设计的下一代英特尔至强可扩大处理器 Sapphire Rapids 以及基础设施处理器(IPU)等内容。

    2021年 8月 20日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注