DeepMind联合UCL，推出2021加强进修最新课程

DeepMind 的钻研科学家和工程师亲身讲授了一套加强进修课程，目前已全部上线。DeepMind 作为全球顶级 AI 钻研机构，自 2010 年创建以来已有多项世界瞩目的钻研成果，例如击败世界顶级围棋玩家的 AlphaGo 和今年高效展望的蛋白质结构的 AlphaFold。近几年，DeepMind 联合伦敦大学学院（UCL）推出了一些人工智能线上课程，今年他们联合推出的「2021 加强进修系列课程」现已全部上线。该课程由 DeepMind 的钻研科学家和工程师亲身讲授，旨在为学生提供对现代加强进修的全面介绍。课程

DeepMind 的钻研科学家和工程师亲身讲授了一套加强进修课程，目前已全部上线。

DeepMind 作为全球顶级 AI 钻研机构，自 2010 年创建以来已有多项世界瞩目的钻研成果，例如击败世界顶级围棋玩家的 AlphaGo 和今年高效展望的蛋白质结构的 AlphaFold。

近几年，DeepMind 联合伦敦大学学院（UCL）推出了一些人工智能线上课程，今年他们联合推出的「2021 加强进修系列课程」现已全部上线。该课程由 DeepMind 的钻研科学家和工程师亲身讲授，旨在为学生提供对现代加强进修的全面介绍。

DeepMind联合UCL，推出2021加强进修最新课程

课程主页：https://deepmind.com/learning-resources/reinforcement-learning-series-2021

课程介绍

本次课程共包含 13 节，涵盖了顺序决策问题中加强进修和计划的基础知识，并进一步讲授了现代深度加强进修算法。其中详细讲授了加强进修的多个主题，包含马尔科夫决策过程（MDP）、基于样本的进修算法（例如双 Q 进修、SARSA）、深度加强进修等，还探讨了一些更高级的主题，包含 off-policy 进修、多步更新和资格迹（eligibility traces），以及实现 Rainbow DQN 等深度加强进修算法需要的理论和现实条件。

下面我们来看一下各节课程的具体内容。

第 1 讲加强进修简介：DeepMind 钻研科学家 Hado van Hasselt 首先简单介绍了本次加强进修课程的内容，然后讲授了加强进修与 AI 的关系。

DeepMind联合UCL，推出2021加强进修最新课程

第 2 讲探索与控制：Hado van Hasselt 讲授了为什么进修智能体必须同时做到平衡探索和利用所获的知识。

第 3 讲 MDP 和动向计划：DeepMind 钻研科学家 Diana Borsa 讲授了如何使用动向计划解决 MDP 以提取准确的展望和良好的控制战略。

DeepMind联合UCL，推出2021加强进修最新课程

第 4 讲动向计划算法的理论基础：Diana Borsa 讲授了动向计划算法的扩展和收缩映射定理（contraction mapping）。

第 5 讲无模型展望：Hado van Hasselt 仔细讲授了无模型展望及其与蒙特卡罗和时间差分算法的关系。

第 6 讲无模型控制：Hado van Hasselt 讲授了用于战略改进的展望算法，以产生可以从采样经验中进修良好行为战略的算法。

第 7 讲函数类似：Hado van Hasselt 讲授了如何将深度进修与加强进修结合，以实现「深度加强进修」。

第 8 讲计划与模型：DeepMind 钻研工程师 Matteo Hessel 讲授了如何进修和使用模型，包含 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。

DeepMind联合UCL，推出2021加强进修最新课程

第 9 讲战略梯度和 Actor-Critic 方法：Hado van Hasselt 讲述了可以直接进修战略的战略算法，并进一步讲授了结合价值展望以提高进修效率的 actor critic 算法。

第 10 讲类似动向计划：Diana Borsa 讲授了类似动向计划算法，探讨了如何从理论的角度分析类似算法的性能。

第 11 讲多步和 off-policy：Hado van Hasselt 讲授了多步和 off-policy 算法，包含多种减小方差的方法。

第 12 讲深度加强进修 #1：Matteo Hessel 讲授了深度加强进修的实际要求和具体算法，以及如何使用自动微分（Jax）来实现。

第 13 讲深度加强进修 #2：Matteo Hessel 讲授了通用价值函数（general value functions）、基于 GVF 的辅助任务，并进一步讲授了如何处理算法中的扩展问题。

DeepMind 钻研者亲身授课

该系列课程的讲师是 DeepMind 的钻研科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。

Hado van Hasselt

DeepMind联合UCL，推出2021加强进修最新课程

Hado van Hasselt 是 DeepMind 的一名钻研科学家，也是伦敦大学学院（UCL）的光荣教授。Hado van Hasselt 博士毕业于世界顶尖公立钻研型大学和百强名校乌得勒支大学，他的钻研兴趣包含人工智能、机器进修、深度进修，并重点钻研加强进修。

Diana Borsa

DeepMind联合UCL，推出2021加强进修最新课程

Diana Borsa 是 DeepMind 的钻研科学家，也是 UCL 的光荣讲师。她的钻研兴趣主要是加强进修、机器进修、统计进修和通用人工智能（AGI），涵盖智能体进修、交互系统、多智能体系统、概率建模、表征进修等。

Matteo Hessel

DeepMind联合UCL，推出2021加强进修最新课程

Matteo Hessel 是 DeepMind 的一位钻研工程师，也是 UCL 的光荣讲师。他的钻研重点是加强进修及其与深度进修的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文，这些论文的引用次数超过 4000 次，并获得了 2 项注册专利。

{{userData.name}}已认证

DeepMind联合UCL，推出2021加强进修最新课程

撑持异构图、集成GraphGym，超好用的图神经网络库PyG更新2.0版本

Jupyter笔记本实现，慕尼黑工大220页免费册本先容鉴于物理的深度进修

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

{{userData.name}}已认证

撑持异构图、集成GraphGym，超好用的图神经网络库PyG更新2.0版本

Jupyter笔记本实现，慕尼黑工大220页免费册本先容鉴于物理的深度进修

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

字节跳动清华AIR成立联合研究中心推动大模型产学研合作