此前,由谷歌大脑团队科学家 Aleksandra Faust 和研究员 Srivatsan Krishnan 发布的深度加强进修模型在解决导航、核物理、机器人和游戏等现实世界的顺序决策问题方面取得巨大进步。它很有运用前景,但缺点之一是训练时间过长。
虽然可以利用分布式计算加快复杂困难任务的加强进修的训练,但是需要数百甚至数千个计算节点,且要利用大量硬件资源,这使得加强进修训练成本变得极其高昂,同时还要考虑对情况的影响。最近的研究表明,对现有硬件进行机能优化可以减轻模型训练的碳萍踪(即温室气体排放总量)。
借助系统优化,可以缩短加强进修训练时间、提高硬件利用率、减轻二氧化碳(CO2)排放。其中一种技术是量化,将全精度浮点(FP32)数转换为低精度(int8)数,然后利用低精度数字进行计算。量化可以节省内存成本和带宽,实行更快、更节能的计算。量化已成功运用于监督进修,以实行机器进修(ML)模型的边缘部署并实行更快的训练。同样也可以将量化运用于加强进修训练。
近日,谷歌的研究者在《Transactions of Machine Learning Research》期刊上发表了《QuaRL:快速和情况可持续加强进修的量化》,介绍了一种称为「ActorQ」的新范式。该范式利用了量化,在保持机能的同时,将加强进修训练速度提高 1.5-5.4 倍。作家证明,与全精度训练相比,碳萍踪也减轻了 1.9-3.8 倍。
量化运用于加强进修训练
在传统的加强进修训练中,learner 方略会运用于 actor,actor 利用该方略探索情况并网络数据样本,actor 网络的样本随后被 learner 用于不断完善初始方略。定期地,针对 learner 的训练方略被用来更新 actor 的方略。为了将量化运用于加强进修训练,作家开创了 ActorQ 范式。ActorQ 执行上面描述的相同序列,其中关键区别是,从 learner 到 actor 的方略更新是量化的,actor 利用 int8 量化方略探索情况以网络样本。
以这种方式将量化运用于加强进修训练有两个关键好处。首先,它减轻了方略的内存占用。对于相同的峰值带宽,learner 和 actor 之间传输的数据较少,这降低了 actor 与 learner 之间的方略更新通信成本。其次,actor 对量化方略进行推理,以生成给定情况状态的操作。与完全精确地执行推理相比,量化推理过程要快得多。
传统 RL 训练概述(左)和 ActorQ RL 训练(右)。
在 ActorQ 中,作家利用了 ACME 分布式加强进修框架。量化模块执行统一量化,将 FP32 转换为 int8。actor 利用优化的 int8 计算进行推理。虽然在设计量化模块块时利用的是均匀量化,但其它量化技术可以取代均匀量化并产生类似的结果。actor 网络的样本供 learner 用于训练神经网络方略。进修的方略被量化模块定期量化并广播给 actor。
以量化提升加强进修训练效率
作家在一系列情况中评估 ActorQ,包括 Deepmind Control Suite 和 OpenAI Gym。作家演示了 D4PG 和 DQN 的加速和机能改进。选择 D4PG 是因为它是用于 Deepmind Control Suite 任务的 ACME 中最好的进修算法,而 DQN 是一种广泛利用的标准加强进修算法。
作家在实验中观察到训练加强进修方略的速度显著加快(1.5 倍至 5.41 倍之间)。更重要的是,即使 actor 进行了基于 int8 的量化推理,也可以保持机能。下图显示了用于 Deepmind Control Suite 和 OpenAI Gym 任务的 D4PG 和 DQN 智能体的这一点。
对 D4PG 智能体在各种 Deepmind Control Suite 任务中利用 FP32 方略(q=32)和量化 int8 方略(q=8)的加强进修训练进行比较。量化实行了 1.5 倍到 3.06 倍的速度提升。
OpenAI Gym 情况中 DQN 智能体利用 FP32 方略(q=32)和 int8 量化方略(q=8)进行加强进修训练的比较。量化实行了 2.2 倍到 5.41 倍的加速。
量化减轻碳排放
利用 ActorQ 在加强进修中运用量化可以在不影响机能的情况下缩短训练时间。更有效地利用硬件,并减轻了碳萍踪。作家通过在训练时利用 FP32 的碳排放量与在训练时采用 int8 的排放量之比来衡量碳萍踪的改善。
为了测量加强进修训练实验的碳排放量,作家利用了之前工作中提出的 experiment-impact-tracker (https://github.com/Breakend/experiment-impact-tracker)。ActorQ 系统配备碳监测器 API,以测量每个训练实验的碳排放量。
与全精度运行时的碳排放量(FP32)相比,量化可将碳排放量从 1.9 倍降至 3.76 倍,具体取决于任务。由于加强进修系统可以在数千个分布式硬件核心和加速器上运行,绝对碳减排量(以千克二氧化碳计)可能会非常显著。
比较利用 FP32 和 int8 的训练之间的碳排放。X 轴标度标准化为 FP32 的碳排放量,用红色条表示。ActorQ 减轻了碳排放。
结论和未来方向
作家引入了 ActorQ,这是一种新的范式,将量化运用于加强进修训练,并在保持机能的同时实行了 1.5-5.4 倍的加速改进。与未运用量化的全精度训练相比,ActorQ 可以将加强进修训练的碳萍踪减轻 1.9-3.8 倍。
ActorQ 证明量化可以有效地运用于加强进修的许多方面,从获得高质量和高效的量化方略到减轻训练时间和碳排放。随着加强进修在解决现实问题方面继续取得长足进步,我们有理由相信,使加强进修训练实行可持续发展将是关键。当将加强进修扩展到数千个 CPU 和 GPU 时,即使 50% 的改进也会在成本、能源和碳排放方面显著降低。作家的工作是将量化运用于加强进修训练以实行高效和情况可持续训练的第一步。
作家在 ActorQ 中的量化设计基于简单的均匀量化,但实际可以运用其他形式的量化、压缩和稀疏性(如蒸馏、稀疏化等)。未来的工作将考虑运用更积极的量化和压缩方法,这可能会为加强进修在训练机能和精度的权衡上带来更多的好处。
原文链接:
https://ai.googleblog.com/2022/09/quantization-for-fast-and.html
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/32970