2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

在 AI 领域,深度进修的显现可称得上「分水岭」,从训练模型所需算力更能看出这一点。关于深度进修显现以来算力的增长趋向,此前已有不少钻研者做了调研。近日,阿伯丁大学等机构的钻研者重新对 1952 年至今模型分歧发展阶段所需训练算力进行了深入探讨,并得出了与以往工作分歧的结论。

算力、数据和算法是引导现代机器进修(ML)进步的三个基本因素。人工智能技术近年来的发展不仅仰仗于大数据和算法,更是算力不断增强的结果。据了解从 2012 年到 2018 年,用于训练大型模型的计算能力已增长了 30 万倍,并且约每三个半月翻一番。人工神经网络在上世纪 80 年代就被提出,但由于算力的限制经历数年寒冬。不过由于技术的发展,这一限制得到突破,GPU、CPU 和 AI 加速芯片不断被推出。随着深度进修的显现,算力需求呈现指数级增长。2018 年 Bert 横空出世,谷歌、微软、英伟达等巨头纷纷推出自己的大模型,将其视为下一个 AI 领域的必争的高地,例如谷歌发布首个万亿级模型 Switch Transformer、英伟达与微软联合发布了 5300 亿参数的 MT-NLG……大模型伴随而来的是大算力,我们不禁会问,深度进修期间以来ML算力需求增加了多少?未来,随着模型的扩展,算力还能跟得上吗?近日来自阿伯丁大学、MIT 等机构的钻研者对 ML 三要素中的算力需求进行了钻研。他们发明,在 2010 年之前训练所需的算力增长符合摩尔定律,约莫每 20 个月翻一番。自 2010 年代初深度进修问世以来,训练所需的算力快速增长,约莫每 6 个月翻一番。2015 年末,随着大规模 ML 模型的显现,训练算力的需求提高了 10 到 100 倍,显现了一种新的趋向。2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

论文地址:https://arxiv.org/pdf/2202.05924.pdf

GitHub 地址:https://github.com/ML-Progress/Compute-Trends

基于上述发明,钻研者将 ML 所需算力历史分为三个阶段:前深度进修期间;深度进修期间;大规模期间。总的来说,该论文详细钻研了里程碑式 ML 模型随时间变化的算力需求。本文贡献如下:

收集了 123 个具有里程碑意义的 ML 体系数据集,并对算力进行了注释;

初步将算力趋向划分为三个分歧的阶段;

对算力结果进行检查,讨论了与以前工作的分歧之处。

论文作者之一 Lennart Heim 表示:在过去的 12 年里(2010-2022 年),ML 训练算力增长了 100 亿倍。

2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

以往工作

此前就有关于算力的钻研,2018 年 Amodei 、Hernandez 介绍了两种评估算力的方法,他们基于 15 个 ML 体系分析了所需算力趋向。他们发明,从 2012 年到 2018 年,ML 训练所需算力 3.4 个月翻一番。2019 年 Sastry 等人添加了 2012 年以前的 10 篇论文补充了上述分析。他们发明从 1959 年到 2012 年,约莫 2 年时间,训练所需算力翻一番。2021 年 Lyzhov 扩展了 Amodei 和 Hernandez 的数据集,他认为在 2018 年之后算力增长停滞。特别是,作者发明 2020 年计算最密集的模型(GPT-3)只需要比 2017 年计算最密集的模型(AlphaGo Zero)多 1.5 倍的计算量。下图很好的总结了上述钻研:2012-2018 年,约莫 3.4 个月算力翻一番(Amodei 、Hernandez 钻研);1959-2018 年,约莫需要 2 年算力翻一番(Sastry 等人);2018-2020 年,需要超过 2 年算力翻一番(Lyzhov 钻研)。2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭在类似的钻研中,2021 年 Sevilla 等人调查了可训练参数数量趋向。他们发明,从 2000 年到 2021 年,所有应用领域的参数倍增时间为 18 到 24 个月。对于语言模型,他们发明在 2016 年到 2018 年之间发生了不连续性,其中参数的倍增时间加快到 4 到 8 个月。此外,2021 年 Desislavov 等人钻研了计算机视觉和自然语言处理体系中所需推理算力。但该钻研与之前的工作相比,数据集更加全面,该钻研数据集包含的 ML 模型比以前的数据多三倍,并且包含了 2022 年的最新数据。

趋向解读

钻研者根据三个分歧的期间和三种分歧的趋向来解读他们整理的数据。简单来说,在深度进修起飞前,有一个缓慢增长的期间。约莫在 2010 年,这一趋向加速并且此后一直没有放缓。另外,2015 至 2016 年大规模模型显现了一个新趋向,即增长速度相似,但超越以往两个数量级(orders of magnitude, OOM)。具体可见下图 1 和表 2。

2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

图 1:1952 年以来,里程碑式 ML 体系随时间推移的训练算力(FLOPs)变化。2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

表 2:分歧阶段的趋向。

钻研者首先讨论了 2010 至 2012 年左右向深度进修的过渡,然后是 2015 至 2016 年左右大规模模型的显现。他们执行了一些替代性分析以从其他角度检查自己的结论。此外,钻研者在附录 B 中讨论了创纪录模式的趋向,在附录 C 中谈论了分歧 ML 领域的趋向。向深度进修的过渡与 Amodei & Hernandez (2018) 的结果一致,钻研者发明深度进修显现前后的两种截然分歧的趋向机制。深度进修显现之前,训练 ML 体系需要的算力每 17 至 29 个月翻一番。深度进修显现之后,整体趋向加速,算力每 4 至 9 个月翻一番。深度进修之前的趋向大致符合摩尔定律,根据该定律,集成电路上可以容纳的晶体管数量约莫每隔 18 至 24 个月翻一番,通常简化为每两年翻一番。目前不清楚深度进修期间何时开始的,从前(Pre-)深度进修到深度进修期间的过渡中没有显现明显的间断。此外,如果将深度进修期间的开始定为 2010 或 2012 年,钻研者的结果几乎没有变化,具体如下表 3 所示。

2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

图 2:1952 至 2022 年期间,里程碑式 ML 体系的算力变化趋向。请特别注意 2010 年左右的坡度变化。2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

表 3:1952 至 2022 年 ML 模型的对数线性回归结果。

大规模期间的趋向数据显示,约莫 2015 至 2016 年左右,大规模模型显现了一个新趋向,具体可见下图 3。这一趋向始于 2015 年底 AlphaGo 的显现并一直延续至今。期间,这些大规模模型由科技巨擘训练,他们拥有的更多训练预算打破了以往的趋向。需要注意,钻研者在确定哪些体系属于这一新的大规模趋向时做了直观的决定,并证明它们是相对于邻近模型超出了某个 Z-value 阈值的模型,方法细节详见附录 A。附录 F 讨论了大规模模型在哪些方法截然分歧。

2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

图 3:2010 至 2022 年里程碑式 ML 体系的算力变化趋向。

不过,常规规模模型的趋向依然没有受到影响。2016 年前后趋向是连续的,具有相同的坡度变化,每 5 至 6 个月翻一番。大规模模型算力增加趋向显然更慢,每 9 至 10 个月翻一番。钻研者表示,由于关于这些模型的数据有限,所以明显的减速可能是噪声的影响。钻研者的结果与 Amodei & Hernandez (2018) 形成鲜明对比,后者发明 2012 至 2018 年算力翻一番用时更短 ——3.4 个月。结果也与 Lyzhov (2021) 的分歧,他们发明 2018 至 2020 年算力翻一番用的时间更长 ——2 年以上。钻研者理解了这些不一致的地方,原因在于其他人的分析使用了有限的数据样本并假定单一趋向,自己则是分别钻研了大规模和常规规模的模型。并且,由于大规模趋向仅在近期显现,因而以往的分析无法区分这两类分歧的趋向。

2010年以来,ML算力需求增长100亿倍,每6个月翻番,深度进修成分水岭

2010 至 2022 年数据的对数线性回归结果。2015 年之前常规规模模型的趋向在之后保持不变。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/29990

(0)
上一篇 2022年3月15日 下午2:30
下一篇 2022年3月15日 下午2:39

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注