谷歌、Meta如何给大模型瘦身?谷歌工程师亲述摆设秘籍(免费书)

这是一本正在写作的旧书,目前前四章已经放出了初稿。

过去几年,GPT-3 等几个大模型展示了大数据、大算力的力量,它们的效果毋庸置疑,但在现实世界中训练和摆设这些模型是非常昂贵的,这阻碍了大模型在现实世界中的广泛运用,比如很多效果很好的大模型根本无法在手机上运行。因此,我们需要想办法把模型做得更加高效(在尽量不损失本能的前提下把模型做得更小)。那么,具体该怎么做呢?为了解答这个题目,谷歌机器进修工程师 Gaurav Menghani 和独立研究者 Naresh Singh 正在撰写一本旧书。这本书将涵盖谷歌研究院、Facebook AI 研究院(FAIR,现 Meta AI)及其他著名人工智能实验室的研究员和工程师在各种设备(从大型服务器到小型控制器)上训练和摆设模型时所使用的算法和技巧,如量化、剪枝、蒸馏等。目前,他们已经发布了该书前四章的 PDF 初稿。

图片

旧书链接:https://efficientdlbook.com/

代码链接:https://github.com/EfficientDL/book/tree/main/codelabs

第一章是对全书内容的整体概括。作家首先概述了深度进修的现状、运用和快速增长,然后探讨了进步模型效益的动机及相关核心技巧,包括紧缩技巧、进修技巧、自动化、高效模型 & 层、基础设施等。

图片

图片

第二章围绕紧缩技巧展开。紧缩技巧旨在增添模型占用空间(大小、延迟、内存等)。我们可以通过增添可训练参数的数量来增添模型的占用。然而,这种方法有两个缺点。首先,我们很难确定在不显著影响本能的情况下可以删除哪些参数或层。如果可能的话,我们需要进行许多试验和评估才能得到一个更小的模型。其次,这种方法不能很好地泛化,因为模型设计是针对具体题目的主观设计。在这一章,作家先容了可以或许解决上述两个题目的模型紧缩技巧 —— 量化。首先,他们先容了紧缩的概念,然后是量化的细节及其在深度进修中的运用,最后是代码实现细节以及实践项目。

图片

模型品质是评价深度进修模型本能的重要基准。例如,使用低品质模型的语言翻译运用将很难被用户接受,因为它无法帮助用户与说不同语言的人有效交流。第三章的重点将放在可以或许帮我们实现品质目标的技巧上。在移动和边缘设备等空间受限的环境中,高品质模型具有额外的优势,它们可以灵活地牺牲一些品质来增添空间占用。在第一章,作家简要先容了可以或许进步品质的进修技巧,如正则化、dropout、数据增强和蒸馏。这些技巧可以进步准确度、精确度和召回率等指标,这些都是我们在考虑品质题目时重点关心的指标。在第三章,作家选择了上述技巧中的两种进行先容,即数据增强和蒸馏。这是因为,首先,正则化和 dropout 在任何现代深度进修框架中都是相当直接的;其次,数据增强和蒸馏可以在训练阶段带来显著的效益增益,这是本章的重点。

图片

截止到第三章,作家已经讨论了与模型架构无关的通用技巧。这些技巧可以运用于自然语言处理、视觉、语音或其他领域。然而,由于其增量性质,它们提供的收益非常有限。此时,尝试另一种更适合该任务的架构收获可能更大。打个比方,在改善房子采光的时候,你可以把墙壁重新刷成鲜艳的颜色,或者升级到更强的灯具。然而,如果在结构上做些改变,比如增加几扇窗户和一个阳台,采光效果会很好。类似地,为了在占用空间或品质方面获得数量级的增益,我们应该考虑采用合适的高效架构。深度进修的进展是架构上的冲破所驱动的,这些冲破可以降本增效。多层感知机的发展是神经网络领域最大的架构冲破之一。它引入了堆叠层来进修复杂关系。卷积神经网络是另一个重要的冲破,它可以或许在输入中进修空间特征。循环神经网络有利于从序列和时间数据中进修。这些冲破促成了越来越大的模型。虽然它们进步了解决方案的品质,但是更大的模型带来了摆设挑战。一个不能在实际运用中摆设的模型用途是有限的。高效的架构旨在通过提出新的方法来增添模型空间占用并进步推理效益,同时保留大模型的题目解决能力,从而进步模型的可摆设性。在第一章,作家简要先容了 depthwise 可分离卷积、注意力机制和 hashing trick 等架构。在第四章中,作家将深入研究它们的架构,并使用它们将大型复杂模型转换为可以或许在移动和边缘设备上运行的小型高效模型。他们还使用这些高效的层和架构建立了几个编程项目,以获得实际的模型优化体验。

图片

至于第四章之后的内容,我们目前只能看到目录,相信作家也会很快上传 PDF 初稿,大家可以持续关注该书官网。

图片

图片

图片

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/gu-ge-meta-ru-he-gei-da-mo-xing-shou-shen-gu-ge-gong-cheng/

(0)
上一篇 2022年 4月 30日 下午1:31
下一篇 2022年 5月 9日 上午8:44

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注