微软提出自动化神经收集训练剪枝框架OTO,一站式获得高功能轻量化模型

OTO 是业内首个自动化、一站式、用户友好且通用的神经收集训练与布局收缩框架。在人工智能时代,如何部署和维护神经收集是产品化的关键题目考虑到节省运算成本,同时尽可能小地损失模型功能,收缩神经收集成为了

OTO 是业内首个自动化、一站式、用户友好且通用的神经收集训练与布局收缩框架。在人工智能时代,如何部署和维护神经收集是产品化的关键题目考虑到节省运算成本,同时尽可能小地损失模型功能,收缩神经收集成为了 DNN 产品化的关键之一。

图片

DNN 收缩通常来说有三种方式,剪枝,知识蒸馏和量化。剪枝旨在识别并去除冗余布局,给 DNN 瘦身的同时尽可能地保持模型功能,是最为通用且有效的收缩办法。三种办法通常来讲可以相辅相成,共同作用来达到最佳的收缩效果。

图片

然而现存的剪枝办法大都只针对特定模型,特定使命,且需求很强的专业领域知识,因此通常需求 AI 开发人员花费大量的精力才能将这些办法应用于自己的场景中,非常消耗人力物力成本。

图片

OTO 概述 为了办理现存剪枝办法的题目并给 AI 开发者提供便利,微软团队提出了 Only-Train-Once OTO 框架。OTO 是业内首个自动化、一站式、用户友好且通用的神经收集训练与布局收缩框架,系列工作陆续发表于 ICLR2023 和 NeurIPS2021。通过使用 OTO,AI 工程师可以方便地训练目标神经收集,一站式地取得高功能且轻量化的模型。OTO 最小化了开发者的工程时间精力的投入,且全程无需现有办法通常需求的非常耗时的预训练和额外的模型微调。

图片

论文链接:OTOv2 ICLR 2023: https://openreview.net/pdf?id=7ynoX1ojPMtOTOv1 NeurIPS 2021:https://proceedings.neurips.cc/paper_files/paper/2021/file/a376033f78e144f494bfc743c0be3330-Paper.pdf

代码链接:

https://github.com/tianyic/only_train_once

框架核心算法理想化的布局剪枝算法应该做到:针对通用神经收集,自动化地一站式地从零开始训练,同时达到高功能且轻量化的模型,并无需后续微调。但因为神经收集的复杂性,实现这一目标是一件极其有挑战性的事情。为了实现这一最终目的,下面的三个核心题目需求被系统性地办理:如何找出哪些收集布局可以被移除?如何在移除收集布局的过程中,尽可能不损失模型功能?如何能自动化地完成如上两点?微软团队设计并实现了三套核心算法,首次系统性地,全面性地办理这三个核心题目。自动化 Zero-Invariant Groups (零稳定组) 分组由于收集布局的复杂性和关联性,删去任意收集布局可能会导致剩余的收集布局无效。因此自动化收集布局收缩的一个最大的题目之一是如何找到必须要被一起剪枝的模型参数,使得余下的收集依然有效。为了办理该题目,微软团队在 OTOv1 中提出了零稳定组 Zero-Invariant Groups  (ZIGs)。零稳定组可以理解为一类最小的可移除单元,使得该组对应的收集布局移除后剩余收集依然有效。零稳定组的另一大特性是,如果一个零稳定组等于零,那么无论输入值是什么,输出值永远是零。在 OTOv2 中,研究者进一步提出并实现了一套自动化算法来办理通用收集的零稳定组的分组题目。自动化分组算法是由一系列图算法精心设计组合而成,整套算法非常高效,具有线性的时间空间复杂度。

图片

双半平面投影梯度优化算法 (DHSPG)当划分目标收集所有的零稳定组后,接下来的模型训练和剪枝使命需求找出哪些零稳定组是冗余的,哪些又是重要的。冗余的零稳定组对应的收集布局需求被删除,重要的零稳定组需求保留并保证收缩模型的功能。研究者公式化这个题目为一个布局性稠密化题目,并提出全新的 Dual Half-Space Projected Gradient  (DHSPG) 优化算法来办理。

图片

DHSPG 可以非常有效地找出冗余的零稳定组并将其投影成零,并持续训练重要的零稳定组来取得跟原始模型相媲美的功能。与传统稠密优化算法相比,DHSPG 具有更强更稳定地稠密布局探索能力,且扩展了训练搜索空间并因此通常要获得更高的实际表现效果。

图片

自动化构建轻量收缩模型通过使用 DHSPG 对模型进行训练,我们会得到一个服从于零稳定组的高布局稠密性的解,即该解里有很多被投影成零的零稳定组,此外该解还会具有很高的模型功能。接下来,研究者把所有对应与冗余零稳定组的布局删去来自动化地构建收缩收集。由于零稳定组的特性,即如果一个零稳定组等于零,那么无论输入值是什么,输出值永远是零,因此删去冗余的零稳定组不会对收集产生任何影响。所以通过 OTO 得到的收缩收集和完整收集会有相同的输出,无需传统办法所需求的进一步模型微调。

图片

数值实行分类使命

图片

表 1:CIFAR10 中的 VGG16 及 VGG16-BN 模型表现。在 CIFAR10 的 VGG16 实行中,OTO 将浮点数减少了 86.6%,将参数量减少了 97.5%,功能表现令人印象深刻。

图片

表 2:CIFAR10 的 ResNet50 实行。在 CIFAR10 的 ResNet50 实行中,OTO 在没有量化的情况下优于 SOTA 神经收集收缩框架 AMC 和 ANNC,仅使用了 7.8% 的 FLOPs 和 4.1% 的参数。

图片

表 3. ImageNet 的 ResNet50 实行。在 ImageNet 的 ResNet50 实行中,OTOv2 在不同布局稠密化目标下,展现出跟现存 SOTA 办法相媲美甚至更优的表现。

图片

表 4: 更多布局和数据集。OTO 也在更多的数据集和模型布局上取得了不错的表现。Low-Level Vision 使命

图片

表 4:CARNx2 的实行。在 super-resolution 的使命中,OTO 一站式训练收缩了 CARNx2 收集,得到了跟原始模型有竞争力的功能且收缩了越 75% 的运算量和模型大小。 语言模型使命

图片

此外,研究者还在 Bert 上针对核心算法之一,DHSPG 优化算法,进行了对比试验,验证了其相较于其他稠密优化算法的高功能性。可以发现在 Squad 上,利用 DHSPG 进行训练所得到的参数量减小和模型功能要远远优于其他稠密优化算法。结论微软团队提出了一个名为 OTO(Only-Train-Once)的 自动化一站式神经收集训练布局剪枝框架。它可以将一个完整的神经收集自动化地收缩为轻量级收集,同时保持较高的功能。OTO 大大简化了现有布局剪枝办法复杂的多阶段流程,适合各类收集架构和应用,且最小化了用户的额外工程投入,具有通用性,有效性和易用性。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/29918

(0)
上一篇 2023年3月30日 下午3:39
下一篇 2023年3月31日 上午12:28

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注