NeurIPS 2022 | 如何提高存储、传输效率?参数集约型掩码收集效果显著

为了处理更复杂的任务,近年来神经收集的规模也在不断变大,如何高效的储存和传输神经收集变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机茂密神经收集最近展现出很强的后劲,如何利用这种后劲来提高收集的存储和传输效率也很值得摸索。

来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码收集(Parameter-Efficient Masking Networks (PEMN))。作家首先摸索了无限数目随机数天生的随机收集的表征才能。尝试表明,即使收集由无限数目的随机数天生,通过采用差别的子收集结构,其依然具有很好的表征才能。

通过这种摸索性尝试,作家自然地提出利用一组无限数目随机数作为 prototype,结合一组 mask 来表达一个神经收集。因为无限数目的随机数和二值的 mask 占用很少的储存空间,作家以此来提出一种新的思绪来进行收集收缩。文章已被 NeurIPS 2022 接受。代码已开源。

图片

论文地址: https://arxiv.org/abs/2210.06699

论文代码:  https://github.com/yueb17/PEMN

1. 相关研究

MIT 研究人员提出彩票假说 Lottery Ticket Hypothesis (ICLR’19):在一个随机初始化收集中,存在一个彩票子收集(winning ticket)在被单独训练的情况下达到很好的效果。彩票假说摸索了随机茂密收集的可训练性。Uber 研究人员提出 Supermask (NeurIPS’19):在一个随机初始化收集中,存在一个子收集,可以直接用来做推断而不需要训练。Supermask 摸索了随机茂密收集的可用性。华盛顿大学研究人员提出 Edge-Popup (CVPR’20):通过反向传播学习子收集的 mask,大幅提升了随机茂密收集的可用性。

2. 研究动机 / 流程

以上相关研究从差别角度摸索了随机茂密收集的后劲,如可训练性和可用性,其中可用性也可以理解为表征才能。在此工作中,作家感兴趣的是由随机数天生的神经收集在不训练权重的情况下有多强的表征才能。随着对该问题的摸索,作家提出了 Parameter-Efficient Masking Networks (PEMN)。自然地,作家运用 PEMN 为收集收缩提供了一种新的思绪,并作为一个例子对 PEMN 的潜在应用场景进行摸索。

3. 摸索随机数构成的神经收集的表征才能

给定一个随机收集,作家采用 Edge-Popup 算法在其中采用子收集来摸索其表征才能。差别的是,相对于对整个收集进行随机初始化,作家提出了三种参数集约型的收集天生计谋来利用一个 prototype 构建随机收集。

One-layer: 采用收集中反复结构的权重作为 prototype 来填充其他的与之结构相同的收集层。

Max-layer padding (MP): 采用参数目最多的收集层作为 prototype 并且截断相应的参数目来填充其他收集层。

Random vector padding (RP): 采用一定长度的随机向量作为 prototype 并对其进行复制来填充整个收集。

图片

三种差别的随机收集天生计谋把收集中不反复参数值(unique values)的数目逐步变小,我们基于差别计谋得到的随机收集来采用子收集,从而摸索了无限数目随机数天生的随机收集的表征后劲。

NeurIPS 2022 | 如何提高存储、传输效率?参数集约型掩码收集效果显著

上图展示了利用 ConvMixer 和 ViT 收集 CIFAR10 图像分类的尝试结果。Y 轴为准确率,X 轴为利用差别计谋得到的随机收集。随之 X 轴的变大,随机收集中不反复随机数数目逐渐变小 (RP 后的数字表示相比较于 MP,RP 中不反复随机数数目的比例)。

根据尝试结果,我们观察到即使随机收集只有非常无限的不反复随机数(比如 PR_1e-3),依然可以很好的维持采用出来的子收集的表征才能。至此,作家通过差别的随机收集天生计谋,摸索了无限数目随机数构成的神经收集的表征才能并观察到即使不反复随机数非常无限,其对应的随机收集依然可以很好地对数据进行表征。

同时作家基于这些随机收集天生计谋,结合所得到的子收集掩码,提出了 Parameter-Efficient Masking Networks(PEMN)这种新的神经收集类型。

4. 一种新的收集收缩思绪

本文采用了神经网路收缩为例来拓展 PEMN 的潜在应用。具体来说,文中所提出的差别随机收集天生计谋可以高效的利用 prototype 来代表完整的随机收集,尤其是最细粒度的 random vector padding (RP)计谋。

作家利用 RP 计谋中的随机向量 prototype 和与之对应的一组子收集掩码来表示一个随机收集。在其中 prototype 需要保存浮点数格局,而掩码只需要保存成二值格局。因为 RP 中的 prototype 长度可以很短(因为无限数目的不反复随机数仍有很强的表征才能),所以表示一个神经收集的开销会变得很小,即储存一个长度无限的浮点数格局的随机向量和一组二值格局的掩码。相比较于传统的茂密收集储存子收集的浮点值,本文提出了一种新的收集收缩思绪用来高效的储存和传输神经收集。

图片

在上图中,作家利用 PEMN 对收集进行收缩并与传统的收集剪枝方法进行对比。尝试利用 ResNet 收集在 CIFAR 数据集做图像分类任务。我们观察到,新的收缩方案表现普遍优于传统的收集剪枝,尤其是在很高的收缩率下,PEMN 仍然可以维持较好的准确率。

5. 结论

本文受近来随机收集展现出来的后劲所启发,提出差别种参数集约计谋来构建随机神经收集,进而摸索了在只有无限的不反复随机数的情况下所天生的随机神经收集的表征后劲,并提出参数集约型掩码收集 Parameter-Efficient Masking Networks (PEMN)。作家将 PEMN 应用到收集收缩的场景中摸索了其在实际应用方面的后劲并且为收集收缩提供了一种新的思绪。作家提供了广泛的尝试,表明即使随机收集中只有非常无限的不反复随机数,通过子收集的采用,其依然有较好的表征才能。此外,相比较于传统剪枝算法,尝试表明新提出的方法可以取得更好的收集收缩效果,验证了 PEMN 在该场景下的应用后劲。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/29440

(0)
上一篇 2022年12月13日 下午2:33
下一篇 2022年12月15日 下午3:19

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注