ICLR 2022 | 提高子搜集「中奖」准确率,美国东北大学、Meta等提出对偶彩票假说

来自美国东北大学、圣克拉拉大学和 Meta 的研究者提出对偶彩票假说(Dual Lottery Ticket Hypothesis,DLTH),随机的子搜集都可以被转换成中奖彩票。

希罕搜集训练一直是深度学习中训练神经搜集的难点。随着搜集规模和数据量的不断增加,训练成本也不断提升。如何有效的训练希罕搜集来维持合理的训练开销变得十分重要。另一方面,找到有效的希罕搜集训练方式对理解神经搜集的工作原理同样很有帮助。近日,来自美国东北大学,圣克拉拉大学和 Meta 的研究者提出对偶彩票假说(Dual Lottery Ticket Hypothesis,DLTH)。不同于彩票假说(Lottery Ticket Hypothesis,LTH)考证了随机搜集中存在好的子搜集(中奖彩票),DLTH 考证了在给定的随机搜集中,随机的子搜集都可以被转换成中奖彩票。文章已被 ICLR 2022 接收。代码已开源。

图片

论文地址:https://arxiv.org/abs/2203.04248

OpenReview: https://openreview.net/forum?id=fOsN52jn25l

论文代码:https://github.com/yueb17/DLTH

相关研究2019 年,来自 MIT 的研究人员提出彩票假说(Lottery Ticket Hypothesis):给定一个初始化搜集,其中存在一个彩票子搜集(winning ticket)在被单独训练的情况下达到很好的效果。这个子搜集可以用传统的预训练加剪枝的方式失掉。LTH 还是用了 iterative magnitude pruning 的策略来找到更好的彩票子搜集。LTH 揭示了神经搜集与其希罕子搜集之间的关系,开启了一个研究希罕搜集训练的新方向。给定随机初始化的神经搜集,随机的子搜集并不能达到理想的训练效果。而 LTH 中的彩票子搜集是通过剪枝预训练搜集失掉的。但是 LTH 只考证了彩票子搜集的存在性,并没有探索彩票搜集的普遍性。相对应的,通过预训练加剪枝的方式找到的彩票子搜集的结构是无法控制的。这同样限制了彩票搜集在实际应用中的潜力。对偶彩票假说研究者受 LTH 启发,探索了其对偶问题并提出对偶彩票假说 DLTH:给定随机初始化的搜集,其随机挑选的子搜集可以被转换成彩票子搜集,并失掉与 LTH 找到的彩票子搜集相当甚至更好的准确率。

图片

DLTH 与 LTH 的关系与对照以下图所示:

图片

同时,DLTH 提出了随机子搜集变幻(Random Sparse Network Transformation,RST)来考证提出的 DLTH。随机子搜集变幻(RST)给定随机初始化搜集并确定随机子搜集结构,RST 借助搜集中其余的权重(masked weights)来帮助被选中的子搜集(randomly selected sparse network)进行变幻。具体而言,RST 通过借助彩票池中所有的信息把一张随机彩票转换成了中奖彩票。RST 通过训练完整的搜集来完成。在训练过程中,RST 通过在未被选中的权重上添加一个逐渐增加的正则项,从而这部分权重的幅值逐渐变小,这部分权重的作用也逐渐被抑制,并在变幻结束之后完全去掉这部分权重。而被选中的子搜集则进行正常训练。最终失掉被转换好的希罕子搜集。这一过程可以理解为 RST 把信息从搜集的其他部分挤到目标子搜集中(information extrusion),以下图所示:

图片

实验RST 方式在 cifar10,cifar100 以及 Imagenet 数据集上进行了测试,模型选择 ResNet56 和 ResNet18。比照方式包括 LTH 及其变体,预训练加剪枝,以及随机子搜集 scratch training。实验结果以下图所示:

图片

图片

作者发现 RST 方式相对照于 LTH,普遍可以失掉更好至少相当的结果,无论使用 one-shot 策略还是 iterative 策略。因此,所使用的 RST 很好的考证了文章提出的 DLTH。直观对照以下图所示:比照 Pruning at Initialization(PI)PI 同样在随机搜集中选择子搜集进行训练。因此,PI 相关的研究同样也是重要的比照方式。文章中,作者选择了 Gradient Signal Preservation (GraSP)作为 PI 方式的代表,与提出的 RST 进行对照。具体结果以下图所示:

图片

实验结果表明相对照于 GraSP,RST 方式普遍取得了更好的效果。结论本文从彩票假说(LTH)的研究视角出发,提出其对偶形式:对偶彩票假说(DLTH),从更广泛的角度探究了神经搜集与其希罕子搜集之间的关系。相应的,文章提出了随机子搜集变幻(RST)的方式来考证 DLTH。在 benchmark 数据集与搜集上和众多比照方式的对照表明 RST 方式有效的考证了文章所提出的对偶彩票假说(DLTH)。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/27401

(0)
上一篇 2022年3月20日 下午3:20
下一篇 2022年3月21日 下午2:06

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注