论文链接:https://arxiv.org/pdf/2003.05438.pdf
代码链接:https://github.com/szq0214/Un-Mix
文章核心思想非常直观易懂:希望去探究在自监视进修常用的双子结构网络中,通过在输出空间做图象混合来进修尤其细粒度的特征表示。核心内容讨论了如何来设计数据采样和构建对应的受益函数,从而去匹配图象混合之后新的输出空间。以下图所示,首先形象地解释这一基于图象混合在自监视进修中完成尤其细粒度的间隔襟怀的机制:
左边示例表示一般常用的双子自监视网络结构的工作原理,它的两个分支的间隔就是默认的间隔襟怀,比如使用 InfoNCE 去分类输出的图片对是正对 (positive) 还是负对 (negative)。右边是本文 Un-Mix 提出的研究思路,即通过在一个分支上做图象混合,使得最后的间隔襟怀变为一个 [0,1] 之间的软化系数的倍数,从而使两个分支之间的间隔变得尤其渺小和敏感(该工作是首个在自监视双子模型中引入了软间隔概念的文章),进而让模型进修到尤其细粒度的输出信息的隐空间表达。完成策略简直怎么来方便简单地完成这一机制呢?本文作家提出了以下一种策略:通过在一个 mini-batch 内部通过某种顺序做样本混合,从而得到固定的间隔襟怀,以下图所示:
简直地,作家将一个批量(mini-batch)中的样本做一个倒序,然后跟原来的样本们做加权混合,两张原图的间隔分别变成为λ和1-λ ,因此一个批量样本集合之间相互的语义间隔矩阵变为以下形式:
利用这一新的间隔襟怀,我们可以使用新的受益函数来训练模型,以下所示:
下面是 Un-Mix 算法完成的伪代码:
实验结果作家在多个数据集上进行了大量的实验。首先是非 ImageNet 数据集上的训练和尝试曲线:
可以发现一个比较有趣的现象:在加入了 Un-Mix 之后,训练的受益值(training loss)变得非常不稳定,波动很大,这是因为在输出空间进行图象混合操作之后导致两个分支的间隔襟怀变得尤其渺小多样和敏感。但是这对模型泛化能力是有帮助的,在做模型尝试的时候依然可以取得更好的尝试性能。简直的数值结果对比以下,可以看到在不同数据集和对照要领上结果都有非常明显的提高。
接下来是在 ImageNet 上的结果,文章提出的要领在 200 和 800 epoch 两种不同的的训练参数设置下都有比较稳定的提高:
最后是在下游任务目标检测上的迁移结果,该要领依然有稳定的提高:
此外,作家还讨论了如何处理含有 memory bank 的框架以及如何进行多尺度(multi-scale)训练(如上图 11 所示),有兴趣的同学可以去阅读原论文。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25828