NeurIPS 2022 | 如何正确定义尝试阶段训练?顺序推理和域符合聚类要领

华南理工、A*STAR 团队和鹏城实验室联合提出了针对尝试阶段训练(TTT)问题的系统性分类准则。域符合是解决迁移学习的重要要领,当前域符合当法依赖原域和标的域数据进行同步训练。当源域数据不可得,同时

华南理工、A*STAR 团队和鹏城实验室联合提出了针对尝试阶段训练(TTT)问题的系统性分类准则。

域符合是解决迁移学习的重要要领,当前域符合当法依赖原域和标的域数据进行同步训练。当源域数据不可得,同时标的域数据不完全可见时,尝试阶段训练(Test- Time Training)成为新的域符合要领。当前针对 Test-Time Training(TTT)的研究广泛利用了自监督学习、对比学习、自训练等要领,然而,如何定义真实环境下的 TTT 却被经常忽略,以至于不同要领间缺乏可比性。

近日,华南理工、A*STAR 团队和鹏城实验室联合提出了针对 TTT 问题的系统性分类准则,通过区分要领是否具备顺序推理能力(Sequential Inference)和是否需求修改源域训练标的,对当前要领做了详细分类。同时,提出了基于标的域数据定锚聚类(Anchored Clustering)的要领,在多种 TTT 分类下取得了最高的分类准确率,本文对 TTT 的后续研究指明了正确的方向,避免了实验设置混淆带来的结果不可比问题。研究论文已被 NeurIPS 2022 接收。

图片

论文:https://arxiv.org/abs/2206.02721

代码:https://github.com/Gorilla-Lab-SCUT/TTAC

一、引言

深度学习的成功主要归功于大量的标注数据和训练集与尝试集独立同散布的假设。在一般情况下,需求在合成数据上训练,然后在真实数据上尝试时,以上假设就没办法满足,这也被称为域偏移。为了缓解这个问题,域符合 (Domain Adaptation, DA) 诞生了。现有的 DA 工作要么需求在训练期间访问源域和标的域的数据,要么同时在多个域进行训练。前者需求模型在做符合 (Adaptation) 训练期间总是能访问到源域数据,而后者需求更加昂贵的计算量。为了降低对源域数据的依赖,由于隐私问题或者存储开消不能访问源域数据,无需源域数据的域符合 (Source-Free Domain Adaptation, SFDA) 解决无法访问源域数据的域符合问题。作家发现 SFDA 需求在整个标的数据集上训练多个轮次才能达到收敛,在面对流式数据需求及时做出推断预测的时候 SFDA 无法解决此类问题。这种面对流式数据需求及时符合并做出推断预测的更现实的设定,被称为尝试时训练 (Test-Time Training, TTT) 或尝试时符合(Test-Time Adaptation, TTA)。

作家注意到在社区里对 TTT 的定义存在混乱从而导致比较的不公平。论文以两个关键的因素对现有的 TTT 要领进行分类:

对于数据是流式出现的并需求对当前出现的数据作出及时预测的,称之为单轮符合和谈(One-Pass Adaptation);对于其他不符合以上设定的称为多轮符合和谈(Multi-Pass Adaptation),模型可能需求在整个尝试集上进行多轮次的更新后,再进行从头到尾的推断预测。

根据是否需求修改源域的训练损失方程,比如引入额外的自监督分支以达到更有效的 TTT。

这篇论文的标的是解决最现实和最具挑战性的 TTT 和谈,即单轮符合并无需修改训练损失方程。这个设定类似于 TENT[1]提出的 TTA,但不限于利用来自源域的轻量级信息,如特色的统计量。鉴于 TTT 在尝试时高效符合的标的,该假设在计算上是高效的,并大大提高了 TTT 的性能。作家将这个新的 TTT 和谈命名为顺序尝试时训练(sequential Test Time Training, sTTT)。

除了以上对不同 TTT 要领的分类外,论文还提出了两个技术让 sTTT 更加有效和准确:

论文提出了尝试时锚定聚类 (Test-Time Anchored Clustering, TTAC) 要领。

为了降低错误伪标签对聚类更新的影响,论文根据网络对样本的预测稳定性和自信度对伪标签进行过滤。

二、要领介绍

论文分了四个人来阐述所提出的要领,分别是 1)介绍尝试时训练 (TTT) 的锚定聚类模块,如图 1 中的 Anchored Clustering 个人;2)介绍用于过滤伪标签的一些策略,如图 1 中的 Pseudo Label Filter 个人;3)不同于 TTT++[2]中的利用 L2 距离来衡量两个散布的距离,作家利用了 KL 散度来度量两个全局特色散布间的距离;4)介绍在尝试时训练 (TTT) 过程的特色统计量的有效更新迭代要领。最后第五小节给出了整个算法的过程代码。

图片

第一个人 在锚定聚类里,作家首先利用混合高斯对标的域的特色进行建模,其中每个高斯分量代表一个被发现的聚类。然后,作家利用源域中每个类别的散布作为标的域散布的锚点来进行匹配。通过这种方式,尝试数据特色可以同时形成集群,并且集群与源域类别相关联,从而达到了对标的域的推广。概述来说就是,将源域和标的域的特色分别根据类别信息建模成:

图片

然后通过 KL 散度度量两个混合高斯散布的距离,并通过减少 KL 散度来达到两个域特色的匹配。可是,在两个混合高斯散布上直接求解 KL 散度并没有闭式解,这导致了无法利用有效的梯度优化要领。在这篇论文中,作家在源域和标的域中分配相同数量的集群,每个标的域集群被分配给一个源域集群,这样就可以将整个混合高斯的 KL 散度求解变成了各对高斯之间的 KL 散度之和。如下式:

图片

上式的闭式解形式为:

图片

在公式 2 中,源域集群的参数可以线下收集完,而且由于只用到了轻量化统计数据,所以不会导致隐私泄漏问题且只利用了少量的计算和存储开消。对于标的域的变量,涉及到了伪标签的利用,作家为此设计了一套有效的且轻量的伪标签过滤策略。

第二个人 伪标签过滤的策略主要分为两个人:

1)时序上一致性预测的过滤:

图片

2)根据后验概率的过滤:

图片

最后,利用过滤后的样本来求解标的域集群的统计量:

图片

第三个人 由于在锚定聚类中,个人被滤除的样本并没有参与标的域的估计。作家还对所有尝试样本进行全局特色对齐,类似锚定聚类中对集群的做法,这里将所有样本看作一个整体的集群,在源域和标的域分别定义

图片

图片

然后再次以最小化 KL 散度为标的对齐全局特色散布:

图片

第四个人 以上三个人都在介绍一些域对齐的手段,但在 TTT 过程中,想要估计一个标的域的散布是不简单的,因为我们无法观测整个标的域的数据。在前沿的工作中,TTT++[2]利用了一个特色队列来存储过去的个人样本,来计算一个局部散布来估计整体散布。但这样不但带来了内存开消还导致了精度与内存之间的 trade off。在这篇论文中,作家提出了迭代更新统计量的方式来缓解内存开消。具体的迭代更新式子如下:

图片

总的来说,整个算法如下算法 1 所示:

图片

三、实验结果

正如引言个人所说,这篇论文中作家非常注重不同 TTT 策略下的不同要领的公平比较。作家将所有 TTT 要领根据以下两个关键因素来分类:1)是否单轮符合和谈 (One-Pass Adaptation) 和 2)修改源域的训练损失方程,分别记为 Y/N 表示需求或不需求修改源域训练方程,O/M 表示单轮符合或多轮符合。除此之外,作家在 6 个基准的数据集上进行了充分的对比实验和一些进一步的分析。

如表一所示,TTT++[2]同时出现在了 N-O 和 Y-O 的和谈下,是因为 TTT++[2]拥有一个额外的自监督分支,我们在 N-O 和谈下将不添加自监督分支的损失,而在 Y-O 下可以正常利用此分子的损失。TTAC 在 Y-O 下也是利用了跟 TTT++[2]一样的自监督分支。从表中可以看到,在所有的 TTT 和谈下所有数据集下,TTAC 均取得到最优的结果;在 CIFAR10-C 和 CIFAR100-C 数据集上,TTAC 都取得了 3% 以上的提升。从表 2 – 表 5 分别是 ImageNet-C、CIFAR10.1、VisDA 上的数据,TTAC 均取到了最优的结果。

图片

图片

图片

图片

此外,作家在多个 TTT 和谈下同时做了严格的消融实验,清晰地看出了每个部件的作用,如表 6 所示。首先从 L2 Dist 和 KLD 的对比中,可以看出利用 KL 散度来衡量两个散布具有更优的效果;其次,发现如果单单利用 Anchored Clustering 或单独利用伪标签监督提升只有 14%,但如果结合了 Anchored Cluster 和 Pseudo Label Filter 就可以看到性能显著提高 29.15% -> 11.33%。这也可以看出每个部件的必要性和有效的结合。

图片

最后,作家在正文的尾部从五个维度对 TTAC 展开了充分的分析,分别是 sTTT (N-O)下的累计表现、TTAC 特色的 TSNE 可视化、源域无关的 TTT 分析、尝试样本队列和更新轮次的分析、以 wall-clock 时间度量计算开消。还有更多有趣的证明和分析会展示在文章的附录中。

四、总结

本文只是粗糙地介绍了 TTAC 这篇工作的贡献点:对已有 TTT 要领的分类比较、提出的要领、以及各个 TTT 和谈分类下的实验。论文和附录中会有更加详细的讨论和分析。我们希望这项工作能够为 TTT 要领提供一个公平的基准,未来的研究应该在各自的和谈内进行比较。

[1] Dequan Wang, Evan Shelhamer, Shaoteng Liu, Bruno Olshausen, and Trevor Darrell. Tent: Fully test-time adaptation by entropy minimization. In International Conference on Learning Representations, 2021.

[2] Yuejiang Liu, Parth Kothari, Bastienvan Delft, Baptiste Bellot-Gurlet, Taylor Mordan, and Alexandre Alahi. Ttt++: When does self-supervised test-time training fail or thrive? In Advances in Neural Information Processing Systems, 2021.

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25664

(0)
上一篇 2022年11月10日 下午3:14
下一篇 2022年11月11日 下午2:13

相关推荐

  • 多模态版Llama2上线,Meta发布AnyMAL

    在多个基准测试中均刷新了业界最好的 zero-shot 本能。一个统一的模型,可以对不同模态输出内容(文本、图象、视频、音频、IMU 运动传感器数据)实现理解,并天生文本响应,技术基于 Llama 2

    2023年10月3日
  • 10亿参数、多项SOTA,智源开源视觉基础模型EVA

    作为一种视觉预训练方法,掩码图象建模(Masked Image Modeling,简称 MIM)近期得到了蓬勃发展,自从 BEiT 开始,一系列新方法诸如 SimMIM、MAE、MVP 等被陆续设计出,这个领域也受到了很大关注。然而,在十亿参数量级别的视觉预训练模型中,最具竞争力的模型例如 ViT-g、SwinV2、CoCa 等仍然严重依赖有监视或弱监视训练,以及不可公开访问的数亿级有标签数据。

    2022年12月6日
  • 百分点大数据技术团队:政务数据宁静经管实践

    编者按:新式伶俐都市是运用物联网、云计算、大数据、空间地理信息集成等新一代信息技术,促进都市规划、扶植、经管和服务伶俐化的新理念和新模式,是政府治理能力提升的重要标志,对增强群众获得感、幸福感和推动数

    2021年5月19日
  • 图神经网络正确预计有机化合物性质,加速静态电池的设计

    编辑/绿萝大规模从头算计与布局预计的进步相结合,在有机功能资料的创造中发挥了重要作用。目前,在有机资料的广阔化学空间中,只创造了一小部分。实验和算计钻研职员都需要加速探索未知的化学空间。来自美国国家可

    2021年12月24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注