在 VGG、U-Net、TCN 搜集中… CNN 虽然功能强大,但必须针对一定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些搜集中都运行良好的繁多 CNN 吗?
本文中,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研讨者提出了 CCNN,单个 CNN 就能够在多个数据集(例如 LRA)上实现 SOTA !
1998 年 LeCun 等人提出卷积神经搜集 (CNN),这是一类广泛用于机器学习的深度学习模型。由于 CNN 拥有高性能和高效率等特点,使其在跨序列、视觉和高维数据的多个应用程序中实现 SOTA 性能。然而,CNN(以及一般的神经搜集)存在一个严重缺陷,这些架构必须针对一定应用进行定制,以便处理差别的数据长度、分辨率和维度。这反过来又导致大量一定于恣意的 CNN 架构出现。数据可以有许多差别的长度,例如图象可以是 32×32 或 1024×1024。标准 CNN 存在的问题是,它们的卷积核是局部的,这需要为每个长度定制一个精心选择的步长和池化层来捕获整个上下文自定义架构。此外,许多数据本质上是连气儿的,在差别的分辨率下拥有相反的语义,例如图象可以在任意分辨率下捕获,并拥有相反的语义内容,音频可以在 16kHz 或 44.1kHz 采样,但人耳听起来仍然是相反的。然而,由于卷积核的离散性,传统的 CNN 不能跨分辨率使用。当考虑拥有相反 CNN 的差别维度数据时,这两个问题会进一步加剧,例如序列(1D)、视觉(2D)和高维数据(3D、4D),因为差别的维度以差别的特征长度和分辨率运行,例如一秒音频的长度很容易达到 16000,这与基准数据集中的图象大小形成强烈对比。在本文中,研讨者提出了迈向通用 CNN 架构。其目标是建立一个繁多的 CNN 架构,可以用于任意分辨率、长度和维度的数据。标准 CNN 需要一定于恣意的架构,因为其卷积核的离散性将内核绑定到一定的数据分辨率,并且由于建立大型离散卷积核所需的大量参数,它们不适合对全局上下文进行建模。因此,为了建立一个通用的 CNN 架构,关键是开发一个分辨率不可知的卷积层,该卷积层能够以参数有效的方式对远程依赖关系进行建模。该研讨入选 ICML 2022 。
论文地址:https://arxiv.org/pdf/2206.03398.pdf代码地址:https://github.com/david-knigge/ccnn本文的贡献如下:该研讨提出 Continuous CNN(CCNN):一个简单、通用的 CNN,可以跨数据分辨率和维度使用,而不需要结构修改。CCNN 在序列 (1D)、视觉 (2D) 恣意、以及不规则采样数据和测试时间分辨率变化的恣意上超过 SOTA;该研讨对现有的 CCNN 方法提供了几种改进,使它们能够匹配当前 SOTA 方法,例如 S4。主要改进包括核生成器搜集的初始化、卷积层修改以及 CNN 的整体结构。连气儿核卷积连气儿核卷积将小型神经搜集作为核生成器搜集,同时将卷积核参数化为连气儿函数。该搜集将坐标
映射到该位置的卷积核值:
(图 1a)。通过将 K 个坐标
的向量通过 G_Kernel,可以构造一个大小相等的卷积核 K,即
。随后,在输入信号
和生成的卷积核
之间进行卷积运算,以构造输入特征表示
,即
。
任意数据维度的一般操作。通过改变输入坐标 c_i 的维数 D,核生成器搜集 G_Kernel 可用于构造任意维数的卷积核。因此可以使用相反的操作来处理序列 D=1、视觉 D=2 和更高维数据 D≥3。差别输入分辨率的等效响应。如果输入信号 x 有分辨率变化,例如最初在 8KHz 观测到的音频现在在 16KHz 观测到,则与离散卷积核进行卷积以产生差别的响应,因为核将在每个分辨率下覆盖差别的输入子集。另一方面,连气儿核是分辨率无关的,因此无论输入的分辨率如何,它都能够识别输入。当以差别的分辨率(例如更高的分辨率)呈现输入时,通过核生成器搜集传递更精细的坐标网格就足够了,以便以相应的分辨率构造相反的核。对于以分辨率 r (1) 和 r (2) 采样的信号 x 和连气儿卷积核 K,两种分辨率下的卷积大约等于与分辨率变化成比例的因子:
CCNN:在 ND 中建模远程依赖关系拥有连气儿核卷积的残差块改进。该研讨对 FlexNet 架构进行了修改 ,其残差搜集由类似于 S4 搜集的块组成。CCNN 架构如下图 2 所示。
基于这些观测,该研讨建立了 FlexConv 的深度(depth-wise)可分离版本,其中通道(channel-wise)卷积是使用核生成器搜集生成的核计算的,之后是从 N_in 到 N_out 进行逐点卷积。这种变化允许建立更广泛的 CCNN—— 从 30 到 110 个隐藏通道,而不会增加搜集参数或计算复杂度。
正确初始化核生成器搜集 G_Kernel。该研讨观测到,在以前的研讨中核生成器搜集没有正确初始化。在初始化前,人们希望卷积层的输入和输入的方差保持相等,以避免梯度爆炸和消失,即 Var (x)=Var (y)。因此,卷积核被初始化为拥有方差 Var (K)=gain^2 /(in channels ⋅ kernel size) 的形式,其增益取决于所使用的非线性。然而,神经搜集的初始化使输入的 unitary 方差保留在输入。因此,当用作核生成器搜集时,标准初始化方法导致核拥有 unitary 方差,即 Var (K)=1。结果,使用神经搜集作为核生成器搜集的 CNN 经历了与通道⋅内核大小成比例的特征表示方差的逐层增长。例如,研讨者观测到 CKCNNs 和 FlexNets 在初始化时的 logits 大约为 1e^19。这是不可取的,这可能导致训练不稳定和需要低学习率。为了解决这个问题,该研讨要求 G_Kernel 输入方差等于 gain^2 /(in_channels⋅kernel_size)而不是 1。他们通过、重新加权核生成器搜集的最后一层。因此,核生成器搜集输入的方差遵循传统卷积核的初始化,而 CCNN 的 logits 在初始化时呈现繁多方差。
实验结果如下表 1-4 所示,CCNN 模型在所有恣意中都表现良好。首先是 1D 图象分类 CCNN 在多个连气儿基准上获得 SOTA,例如 Long Range Arena、语音识别、1D 图象分类,所有这些都在繁多架构中实现的。CCNN 通常比其他方法模型更小架构更简单。然后是 2D 图象分类:通过繁多架构,CCNN 可以匹配并超越更深的 CNN。
对 ND 进行远程依赖建模的重要性。原则上可以将所有恣意视为不考虑 2D 结构的序列恣意,该研讨只需改变进入核生成器搜集的坐标维数,就可以在多维空间上轻松定义 CCNN。有趣的是,该研讨观测到,通过在 LRA 基准测试中考虑图象和 Pathfinder 恣意的 2D 特性,可以获得更好的结果(上表 3)。在拥有 2D 图象的 PathFinder 中,最大的 CCNN 获得了 96.00% 的准确率,比之前 SOTA 高出近 10 个点,并在扁平图象上的表现明显优于 CCNN。此外,在原始 2D 数据上训练的模型显示出比它们的序列对应物更快的收敛(图 3)。拥有小卷积核的 2D CNN,例如 ResNet-18,由于中间池化层缺乏细粒度的全局上下文建模,无法解决 Pathfinder。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/29827