CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

来自 Facebook AI 的严志程团队发表一种新的神经架构的快速搜刮算法。该算法接纳自顺应架构几率漫衍熵的架构采样，能够减少采样样本达 60%，减速搜刮快 1.8 倍。此外，该算法还包括一种新的基于分析几率漫衍的由粗到细的搜刮策略，进一步减速搜刮快达 1.2 倍。该算法搜刮性能优于 BigNAS、EfficientNet 和 FBNetV2 等算法。就职于 Facebook AI 的严志程博士和他的同事最近在 CVPR 2021 发表了关于减速几率性神经架构搜刮的最新工作。该工作提出了一种新的自顺应架构漫衍熵的

就职于 Facebook AI 的严志程博士和他的同事最近在 CVPR 2021 发表了关于减速几率性神经架构搜刮的最新工作。该工作提出了一种新的自顺应架构漫衍熵的架构采样方式来显著减速搜刮。同时，为了进一步减速在多变量空间中的搜刮，他们通过在搜刮初期使用分析的几率漫衍来极大减少架构搜刮参数。结合上述两种技巧，严志程团队提出的搜刮方式 FP-NAS 比 PARSEC [1] 快 2.1 倍，比 FBNetV2 [2] 快 1.9-3.5 倍，比 EfficientNet [3] 快 132 倍以上。FP-NAS 可以被用于直接搜刮更大的模型。搜刮获得 FP-NAS-L2 模型复杂度达到 1.0G FLOPS，在只接纳简单知识蒸馏的情况下，FP-NAS-L2 能够比接纳更复杂的就地蒸馏的 BigNAS-XL [4]模型，提高 0.7% 分类精度。

论文链接：https://arxiv.org/abs/2011.10949

背景回顾和新方式简要介绍

近年来，神经架构的设计逐渐从手动的人工设计变换到自动的算法搜刮 (NAS)。早期 NAS 的方式基于进化和强化学习，搜刮速度极慢。最近，可微分神经架构搜刮方式(DNAS) 通过共享架构模型参数和计算架构参数梯度来减速搜刮。但是由于需要在内存里为每一个模型层同时存放所有可能的架构选项，DNAS 的内存开销随着搜刮空间的大小线性增长，使得它不适用在大搜刮空间内搜刮复杂度高的模型。另一方面，几率性神经架构搜刮方式 PARSEC 每次只需要采样一个架构，能极大减小内存开销，但是因为每次参数更新需要采样许多架构，搜刮的速度较慢。

为了解决上述问题，严志程团队提出两个新的技巧。首先，PARSEC 方式中的流动架构采样的方式被一种新的自顺应架构几率漫衍熵的采样方式取代。在搜刮前期，算法会采样更多的架构来充分探索搜刮空间。在搜刮后期，随着架构几率漫衍熵的减小，算法减少采样的数量来减速搜刮。其次，搜刮通常在多变量空间进行，比如卷积核的大小、模型层的宽度等。为了减少架构参数来减速搜刮，在搜刮前期，我们可以用分析的几率漫衍来表示搜刮空间进行粗粒度搜刮。在搜刮后期，我们转换到联合的几率漫衍进行精细搜刮。

这项 FP-NAS 工作的主要创新点和实验结果如下：

提出一种新的自顺应架构几率漫衍熵的采样方式，能够减少采样的样本达 60%，减速搜刮快 1.8 倍。

提出一种新的基于分析几率漫衍的由粗到细的搜刮策略，进一步减速搜刮快达 1.2 倍。

对小模型搜刮，FP-NAS 方式比 FBNetV2 方式快 3.5 倍，并且搜刮获得的模型精度更高。

在搜刮更大的复杂度达到 0.4G FLOPS 的模型时，FP-NAS 比 EfficientNet 快 132 倍，同时搜到的模型 FP-NAS-L0 在 ImageNet 上比 EfficientNet-B0 精度高 0.7%。直接搜刮复杂度达到 1.0G FLOPS 的大模型时，FP-NAS 搜到的模型 FP-NAS-L2 精度比 EfficientNet-B2 高 0.4%。

FP-NAS 通过把 Squeeze-Excite 模块替换成 Split-Attention 来扩大搜刮空间，同时证明单独搜刮各个模型层的 Attention splits 的必要性。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

图 1: 在 ImageNet 数据集上通过较为 FP-NAS 和其他 NAS 方式搜刮获得的模型结果。

FP-NAS 搜刮方式

基础知识

在可微分神经架构搜刮方式 DNAS 中，离散的模型层架构选择被表示成连续的所有可能选择的加权总和。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

在几率性神经架构搜刮方式 PARSEC 中，一个架构 A 可以被表示成所有 L 个模型层上的架构 CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好。架构的漫衍可以用一个几率来刻画。假定，每个模型层的架构是独立的，每个架构 A 的几率可以表示如下。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

这里，α表示架构漫衍参数。对常见的图像分类问题，我们有图像 X 和类标记 y，PARSEC 的优化函数如下。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

其中，ω表示模型参数。

自顺应采样

PARSEC 搜刮方式在每个优化迭代中采样 K 个流动数量的架构样本。样本的数量 K 是一个超参，通常需要手动调节来权衡搜刮速度和最终架构的性能矛盾。在新提出的自顺应采样中，样本的数量根据架构几率漫衍的熵进行自顺应改变。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

这里, Η表示漫衍熵, λ是一个预定义的系数。自顺应采样在搜刮前期因为熵较高而采样更多的架构。但是因为在搜刮后期漫衍熵大大降低，我们只需要采样少量架构就能获得很好的搜刮结果。

多变量空间中的由粗到细的搜刮策略

在神经架构搜刮中，我们经常对多个变量进行搜刮。下面两个表格分别呈现搜刮空间的宏架构和微架构。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 1: FBNetV2-F 搜刮空间的宏架构。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 2: FBNetV2 和 FP-NAS 搜刮空间的微架构。

我们使用的搜刮空间有 M=5 个变量，包括特征通道数、通道扩张比例、卷积核大小、非线性激活函数和注意力模块里的 splits 数。假定每个变量的基数分别是 3、2、2、6 和 10，那么使用联合几率漫衍表示搜素空间时需要 prod([3, 2, 2, 6, 10])=720 个架构参数。但是使用分析几率漫衍时，架构参数可以被减少到 sum([3, 2, 2, 6, 10])=23，相差 31 倍。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

FP-NAS 搜刮空间

我们在实验中使用了 4 个不同的搜刮空间：

FBNetV2-F space。这是先前 FBNetV2 工作中提出的一个空间，一共包含6×10^25个不同的架构。

FBNetV2-F-Fine space。在这个空间中，每个 MBConv 块允许使用不同的架构。

FBNetV2-F++ space。在这个空间中，原来的 SqueezeExcite 注意力模块被新的 SplitAttention 模块取代。split 的数目选择从原来的 {0, 1} 被扩展到{0, 1, 2, 4}。

FP-NAS space。为了支持搜刮更大的神经架构，我们把 FBNetV2-F++ 的搜刮宏架构变得更宽更深，同时提高输入图像的分辨率，获得三个更大的 FP-NAS 搜刮空间 L0-L2。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

图 2: 含 Split-Attention 注意力模块的 MBConv 模块。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 3: 三个包含不同复杂度模型的 FP-NAS 神经架构搜刮空间。

主要实验结果

我们随机选择 100 个 ImageNet 类的数据（ImageNet-100）用于神经架构搜刮。不断迭代地交替更新架构参数α和模型参数ω进行优化。

如何进行架构样本采样？

PARSEC 方式在每个优化迭代中流动采样（FS: Fixed Sampling）若干个架构（K=8 或者 16）。在图 3（a）中，我们发现流动样本数目 K 和搜刮获得的架构的精度 / 复杂度权衡（ATC: Accuracy-To-Complexity）高度相关。在图 3（b）中，当 K 取值变大时，架构漫衍的几率熵下降得更快。在图 3（c）中，我们发现在搜刮阶段结束的时候，ImageNet-100 上验证集上的精度随着 K 取值变大而变高。在图 3（d）中，我们看到总共的采样样本数量和搜刮时间都随着 K 取值变大而线性增长。

对于新提出的自顺应采样方式(AS: Adaptive sampling)，我们试验了不同的超参数 CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好。在图 3（a）中，我们发现接纳的自顺应采样搜刮获得的架构已经能达到用Κ=14的流动采样搜刮获得的架构相似的 ATC，但是搜刮时间大大缩短。在图 3（b）中，我们发现接纳 CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好的时候，自顺应采样方式将架构几率漫衍的熵降低到一个很低的水平，表明最有可能的架构已经被搜刮到。在图 3（c）中，我们发现接纳的时候，自顺应采样方式在 ImageNet-100 验证集上的分类精度已经和流动采样方式的分类精度几乎一样高。在图 3（d）中，我们看到与接纳 K=14 的流动采样方式相比，接纳 CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好的自顺应采样方式能够减少 60% 的样本总数量，加快搜刮达 1.8 倍。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

图 3: 流动采样方式 (FS) 和自顺应采样方式 (AS) 的较为。

FP-NAS 方式自顺应搜刮空间的大小

在更大的搜刮空间里，我们需要采样更多的架构样本来充分探索空间。对于流动采样来说，使用一个流动的样本量 K 会阻碍搜刮获得最优的架构。对于自顺应采样来说，使用一个流动λ的仍然能够保证样本数量随着架构漫衍熵来自动调整，不需要人工进行调参。为了验证这一点，在表 4 中，我们较为了流动采样和自顺应采样在 FBNetV2-F 和 FBNetV2-F-Fine 空间里的搜刮结果。可以看到，在较小的 FBNetV2-F 空间中，使用两种采样方式获得的最终架构拥有相似的 ATC。但是在较大的 FBNetV2-F-Fine 空间中，在不手工改变超参 K 和 λ 的情况下，自顺应方式获得的最终架构的分类精度高出 0.9%。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 4: 较为接纳不同采样方式在不同搜刮空间中获得的最终架构。

由粗到细的搜刮策略

在图 4 中，我们较为联合几率漫衍 (JD) 和分析几率漫衍（FD）。在搜刮前期迭代 80 次时，架构漫衍几率熵有很大不同(54.4 Vs 30.6)。但是在搜刮后期，分析几率漫衍降低架构漫衍几率熵的速度却较慢，并不能精确地区分一小部分高几率的架构。因此，我们提出混合架构漫衍几率调理(MD)。在搜刮开始接纳分析几率漫衍，然后在迭代θ次的时候，将其无缝转换到联合几率漫衍。在图 4（a）中，我们呈现了接纳不同 CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好的混合架构漫衍几率调理的搜刮结果。由于其能够在搜刮前期和后期中都能较快降低架构漫衍几率熵，因此在自顺应采样的情况下，我们能够显著减少采样的架构样本数量。在图 4（b）和表 5 中，我们验证接纳混合架构漫衍几率调理由粗到细的搜刮策略能够进一步减少架构样本达 9%，减速搜刮 1.2 倍，并且不影响最终搜刮架构的性能。总结来说，当同时接纳自顺应样本采样和混合架构漫衍几率调理，FP-NAS 能够减少采样样本数量达 64%，加快搜刮达 2.1 倍。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

图 4: 较为联合几率漫衍调理、分析几率漫衍调理和本文提出的混合几率漫衍调理。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 5: 较为架构几率漫衍的调理和最终搜刮架构的精度。

跟 FBNetV2 较为小模型的搜刮结果

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 6：和 FBNetV2 搜刮方式较为搜刮小模型的结果。

我们使用同样的 FBNetV2-F 搜刮空间，较为 FP-NAS 和 FBNetV2 两种不同的搜刮方式。在表 6 中，我们发现 FP-NAS 可以加快搜刮达 1.9 到 3.6 倍，并且最终获得的架构能达到更高的分类精度。

可搜刮的 Split-Attention 模块

表 7 中我们较为了在 FBNetV2-F 和 FBNetV2-F++ 空间中接纳 FP-NAS 搜刮获得的架构。我们发现在后者空间搜得的 FP-NAS-S++ 模型可以达到更好的精度 / 复杂度权衡。我们还把在前者空间搜得的 FP-NAS-S 模型进行简单修改，把 splits 数目统一地从 1 改成 2 或者 4。我们发现通过这样简单统一的修改 splits 数目而获得的模型会有较差的精度 / 复杂度权衡。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 7: 较为在 FBNetV2-F 和 FBNetV2-F++ 空间中搜刮获得的架构。

大模型的搜刮结果

我们在 FP-NAS L 空间里搜刮复杂度为{0.4G, 0.7G, 1.0G} FLOPS 的大模型。结果见表 8 和图 1。跟 EfficientNet 相比，FP-NAS-L0 模型和 EfficientNet-B0 模型的复杂度都是 0.4G FLOPS 左右，但是 FP-NAS 的搜刮速度快了 132 倍，并且最终的模型分类精度提高了 0.7%。EfficientNet B1 和 B2 模型是通过扩大 B0 模型获得的。FP-NAS L1 和 L2 模型是直接搜刮获得的。在搜刮极大减速的情况，他们的分类精度分别提高了 0.9% 和 0.4%。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

表 8: 跟其他 NAS 搜刮方式的较为。

其他 NAS 方式的较为

在表 8 里，我们还将 FP-NAS 跟其他主要搜刮方式进行较为，并且确认 FP-NAS 搜刮的高效率和最终模型的高性能。跟 BigNAS 相比，接纳简单知识蒸馏的 FP-NAS-L2 模型能够比接纳更复杂的就地蒸馏的 BigNAS-XL 模型，提高了 0.7% 分类精度。

更多的思考

自动化神经架构搜刮已经成为一种主流的搭建深度模型的方式。尽管在搜刮小模型方面，已有的搜刮方式已经取得显著进展，如何扩展他们用于直接快速地搜刮更大的模型仍然是一个极具挑战性的课题。本文 FP-NAS 的工作是基于几率性神经架构搜刮的框架，在其低内存消耗优势基础上，显著减速其搜刮过程，使得 NAS 的科研工作朝着更好的可复制性和可扩展性方向迈进一步。

主要作者介绍

严志程博士，脸书（Facebook）人工智能应用研究院主任科学家及技术经理。研究方向为大规模图像视频理解、物体和环境感知、及其在增强现实中的应用。FP-NAS、 HACS、HD-CNN 等科研项目的负责人和主要作者。2016 年于伊利诺伊香槟厄巴纳分校获得计算机科学专业的博士学位。从 2016 年至今，在脸书从事计算机视觉相关的科研项目和面向大规模应用的工程项目。曾主导开发脸书第一个商业产品的视觉识别服务，第一个实时处理 Facebook 和 Instagram 所有用户视频的大规模视频语义理解服务。

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

引用文献

[1] Probabilistic neural architecture search. arXiv preprint arXiv:1902.05116, 2019

[2] Fbnetv2: Differentiable neural architecture search for spatial and channel dimensions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12965–12974, 2020

[3] Efficientnet: Rethinking model scaling for convolutional neural networks. arXiv preprint arXiv:1905.11946, 2019.

[4] BigNAS: Scalingup neural architecture search with big single-stage models.arXiv preprint arXiv:2003.11142, 2020

{{userData.name}}已认证

CVPR 2021 | Facebook提出FP-NAS：搜刮速度更快、分类精度更高、性能更好

初三就能上清华，丘成桐数学科学领军决策首批名单出炉，本月入校接受预科扶植

「打单」制作业

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低

Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!

Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本

无需训练，主动扩大的视觉Transformer来了

教授何恺明在MIT的第一堂课

邢波任校长的MBZUAI大学国内招生了，Michael Jordan、Raj Reddy等大佬授课