小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

对于 2023 年的计算机视觉领域来说，「分隔一切」（Segment Anything Model）是备受关注的一项研究进展。Meta四月份发布的「分隔一切模型（SAM）」效果，它能很好地自动分隔图象中的所有内容Segment Anything 的关键特性是基于提示的视觉 Transformer（ViT）模型，该模型是在一个包含来自 1100 万张图象的超过 10 亿个掩码的视觉数据集 SA-1B 上训练的，可以分隔给定图象上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型，并在超出视觉之外的领域也能产生应

对于 2023 年的计算机视觉领域来说，「分隔一切」（Segment Anything Model）是备受关注的一项研究进展。

Meta四月份发布的「分隔一切模型（SAM）」效果，它能很好地自动分隔图象中的所有内容

Segment Anything 的关键特性是基于提示的视觉 Transformer（ViT）模型，该模型是在一个包含来自 1100 万张图象的超过 10 亿个掩码的视觉数据集 SA-1B 上训练的，可以分隔给定图象上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型，并在超出视觉之外的领域也能产生应用价值。

尽管有上述优点，但由于 SAM 中的 ViT-H 图象编码器有 632M 个参数（基于提示的解码器只需要 387M 个参数），因此实际使用 SAM 执行任何分隔恣意的计算和内存成本都很高，这对实时应用来说具有挑战性。后续，研究者们也提出了一些改进策略：将默认 ViT-H 图象编码器中的知识提炼到一个微小的 ViT 图象编码器中，或者使用基于 CNN 的实时架构降低用于 Segment Anything 恣意的计算成本。

在最近的一项研究中，Meta 研究者提出了另外一种改进思路 —— 利用 SAM 的掩码图象预训练 (SAMI)。这是通过利用 MAE 预训练方法和 SAM 模型实现的，以获得高质量的预训练 ViT 编码器。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

论文链接：https://arxiv.org/pdf/2312.00863.pdf

论文主页：https://yformer.github.io/efficient-sam/

这一方法降低了 SAM 的复杂性，同时能够保持良好的机能。具体来说，SAMI 利用 SAM 编码器 ViT-H 生成特性嵌入，并用轻量级编码器训练掩码图象模型，从而从 SAM 的 ViT-H 而不是图象补丁重建特性，产生的通用 ViT 骨干可用于下游恣意，如图象分类、物体检测和分隔等。然后，研究者利用 SAM 解码器对预训练的轻量级编码器举行微调，以完成任何分隔恣意。

为了评估该方法，研究者采用了掩码图象预训练的迁移学习设置，即首先在图象分辨率为 224 × 224 的 ImageNet 上使用重构损失对模型举行预训练，然后使用监督数据在目标恣意上对模型举行微调。

通过 SAMI 预训练，可以在 ImageNet-1K 上训练 ViT-Tiny/-Small/-Base 等模型，并提高泛化机能。对于 ViT-Small 模型，研究者在 ImageNet-1K 上举行 100 次微调后，其 Top-1 准确率达到 82.7%，优于其他最先进的图象预训练基线。

研究者在目标检测、实例分隔和语义分隔上对预训练模型举行了微调。在所有这些恣意中，本文方法都取得了比其他预训练基线更好的结果，更重要的是在小模型上获得了显著收益。

论文作者 Yunyang Xiong 表示：本文提出的 EfficientSAM 参数减少了 20 倍，但运行时间快了 20 倍，只与原始 SAM 模型的差距在 2 个百分点以内，大大优于 MobileSAM/FastSAM。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

在 demo 演示中，点击图片中的动物，EfficientSAM 就能快速将物体举行分隔：

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

EfficientSAM 还能准确标定出图片中的人：

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

试玩地址：https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含两个阶段：1）在 ImageNet 上对 SAMI 举行预训练（上）；2）在 SA-1B 上微调 SAM（下）。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

EfficientSAM 主要包含以下组件：

交叉注意力解码器：在 SAM 特性的监督下，本文观察到只有掩码 token 需要通过解码器重建，而编码器的输入可以在重建过程中充当锚点（anchors）。在交叉注意力解码器中，查询来自于掩码 token，键和值源自编码器的未掩码特性和掩码特性。本文将来自交叉注意力解码器掩码 token 的输入特性和来自编码器的未掩码 token 的输入特性举行合并，以举行 MAE 输入嵌入。然后，这些组合特性将被重新排序到最终 MAE 输入的输入图象 token 的原始位置。

线性投影头。研究者通过编码器和交叉注意力解码器获得的图象输入，接下来将这些特性输入到一个小型项目头（project head）中，以对齐 SAM 图象编码器中的特性。为简单起见，本文仅使用线性投影头来解决 SAM 图象编码器和 MAE 输入之间的特性维度不匹配问题。

重建损失。在每次训练迭代中，SAMI 包括来自 SAM 图象编码器的前向特性提取以及 MAE 的前向和反向传播过程。来自 SAM 图象编码器和 MAE 线性投影头的输入会举行比较，从而计算重建损失。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

经过预训练，编码器可以对各种视觉恣意的特性表示举行提取，而且解码器也会被废弃。特别是，为了构建用于分隔任何恣意的高效 SAM 模型，本文采用 SAMI 预训练的轻量级编码器（例如 ViT-Tiny 和 ViT-Small）作为 EfficientSAM 的图象编码器和 SAM 的默认掩码解码器，如图所示 2（底部）。本文在 SA-1B 数据集上对 EfficientSAM 模型举行微调，以实现分隔任何恣意。

实验

图象分类。为了评估本文方法在图象分类恣意上的有效性，研究者将 SAMI 思想应用于 ViT 模型，并比较它们在 ImageNet-1K 上的机能。

如表 1 将 SAMI 与 MAE、iBOT、CAE 和 BEiT 等预训练方法以及 DeiT 和 SSTA 等蒸馏方法举行了比较。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

SAMI-B 的 top1 准确率达到 84.8%，比预训练基线、MAE、DMAE、iBOT、CAE 和 BEiT 都高。与 DeiT 和 SSTA 等蒸馏方法相比，SAMI 也显示出较大的改进。对于 ViT-Tiny 和 ViT-Small 等轻量级模型，SAMI 结果与 DeiT、SSTA、DMAE 和 MAE 相比有显著的增益。

目标检测和实例分隔。本文还将经过 SAMI 预训练的 ViT 主干扩展到下游目标检测和实例分隔恣意上，并将其与在 COCO 数据集上经过预训练的基线举行比较。如表 2 所示， SAMI 始终优于其他基线的机能。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

这些实验结果表明，SAMI 在目标检测和实例分隔恣意中所提供的预训练检测器主干非常有效。

语义分隔。本文进一步将预训练主干扩展到语义分隔恣意，以评估其有效性。结果如表 3 所示，使用 SAMI 预训练主干网的 Mask2former 在 ImageNet-1K 上比使用 MAE 预训练的主干网实现了更好的 mIoU。这些实验结果验证了本文提出的技术可以很好地泛化到各种下游恣意。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

表 4 将 EfficientSAMs 与 SAM、MobileSAM 和 SAM-MAE-Ti 举行比较。在 COCO 上，EfficientSAM-Ti 的机能优于 MobileSAM。EfficientSAM-Ti 具有 SAMI 预训练权重，也比 MAE 预训练权重表现更好。

此外， EfficientSAM-S 在 COCO box 仅比 SAM 低 1.5 mIoU，在 LVIS box 上比 SAM 低 3.5 mIoU，参数减少了 20 倍。本文还发现，与 MobileSAM 和 SAM-MAE-Ti 相比，EfficientSAM 在多次点击（multiple click）方面也表现出了良好的机能。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%

表 5 展示了零样本实例分隔的 AP、APS、APM 和 APL。研究者将 EfficientSAM 与 MobileSAM 和 FastSAM 举行了比较，可以看到，与 FastSAM 相比，EfficientSAM-S 在 COCO 上获得了超过 6.5 个 AP，在 LVIS 上获得了 7.8 个 AP。就 EffidientSAM-Ti 而言，仍然远远优于 FastSAM，在 COCO 上为 4.1 个 AP，在 LVIS 上为 5.3 个 AP，而 MobileSAM 在 COCO 上为 3.6 个 AP，在 LVIS 上为 5.5 个 AP。

而且，EfficientSAM 比 FastSAM 轻得多，efficientSAM-Ti 的参数为 9.8M，而 FastSAM 的参数为 68M。

小模型也可以「分隔一切」，Meta改进SAM，参数仅为原版5%