朋分一切后,Segment Anything又能分辨类型了:Meta/UTAustin提出全新封闭类朋分模型

前几日,Meta 推出了「朋分一切」AI 模型 Segment Anything,令网友直呼 CV 不存在了?!而在另一篇被 CVPR 2023 收录的论文中,Meta、UTAustin 联合提出了新的封闭语言风格模型(open-vocabulary segmentation, OVSeg),它能让 Segment Anything 模型知道所要分隔的类型。

从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的封闭语言朋分。比如下图 1 中识别花朵的种类:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

图片

即刻体验:https://huggingface.co/spaces/facebook/ov-seg

项目地址:https://jeff-liangf.github.io/projects/ovseg/

研究背景

封闭式词语义朋分旨在根据文本描述将图象朋分成语义地区,这些地区在训练期间可能没有被看到。最近的两阶段方式首先天生类型不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的地区举行分类。研究者确定这种方式的本能瓶颈是预训练的 CLIP 模型,因为它在掩膜图象上显露欠安。

为了解决这个问题,研究者恳求在一组被掩膜的图象地区和它们对应的文本描述的采集的数据上对 CLIP 举行微调。研究者应用 CLIP 将掩膜图象地区与图象字幕中的名词举行婚配,从而采集训练数据。与具有固定类型的更精确和手动注释的朋分标签(例如 COCO-Stuff)相比,研究者发现嘈杂但百般的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型举行微调之外,研究者还应用了被掩膜图象中的「空白」地区,应用了他们称之为掩膜提醒微调的方式。

实验表明,掩膜提醒微调可以在不点窜任何 CLIP 权重的情况下带来显著的改进,并且它可以进一步改善完全微调的模型。特别是当在 COCO 上举行训练并在 ADE20K-150 上举行评估时,研究者的最佳模型实现了 29.6%的 mIoU,比先前的最先进技术高出 8.5%。封闭式词通用模型首次与 2017 年的受监督专家模型的本能婚配,而不需要一定于数据集的适应。

图片

论文地址:https://arxiv.org/pdf/2210.04150.pdf

论文解读

动机

研究者的分析表明,预训练的 CLIP 在掩膜恳求上显露欠安,成为两阶段方式的本能瓶颈。

图片

CLIP 是应用很少的数据增强在自然图象上举行预训练的。

两阶段的封闭词语义朋分方式首先天生类型不可知的掩膜恳求,然后利用预训练的 CLIP 举行封闭词分类。CLIP 模型的输入是裁剪的掩膜图象,与自然图象存在巨大的领域差距。

我们的分析表明,预训练的 CLIP 在掩膜图象上显露欠安。

方式

研究者的模型包括一个朋分模型(例如 MaskFormer)和一个 CLIP 模型

图片

他们首先训练点窜后的 MaskFormer 作为封闭词朋分的基线(第 3.1 节),然后从图象标题中采集百般的掩膜-类型对(第 3.2 节),并适应 CLIP 用于掩膜图象(第 3.3 节)。

结果

研究者首次展示封闭词的通用模型可以在没有数据集一定调整的情况下与受监督的专业模型的本能相婚配

图片

更多分类示例如下所示。

图片

图片

更多技术细节请参阅原论文。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/30415

(0)
上一篇 2023年4月15日 上午8:36
下一篇 2023年4月15日 下午6:51

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注