AI在线 AI在线

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

鱼羊 发自 凹非寺. 量子位 | 公众号 QbitAI传统语义分割好无趣好无聊,技能语义分割加入概念提示,好好玩,要爆了。 (doge)SAM 3——第三代“分割一切”模型刚刚被发现,已经悄然投稿ICLR 2026。

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

传统语义分割好无趣好无聊,技能语义分割加入概念提示,好好玩,要爆了。(doge)

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

SAM 3——第三代“分割一切”模型刚刚被发现,已经悄然投稿ICLR 2026。

论文还在双盲评审阶段,作者匿名中,但标题暴露一切。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

简单来说,就是在这个官方新版中,分割模型终于能听懂人话了:只要说出想要的东西,SAM 3就能在图像/视频中分割出对应实例。

比如,输入“条纹猫”,SAM 3自己就能找出并分割图中所有带条纹的猫猫:

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

值得一提的是,SAM 3处理一张含100多个物体的图片仅需30ms,对视频也有近实时处理能力。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

SAM 1引入了基于点、框、掩码等视觉提示的交互式分割任务,开辟了分割模型的新范式;SAM 2则在此基础之上,加入了对视频和记忆的支持。

这一次,SAM 3让这种交互式分割更进一步:支持基于短语、图像示例等概念提示多实例分割任务——对,捎带手突破了前代只能处理单个实例的局限。

论文中,SAM 3的研究团队将这种新任务范式命名为PCS(Promptable Concept Segmentation)。

PCS:可提示概念分割

PCS的定义是,给定图像或视频,模型能够基于短语、图像示例,或者两者结合的方式,分割其中所有匹配提示概念的实例。

相比于传统分割任务,PCS强调:

  • 开放性词汇:不局限于预定义的固定类别,支持用户输入任意名词短语作为分割目标;
  • 全实例分割:找到并分割所有符合提示的实例,在视频中,还能保持不同帧之间的身份一致性;
  • 多模态提示:支持多种提示输入,包括文本提示、视觉提示,以及两者结合的方式;
  • 用户交互:允许用户通过交互进行分割结果的精细优化。

新架构设计

SAM 3为实现PCS设计了新的架构。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

主要是在检测与分割模块上,SAM 3的检测器基于DETR(Deformable Transformer)架构,能够根据语言和视觉提示生成实例级的检测结果。

同时,引入了Presence Head模块,解耦物体的识别(是什么)和定位(在哪里)任务——

在传统对象检测框架中,模型往往需要同时判断目标是否存在、位置在哪里,这可能导致冲突,尤其是在多实例分割任务中容易出问题。

Presence Head将两者分开处理,从而进一步提升了模型的检测精度。

大规模数据引擎

为了改进PCS,研究团队还专门构建了一个可扩展的数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集。

数据引擎由多阶段构成,能够逐步提升数据的多样性和难度。

整个构建过程中人类和大语言模型会相互检查彼此的工作,保证高质量的同时提升了标注的效率。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

SA-Co基准

为了评估模型在开放词汇分割任务中的性能,论文还提出了SA-Co(Segment Anything with Concepts)基准。

SA-Co包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

不过需要说明的是,SAM 3对语言的处理还局限于简单的短语提示,不支持复杂的语言表达,并不具备多模态大模型的语言生成、复杂语言理解和推理能力。

实验结果表明,SAM 3在可提示分割任务中刷新了SOTA。

在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5提升不少。

在新的SA-Co基准测试中,SAM 3的表现至少比基线方法强2倍。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

另外,在针对视频的PVS(Promptable Visual Segmentation)任务中,SAM 3的性能也优于SAM 2。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

研究人员还把SAM 3和多模态大模型(MLLM)相结合,探索解决更复杂的任务需求。

比如分割图片中“坐着但没拿礼物盒的人”。

大模型会先拆解需求,比如先找坐着的人,再排除拿礼物盒的人,然后给SAM 3发指令。

结果显示,SAM 3+MLLM的组合比专门做推理分割的模型效果还要好,并且无需专门的数据做训练。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

在H200 GPU上,SAM 3处理含100多个实体的单张图像只需要30ms的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。

不过,论文也指出,SAM 3难以通过零样本的方式,将能力泛化到如医疗图像、热成像之类的细分领域。

视频分割任务中,遇到多目标场景,模型的实时性能会下降,需要多GPU并行处理。

论文地址:https://openreview.net/forum?id=r35clVtGzw

— 完 —

相关资讯

藏在国民APP里的黑科技:美图CVPR 2025五大新突破!

2025年,计算机视觉领域三大顶级会议之一的CVPR(国际计算机视觉与模式识别会议)投稿量再次刷新纪录,超过13000篇工作进入评审流程,录用比例仅为22.1%,相较去年再次下降1.5%。 美图旗下美图影像研究院(MT Lab)联合清华大学、新加坡国立大学、北京理工大学、北京交通大学等知名高校发布的5篇论文入选CVPR 2025,均聚焦于图像编辑领域,分布在生成式AI、交互式分割、3D重建三个方面。 在研发方面的突破代表美图在核心视觉领域竞争力的持续提升,AI助推下美图产品力持续提升,也带动了更高的用户粘性和付费意愿,深度结合前沿技术与探索可落地的实用价值,成为美图成功在影像与设计领域打造AI产品的重要驱动力。
3/27/2025 3:09:00 PM
新闻助手

High-Level Call Between OpenAI and Microsoft! The Future of Their Cooperation Remains Uncertain

Amid the intensifying competition in the field of artificial intelligence, Sam Altman, CEO of OpenAI, recently had a phone call with Satya Nadella, CEO of Microsoft, discussing future cooperation. This information was revealed in Altman's podcast interview on Tuesday, where he mentioned that the conversation with Nadella mainly focused on how to revise their investment terms and equity issues for the future.It is known that Microsoft is a major investor in OpenAI, and recent differences have arisen between the two parties regarding investment details, particularly about the scale of Microsoft's future shareholding. If no consensus can be reached on these key issues, Microsoft even considered suspending further discussions with OpenAI.
6/26/2025 5:01:43 PM
AI在线

Instacart 首席执行官 Fidji Simo 履新 OpenAI,掌舵“应用”部门

Instacart 首席执行官 Fidji Simo 将于 8月18日正式加入 OpenAI,担任全新设立的**“应用首席执行官”**一职。 她将直接向 OpenAI 首席执行官 Sam Altman 汇报,并负责领导公司至少三分之一的团队,专注于扩展和发展 OpenAI 技术的用例。 这个新职位最早由 Altman 在今年5月份宣布公司重组时提出。
7/22/2025 11:02:50 AM
AI在线
  • 1