从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

作者：汪淼 2025-12-17 10:59

AI在线 12 月 17 日消息，Meta 今日发布了首个统一的多模态音频分离模型 —— SAM Audio。 Meta 表示 SAM Audio 是一个“最先进的统一模型”，通过使用自然的、多模态的提示，使音频处理变得简单，能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。这种直观的方法模拟了人们自然与声音互动的方式，使音频分离更加易于使用和实用。

AI在线 12 月 17 日消息，Meta 今日发布了首个统一的多模态音频分离模型 —— SAM Audio。

Meta 表示 SAM Audio 是一个“最先进的统一模型”，通过使用自然的、多模态的提示，使音频处理变得简单，能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。这种直观的方法模拟了人们自然与声音互动的方式，使音频分离更加易于使用和实用。

从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

SAM Audio 的核心是感知编码器视听（PE-AV），这是一个帮助实现先进性能的技术引擎。PE-AV 基于 Meta 今年早些时候分享的开源感知编码器模型构建，它使人们能够创建更先进的计算机视觉系统，以协助日常任务，包括声音检测。

SAM Audio 核心架构

▲ SAM Audio 核心架构

Meta 官方把 PE-AV 类比为“耳朵”，帮助 SAM Audio 这个“大脑”完成音频分割任务。比如，一段乐队演出的视频录像，只需点击一下吉他，就能分离出吉他音频。

SAM Audio 还可以通过文本提示来分离音频，例如从户外拍摄的视频中过滤掉嘈杂的交通噪音。此外，跨度提示功能可以帮助人们一次性解决音频问题，例如在整个播客录音中过滤掉狗叫声的噪音。

SAM Audio 提出了三种音频分割方法，可以单独使用或任意组合以达到所需的效果：

文本提示：输入“狗吠”或“人声演唱”以提取特定的声音。
视觉提示：在视频中点击说话的人或发声的物体，以分离其音频。
时间片段提示：这是行业首创的方法，允许用户标记目标音频出现的时间段，类似《赛博朋克 2077》里的超梦。

Meta 还发布了 SAM Audio-Bench，这是首个真实场景下的音频分离基准测试；以及 SAM Audio Judge，这是首个用于音频分离的自动评估模型。

从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

Meta 今日发布了第二个模型 —— Perception Encoder Audiovisual，是 SAM Audio 成果的核心引擎。它支持核心组件，如主要的字幕生成模型和 SAM Audio Judge。该模型基于 Meta 于四月发布的开源模型 Meta Perception Encoder 构建，PE-AV 将计算机视觉能力扩展到了音频领域。

从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

AI在线附 SAM Audio 访问地址如下：

https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

继 SAM（Segment Anything Model）、SAM 3D 后，Meta 又有了新动作。深夜，Meta 放出音频分割模型 SAM Audio，其通过多模态提示（无论是文本、视觉，还是标注时间片段），让人们能够轻松地从复杂的音频混合中分离出任意声音，从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual（PE-AV），这是推动其实现业界领先性能的技术引擎。

12/17/2025 5:24:00 PM 机器之心

第二波！2023年4月精选实用设计工具合集

大家好，这是 2023 年 4 月的第 2 波设计干货合集！这期首先会推荐 Meta 出品的全新多功能抠图 AI 引擎，和多个可以在 Figma 当中使用的 AI 驱动的设计工具。此外，特别值得一提的是，这一期还有新的可下载的免费图库，以及一个帮助设计师提升「设计说服力」的设计系统，非常有意思！当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、Meta 出品的全新 AI 识别分割工具 SAM 有可能手工抠图的时代要彻底过去了，Meta 出品的这个名为 SAM 的全新 AI

4/11/2023 7:31:20 AM 陈子木

Meta SAM 2 登场：首个能在图片和视频中实时分割对象的统一开源 AI 模型

感谢Meta 公司发布 Meta Segment Anything Model 2（SAM2），SAM 2 能分割任何目标，能在一个视频中实时追踪所有镜头 —— 解锁新的视频编辑能力并在混合现实中提供新的体验。Meta 公司今天发布新闻稿，介绍了全新的 Meta Segment Anything Model 2（SAM 2）模型，先支持分割视频和图像中的对象。开源Meta 公司宣布将以 Apache 2.0 许可发布 SAM 2，因此任何人都可以使用它来构建自己的体验。Meta 还将以 CC BY 4.0 许可共享

7/30/2024 9:58:28 AM 故渊

从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

相关资讯

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

第二波！2023年4月精选实用设计工具合集

Meta SAM 2 登场：首个能在图片和视频中实时分割对象的统一开源 AI 模型