AI在线 AI在线

从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破

AI在线 12 月 17 日消息,Meta 今日发布了首个统一的多模态音频分离模型 —— SAM Audio。 Meta 表示 SAM Audio 是一个“最先进的统一模型”,通过使用自然的、多模态的提示,使音频处理变得简单,能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。 这种直观的方法模拟了人们自然与声音互动的方式,使音频分离更加易于使用和实用。

AI在线 12 月 17 日消息,Meta 今日发布了首个统一的多模态音频分离模型 —— SAM Audio

从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破

Meta 表示 SAM Audio 是一个“最先进的统一模型”,通过使用自然的、多模态的提示,使音频处理变得简单,能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。这种直观的方法模拟了人们自然与声音互动的方式,使音频分离更加易于使用和实用。

从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破

SAM Audio 的核心是感知编码器视听(PE-AV),这是一个帮助实现先进性能的技术引擎。PE-AV 基于 Meta 今年早些时候分享的开源感知编码器模型构建,它使人们能够创建更先进的计算机视觉系统,以协助日常任务,包括声音检测。

SAM Audio 核心架构

▲ SAM Audio 核心架构

Meta 官方把 PE-AV 类比为“耳朵”,帮助 SAM Audio 这个“大脑”完成音频分割任务。比如,一段乐队演出的视频录像,只需点击一下吉他,就能分离出吉他音频

SAM Audio 还可以通过文本提示来分离音频,例如从户外拍摄的视频中过滤掉嘈杂的交通噪音。此外,跨度提示功能可以帮助人们一次性解决音频问题,例如在整个播客录音中过滤掉狗叫声的噪音。

SAM Audio 提出了三种音频分割方法,可以单独使用或任意组合以达到所需的效果:

  • 文本提示:输入“狗吠”或“人声演唱”以提取特定的声音。

  • 视觉提示:在视频中点击说话的人或发声的物体,以分离其音频。

  • 时间片段提示:这是行业首创的方法,允许用户标记目标音频出现的时间段,类似《赛博朋克 2077》里的超梦。

Meta 还发布了 SAM Audio-Bench,这是首个真实场景下的音频分离基准测试;以及 SAM Audio Judge,这是首个用于音频分离的自动评估模型。

从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破

Meta 今日发布了第二个模型 —— Perception Encoder Audiovisual,是 SAM Audio 成果的核心引擎。它支持核心组件,如主要的字幕生成模型和 SAM Audio Judge。该模型基于 Meta 于四月发布的开源模型 Meta Perception Encoder 构建,PE-AV 将计算机视觉能力扩展到了音频领域。

从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破

AI在线附 SAM Audio 访问地址如下:

  • https://ai.meta.com/samaudio/

  • https://github.com/facebookresearch/sam-audio

相关资讯

分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。 深夜,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。
12/17/2025 5:24:00 PM 机器之心
第二波!2023年4月精选实用设计工具合集

第二波!2023年4月精选实用设计工具合集

大家好,这是 2023 年 4 月的第 2 波设计干货合集!这期首先会推荐 Meta 出品的全新多功能抠图 AI 引擎,和多个可以在 Figma 当中使用的 AI 驱动的设计工具。此外,特别值得一提的是,这一期还有新的可下载的免费图库,以及一个帮助设计师提升「设计说服力」的设计系统,非常有意思! 当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货: 1、Meta 出品的全新 AI 识别分割工具 SAM 有可能手工抠图的时代要彻底过去了,Meta 出品的这个名为 SAM 的全新 AI
4/11/2023 7:31:20 AM 陈子木
Meta SAM 2 登场:首个能在图片和视频中实时分割对象的统一开源 AI 模型

Meta SAM 2 登场:首个能在图片和视频中实时分割对象的统一开源 AI 模型

感谢Meta 公司发布 Meta Segment Anything Model 2(SAM2),SAM 2 能分割任何目标,能在一个视频中实时追踪所有镜头 —— 解锁新的视频编辑能力并在混合现实中提供新的体验。Meta 公司今天发布新闻稿,介绍了全新的 Meta Segment Anything Model 2(SAM 2)模型,先支持分割视频和图像中的对象。开源Meta 公司宣布将以 Apache 2.0 许可发布 SAM 2,因此任何人都可以使用它来构建自己的体验。Meta 还将以 CC BY 4.0 许可共享
7/30/2024 9:58:28 AM 故渊