Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

作者：AI在线 2025-12-18 10:16

Meta正式推出音频处理领域的重磅突破——SAM Audio，全球首个统一的多模态音频分离模型。它能让用户像“用眼睛听声音”一样，从一段混杂的视频或音频中，一键提取出任意目标声音:点击视频中的吉他手，立刻分离出纯净吉他声;输入“狗吠”，自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段，即可精准剔除干扰音。这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。

SAM Audio的核心是其自研的感知编码器视听（PE-AV），被Meta称为模型的“耳朵”。该引擎基于今年4月开源的Meta Perception Encoder计算机视觉模型扩展而来，首次将高级视觉理解能力与音频信号深度融合，实现跨模态的声音定位与分离。

具体而言，SAM Audio支持三种直觉化交互方式，可单独或组合使用:

- 文本提示:输入“人声演唱”“汽车喇叭”等语义描述，自动提取对应声源;

- 视觉提示:在视频画面中点击发声物体（如说话的人、敲鼓的手），系统即分离其音频;

- 时间片段提示（行业首创）:标记目标声音出现的时间区间(如“3分12秒到3分18秒”)，模型自动处理整段录音中的同类声音——Meta将其类比为《赛博朋克2077》中的“超梦”技术。

为推动技术标准化，Meta同步开源两大关键工具:

- SAM Audio-Bench:首个基于真实场景的音频分离评测基准;

- SAM Audio Judge:全球首个专用于音频分离质量的自动评估模型，可量化判断分离结果的纯净度与完整性。

此次发布的PE-AV不仅是SAM Audio的底层引擎，还将赋能Meta其他AI产品，包括字幕生成、视频理解与智能剪辑系统。它的开源，意味着开发者未来可构建自己的“视听联觉”AI应用——从自动消噪会议记录，到沉浸式AR音频交互，再到无障碍辅助听觉设备。

在视频内容爆炸式增长的今天，SAM Audio的出现，标志着音频处理正式进入“可交互、可编辑、可理解”的新时代。过去，我们只能被动接收声音;现在，Meta让我们拥有了“选择性聆听”的超能力——而这，或许只是多模态AI重塑感官体验的第一步。

体验地址：

https://ai.meta.com/samaudio/

https://github.com/facebookresearch/sam-audio

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Meta更新Ray-Ban智能眼镜隐私政策，AI摄像头功能默认开启，语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析，物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#

4/30/2025 11:24:30 PM 远洋

Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

Adobe持续推进其AI代理生态扩展，正式发布“产品支持代理”，旨在简化Adobe Experience Platform中的故障排除流程，并优化客户体验管理。同时，Adobe宣布其“数据洞察代理”现已在全球范围内上线。新发布的“产品支持代理”由Adobe Experience Platform Agent Orchestrator提供技术支持，能够在AI Assistant的对话界面中，为用户提供即时的操作指导和支持案例创建流程。

6/6/2025 11:00:55 AM AI在线

OpenAI 升级 ChatGPT 语音模式，体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上，再次对其高级语音模式进行了重大的更新，使得语音交流变得更加自然和贴近人类的对话方式。这一先进的功能依托于原生的多模态模型，能够快速响应音频输入，最快在232毫秒内作出反应，平均响应时间为320毫秒，几乎与人类的对话速度不相上下。在今年年初，OpenAI 已经对这一语音模式进行了小幅更新，改善了打断频率和口音处理。

6/9/2025 11:00:56 AM AI在线

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

相关资讯

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

OpenAI 升级 ChatGPT 语音模式，体验更自然对话