AI在线 AI在线

Meta发布SAM Audio:全球首个支持“点击分离声音”的多模态音频模型,一键提取吉他声、人声或狗叫

Meta正式推出音频处理领域的重磅突破——SAM Audio,全球首个统一的多模态音频分离模型。 它能让用户像“用眼睛听声音”一样,从一段混杂的视频或音频中,一键提取出任意目标声音:点击视频中的吉他手,立刻分离出纯净吉他声;输入“狗吠”,自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段,即可精准剔除干扰音。 这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。

Meta正式推出音频处理领域的重磅突破——SAM Audio,全球首个统一的多模态音频分离模型。它能让用户像“用眼睛听声音”一样,从一段混杂的视频或音频中,一键提取出任意目标声音:点击视频中的吉他手,立刻分离出纯净吉他声;输入“狗吠”,自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段,即可精准剔除干扰音。这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。

111.jpg

SAM Audio的核心是其自研的感知编码器视听(PE-AV),被Meta称为模型的“耳朵”。该引擎基于今年4月开源的Meta Perception Encoder计算机视觉模型扩展而来,首次将高级视觉理解能力与音频信号深度融合,实现跨模态的声音定位与分离。

具体而言,SAM Audio支持三种直觉化交互方式,可单独或组合使用:

- 文本提示:输入“人声演唱”“汽车喇叭”等语义描述,自动提取对应声源;

- 视觉提示:在视频画面中点击发声物体(如说话的人、敲鼓的手),系统即分离其音频;

- 时间片段提示(行业首创):标记目标声音出现的时间区间(如“3分12秒到3分18秒”),模型自动处理整段录音中的同类声音——Meta将其类比为《赛博朋克2077》中的“超梦”技术。

222.jpg

为推动技术标准化,Meta同步开源两大关键工具:

- SAM Audio-Bench:首个基于真实场景的音频分离评测基准;

- SAM Audio Judge:全球首个专用于音频分离质量的自动评估模型,可量化判断分离结果的纯净度与完整性。

333.jpg

此次发布的PE-AV不仅是SAM Audio的底层引擎,还将赋能Meta其他AI产品,包括字幕生成、视频理解与智能剪辑系统。它的开源,意味着开发者未来可构建自己的“视听联觉”AI应用——从自动消噪会议记录,到沉浸式AR音频交互,再到无障碍辅助听觉设备。

在视频内容爆炸式增长的今天,SAM Audio的出现,标志着音频处理正式进入“可交互、可编辑、可理解”的新时代。过去,我们只能被动接收声音;现在,Meta让我们拥有了“选择性聆听”的超能力——而这,或许只是多模态AI重塑感官体验的第一步。

体验地址:

https://ai.meta.com/samaudio/

https://github.com/facebookresearch/sam-audio

相关资讯

Meta Ray-Ban 智能眼镜隐私政策调整:AI 随时“看”,语音云端存

Meta Ray-Ban 智能眼镜隐私政策调整:AI 随时“看”,语音云端存

Meta更新Ray-Ban智能眼镜隐私政策,AI摄像头功能默认开启,语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析,物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#
4/30/2025 11:24:30 PM 远洋
Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

Adobe持续推进其AI代理生态扩展,正式发布“产品支持代理”,旨在简化Adobe Experience Platform中的故障排除流程,并优化客户体验管理。 同时,Adobe宣布其“数据洞察代理”现已在全球范围内上线。 新发布的“产品支持代理”由Adobe Experience Platform Agent Orchestrator提供技术支持,能够在AI Assistant的对话界面中,为用户提供即时的操作指导和支持案例创建流程。
6/6/2025 11:00:55 AM AI在线
OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM AI在线