SAM Audio
从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破
AI在线 12 月 17 日消息,Meta 今日发布了首个统一的多模态音频分离模型 —— SAM Audio。 Meta 表示 SAM Audio 是一个“最先进的统一模型”,通过使用自然的、多模态的提示,使音频处理变得简单,能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。 这种直观的方法模拟了人们自然与声音互动的方式,使音频分离更加易于使用和实用。
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。 深夜,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉