SDS 技术首次用于音频：英伟达携手 MIT 推 Audio-SDS，参数化控制 AI 音效生成

作者：故渊 2025-05-13 02:15

SDS 技术广泛应用于文本生成 3D 图像和图像编辑中，英伟达融合该技术推出 Audio-SDS，结合预训练模型的生成先验知识，能够直接根据高级文本提示调整 FM 合成参数、冲击音模拟器或分离掩码，将信号处理的清晰可解释性与现代扩散模型的灵活性融为一体。

科技媒体 marktechpost 昨日（5 月 12 日）发布博文，报道称英伟达携手麻省理工学院（MIT），推出了 Audio-SDS，一种基于文本条件的音频扩散模型扩展技术。

音频扩散模型近年来在生成高质量音频方面表现卓越，但其局限在于难以优化明确且可解释的参数。

英伟达和 MIT 的科研团队首次将 Score Distillation Sampling（SDS）方法应用于音频领域，结合预训练模型的生成能力与参数化音频表示，无需大规模特定数据集，可应用于 FM 合成器参数校准、物理冲击音合成和音源分离三大任务。

SDS 技术广泛应用于文本生成 3D 图像和图像编辑中，英伟达融合该技术推出 Audio-SDS，结合预训练模型的生成先验知识，能够直接根据高级文本提示调整 FM 合成参数、冲击音模拟器或分离掩码。

SDS 技术首次用于音频：英伟达携手 MIT 推 Audio-SDS，参数化控制 AI 音效生成

研究团队通过基于解码器的 SDS、多步去噪和多尺度频谱图等方法，实验结果表明，Audio-SDS 在主观听觉测试和客观指标（如 CLAP 分数、信号失真比 SDR）上均表现出色。

SDS 技术首次用于音频：英伟达携手 MIT 推 Audio-SDS，参数化控制 AI 音效生成

Audio-SDS 的创新在于，它用单一预训练模型支持多种音频任务，消除了对大规模领域特定数据集的依赖。尽管如此，研究团队也指出，模型覆盖范围、潜在编码伪影和优化敏感性等问题仍需解决。

AI在线附上参考地址

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
Audio-SDS Overview

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型，这款专注于音频理解的AI模型在性能和效率两个维度都实现了显著突破。该模型不仅在22个公开评测集上刷新了多模态大模型的最好成绩，更在推理效率上展现出惊人优势——单样本推理的首Token延迟仅为业界先进模型的四分之一，数据吞吐效率更是高出20倍以上。技术架构:双核心设计实现音频全域理解MiDashengLM-7B采用了创新的双核心架构设计，以Xiaomi Dasheng作为音频编码器，结合Qwen2.5-Omni-7B Thinker作为自回归解码器。

8/5/2025 11:19:01 AM

AI在线

NVIDIA AI推出Audio-SDS，革新音效生成与多任务音频处理

NVIDIA AI研究团队发布了一项突破性技术——Audio-SDS，将Score Distillation Sampling（SDS）技术扩展至文本条件音频扩散模型，显著提升了音效生成、音源分离及多任务音频处理的能力。这一创新成果已在学术界和工业界引发热议。技术核心:SDS赋能音频扩散模型Audio-SDS基于NVIDIA此前在图像生成领域广泛应用的SDS技术，通过将其适配到预训练的音频扩散模型，实现了从单一模型到多任务音频处理的跨越。

5/12/2025 3:00:52 PM

AI在线

Stability AI开源341M超轻量文字转语音模型，手机本地跑，音频生成仅需8秒！

近日，Stability AI携手芯片巨头Arm，正式开源了一款轻量级文字转音频模型——Stable Audio Open Small。这款仅有3.41亿参数的模型，专为Arm CPU优化，能够在智能手机等移动设备上本地运行，生成高质量音频样本仅需不到8秒。 AIbase深入解析这一技术突破，探索其对音频创作和移动AI生态的深远影响。

5/15/2025 12:00:54 PM

AI在线

SDS 技术首次用于音频：英伟达携手 MIT 推 Audio-SDS，参数化控制 AI 音效生成

相关资讯

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

​NVIDIA AI推出Audio-SDS，革新音效生成与多任务音频处理

Stability AI开源341M超轻量文字转语音模型，手机本地跑，音频生成仅需8秒！

NVIDIA AI推出Audio-SDS，革新音效生成与多任务音频处理