Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

作者：故渊 2024-06-06 02:15

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 Hugging

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。

Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示：“虽然它可以生成简短的音乐片段，但并不适合完整的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0 不同是，前者为开源模型，专注于短音频片段和音效，而后者能够生成最长 3 分钟的完整音频。

相关阅读：

《Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品》

《Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频》

Stability AI开源341M超轻量文字转语音模型，手机本地跑，音频生成仅需8秒！

近日，Stability AI携手芯片巨头Arm，正式开源了一款轻量级文字转音频模型——Stable Audio Open Small。这款仅有3.41亿参数的模型，专为Arm CPU优化，能够在智能手机等移动设备上本地运行，生成高质量音频样本仅需不到8秒。 AIbase深入解析这一技术突破，探索其对音频创作和移动AI生态的深远影响。

5/15/2025 12:00:54 PM AI在线

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

4/4/2024 10:23:56 AM 故渊

Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成

音频生成领域又有好消息：刚刚，Stability AI 宣布推出开放模型 Stable Audio Open，该模型能够生成高质量的音频数据。项目地址： Stability AI 的商业 Stable Audio 产品（可生成长达三分钟的更长、连贯的音乐曲目）不同，Stable Audio Open 可以通过简单的文本提示生成长达 47 秒的高质量音频数据。经过专业训练后，这个模型已经非常适合创建鼓点、乐器 riffs、环境音、拟声录音和其他用于音乐制作和声音设计的音频样本。虽然它可以生成简短的音乐片段，但它并未针

6/6/2024 6:51:00 PM 机器之心

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

相关资讯

Stability AI开源341M超轻量文字转语音模型，手机本地跑，音频生成仅需8秒！

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成