AI在线 AI在线

Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。 这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"(Adversarial Relativistic-Contrastive,ARC)技术。 该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。

这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"(Adversarial Relativistic-Contrastive,ARC)技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。

AI音乐 人工智能 (3)

与去年发布的包含11亿参数的原始Stable Audio Open相比,这一精简版本仅使用3.41亿个参数,大幅减少了计算资源需求,使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。

为实现智能手机端运行,开发团队对模型架构进行了彻底改进,将系统重构为三个核心组件:压缩音频数据的自动编码器,解释文本提示的嵌入模块,生成最终音频的扩散模型。

Stability AI表示,该模型在生成音效和现场录音方面表现尤为出色,但在音乐生成方面仍有限制,特别是在处理歌声时,且目前主要适用于英语提示输入。

模型训练使用了Freesound数据库中约472,000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段,开发团队通过一系列自动化检查对训练数据进行了筛选,以避免潜在的版权问题。

相关资讯

Stability AI与 Arm 合作 推出离线生成音频技术

Stability AI因其Stable Diffusion文本生成图像模型而闻名。 最近,该公司与全球半导体巨头 Arm 展开合作,致力于将生成音频人工智能能力引入移动设备。 这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行,用户可以在设备上快速生成音效、音频样本和制作元素,且无需互联网连接。
3/4/2025 4:25:00 PM
AI在线

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。最近,AI 圈刮起一股「让照片开口唱歌」的风潮。例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 ——
6/20/2024 8:05:00 PM
机器之能

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品

Stability AI 近日发布新闻稿,宣布推出 Stable Audio2.0,可以基于用户输入的提示词,生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。IT之家附上演示视频如下: 例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段
4/4/2024 10:23:56 AM
故渊
  • 1