Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

作者：AI在线 2025-05-19 10:01

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"（Stable Audio Open Small）的紧凑型文本转音频模型，该模型能够在约7秒内生成长达11秒的高质量立体声音频片段，且经过优化可在智能手机等移动设备上运行。这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"（Adversarial Relativistic-Contrastive，ARC）技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人，能够在仅75毫秒内完成44kHz立体声音频的生成，实现了近乎实时的音频合成能力。

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"（Stable Audio Open Small）的紧凑型文本转音频模型，该模型能够在约7秒内生成长达11秒的高质量立体声音频片段，且经过优化可在智能手机等移动设备上运行。

这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"（Adversarial Relativistic-Contrastive，ARC）技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人，能够在仅75毫秒内完成44kHz立体声音频的生成，实现了近乎实时的音频合成能力。

AI音乐人工智能 (3)

与去年发布的包含11亿参数的原始Stable Audio Open相比，这一精简版本仅使用3.41亿个参数，大幅减少了计算资源需求，使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。

为实现智能手机端运行，开发团队对模型架构进行了彻底改进，将系统重构为三个核心组件:压缩音频数据的自动编码器，解释文本提示的嵌入模块，生成最终音频的扩散模型。

Stability AI表示，该模型在生成音效和现场录音方面表现尤为出色，但在音乐生成方面仍有限制，特别是在处理歌声时，且目前主要适用于英语提示输入。

模型训练使用了Freesound数据库中约472，000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段，开发团队通过一系列自动化检查对训练数据进行了筛选，以避免潜在的版权问题。

Stability AI与 Arm 合作推出离线生成音频技术

Stability AI因其Stable Diffusion文本生成图像模型而闻名。最近，该公司与全球半导体巨头 Arm 展开合作，致力于将生成音频人工智能能力引入移动设备。这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行，用户可以在设备上快速生成音效、音频样本和制作元素，且无需互联网连接。

3/4/2025 4:25:00 PM AI在线

ChatGPT 新增音频转录功能！办公利器让你轻松记录会议要点

近日，OpenAI 在 macOS 平台上推出了一项备受瞩目的新功能 ——ChatGPT 音频录制与转录模式。这一功能专为付费用户设计，旨在帮助他们更加高效地记录和分析各种音频内容，比如会议、头脑风暴讨论以及个人语音笔记。自6月初发布更新视频以来，这一新功能备受期待。

7/17/2025 2:21:40 PM AI在线

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。最近，AI 圈刮起一股「让照片开口唱歌」的风潮。例如，让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天，又有一家名为 Hedra 的公司前来踢馆，推出了基础模型 ——

6/20/2024 8:05:00 PM 机器之能

Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

相关资讯

Stability AI与 Arm 合作 推出离线生成音频技术

ChatGPT 新增音频转录功能！办公利器让你轻松记录会议要点

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

Stability AI与 Arm 合作推出离线生成音频技术