AI在线 AI在线

Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。 这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"(Adversarial Relativistic-Contrastive,ARC)技术。 该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。

这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"(Adversarial Relativistic-Contrastive,ARC)技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。

AI音乐 人工智能 (3)

与去年发布的包含11亿参数的原始Stable Audio Open相比,这一精简版本仅使用3.41亿个参数,大幅减少了计算资源需求,使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。

为实现智能手机端运行,开发团队对模型架构进行了彻底改进,将系统重构为三个核心组件:压缩音频数据的自动编码器,解释文本提示的嵌入模块,生成最终音频的扩散模型。

Stability AI表示,该模型在生成音效和现场录音方面表现尤为出色,但在音乐生成方面仍有限制,特别是在处理歌声时,且目前主要适用于英语提示输入。

模型训练使用了Freesound数据库中约472,000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段,开发团队通过一系列自动化检查对训练数据进行了筛选,以避免潜在的版权问题。

相关资讯

Stability AI与 Arm 合作 推出离线生成音频技术

Stability AI因其Stable Diffusion文本生成图像模型而闻名。 最近,该公司与全球半导体巨头 Arm 展开合作,致力于将生成音频人工智能能力引入移动设备。 这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行,用户可以在设备上快速生成音效、音频样本和制作元素,且无需互联网连接。
3/4/2025 4:25:00 PM
AI在线

ChatGPT 新增音频转录功能!办公利器让你轻松记录会议要点

近日,OpenAI 在 macOS 平台上推出了一项备受瞩目的新功能 ——ChatGPT 音频录制与转录模式。 这一功能专为付费用户设计,旨在帮助他们更加高效地记录和分析各种音频内容,比如会议、头脑风暴讨论以及个人语音笔记。 自6月初发布更新视频以来,这一新功能备受期待。
7/17/2025 2:21:40 PM
AI在线

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。最近,AI 圈刮起一股「让照片开口唱歌」的风潮。例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 ——
6/20/2024 8:05:00 PM
机器之能
  • 1