一个开源库搞定各类文本到音频天生,Meta发布AudioCraft

AudioCraft 简化了音频天生模型的整体设计。

近来,Meta 发布并开源了多个 AI 模型,例如 Llama 系列模型、分割一切的 SAM 模型。这些模型推动了开源社区的研究进展。现在,Meta 又开源了一个能够天生各种音频的 PyTorch 库 ——AudioCraft,并公开了其技术细节。

图片

代码地址:https://github.com/facebookresearch/audiocraft

项目主页:https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_content=card

AudioCraft 能够鉴于用户输出的文本天生高质量、高保真的音频。我们先来听一下天生效果。

AudioCraft 可以天生一些现实场景中的声响,例如输出文本 prompt:「Whistling with wind blowing(风呼啸而过)」

语音1,呆板之心,5秒

还能天生有旋律的音乐,例如输出文本 prompt:「Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach(流行舞曲,具有朗朗上口的旋律、热带打击乐和欢快的节奏,非常适合海滩)」

语音2,呆板之心,30秒

甚至还可以选择具体的乐器,天生特定的音乐,例如输出文本输出文本 prompt:「Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves(朴实的曲调,环保理念,尤克里里,和声,轻松,随和,有机乐器,柔和的节奏)」

语音3,呆板之心,30秒

AudioCraft 简介

相比于文本、图像,音频天生是更具挑战性的,因为天生高保真音频需要对复杂的旗号和模式举行建模。

为了高质量地天生各类音频,AudioCraft 包含三个模型:MusicGen、AudioGen 和 EnCodec。其中,MusicGen 利用 Meta 具有版权的音乐数据举行训练,鉴于用户输出的文本天生音乐;AudioGen 利用公共音效数据举行训练,鉴于用户输出的文本天生音频;EnCodec 用于紧缩音频并以高保真度重建原始旗号,保证天生的音乐是高质量的。

图片

从原始音频旗号天生音频需要对极长的序列举行建模。例如,以 44.1 kHz 采样的几分钟音乐曲目由数百万个时间步(timestep)组成。相比之下,Llama 和 Llama 2 等鉴于文本的天生模型是将文本处理成子词,每个样本仅需要几千个时间步。

MusicGen 是专门为音乐天生量身定制的音频天生模型。音乐曲目比环境声响更复杂,在创建新的音乐作品时,在长程(long-term)结构上天生连贯的样本非常重要。MusicGen 在大约 400000 个录音以及文本描述和元数据上举行训练,总计 20000 小时的音乐。

AudioGen 模型可以天生环境声响及声效,例如狗叫声、汽车喇叭声或脚步声。

图片

AudioGen 模型架构。

EnCodec 神经音频编解码器从原始旗号中学习分离音频 token,这相当于给音乐样本提供了新的固定「词汇」;然后研究团队又在这些分离的音频 token 上训练自回归语言模型,以在利用 EnCodec 的解码器将 token 转换回音频空间时天生新的 token、声响和音乐。

总的来说,AudioCraft 简化了音频天生模型的整体设计。MusicGen 和 AudioGen 均由单个自回归语言模型组成,并在紧缩的分离音乐表征流(即 token)上运行。AudioCraft让用户可以利用不同类型的条件模型来控制天生,例如利用预训练的文本编码器完成文本到音频天生。

参考链接:https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/31663

(0)
上一篇 2023年8月5日 下午4:38
下一篇 2023年8月6日 上午9:29

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注