AI在线 AI在线

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型(SpeechLMs)也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音(TTS)、自动语音识别(ASR)或翻译,在其他模态数据和任务上的泛化能力十分有限。 在大型语言模型(LLM)性能不断提升的情况下,一个常用的方法是先用ASR模型将语音转录成文本,然后用文本模型来生成新的文本,最后再用TTS模型将文本转换成语音,这种流程的一个显著缺陷就是语音表达性不佳,语言模型无法建模并生成富有表现力的语音数据。 最近,Meta开源了一个基础多模态语言模型Spirit LM,基于一个70亿参数的预训练文本语言模型,交错使用文本和语音数据进行训练,使模型能够自由地混合文本和语音,在任一模态中生成语言内容。

在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型(SpeechLMs)也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音(TTS)、自动语音识别(ASR)或翻译,在其他模态数据和任务上的泛化能力十分有限。

在大型语言模型(LLM)性能不断提升的情况下,一个常用的方法是先用ASR模型将语音转录成文本,然后用文本模型来生成新的文本,最后再用TTS模型将文本转换成语音,这种流程的一个显著缺陷就是语音表达性不佳,语言模型无法建模并生成富有表现力的语音数据。

最近,Meta开源了一个基础多模态语言模型Spirit LM,基于一个70亿参数的预训练文本语言模型,交错使用文本和语音数据进行训练,使模型能够自由地混合文本和语音,在任一模态中生成语言内容。

图片

项目主页:https://speechbot.github.io/spiritlm/

论文链接:https://arxiv.org/pdf/2402.05755

代码链接:https://github.com/facebookresearch/spiritlm

开源链接:https://huggingface.co/spirit-lm/Meta-spirit-lm

将语音和文本序列拼接成一条token流,并使用一个小型的、自动整理(automatically-curated)的语音-文本平行语料库,采用逐词交错的方法进行训练。

Spirit LM有两个版本:基础版(Base)使用语音音素单元(HuBERT),表达版(Expressive)还额外使用音高和风格单元来模拟表达性,以增强模型在生成语音时的表现力,也就是说模型不仅能够理解和生成基本的语音和文本,还能在表达情感和风格方面表现得更加丰富和自然。

对于两个版本的模型,文本都使用子词BPE标记进行编码,最终得到的模型既展现了文本模型的语义能力,也具备语音模型的表达能力;模型还能够在少量样本的情况下跨模态学习新任务(例如自动语音识别、文本转语音、语音分类)。

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

不过需要注意的是,和其他预训练模型一样,Sprit LM也可能会生成一些不安全的内容,所有基于该技术的应用都需要进行额外的安全测试和调整。

Spirit LM

图片

模型的架构比较简单,训练过程就是基本的「预测下一个词」,不过「词」是通过编码器从语音或文本中提取的,然后通过解码器以原来的模态进行重新呈现;训练数据包括三种:仅包含文本的序列、仅包含语音的序列以及交错的语音-文本序列的混合数据。

基础版

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

语音编码器

使用的HuBERT模型,该模型在多个数据集的混合上进行训练,包括多语言的LibriSpeech、Vox Populi、Common Voice、Spotify以及Fisher,最后得到一个包含501个音素语音token的词汇表。

语音和文本分词器

使用LLaMA默认的分词器来处理文本,使用前述的HuBERT分词器来处理语音;为了提高模型的质量,对HuBERT的token进行了去重处理;对于单模态数据集(仅文本和仅语音),在分词后的数据前加上相应的模态标记。

文本数据:[TEXT]这是一个文本句子

音频数据:[SPEECH][Hu262][Hu208][Hu499][Hu105]

交错语音和文本(Interleaving Speech and Text)

对于对齐的语音+文本数据集,通过在单词级别交错语音和文本来混合:[TEXT]the cat [SPEECH][Hu3][Hu7]..[Hu200][TEXT]the mat

研究人员认为,交错训练可以帮助模型学习语音和文本之间的对应关系,从而实现更好的文本到语音的转换;在每个训练步骤中,句子中的语音和文本部分是随机采样的。

语音解码器

在从语音token进行语音合成方面,研究人员在Expresso数据集上训练了一个HifiGAN声码器,其依赖于HuBERT语音token和Expresso特定说话人的嵌入向量。

在训练期间,HifiGAN模型会输入重复的token,但同时也会训练一个时长预测模块,可以更准确地知道每个语音token在实际语音中应该持续多久,最终生成一个语音波形。

表达版

HuBERT能够从语音中捕获良好的音素信息,但在表达性方面表现不佳。

研究人员的目标是在不依赖生物特征识别的情况下,模型依然能够理解和保留输入语音中的情感,所以需要用额外的音高token和风格token来补充HuBERT的音素语音token,并将其包含在语言模型训练中,以便训练后的Spirit LM Expressive模型能够捕获并生成更具表现力的语音。

pitch(音高) token

在语音合成和处理中,音高是一个关键因素,决定了声音的高低,对人类理解语句的情感和语气来说非常关键。音高token可以用来捕捉音高变化。当我们说话时,声音的高低起伏不仅可以表达不同的情感,比如兴奋时声音高亢,悲伤时声音低沉,还可以帮助我们在口语交流中区分不同的词语和句子的意图。

研究人员在Expresso数据集上训练了一个VQ-VAE模型,码本大小为64,下采样率为128,即每秒可以产生12.5个音高token;在训练音高量化器时,使用pyaapt8提取基频(F0);使用FCPE9,一个基于Transformer的快速音高估计器,来提高推理速度。

style(风格) token

研究人员提取了语音风格特征来捕捉输入语音的表达风,在输入片段上进行平均池化处理,每秒生成一个特征,然后在Expresso数据集上微调特征来预测表达风格,从而进一步从语音风格特征中去除说话人信息,最后在Expresso数据集的规范化特征上训练了一个有100个单元的k均值聚类。

表达性语音分词器(Expressive Speech Tokenization)

图片

将三种类型的标记(每秒25次的HuBERT标记、每秒12.5次的音高标记和每秒1次的风格标记)按照对应的时间戳进行排序,混合成一个单一的token序列。

与Spirit LM基础版相同,表达版同样对HuBERT的token和音高token进行去重,最后输入序列类似于:[SPEECH][St10][Pi0][Hu28][Hu22][Pi14][Hu15][Pi32][Hu78][Hu234][Hu468]

表达性语音解码器(Expressive Speech Decoder)

研究人员训练了一个HifiGAN模型,依赖于HuBERT token、音高token、风格token以及来自Expresso声音的1-hot说话人嵌入向量。同时还训练了一个时长预测器来预测HuBERT token持续时间。在推理过程中,将每个HuBERT token与相应的音高token和风格标记token,并根据需要进行重复。

实验结果

Spirit LM能够在接收语音token或文本token的提示时,生成语义和表达上一致的内容,将通过定量评估一系列需要生成文本或语音token的基准测试,特别评估Spirit LM在单模态和跨模态场景中的语义能力。

图片

自动语音识别(ASR)和文本转语音(TTS)

与文本语言模型类似,SPIRIT语言智能体可以通过少量样本提示来执行特定任务。

图片

可以看到,Spirit LM使用10个样本的提示能够获得最佳性能,最佳模型在Librispeech清洁数据上的词错误率为21.9,文本转语音的字符错误率为45.5

图片

在训练中加入平行的ASR和TTS样本可以极大提高性能,但加入ASR和TTS数据对其他任务的影响非常有限。

在执行语音意图分类(IC)任务时可以发现,随着样本数量的增加,准确率也提高了,模型准确率达到了79%

跨模态对齐

为了更好地理解模型在仅在交错数据和原始语音和文本上训练的情况下,如何实现良好的跨模态性能的隐藏机制,研究人员查看了模型特征的token级相似性,其中特征来自于HuBERT token的输入序列和相应的BPE token,计算了从不同层提取的语音和文本特征的相同单词的最大相似性。

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

结果发现,模型内部口语和书面序列之间的相似性从第2层和第20层开始增加,并且在早期到中间层中,在用单词级转录训练的模型中效果较差,表明模态混合可以对齐语音和文本,使模型能够将语音序列与相应的文本序列映射起来。

表达性建模

当不给智能体任何先前的样本,直接根据语音或文本提示生成内容(零样本)时,可以发现带有额外音高和风格token的表达版模型在大多数情况下都比基础版模型的表现更好,只是在文本内容生成(文本到文本)方面两者表现差不多。

图片

当给模型少量样本来学习时,可以发现这种方法对于除了语音内容生成(语音到语音)之外的所有情况都有帮助。无论是零样本还是少量样本,保持情感的连续性在相同类型的数据(比如文本到文本或语音到语音)中比在不同类型的数据(比如语音到文本)中做得更好;在所有测试中,语音到文本的方向得分最低。

此外,研究人员还直接评估了模型对输入提示的处理能力,结果发现,无论是哪种提示,模型都能得到很高的评分,表明还有很大的空间来进一步提高模型在保持情感表达方面的能力,也意味着,智能体在理解和生成情感丰富的内容方面还有很大的潜力可以挖掘。

相关资讯

27亿参数的「野生版」GPT-3开源,GitHub项目2.9K Star量

OpenAI 著名的语言模型 GPT-3 可以懂数学、翻译文字,还能写论文拿到及格成绩,这样的 AI 什么时候才能开源呢?现在已有了一个差不多的项目。
3/26/2021 3:50:00 PM
机器之心

首个中文版ChatGPT来了:大模型的中国元“Yuan”

ChatGPT 到底有多火?它已成为史上最快传播的应用,发布两个月后就有了 1 亿用户。实现同样的用户量,TikTok 需要近九个月,而 Instagram 用了两年多。
2/7/2023 9:19:00 AM
机器之心

还在为玩不了ChatGPT苦恼?这十几个开源平替也能体验智能对话

本文将为大家盘点一下 ChatGPT 的开源平替项目。
3/19/2023 1:30:00 PM
机器之心

谷歌内部文件泄漏:谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破

「我们没有护城河,OpenAI 也没有。」在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。
5/5/2023 2:47:00 PM
机器之心

大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集

前段时间,谷歌泄露的内部文件表达了这样一个观点,虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。
5/16/2023 2:53:00 PM
机器之心

百川智能发布开源中英文大模型,多个榜单评测成绩最佳

王小川创立的百川智能发布中英文大模型,采用开源模式,可免费商用。报道 | 机器之能2023年6月15日,被称为「中国ChatGPT梦之队」的百川智能公司,推出了70 亿参数量的中英文预训练大模型——baichuan-7B。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Sc
6/15/2023 6:13:00 PM
机器之能

超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了

开源 LLM 的性能越来越好了。
6/20/2023 2:34:00 PM
机器之心

第一个超越ChatGPT的开源模型来了?网友并不买账

开源模型真的超过 ChatGPT了吗?
7/3/2023 2:41:00 PM
机器之心

彻底开源,免费商用,上海AI实验室把大模型门槛打下来

大模型领域,有人探索前沿技术,有人在加速落地,也有人正在推动整个社区进步。
7/12/2023 6:44:00 PM
机器之心

iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?

昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」
7/20/2023 2:23:00 PM
机器之心

Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你

机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI  圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模
7/30/2023 11:42:00 PM
机器之能

讯飞星火V3.5正式发布,基于全国产算力平台“飞星一号”训练

1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5。2023年10月24日,科大讯飞携手华为,宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。启用后的90多天里,讯飞星火基于“飞星一号”,启动了对标GPT-4的更大参数规模的大模型训练,带来了1月30日这场讯飞星火V3.5升级发布。首个基于全国产算力训练的全民开放大模型讯飞星火V3.5在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能
1/30/2024 8:38:00 PM
机器之心

开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有

「太狂野了」。这是迄今为止最强大的开源大语言模型,超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。本周三,大数据人工智能公司 Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数的混合专家模型(MoE)。DBRX 的基础(DBRX Base)和微调(DBRX Instruct)版本已经在 GitHub 和 Hugging Face 上发布,可用于研究和商业用途。人们可以自行在公共、自定义或其他专有数据上运行和调整它们,也可以通过 API 的形式使用。基础版::
3/28/2024 3:15:00 PM
机器之心

快速入门大模型技术与应用,推荐你从Stable Diffusion开始学起

自 2023 年 AI 技术爆发以来,以 ChatGPT、Stable Diffusion 为代表的大模型已然成为了大众的焦点,其中 Stable Diffusion 作为知名的视觉开源模型,凭借直观易用与令人印象深刻的图像生成能力,赢得了创作者的广泛青睐。随着人工智能技术的不断进步和创新,Stable Diffusion 已经在艺术创作、设计领域乃至科学研究中展现出了独特的魅力和巨大的潜力。它不仅能够在短时间内生成高分辨率、细节丰富的图像,还能够通过简单的文本描述实现复杂视觉内容的创造,这使得 Stable Di
5/29/2024 3:10:00 PM
机器之心

周鸿祎自称“开源信徒”:宣布将开源 360 智脑 7B 模型,支持 50 万字长文本输入

感谢360 创始人周鸿祎近日透露即将开源 360 智脑 7B(70 亿参数模型),支持 360k(50 万字)长文本输入。周鸿祎表示,前段时间大模型行业卷文本长度,100 万字“很快将是标配”。“我们打算将这个能力开源,大家没必要重复造轮子,定为 360k 主要是为了讨个口彩。”他还自称“开源的信徒”,信奉开源的力量。据介绍,360 智脑长文本能力已入驻大模型产品“360AI 浏览器”。周鸿祎还谈到了小模型的优势:其认为小模型速度快、用户体验也好,单机单卡就能跑,具备更高的性价比。目前,360AI 浏览器已向用户免
3/29/2024 3:27:56 PM
清源

Databricks 推出 1320 亿参数大语言模型 DBRX,号称“现阶段最强开源 AI”

Databricks 近日在推出了一款通用大语言模型 DBRX,号称是“目前最强开源 AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。IT之家从官方新闻稿中得知,DBRX 是一个基于 Transformer 的大语言模型,采用 MoE(Mixture of Experts)架构,具备 1320 亿个参数,并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行测试,相较于市场上已有的 LLaMA2-70B、Mixtral、Grok-1 等开源模型,DBRX 在语言理解(MMLU)、程式设
3/31/2024 3:15:05 PM
漾仔

阿里通义千问开源 320 亿参数模型,已实现 7 款大语言模型全开源

感谢4 月 7 日,阿里云通义千问开源 320 亿参数模型 Qwen1.5-32B。IT之家注意到,通义千问此前已开源 5 亿、18 亿、40 亿、70 亿、140 亿和 720 亿参数 6 款大语言模型。此次开源的 320 亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡。例如,相比通义千问 14B 开源模型,32B 在智能体场景下能力更强;相比通义千问 72B 开源模型,32B 的推理成本更低。通义千问团队希望 32B 开源模型能为企业和开发者提供更高性价比的模型选择。目前,通义千问共开源了 7 款大语
4/8/2024 11:50:26 AM
远洋

360 智脑 7B 参数大模型开源,支持 50 万字长文本输入

感谢360 公司日前在 GitHub 上开源了 360 智脑 7B(70 亿参数模型)。360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练,以中文、英文、代码为主,开放 4K、32K、360K 三种不同文本长度。360 表示,360K(约 50 万字)是当前国产开源模型文本长度最长的。360 表示,他们在 OpenCompass 的主流评测数据集上验证了模型性能,包括 C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、L
4/12/2024 6:30:18 PM
沛霖(实习)
  • 1