AI在线 AI在线

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

这一天,辣个男人终于回想起……他的小破站账号! (活久见)李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

这一天,辣个男人终于回想起……他的小破站账号!(活久见)

李沐老师终于带着他的手搓语音大模型教程回归了….

图片

本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。

除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

整个过程堪称“大力出奇迹”,直接将1000万小时的语音数据整合到LLM的文本训练,让它能听也能说。(当然还有亿点点细节)

图片

粗暴,但有效!

鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果be like:

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

网友:醒醒,开组会了。

图片

沐导今日组会内容速记

传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。

那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为系统指令(system)、用户输入(user)、模型回复(assistant)三个部分。

system告诉模型,需要做什么事情,例如回答该问题、写一段文字或者其他,user就是告知事情的详细内容,例如问题具体是什么、文字要什么风格。

所以如果要让模型支持语音,就需要为模型增加一个系统命令,在user里输入要转录为语音的文字,让模型从system里输出对应语音数据。

这样语音任务就能转换成相同的处理格式,直接打通语音和文本之间的映射,通过追加更多的数据和算力,直接scaling law“大力出奇迹”。

图片

这就引出了新的问题,语音信号本质是连续的,要如何才能在离散的文本token中表示呢?

现有的方法是将一秒的语音信号裁切成多段(如100毫秒一段),为每一段匹配最相似的预定义模板(如45个模板),然后将其表示为长度为10的编号序列,也就是一个个token。

但这样做,虽然可以将一小时的音频从60兆压缩到0.16兆,但质量相当糟糕,所以需要优先保留语音的语义信息,而声学信号只保留少量部分,后续再通过其他手段还原。

于是他们训练了一个统一的离散化音频分词器,以每秒25帧的速度运行,同时保持甚至提高音频质量,以捕获语义和声学特征。

图片

然后要让模型很好地理解和生成声音,就需要利用模型的文本空间,将语音的语义尽量地映射回文本,当中需要大量的数据支持。

由于版权问题,沐导没有使用B站或YouTube这类公开视频网站数据,而是购买或从允许抓取的网站获取。

这样得到的数据质量参差不齐,需要删除其中的90%才能满足1000万小时的训练数据需求。

其次,将语音对话表示为相应的system(场景描述、声学特征、人物特征等)、user(对话文本)、assistant(对应音频输出)的形式。

由于OpenAI和谷歌一向禁止使用他们的模型输出再训练,且训练成本过高,为了实现这种标注,他们利用相同的模型架构额外训练出一个语音模型AudioVerse

该模型接收用户语音输入,分析并输出场景、人物、情绪、内容等信息,再将输出反过来作为生成模型的system提示和user输入,实现模型的共同进步。

举个例子就是,如果想要教一个徒弟同时会拳脚功夫,但师傅一次又教不了,那就同时教两个徒弟,一个学打拳,一个学踢腿,然后让他们俩天天互相打,打着打着两个就都会拳脚功夫了。

李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩

最终,这个多模态模型就完成了,不仅可以完成简单的文本转语音,还能实现更复杂的任务,比如让它写一首歌并唱出来,再加上配乐。

还能根据语音分析场景、人物(性别、年龄、情绪状态)、环境音(室内外),并进行复杂的理解和推理。

在实时语音聊天上,还可实现低延迟、理解情绪并表达情绪的自然语音交互,而不仅仅是机械的问答。

EmergentTTS-Eval基准上,相较于其他模型,性能可以说是遥遥领先,尤其是在“情绪”和“问题”类别中,相比GPT-4o-mini-tts高出了75.7%和55.7%的胜率。

此外,它在Seed-TTS Eval和情感语音数据集 (ESD) 等传统TTS基准测试中也取得了最佳性能。

图片

那么,我们能玩吗?相信同学们都已经跃跃欲试了。

放心,沐导都包圆了,模型代码都已全部发布在GitHub上(可点击文末链接获取~),并提供了在线试玩平台和Hugging Face版本。

图片

想要安装在自己电脑上的同学,需要准备好GPU版Pytorch,或使用media驱动提供的Docker简化安装,readme里还有一些语音样例(包含文本和对应的音频),大家可以自行体验学习。

尤其是喜欢搞搞鬼畜视频、虚拟主播的同学们,这个模型一定要试试,它可以直接复制特定人物的声音。

不过温馨提醒,生成特定场景的文本时,最好提供类似场景中人物说话的语音信息(例如吵架、放松、大笑的语音),可以更好地进行声纹克隆嗷~

断更的日子里,沐导干嘛去了?

在小破站消失的这段时间里,沐导也没闲着,他创业的公司正在如火如荼先后推出多项新产品。

但还是先给不了解沐导的新同学们,简单介绍一下沐导和他的公司Boson AI

图片

李沐其人,小破站AI科普只是副业(即将达成百万粉丝成就,同学们点点关注,冲鸭!),本职还是个正儿八经的AI技术专家。(小声说:我们量子位在B站也有账号嗷~欢迎来一键三连)

本科毕业于上海交大,曾在百度担任高级研究员,卡耐基梅隆大学博士毕业后成为亚马逊的资深首席科学家,现在又和自己的导师一起创办了人工智能公司Boson.ai。

开发了著名的深度学习框架MXNet,还是那本AI必读经典《动手学深度学习》的作者之一。

图片

其创办的Boson.ai主要涉及LLM研发,早前推出的开源模型Higgs - Llama - 3 - 70B,基于Llama 3打造,做了完整的SFT、RLHF,不仅能在复杂角色扮演任务上表现优异,在通用领域的指令遵循和推理方面也颇具竞争力。

图片

今年4月,Boson.ai还推出了Higgs Audio UnderstandingHiggs Audio Generation两个工具,可以为不同音频理解和生成需求构建定制AI Agent。

5月份,还发布了一个专门设计用于评估 TTS 系统在复杂场景下表现的综合基准——EmergentTTS-Eval,涵盖情感表达、非语言线索、语法复杂性等六个关键维度的挑战场景,并采用 “模型即评判者” 的创新评估框架。

……

只能说,沐导人是真忙,还愿意抽空来教同学们手搓新玩具,泪目TT

所以,沐导咱下一个视频什么时候发呀?(doge)

视频教程:https://www.bilibili.com/video/BV1LGbozkEDY/?spm_id_from=333.337.search-card.all.click&vd_source=4075efdd29cbc7a407952a778f815fd3

模型代码:https://github.com/boson-ai/higgs-audio

相关资讯

国产AI之光!TeleAI星辰大模型入选央企十大国之重器评选

近日,国务院国资委新闻中心发起“十大国之重器”年度盘点,从2024年中央企业建设的众多重点项目中精心选出20项既有影响力又有创新力的大国重器,诚邀广大网友评选“年度十大国之重器”。 由中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)打造的“全国产化万亿参数星辰大模型发布”光荣入选,成为国产AI的佼佼者,展现了中国电信在人工智能领域的领先地位。 星辰大模型,开启国产AI新时代星辰大模型,是由中国电信自主研发打造的全国产化万亿参数大模型,是国内AI技术的重大突破。
12/25/2024 2:50:00 PM
新闻助手

支持中英双语及 40 种方言任意混说,中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院(TeleAI)在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。 时隔不到半年,TeleAI 星辰语音大模型的多方言能力再次升级,攻克了湛江话、宜宾话、洛阳话、烟台话等方言,将方言种类从 30 种提升至 40 种,并引入对英文的识别。 与传统的有标注训练方法相比,TeleAI 通过预训练语音识别模型,利用海量无标注数据进行预训练,再通过少量有标注数据进行微调。
11/3/2024 9:37:53 AM
沛霖(实习)

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。 称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。 如何评价这篇论文的含金量?
2/7/2025 3:10:00 PM
量子位
  • 1