AI在线 AI在线

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。FireRedTTS 只需要给

图片

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AIFireRedTTS 只需要给定文本和几秒钟参考音频,无需训练,就可模仿任意音色、任意说话风格,创造独特的音频内容。搞怪风、女友风、emo 小片段…… 百变风格自由定制,只有你想不到,没有 FireRedTTS 做不到。 名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI是的,你没听错。这一段带着京腔,中英文混杂的片段正是由 FireRedTTS 生成。中英夹杂的 strong(死装)感在「city」中透着一丝阴阳怪气。不只语言混杂,FireRedTTS 还有让人直呼「更 city」的配音与对话。 名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI大家听出来了哪几个影视剧角色?运用 FireRedTTS,能够让《黑神话》悟空、《亮剑》李云龙、《狂飙》中的徐江、《西虹市首富》中的王多鱼这些本不可能聚集在一起的人物插科打诨,互相斗嘴,整活不断。 名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

FireRedTTS 不仅能够驾驭多风格、高表现力的音色,在自然对话领域也表现亮眼。视频中基于 FireRedTTS 的陪伴式交流真实自然,刁蛮可爱的女友形象让人情不自禁。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

同时,除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外,FireRedTTS 还能够生成具有小红书博主风格的高级感旁白,少年博主音颇具特色,将听众拉入即将离去的夏天。

FireRedTTS 的效果卓群,能 hold 住不同类型、不同风格、不同使用场景的需求。目前,FireRed 团队已经公布了该工作的技术报告,并且将开源模型权重和推理代码,以供大家体验尝试。

FireRedTTS 是如何一步步突破局限,做到如此惊艳的效果?我们可以打开 FireRedTTS 的论文一探究竟。

图片

技术报告及 Demo 链接:https://arxiv.org/abs/2409.03283

代码链接:https://github.com/FireRedTeam/FireRedTTS

FireRedTTS 提出了一套完整的基座语音合成框架,由三部分组成:数据处理、基座系统、与下游应用。在基座系统部分,他们提出了一种基于语言模型的语音合成方案,旨在利用语言模型强大的序列生成能力,将文本序列转换成自然的、有表现力的语音序列。

该方案首先训练一个关注语义信息的语音离散编码器,以把语音信号转换成离散的标签序列,和一个说话人全局表征。随后,文本到语音的语言模型被训练以从文本和说话人表征中预测目标语音序列。

为将预测的离散语音序列稳定地还原至高保真音频,FireRedTTS 提出了一种两阶段方法:先用大规模低采样率数据训练高泛化性梅尔谱生成器,再用小规模高保真数据训练超分辨神经声码器以合成高采样率音频。同时,除了基于流匹配的解码器,该系统还提出了一种基于多流语言模型的流式解码器以满足流式解码需求。

图片

待基座模型训练完毕后,FireRedTTS 便可以通过 In-Context Learning, Supervised Fine-Tuning, Instruct Tuning 等方法,服务下游语音应用。比如:在配音领域,该系统可以零样本克隆用户声音、1 小时数据构造专业级特色声音;在自然对话领域,该系统通过指令优化实现情感和副语言行为可控的拟人化语音生成。

更多研究细节,可参考原论文。

相关资讯

语音AI的终极突破!Bland TTS一键克隆任意人声,真实到让人毛骨悚然!

人工智能语音合成技术迎来重大突破!AIbase从社交媒体平台获取最新信息,了解到Bland AI正式发布了其全新Bland TTS引擎,号称首个跨越“恐怖谷”的语音AI技术。 这一引擎利用大型语言模型(LLM)直接生成语音,仅需一个短音频即可实现任意人声克隆,并支持语调、节奏等风格的灵活“混搭”。 本文将为您深入解析Bland TTS的创新功能及其对AI语音应用的深远影响。
6/5/2025 2:00:55 PM
AI在线

​ElevenLabs 推出移动应用,免费用户享10分钟文本转语音额度

在人工智能领域,ElevenLabs 又迈出了重要一步,正式推出其独立的移动应用,支持 iOS 和 Android 用户随时随地生成语音片段。 此前,用户仅能通过网页应用利用 ElevenLabs 的 AI 语音库,现在,这款移动应用让语音合成变得更加便捷。 用户在应用中只需输入或粘贴文本,然后选择适合的语音模型,就可以生成音频片段。
6/25/2025 9:00:44 AM
AI在线

开源革命!Kyutai TTS发布:超低延迟语音合成,AI语音新纪元来袭!

近日,法国AI实验室Kyutai宣布,其全新文本转语音模型 Kyutai TTS 正式开源,为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。 这一突破性发布不仅推动了开源AI技术的发展,也为多语言语音交互应用开辟了新的可能性。 AIbase为您独家解析这一技术亮点及其潜在影响。
7/5/2025 7:46:46 AM
AI在线
  • 1