AI在线 AI在线

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。FireRedTTS 只需要给

图片

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AIFireRedTTS 只需要给定文本和几秒钟参考音频,无需训练,就可模仿任意音色、任意说话风格,创造独特的音频内容。搞怪风、女友风、emo 小片段…… 百变风格自由定制,只有你想不到,没有 FireRedTTS 做不到。 名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI是的,你没听错。这一段带着京腔,中英文混杂的片段正是由 FireRedTTS 生成。中英夹杂的 strong(死装)感在「city」中透着一丝阴阳怪气。不只语言混杂,FireRedTTS 还有让人直呼「更 city」的配音与对话。 名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI大家听出来了哪几个影视剧角色?运用 FireRedTTS,能够让《黑神话》悟空、《亮剑》李云龙、《狂飙》中的徐江、《西虹市首富》中的王多鱼这些本不可能聚集在一起的人物插科打诨,互相斗嘴,整活不断。 名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

FireRedTTS 不仅能够驾驭多风格、高表现力的音色,在自然对话领域也表现亮眼。视频中基于 FireRedTTS 的陪伴式交流真实自然,刁蛮可爱的女友形象让人情不自禁。名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

同时,除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外,FireRedTTS 还能够生成具有小红书博主风格的高级感旁白,少年博主音颇具特色,将听众拉入即将离去的夏天。

FireRedTTS 的效果卓群,能 hold 住不同类型、不同风格、不同使用场景的需求。目前,FireRed 团队已经公布了该工作的技术报告,并且将开源模型权重和推理代码,以供大家体验尝试。

FireRedTTS 是如何一步步突破局限,做到如此惊艳的效果?我们可以打开 FireRedTTS 的论文一探究竟。

图片

技术报告及 Demo 链接:https://arxiv.org/abs/2409.03283

代码链接:https://github.com/FireRedTeam/FireRedTTS

FireRedTTS 提出了一套完整的基座语音合成框架,由三部分组成:数据处理、基座系统、与下游应用。在基座系统部分,他们提出了一种基于语言模型的语音合成方案,旨在利用语言模型强大的序列生成能力,将文本序列转换成自然的、有表现力的语音序列。

该方案首先训练一个关注语义信息的语音离散编码器,以把语音信号转换成离散的标签序列,和一个说话人全局表征。随后,文本到语音的语言模型被训练以从文本和说话人表征中预测目标语音序列。

为将预测的离散语音序列稳定地还原至高保真音频,FireRedTTS 提出了一种两阶段方法:先用大规模低采样率数据训练高泛化性梅尔谱生成器,再用小规模高保真数据训练超分辨神经声码器以合成高采样率音频。同时,除了基于流匹配的解码器,该系统还提出了一种基于多流语言模型的流式解码器以满足流式解码需求。

图片

待基座模型训练完毕后,FireRedTTS 便可以通过 In-Context Learning, Supervised Fine-Tuning, Instruct Tuning 等方法,服务下游语音应用。比如:在配音领域,该系统可以零样本克隆用户声音、1 小时数据构造专业级特色声音;在自然对话领域,该系统通过指令优化实现情感和副语言行为可控的拟人化语音生成。

更多研究细节,可参考原论文。

相关资讯

小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!

小红书智创音频技术团队近日发布新一代对话合成模型 FireRedTTS-2。 该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题,通过升级离散语音编码器与文本语音合成模型全面优化合成效果。 在多项主客观测评中,FireRedTTS-2 均达到行业领先水平,为多说话人对话合成提供了更优解决方案。
9/14/2025 1:29:00 PM
机器之心

没想到,音频大模型开源最彻底的,居然是小红书

不难发现,近几个月,开源频频成为 AI 社区热议的焦点。 尤其是对于国内科技公司来说,开源成为主旋律。 根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源 33 款、31 款各类型大模型。
9/17/2025 6:11:00 PM
机器之心

语音AI的终极突破!Bland TTS一键克隆任意人声,真实到让人毛骨悚然!

人工智能语音合成技术迎来重大突破!AIbase从社交媒体平台获取最新信息,了解到Bland AI正式发布了其全新Bland TTS引擎,号称首个跨越“恐怖谷”的语音AI技术。 这一引擎利用大型语言模型(LLM)直接生成语音,仅需一个短音频即可实现任意人声克隆,并支持语调、节奏等风格的灵活“混搭”。 本文将为您深入解析Bland TTS的创新功能及其对AI语音应用的深远影响。
6/5/2025 2:00:55 PM
AI在线
  • 1