DiaMoE-TTS：清华 & 巨人网络开源的多方言语音合成利器

在数字化时代，语音合成技术（TTS）发展迅速，应用广泛。但方言和小语种在 TTS 领域面临数据稀缺、正字法不一致、音系变化复杂等挑战。为此，清华大学与巨人网络联合推出开源的多方言语音合成框架 DiaMoE-TTS，以创新技术支持方言保护和语言多样性。

图片

一、项目概述

DiaMoE-TTS 是一个基于国际音标（IPA）的统一框架，专门针对多方言语音合成的复杂性而设计。它在 F5-TTS 架构的基础上，引入了方言感知的混合专家（MoE）模型来模拟不同方言之间的语音差异，并利用低秩适配器（LoRA）和条件适配器进行参数高效的自适应，从而能够快速迁移到新的方言。与依赖大规模或专有资源的方法不同，DiaMoE-TTS 支持可扩展的开放数据驱动合成，实验表明其能够生成自然且富有表现力的语音，即使在只有数小时数据的情况下，也能对未见过的新方言以及专业领域（如京剧）实现零样本性能。

图片

二、核心功能

（一）多方言语音合成

DiaMoE-TTS 支持多种汉语方言以及普通话的语音合成，目前已涵盖 11 种汉语方言，并计划扩展至欧洲语言。这为方言和小语种的语音合成提供了强大的技术支持，让这些语言能够在数字世界中被听见。

（二）低资源适配

许多方言由于数据稀缺，难以进行有效的语音合成建模。DiaMoE-TTS 提出了参数高效迁移（PEFT）策略，仅需微调少量参数即可完成方言扩展，而无需对庞大的主干网络和 MoE 模块进行重新训练，大大降低了方言合成的技术门槛。

（三）高可扩展性

该框架完全开源，包括数据预处理、训练和推理的完整代码，方便研究者和开发者进行复现与扩展。这种开放性使得DiaMoE-TTS 能够适应不断变化的技术需求和语言环境。

（四）高自然度语音合成

通过方言感知的MoE 架构，DiaMoE-TTS 能够根据输入的 IPA 自动选择最适合的专家网络进行语音合成，从而保留每种方言的独特音色和韵律，生成的语音自然流畅且富有表现力。

三、技术揭秘

（一）统一的IPA 前端

在多方言语音合成中，使用拼音或字符输入常常带来严重的歧义与不一致问题。DiaMoE-TTS 在前端设计中引入了国际音标（IPA）作为统一的输入体系，将所有方言的语音映射到同一音素空间。这种方式消除了跨方言间的差异性，使得模型能够在统一的表征体系下进行训练，保证了建模的一致性与泛化能力。

（二）方言感知MoE 架构

传统的单一建模网络在多方言任务下容易出现“风格平均化”，导致各地方言的特色被弱化。MoE 结构通过引入多个专家网络，让不同的专家专注于学习不同方言的特征；同时，动态门控机制会根据输入 IPA 自动选择最合适的专家路由，从而保证了每种方言的音色和韵律特点得以保留。为了增强门控的区分能力，还加入了方言分类辅助损失，使专家网络在训练时能够更有针对性地建模方言特征。

（三）低资源适配策略（PEFT）

在text embedding 层和注意力层中融入了 Conditioning Adapter 与 LoRA，仅需微调少量参数即可完成方言扩展，主干与 MoE 模块保持冻结，从而避免对已有知识的遗忘。此外，结合音高和语速扰动等数据增强手段，显著提升了模型在低资源条件下的合成表现。

（四）多阶段训练方法

基于F5-TTS 的成熟模型，框架首先利用 IPA 音素转换数据进行预热训练，实现输入形式的平滑过渡。接着，通过联合训练多个开源方言数据，激活 MoE 结构，学习共享特征并区分不同方言的发音模式。动态门控机制和方言分类辅助损失的引入，进一步优化了 MoE 的分流效果，精准捕捉每种方言的独特韵味。对于语料稀缺的新方言，则运用 PEFT 策略结合数据增强，实现高效迁移，同时确保原有知识不被遗忘。

四、应用场景

（一）教育领域

在教育领域，DiaMoE-TTS 为方言和小语种教学提供了强大的支持。通过生成自然流畅的方言语音，它可以帮助学生更好地学习和掌握不同语言的发音，增强语言学习的趣味性和效果。无论是普通话学习还是方言传承，DiaMoE-TTS 都能提供生动的语音示范，让语言学习更加直观和高效。

（二）文化保护

方言和小语种是文化多样性的重要组成部分。DiaMoE-TTS 通过语音合成技术记录和重现濒临消失的方言，为文化保护提供了有力支持。它能够生成多种方言的语音，保留这些语言的独特音色和韵律，帮助人们更好地理解和传承这些珍贵的文化遗产。

（三）虚拟人与数字内容

在虚拟人和数字内容创作中，DiaMoE-TTS 可以为虚拟角色提供多样化的方言语音，丰富虚拟角色的表现力。无论是虚拟主播、虚拟客服还是数字角色，DiaMoE-TTS 都能生成自然、富有表现力的语音，提升用户体验，让虚拟角色更加生动和真实。

（四）数字文旅

在跨境交流中，DiaMoE-TTS 支持多种语言和方言的语音合成，能够促进不同语言背景的人群之间的交流与理解。无论是国际商务、文化交流还是旅游出行，DiaMoE-TTS 都能提供自然、准确的语音合成，帮助人们跨越语言障碍，实现更有效的沟通。

（五）跨境交流

五、快速使用

（一）安装

通过以下命令安装DiaMoE-TTS：

复制

（二）训练

运行以下命令进行模型训练：

复制

（三）推理

运行以下命令进行模型推理：

复制

更多详细信息请参考[GitHub 仓库](https://github.com/GiantAILab/DiaMoE-TTS)。

六、结语

DiaMoE-TTS 作为清华大学与巨人网络联合开源的多方言语音合成框架，凭借其创新的技术设计和强大的功能，为方言保护、语言多样性以及语音合成技术的发展提供了新的思路和工具。它不仅能够生成自然、富有表现力的语音，还能在低资源条件下快速适配新的方言，展现了极高的实用价值和应用潜力。

项目地址

GitHub 仓库：https://github.com/GiantAILab/DiaMoE-TTS

Hugging Face 模型库：https://huggingface.co/RICHARD12369/DiaMoE_TTS

arXiv 技术论文：https://www.arxiv.org/pdf/2509.22727

DiaMoE-TTS：清华 & 巨人网络开源的多方言语音合成利器

一、项目概述

二、核心功能

（一）多方言语音合成

（二）低资源适配

（三）高可扩展性

（四）高自然度语音合成

三、技术揭秘

（一）统一的IPA 前端

（二）方言感知MoE 架构

（三）低资源适配策略（PEFT）

（四）多阶段训练方法

四、应用场景

（一）教育领域

（二）文化保护

（三）虚拟人与数字内容

（四）数字文旅

（五）跨境交流

五、快速使用

（一）安装

（二）训练

（三）推理

六、结语

项目地址

相关资讯

哥德尔90年前的「不完备性定理」，奠定了计算机与AI的理论基础

美国最高法院最终裁定：维持TikTok禁令，特朗普发帖回应：意料之中应该尊重，但是否执行有待时间考虑，周受资或出席特朗普就职典礼

「完美的搜索引擎」是否存在？这家公司向谷歌发起挑战

DiaMoE-TTS：清华 &amp; 巨人网络开源的多方言语音合成利器

一、项目概述

二、核心功能

（一）多方言语音合成

（二）低资源适配

（三）高可扩展性

（四）高自然度语音合成

三、技术揭秘

（一）统一的IPA 前端

（二）方言感知MoE 架构

（三）低资源适配策略（PEFT）

（四）多阶段训练方法

四、应用场景

（一）教育领域

（二）文化保护

（三）虚拟人与数字内容

（四）数字文旅

（五）跨境交流

五、快速使用

（一）安装

（二）训练

（三）推理

六、结语

项目地址

相关资讯

哥德尔90年前的「不完备性定理」，奠定了计算机与AI的理论基础

美国最高法院最终裁定：维持TikTok禁令，特朗普发帖回应：意料之中应该尊重，但是否执行有待时间考虑，周受资或出席特朗普就职典礼

「完美的搜索引擎」是否存在？这家公司向谷歌发起挑战

DiaMoE-TTS：清华 & 巨人网络开源的多方言语音合成利器