老北京、上海话、四川腔全都会！通义千问 TTS 重大升级：300万小时训练，支持七种中英双语音色

作者： 2025-07-02 12:00

近日，Qwen 团队对旗下语音合成模型 Qwen-TTS 进行了重大升级。此次更新的版本为“qwen-tts-latest”或“qwen-tts-2025-05-22”，通过 Qwen API 即可访问和使用。最引人注目的改动，是Qwen-TTS首次支持生成三种中文方言：北京话、上海话以及四川话。

近日，Qwen 团队对旗下语音合成模型 Qwen-TTS 进行了重大升级。

此次更新的版本为“qwen-tts-latest”或“qwen-tts-2025-05-22”，通过 Qwen API 即可访问和使用。

最引人注目的改动，是Qwen-TTS首次支持生成三种中文方言：北京话、上海话以及四川话。

这意味着，AI生成的语音不仅可以说普通话，还能自然地模仿出老北京的胡同腔、上海弄堂的吴语味，乃至川蜀乡音中的抑扬顿挫。

这一能力背后，是Qwen-TTS使用了超过300万小时的超大规模语料库进行训练。

不仅如此，Qwen-TTS还能自动根据文本内容，调整语音的韵律、节奏与情绪变化。

这一点尤为关键。它让AI的声音不再是单调死板的“机器合成”，而是能做到抑扬顿挫、声情并茂。

目前，Qwen-TTS 支持七种中英双语音色，涵盖不同语言风格和性格特征。

包括 Cherry、Ethan、Chelsie、Serena 这几位通用中英文配音角色，以及 Dylan（北京话）、Jada（上海话）和 Sunny（四川话）这三位方言专属音色。

每一种音色都可以生成中英文混合语句，语调自然、语速流畅，令人难以分辨其非人类发声。

图源“通义千问Qwen”官方微信号

据悉，Qwen-TTS在 SeedTTS-Eval 评测集上的表现已达到人类平均水平。

无论从流畅性、情感传达、语速掌控还是音质自然度上看，均展现出业内领先的综合能力。

而从开发者角度来看，Qwen-TTS 的使用门槛也被大幅降低。

用户仅需通过 Qwen API，并设置必要的模型名（如“qwen-tts-latest”）与目标音色（如“Dylan”），即可快速合成高质量语音。

官方还提供了完整的Python调用示例。代码逻辑清晰、接口稳定，只需数行，即可将文本转为语音，并自动下载音频文件。

调用方式灵活，支持本地部署与云端调用，适合各类开发者与企业级应用场景。

例如，只需一段简单的文本：“哟，您猜怎么着？今儿个我看NBA，库里投篮跟闹着玩似的”，就能快速生成带有北京味儿的语音内容。

这项能力，在短视频配音、虚拟主播、播客制作、语音小说等领域具有巨大潜力。

更重要的是，Qwen-TTS 的可扩展性极强。

据官方透露，未来还将增加更多语言与语音风格，覆盖更多方言与多语环境。

当然，这也为少数语言保护、多语种翻译、跨境产品本地化等问题提供了新的解决思路。

Dia-1.6B TTS：优秀的文本到对话生成模型

译者 | 李睿审校 | 重楼Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型（TTS）。本文将详细介绍该模型，以及其访问途径、使用方法，并展示实际应用结果以真正了解该模型的功能。你是否正在寻求一种合适的文本转语音模型？

5/22/2025 8:05:00 AM

李睿

近日，由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1]，凭借其「数据到数据」的生成范式，在样本质量和采样速度两方面，均击败了扩散模型的「噪声到数据」范式。论文链接：：代码实现： 2021 年起，扩散模型（diffusion models）开始成为文本到语音合成（text-to-speech, TTS）领域的核心生成方法之一，如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后，又有众多研究工作有效提升了扩

12/25/2023 11:54:00 AM

机器之心

语音生成的「智能涌现」：10万小时数据训练，亚马逊祭出10亿参数BASE TTS

伴随着生成式深度学习模型的飞速发展，自然语言处理（NLP）和计算机视觉（CV）已经经历了根本性的转变，从有监督训练的专门模型，转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音（TTS）领域，这样的转变也正在发生，模型能够利用数千小时的数据，使合成结果越来越接近类人语音。在最近的一项研究中，亚马逊正式推出了 BASE TTS，将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。论文标题：BASE TTS: Lessons from building a billion-paramet

2/16/2024 5:22:00 PM

机器之心

老北京、上海话、四川腔全都会！通义千问 TTS 重大升级：300万小时训练，支持七种中英双语音色

相关资讯

Dia-1.6B TTS：优秀的文本到对话生成模型

击败扩散模型，清华朱军团队基于薛定谔桥的新语音合成系统来了

语音生成的「智能涌现」：10万小时数据训练，亚马逊祭出10亿参数BASE TTS