近日,Qwen 团队对旗下语音合成模型 Qwen-TTS 进行了重大升级。
此次更新的版本为“qwen-tts-latest”或“qwen-tts-2025-05-22”,通过 Qwen API 即可访问和使用。
最引人注目的改动,是Qwen-TTS首次支持生成三种中文方言:北京话、上海话以及四川话。
这意味着,AI生成的语音不仅可以说普通话,还能自然地模仿出老北京的胡同腔、上海弄堂的吴语味,乃至川蜀乡音中的抑扬顿挫。
这一能力背后,是Qwen-TTS使用了超过300万小时的超大规模语料库进行训练。
不仅如此,Qwen-TTS还能自动根据文本内容,调整语音的韵律、节奏与情绪变化。
这一点尤为关键。它让AI的声音不再是单调死板的“机器合成”,而是能做到抑扬顿挫、声情并茂。
目前,Qwen-TTS 支持七种中英双语音色,涵盖不同语言风格和性格特征。
包括 Cherry、Ethan、Chelsie、Serena 这几位通用中英文配音角色,以及 Dylan(北京话)、Jada(上海话)和 Sunny(四川话)这三位方言专属音色。
每一种音色都可以生成中英文混合语句,语调自然、语速流畅,令人难以分辨其非人类发声。
图源“通义千问Qwen”官方微信号
据悉,Qwen-TTS在 SeedTTS-Eval 评测集上的表现已达到人类平均水平。
无论从流畅性、情感传达、语速掌控还是音质自然度上看,均展现出业内领先的综合能力。
而从开发者角度来看,Qwen-TTS 的使用门槛也被大幅降低。
用户仅需通过 Qwen API,并设置必要的模型名(如“qwen-tts-latest”)与目标音色(如“Dylan”),即可快速合成高质量语音。
官方还提供了完整的Python调用示例。代码逻辑清晰、接口稳定,只需数行,即可将文本转为语音,并自动下载音频文件。
调用方式灵活,支持本地部署与云端调用,适合各类开发者与企业级应用场景。
例如,只需一段简单的文本:“哟,您猜怎么着?今儿个我看NBA,库里投篮跟闹着玩似的”,就能快速生成带有北京味儿的语音内容。
这项能力,在短视频配音、虚拟主播、播客制作、语音小说等领域具有巨大潜力。
更重要的是,Qwen-TTS 的可扩展性极强。
据官方透露,未来还将增加更多语言与语音风格,覆盖更多方言与多语环境。
当然,这也为少数语言保护、多语种翻译、跨境产品本地化等问题提供了新的解决思路。