MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

作者：AI在线 2025-08-01 03:22

由清华大学语音与语言实验室（Tencent AI Lab）联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源，标志着AI语音合成技术在对话场景中的重大突破。这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型，以约100万小时单说话人语音数据和40万小时对话语音数据为基础，采用离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，特别适合AI播客、有声小说和影视配音等长篇内容创作。 MOSS-TTSD的核心创新在于其XY-Tokenizer，采用双阶段多任务学习方式，通过八层RVQ码本将语音信号压缩至1kbps比特率，同时保留语义与声学信息，确保生成语音的自然度和流畅性。

由清华大学语音与语言实验室（Tencent AI Lab）联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源，标志着AI语音合成技术在对话场景中的重大突破。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型，以约100万小时单说话人语音数据和40万小时对话语音数据为基础，采用离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer，采用双阶段多任务学习方式，通过八层RVQ码本将语音信号压缩至1kbps比特率，同时保留语义与声学信息，确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成，避免了传统TTS模型拼接片段导致的不自然过渡。此外，MOSS-TTSD具备零样本音色克隆能力，可通过上传完整对话片段或单人音频实现双人语音克隆，并支持声音事件控制，如笑声等非语言声音，赋予语音更丰富的表现力。

与市场上其他语音模型相比，MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast，韵律和自然度表现优异。然而，相较于字节跳动的豆包语音模型，其语气和节奏感略逊一筹，但在开源和免费商业使用的优势下，MOSS-TTSD仍展现出强大的应用潜力。模型权重、推理代码和API接口已通过GitHub（https://github.com/OpenMOSS/MOSS-TTSD）和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源，官方文档和在线体验Demo也已上线，为开发者提供便捷接入。

MOSS-TTSD的发布为AI语音交互领域注入新活力，尤其在长篇访谈、播客制作和影视配音等场景中，其稳定性和表现力将推动内容创作的智能化进程。未来，团队计划进一步优化模型，增强多说话人场景下的语音切换准确性和情感表达。

地址：https://github.com/OpenMOSS/MOSS-TTSD

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

相关资讯

MOSS-TTSD Makes a Stunning Open Source Debut: A Million Hours of Training Creates a New King in AI Podcasts

160亿参数，新增多项能力，复旦MOSS开源了

没想到，音频大模型开源最彻底的，居然是小红书