AI在线 AI在线

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。 这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。 MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成,避免了传统TTS模型拼接片段导致的不自然过渡。此外,MOSS-TTSD具备零样本音色克隆能力,可通过上传完整对话片段或单人音频实现双人语音克隆,并支持声音事件控制,如笑声等非语言声音,赋予语音更丰富的表现力。

与市场上其他语音模型相比,MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast,韵律和自然度表现优异。然而,相较于字节跳动的豆包语音模型,其语气和节奏感略逊一筹,但在开源和免费商业使用的优势下,MOSS-TTSD仍展现出强大的应用潜力。模型权重、推理代码和API接口已通过GitHub(https://github.com/OpenMOSS/MOSS-TTSD)和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源,官方文档和在线体验Demo也已上线,为开发者提供便捷接入。

MOSS-TTSD的发布为AI语音交互领域注入新活力,尤其在长篇访谈、播客制作和影视配音等场景中,其稳定性和表现力将推动内容创作的智能化进程。未来,团队计划进一步优化模型,增强多说话人场景下的语音切换准确性和情感表达。

地址:https://github.com/OpenMOSS/MOSS-TTSD

相关资讯

MOSS-TTSD Makes a Stunning Open Source Debut: A Million Hours of Training Creates a New King in AI Podcasts

MOSS-TTSD (Text to Spoken Dialogue), developed by the Tsinghua University Speech and Language Laboratory (Tencent AI Lab) in collaboration with Shanghai Chuangzhi College, Fudan University, and Musi Intelligent, has been officially open-sourced. This marks a major breakthrough in AI speech synthesis technology for dialogue scenarios.This speech dialogue generation model is based on the Qwen3-1.7B-base model and is trained further using approximately 1 million hours of single-speaker voice data and 400,000 hours of dialog voice data.
8/2/2025 4:36:02 PM
AI在线

没想到,音频大模型开源最彻底的,居然是小红书

不难发现,近几个月,开源频频成为 AI 社区热议的焦点。 尤其是对于国内科技公司来说,开源成为主旋律。 根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源 33 款、31 款各类型大模型。
9/17/2025 6:11:00 PM
机器之心

160亿参数,新增多项能力,复旦MOSS开源了

开源版的 Moss 真的来了。
4/22/2023 2:09:00 PM
机器之心
  • 1