AI在线 AI在线

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。 这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。 MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成,避免了传统TTS模型拼接片段导致的不自然过渡。此外,MOSS-TTSD具备零样本音色克隆能力,可通过上传完整对话片段或单人音频实现双人语音克隆,并支持声音事件控制,如笑声等非语言声音,赋予语音更丰富的表现力。

与市场上其他语音模型相比,MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast,韵律和自然度表现优异。然而,相较于字节跳动的豆包语音模型,其语气和节奏感略逊一筹,但在开源和免费商业使用的优势下,MOSS-TTSD仍展现出强大的应用潜力。模型权重、推理代码和API接口已通过GitHub(https://github.com/OpenMOSS/MOSS-TTSD)和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源,官方文档和在线体验Demo也已上线,为开发者提供便捷接入。

MOSS-TTSD的发布为AI语音交互领域注入新活力,尤其在长篇访谈、播客制作和影视配音等场景中,其稳定性和表现力将推动内容创作的智能化进程。未来,团队计划进一步优化模型,增强多说话人场景下的语音切换准确性和情感表达。

地址:https://github.com/OpenMOSS/MOSS-TTSD

相关资讯

MOSS-TTSD Makes a Stunning Open Source Debut: A Million Hours of Training Creates a New King in AI Podcasts

MOSS-TTSD (Text to Spoken Dialogue), developed by the Tsinghua University Speech and Language Laboratory (Tencent AI Lab) in collaboration with Shanghai Chuangzhi College, Fudan University, and Musi Intelligent, has been officially open-sourced. This marks a major breakthrough in AI speech synthesis technology for dialogue scenarios.This speech dialogue generation model is based on the Qwen3-1.7B-base model and is trained further using approximately 1 million hours of single-speaker voice data and 400,000 hours of dialog voice data.
8/2/2025 4:36:02 PM
AI在线

160亿参数,新增多项能力,复旦MOSS开源了

开源版的 Moss 真的来了。
4/22/2023 2:09:00 PM
机器之心

大模型如何实际在行业落地:生成式大模型结合知识库,打造出7*24小时永远在线的超级员工

大模型构建人机协同的新型生产关系。采访嘉宾 | 中关村科金AI平台能力中心作者 | 刘燕 infoQ对话式AI产品拥抱大模型  一个大胆的决定自2014年成立以来,中关村科金就选择专注于企业服务赛道提供对话场景服务,聚焦生成式AI技术,包括领域大模型、大数据分析、多模态交互三大核心技术。如今基于这三大类核心技术,已形成了一套完备的技术体系,并构建了一个基础的技术底座——即生成式的得助对话引擎。这些底座式的能力都由AI平台能力中心来提供支持的。这是一个在内部被定义为偏底层、汇聚“原子能力”的地方。这个能力中心,既要构
5/26/2023 5:18:00 PM
新闻助手
  • 1