AI在线 AI在线

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。 这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。 MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成,避免了传统TTS模型拼接片段导致的不自然过渡。此外,MOSS-TTSD具备零样本音色克隆能力,可通过上传完整对话片段或单人音频实现双人语音克隆,并支持声音事件控制,如笑声等非语言声音,赋予语音更丰富的表现力。

与市场上其他语音模型相比,MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast,韵律和自然度表现优异。然而,相较于字节跳动的豆包语音模型,其语气和节奏感略逊一筹,但在开源和免费商业使用的优势下,MOSS-TTSD仍展现出强大的应用潜力。模型权重、推理代码和API接口已通过GitHub(https://github.com/OpenMOSS/MOSS-TTSD)和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源,官方文档和在线体验Demo也已上线,为开发者提供便捷接入。

MOSS-TTSD的发布为AI语音交互领域注入新活力,尤其在长篇访谈、播客制作和影视配音等场景中,其稳定性和表现力将推动内容创作的智能化进程。未来,团队计划进一步优化模型,增强多说话人场景下的语音切换准确性和情感表达。

地址:https://github.com/OpenMOSS/MOSS-TTSD

相关资讯

160亿参数,新增多项能力,复旦MOSS开源了

开源版的 Moss 真的来了。
4/22/2023 2:09:00 PM
机器之心

大模型如何实际在行业落地:生成式大模型结合知识库,打造出7*24小时永远在线的超级员工

大模型构建人机协同的新型生产关系。采访嘉宾 | 中关村科金AI平台能力中心作者 | 刘燕 infoQ对话式AI产品拥抱大模型  一个大胆的决定自2014年成立以来,中关村科金就选择专注于企业服务赛道提供对话场景服务,聚焦生成式AI技术,包括领域大模型、大数据分析、多模态交互三大核心技术。如今基于这三大类核心技术,已形成了一套完备的技术体系,并构建了一个基础的技术底座——即生成式的得助对话引擎。这些底座式的能力都由AI平台能力中心来提供支持的。这是一个在内部被定义为偏底层、汇聚“原子能力”的地方。这个能力中心,既要构
5/26/2023 5:18:00 PM
新闻助手

我国研发具备共情能力导诊大模型:有望用于术前谈话,减少医患冲突

据《北京日报》14 日报道,中国医学科学院基础医学研究所团队研发的导诊大模型 ——“特定场景提示增强对话机器人”,近日通过临床试验。该模型兼具专业性和共情能力,不仅能够应用于导诊工作,未来也有望用于患者健康教育、术前谈话等更多复杂场景。图源 Pixabay据悉,该大模型的构建以不同医学场景全方位采集的真实导诊对话为基础,以提取对话信息形成的知识库作为训练数据,能够解决不同医学场景中出现的各种特定问题。研究团队为采集原始医患对话记录,成立了“真实医学对话语料联盟”,建立了语音采集 自动文字转化 人工校对的标准化流
8/15/2024 11:58:27 AM
清源
  • 1