0.33秒生成1秒音频!Muyan-TTS 开源上线，播客、有声书场景完美适配

作者：AI在线 2025-05-13 09:00

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计，具备零样本语音合成、极速生成与高连贯性朗读能力，是当前最适合批量化长语音生成的模型之一。 Muyan-TTS 基于超10万小时播客数据预训练，仅需 0.33秒即可生成1秒高质量音频，支持无需打断地朗读数分钟文本，语音自然流畅。更支持说话人定制，任意声音克隆，一键生成具有个性化语气与节奏的语音内容。

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计，具备零样本语音合成、极速生成与高连贯性朗读能力，是当前最适合批量化长语音生成的模型之一。

Muyan-TTS 基于超10万小时播客数据预训练，仅需 0.33秒即可生成1秒高质量音频，支持无需打断地朗读数分钟文本，语音自然流畅。更支持说话人定制，任意声音克隆，一键生成具有个性化语气与节奏的语音内容。

模型已开放至 Hugging Face，支持离线部署，开发者可轻松本地推理，适配多样应用场景:播客生成、有声书制作、英文视频配音、AI角色朗读、智能音箱播报等，极大提升内容生产效率。

感兴趣的开发者可前往 Hugging Face 获取模型权重与示例代码，开启你的 AI 语音创作之旅。

GitHub 开源地址:https://github.com/MYZY-AI/Muyan-TTS

HF 模型地址:https://huggingface.co/MYZY-AI/Muyan-TTS

阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音

近日，阿里巴巴云计算的 Qwen 团队发布了两款全新的人工智能模型，旨在通过文本指令生成或克隆声音。其中，Qwen3-TTS-VD-Flash 模型允许用户根据详细描述生成声音，用户可以精确定义声音的特征，如情感和说话节奏。例如，用户可以请求生成一个 “中年男性，洪亮的男中音 —— 充满活力的广告解说，快速的语速，夸张的音调变化，充满销售魅力的声音”。

12/24/2025 11:41:18 AM AI在线

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。

3/6/2025 11:29:00 AM AI在线

豆包·语音播客模型发布将在豆包APP及PC端、扣子等上线

火山引擎正式推出豆包·语音播客模型，豆包·语音播客模型基于流式模型构建，能够实现从文本创作到双人对话式播客的秒级转化，为用户带来“低成本、高时效、强互动”的全新创作体验。这一模型的推出，不仅解决了传统AI播客创作中的诸多痛点，还极大地简化了播客制作流程，让热点内容能够瞬间转化为生动的播客。在当今信息爆炸的时代，播客作为一种受欢迎的内容传播形式，正吸引着越来越多的用户。

5/21/2025 11:01:05 AM AI在线

0.33秒生成1秒音频!Muyan-TTS 开源上线，播客、有声书场景完美适配

相关资讯

阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

豆包·语音播客模型发布 将在豆包APP及PC端、扣子等上线

豆包·语音播客模型发布将在豆包APP及PC端、扣子等上线