AI在线 AI在线

Kyutai Labs 开源 Kyutai TTS:低延迟流式文本转语音技术

7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。 Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。 Kyutai TTS在性能上表现卓越。

7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU,该模型可同时处理32个请求,延迟仅为350毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如Unmute平台的中断处理功能。

在语言支持与质量评估方面,Kyutai TTS目前支持英语和法语,单词错误率(WER)分别为2.82和3.29,展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统TTS的30秒限制,适合新闻、书籍等长篇内容生成。

Kyutai TTS采用延迟流建模(DSM)架构,结合Rust服务器实现高效批处理,已在GitHub和Hugging Face开放源码与模型权重,助力全球开发者推动语音技术创新。

开源地址:https://kyutai.org/next/tts

相关资讯

开源革命!Kyutai TTS发布:超低延迟语音合成,AI语音新纪元来袭!

近日,法国AI实验室Kyutai宣布,其全新文本转语音模型 Kyutai TTS 正式开源,为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。 这一突破性发布不仅推动了开源AI技术的发展,也为多语言语音交互应用开辟了新的可能性。 AIbase为您独家解析这一技术亮点及其潜在影响。
7/5/2025 7:46:46 AM
AI在线

英伟达收购 SchedMD 加强开源 AI 生态系统布局

根据路透社的报道,英伟达在周一宣布,已收购人工智能软件公司 SchedMD。 随着市场竞争的加剧,英伟达正在加大对开源技术的投入,进一步强化其在 AI 生态系统中的地位。 英伟达以其高速芯片闻名,但它也在 AI 领域积极布局,提供多种自有 AI 模型,涵盖从物理模拟到自动驾驶等多个领域。
12/16/2025 9:17:25 AM
AI在线

HYBE旗下AI 声音工具Supertone Play上线:10秒搞定声音克隆

近日,HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具,旨在生成高质量、富有表现力的音频内容。 这款新工具目前支持英语、韩语和日语,预计在今年内将扩展至西班牙语和中文。 Supertone Play 提供了150种声音角色,适用于多种内容创作需求,包括自然对话、专业播报新闻和有声读物,以及潮流驱动的搞笑声音。
2/18/2025 10:00:23 AM
AI在线