AI在线 AI在线

Kyutai Labs 开源 Kyutai TTS:低延迟流式文本转语音技术

7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。 Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。 Kyutai TTS在性能上表现卓越。

7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU,该模型可同时处理32个请求,延迟仅为350毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如Unmute平台的中断处理功能。

在语言支持与质量评估方面,Kyutai TTS目前支持英语和法语,单词错误率(WER)分别为2.82和3.29,展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统TTS的30秒限制,适合新闻、书籍等长篇内容生成。

Kyutai TTS采用延迟流建模(DSM)架构,结合Rust服务器实现高效批处理,已在GitHub和Hugging Face开放源码与模型权重,助力全球开发者推动语音技术创新。

开源地址:https://kyutai.org/next/tts

相关资讯

开源革命!Kyutai TTS发布:超低延迟语音合成,AI语音新纪元来袭!

近日,法国AI实验室Kyutai宣布,其全新文本转语音模型 Kyutai TTS 正式开源,为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。 这一突破性发布不仅推动了开源AI技术的发展,也为多语言语音交互应用开辟了新的可能性。 AIbase为您独家解析这一技术亮点及其潜在影响。
7/5/2025 7:46:46 AM
AI在线

Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

Adobe持续推进其AI代理生态扩展,正式发布“产品支持代理”,旨在简化Adobe Experience Platform中的故障排除流程,并优化客户体验管理。 同时,Adobe宣布其“数据洞察代理”现已在全球范围内上线。 新发布的“产品支持代理”由Adobe Experience Platform Agent Orchestrator提供技术支持,能够在AI Assistant的对话界面中,为用户提供即时的操作指导和支持案例创建流程。
6/6/2025 11:00:55 AM
AI在线

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM
AI在线
  • 1