AI在线 AI在线

Kyutai Unmute 发布!10秒定制语音,AI对话进入超低延迟时代!

法国 AI 实验室 Kyutai 近日推出了一款革命性的语音 AI 系统 Unmute,为文本大语言模型(LLM)赋予了强大的语音交互能力。 这款高度模块化的语音模型以其智能对话、超低延迟和个性化定制功能引发业界热议。 AIbase 综合整理最新信息,带您深入了解 Unmute 的技术突破与应用前景。

法国 AI 实验室 Kyutai 近日推出了一款革命性的语音 AI 系统 Unmute,为文本大语言模型(LLM)赋予了强大的语音交互能力。这款高度模块化的语音模型以其智能对话、超低延迟和个性化定制功能引发业界热议。AIbase 综合整理最新信息,带您深入了解 Unmute 的技术突破与应用前景。

image.png

模块化设计:为任何文本模型“加声”

Unmute 的核心亮点在于其高度模块化的架构。开发者无需重新训练模型,只需将 Unmute “包裹”在现有文本大语言模型上,即可为其快速添加语音输入(语音转文本,STT)和语音输出(文本转语音,TTS)功能。这种灵活的设计保留了文本模型的推理能力、知识储备和精细调优特性,同时新增了自然流畅的语音交互体验。

智能交互:对话更接近人类

Unmute 在对话体验上实现了重大突破:  

智能判断与接话:Unmute 能够精准判断用户是否完成发言,并在适当的时机进行回应,模拟真实的人类对话节奏。  

随时打断:用户可以随时打断 AI 的回答,增强交互的灵活性和自然度。  

文本流式合成:Unmute 支持在文本生成未完成时即开始语音合成,大幅降低响应延迟,为实时对话提供了更顺畅的体验。  

个性化定制:10秒打造专属声音

Unmute 的另一大创新是其强大的声音定制功能。仅需10秒的语音样本,即可生成高度个性化的 AI 声音,满足不同场景下的需求。无论是模拟特定角色的语气,还是调整语音的音调、语速,Unmute 都能轻松实现,为用户提供多样化的交互选择。

开源计划:赋能全球开发者

Kyutai 宣布,Unmute 的相关模型和代码将在未来几周内完全开源。这一举措将进一步推动语音 AI 技术的普及与创新,吸引全球开发者的关注。此前,Kyutai 推出的音频原生模型 Moshi 就曾因其创新性引发热议,而 Unmute 的模块化设计无疑是 Kyutai 在语音 AI 领域的又一力作。

语音 AI 的新风向

Unmute 的发布标志着语音 AI 技术迈向了更高的灵活性和实用性。与传统的音频原生模型相比,Unmute 通过模块化设计充分利用了成熟文本模型的优势,解决了实时语音交互中的延迟和自然度问题。AIbase 认为,Unmute 的推出不仅为开发者提供了更便捷的语音 AI 解决方案,也为教育、客服、娱乐等领域带来了全新的交互可能性。

结语

Kyutai 的 Unmute 以其模块化设计、智能交互和个性化定制功能,为语音 AI 领域注入了新的活力。无论是超低延迟的对话体验,还是即将开源的技术支持,Unmute 都展现了其颠覆行业的潜力。

体验地址:https://unmute.sh/

相关资讯

​微软 Edge 浏览器推出免费 Copilot Vision 功能,AI 助手实时解读屏幕内容

近日,微软在其 Edge 浏览器中免费上线了全新的 AI 助手功能 “Copilot Vision”。 这一功能的推出为用户提供了更为智能的操作体验,让用户可以通过语音与 AI 助手进行互动,实时解读屏幕内容,帮助用户完成各项任务。 根据微软人工智能首席执行官穆斯塔法・苏莱曼的介绍,Copilot Vision 是一种基于语音的助手功能。
4/17/2025 11:01:15 AM
AI在线

8人小团队单挑OpenAI,半年仿出GPT-4o,还开源了

最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型名为 Moshi,具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道:「Moshi 能听懂带有法国口音的英语。」据悉,该团队开发这个模型仅用了 6 个月。的确,在研究团队演示的视频中,我们发现 Moshi 可以非常流利地回答人们提出的问题,进行日常对话交流,甚至可以猜出提问者的意图。例如,当提问者说「下个月打算去攀登珠穆朗玛峰,我在想......」,提
7/4/2024 6:18:00 PM
机器之心

HYBE旗下AI 声音工具Supertone Play上线:10秒搞定声音克隆

近日,HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具,旨在生成高质量、富有表现力的音频内容。 这款新工具目前支持英语、韩语和日语,预计在今年内将扩展至西班牙语和中文。 Supertone Play 提供了150种声音角色,适用于多种内容创作需求,包括自然对话、专业播报新闻和有声读物,以及潮流驱动的搞笑声音。
2/18/2025 10:00:23 AM
AI在线
  • 1