AI在线 AI在线

Resemble AI开源TTS Chatterbox ,性能直逼超越ElevenLabs

近年来,文本转语音(TTS)技术在人工智能领域的应用日益广泛,从智能助手到内容创作,TTS正在重塑我们与声音交互的方式。 一款名为Chatterbox的开源TTS模型横空出世,凭借其卓越的性能和创新功能,迅速成为行业焦点。 Chatterbox:开源TTS的革命性突破Chatterbox由Resemble AI开发,基于MIT许可证完全开源,允许开发者自由使用和修改。

近年来,文本转语音(TTS)技术在人工智能领域的应用日益广泛,从智能助手到内容创作,TTS正在重塑我们与声音交互的方式。一款名为Chatterbox的开源TTS模型横空出世,凭借其卓越的性能和创新功能,迅速成为行业焦点。

image.png

Chatterbox:开源TTS的革命性突破

Chatterbox由Resemble AI开发,基于MIT许可证完全开源,允许开发者自由使用和修改。这款模型基于0.5B规模的LLaMA架构,训练数据超过50万小时的精选音频,性能直逼甚至超越部分闭源系统。

据悉,在近期盲测中,63.75%的听众更偏好Chatterbox的语音输出,相较于业界标杆ElevenLabs,展现出惊艳的真实感和流畅度。

Chatterbox不仅提供高质量的语音合成,还支持零样本语音克隆,仅需5秒的参考音频即可生成高度逼真的个性化语音。此外,其独特的情感夸张控制功能,允许用户通过简单参数调节情绪、语速和语调,为内容创作者、游戏开发者及AI伴侣设计者提供了前所未有的灵活性。

技术亮点:实时合成与安全水印

Chatterbox的另一大亮点在于其超低延迟的实时语音合成,延迟低至200毫秒以下,适用于交互式应用如虚拟助手和实时配音。其开源特性进一步降低了开发者的使用门槛,Hugging Face上的Gradio应用让用户可以快速体验其功能。

为确保负责任的使用,Chatterbox每段生成音频均嵌入Resemble AI的Perth神经水印技术。这种水印在音频编辑和压缩后仍能保持近100%的检测准确率,有效防止滥用,确保内容可追溯。

Chatterbox的发布标志着TTS领域的开源浪潮正在加速。相较于传统闭源系统如ElevenLabs,Chatterbox的免费性和高度可定制化使其在开发者社区中迅速走红。社交媒体上,开发者们对其精度和情感表达能力赞不绝口,称其为“音声合成的游戏规则改变者”。

AIbase认为,Chatterbox的开源模式不仅降低了技术壁垒,还可能推动更多创新应用,例如个性化播客、教育工具和多语言内容生成。然而,开源也带来了挑战,如何在广泛传播的同时防止恶意使用,仍需社区共同努力。

Chatterbox的出现为TTS技术开辟了新的可能性。AIbase预计,其开源特性将吸引更多开发者参与优化,形成良性生态循环。同时,Resemble AI也提供付费的TTS服务,针对需要更高精度和规模化的企业用户,显示出开源与商业化的双轨战略。

项目:https://github.com/resemble-ai/chatterbox

相关资讯

开源免费语音克隆模型ChatterBox AI,性能测试超ElevenLabs

人工智能语音技术领域迎来重大突破!加拿大初创公司Resemble AI近日发布其首款开源文本转语音(TTS)模型ChatterBox,采用MIT许可证。 这一模型以其卓越的语音克隆能力、情绪控制功能和超低延迟特性,迅速成为行业焦点,甚至在盲测中超越了知名闭源模型ElevenLabs。 ChatterBox的发布背景ChatterBox是Resemble AI在语音合成领域的最新成果,基于0.5亿参数的Llama架构,训练数据高达50万小时的精选音频。
6/4/2025 10:01:29 AM
AI在线

HYBE旗下AI 声音工具Supertone Play上线:10秒搞定声音克隆

近日,HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具,旨在生成高质量、富有表现力的音频内容。 这款新工具目前支持英语、韩语和日语,预计在今年内将扩展至西班牙语和中文。 Supertone Play 提供了150种声音角色,适用于多种内容创作需求,包括自然对话、专业播报新闻和有声读物,以及潮流驱动的搞笑声音。
2/18/2025 10:00:23 AM
AI在线

Spark-TTS:用AI让声音“克隆”和“定制”成为现实!

在科技飞速发展的今天,人工智能已经渗透到我们生活的方方面面,从智能语音助手到各种自动化服务,AI正在以一种前所未有的方式改变我们的生活。 今天,我要给大家介绍一项超级酷炫的技术——Spark-TTS,一个基于Qwen2.5模型的高效文本转语音系统。 它不仅能“克隆”你的声音,还能根据你的需求“定制”出全新的声音!是不是听起来很神奇?什么是Spark-TTS?Spark-TTS是一种新型的文本转语音(TTS)系统,它的核心是BiCodec——一种单流语音编解码器。
3/7/2025 2:54:00 PM
AI在线
  • 1