阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

作者：AI在线 2025-12-15 06:01

阿里巴巴通义大模型宣布，其 “百聆” 系列语音模型迎来了重大升级，并正式开源。此次更新的两款语音模型，能够在仅需三秒的录音后，实现无缝切换至多达九种语言和十八种方言，包括普通话、粤语、日语、英语等，同时还可以模拟多种情感如开心和愤怒。在这次升级中，Fun-CosyVoice3模型得到了显著改善。

阿里巴巴通义大模型宣布，其 “百聆” 系列语音模型迎来了重大升级，并正式开源。此次更新的两款语音模型，能够在仅需三秒的录音后，实现无缝切换至多达九种语言和十八种方言，包括普通话、粤语、日语、英语等，同时还可以模拟多种情感如开心和愤怒。

在这次升级中，Fun-CosyVoice3模型得到了显著改善。模型的首包延迟降低了50%，大幅提升了中英混说的准确率。此外，模型的音色克隆能力得到了增强，用户只需提供一段三秒以上的录音，便能复刻出相应的音色并合成新语音。此功能的开发使得实时语音助手、直播配音和无障碍阅读等场景变得更加高效和便捷。

Fun-ASR 模型的能力同样得到了提升，噪声环境下的准确率达到了93%。这一模型不仅支持歌词和说唱的识别，还可以进行多语言自由混说，覆盖多种中文方言与口音。为了提升用户体验，流式识别的首字延迟已降低至160毫秒，大幅提升了语音交互的流畅性。

此外，这两款模型均支持本地部署与二次开发，开发者可以根据自己的需求进行定制化调整。开源地址也已公布，用户可以前往相关平台体验和使用这两款语音模型，进一步推动语音技术在各个领域的应用。

GitHub:https://github.com/FunAudioLLM/CosyVoice

划重点:
🌐 ** 多语言支持 **:三秒录音即可实现9种语言和18种方言的切换。
⚙️ ** 技术升级 **:延迟降低50%，准确率提升，使语音交互更加流畅。
📦 ** 开源开放 **:模型支持本地部署和二次开发，便于个性化应用。

阿里通义百聆推出语音模型新版本：3 秒录音即可“复制”9 种语言、18 种方言

AI在线 12 月 15 日消息，今天下午，通义大模型通过官方公众号宣布，两款“百聆”语音模型正式开源，两款模型迎来升级。根据介绍，其只需 3 秒录音，就能让你的声音无缝切换语种、方言与情绪 —— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言，通通搞定。升级Fun-CosyVoice3 模型升级：首包延迟降低 50%，中英混字准确率翻倍，支持 9 语种 18 方言口音、跨语种克隆与情感控制；Fun-ASR 模型能力增强：噪声场景准确率 93%、支持歌词与说唱识别、31 语种自由混说、方言口音覆盖，并将流式识别模型的首字降低到 160ms。

12/15/2025 4:23:52 PM 清源

阿里巴巴推出新夸克，打造 “AI 超级框” 一站式服务平台

今日，阿里巴巴重磅发布AI旗舰应用新夸克。这款基于阿里通义大模型的产品，升级为“AI超级框”，为2亿用户带来全新AI体验。与普通对话式AI不同，新夸克将多种AI能力集成于“AI超级框”。

3/13/2025 11:32:00 AM AI在线

LiblibAI接入阿里通义大模型，赋能2000万创作者的新纪元

在中国 AI 图像创作领域，LiblibAI 平台近日迎来了一个重大升级。该平台正式接入了阿里巴巴的通义系列大模型，进一步拓宽了其在 AI 图像生成与视频创作方面的能力。这一举措不仅是对 AI 技术的一次重大推进，也为广大的创作者群体带来了福音。

3/25/2025 10:57:00 AM AI在线

​阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

相关资讯

阿里通义百聆推出语音模型新版本：3 秒录音即可“复制”9 种语言、18 种方言

阿里巴巴推出新夸克，打造 “AI 超级框” 一站式服务平台

LiblibAI接入阿里通义大模型，赋能2000万创作者的新纪元

阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换