AI在线 AI在线

阿里通义百聆推出语音模型新版本:3 秒录音即可“复制”9 种语言、18 种方言

AI在线 12 月 15 日消息,今天下午,通义大模型通过官方公众号宣布,两款“百聆”语音模型正式开源,两款模型迎来升级。 根据介绍,其只需 3 秒录音,就能让你的声音无缝切换语种、方言与情绪 —— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言,通通搞定。 升级Fun-CosyVoice3 模型升级:首包延迟降低 50%,中英混字准确率翻倍,支持 9 语种 18 方言口音、跨语种克隆与情感控制;Fun-ASR 模型能力增强:噪声场景准确率 93%、支持歌词与说唱识别、31 语种自由混说、方言口音覆盖,并将流式识别模型的首字降低到 160ms。

AI在线 12 月 15 日消息,今天下午,通义大模型通过官方公众号宣布,两款“百聆”语音模型正式开源,两款模型迎来升级。根据介绍,其只需 3 秒录音,就能让你的声音无缝切换语种、方言与情绪 —— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言,通通搞定。

升级

  • Fun-CosyVoice3 模型升级:首包延迟降低 50%,中英混字准确率翻倍,支持 9 语种 18 方言口音、跨语种克隆与情感控制;

  • Fun-ASR 模型能力增强:噪声场景准确率 93%、支持歌词与说唱识别、31 语种自由混说、方言口音覆盖,并将流式识别模型的首字降低到 160ms。

开源

  • Fun-CosyVoice3(0.5B)开源:提供 zero-shot 音色克隆能力,支持本地部署与二次开发;

  • Fun-ASR-Nano(0.8B)开源:Fun-ASR 的轻量化版本,推理成本更低,模型开源,支持本地部署与定制化微调。

AI在线从官方获悉,本次,Fun-CosyVoice3 大模型完成多项关键升级:

  • 首包延迟降低 50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时场景;

  • 中英混说词错误率(WER)相比之前降低 56.4%,不论是含专业术语、大小写混排,还是语码转换的句子,都能精准、自然地发音;

  • 在 zero-shot TTS 评测中,内容一致性与音色相似度全面提升,复杂场景(test-hard)字符错误率(CER)相对降低 26%,接近人类录音水平;

  • 9 种通用语言、18 种中文方言、9 种情感控制,并具备跨语种音色复刻能力 —— 用一段普通话录音,即可生成粤语、日语、英语等语音,音色保持高度一致。

而开源的 Fun-CosyVoice3-0.5B 模型提供了 zero-shot 音色克隆能力,只需要你提供一段 3 秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。

Fun-ASR 号称能让 AI  “听得懂”。其基于数千万小时真实语音数据训练,已在钉钉“AI 听记”、视频会议等场景中大规模落地。官方表示,该模型重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字降低到 160ms。

图片

Fun-CosyVoice3-0.5B 开源地址:

  • https://github.com/FunAudioLLM/CosyVoice(GitHub)

  • https://funaudiollm.github.io/cosyvoice3/(GitHub.io)

  • https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验 demo)

  • https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)

  • https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)

Fun-ASR-Nano-0.8B 开源地址:

  • https://github.com/FunAudioLLM/Fun-ASR(GitHub)

  • https://funaudiollm.github.io/funasr/(GitHub.io)

  • https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验 demo)

  • https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验 demo)

  • https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)

  • https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)

相关资讯

百度端到端语音语言大模型发布,成本宣称最高降 90%

百度发布首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,宣布实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。
3/31/2025 4:34:27 PM
汪淼

​阿里推出新语音模型“百聆”:三秒录音实现多语言与情感切换

阿里巴巴通义大模型宣布,其 “百聆” 系列语音模型迎来了重大升级,并正式开源。 此次更新的两款语音模型,能够在仅需三秒的录音后,实现无缝切换至多达九种语言和十八种方言,包括普通话、粤语、日语、英语等,同时还可以模拟多种情感如开心和愤怒。 在这次升级中,Fun-CosyVoice3模型得到了显著改善。
12/15/2025 6:01:08 PM
AI在线

阿里通义发布最新模型Qwen3-235B-A22B-Instruct-2507-FP8,AI 技术再升级!

阿里通义千问近期宣布了其旗舰产品 Qwen3模型的最新更新,推出了一个名为 Qwen3-235B-A22B-Instruct-2507-FP8的新版本。 这一新版本的亮点在于它采用了非思考模式(Non-thinking),并且大幅提升了长文本处理的能力,扩展到256K 的文本长度。 这一升级无疑将大幅提升模型的应用潜力,特别是在需要处理大量信息的场景中。
7/22/2025 11:02:53 AM
AI在线