阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

作者：AI在线 2025-12-24 04:06

阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B，这款模型以超低延迟、自然流畅的语音交互为核心，标志着开源语音AI进入全新阶段。它不仅能实时理解用户语音，还具备强大情感感知能力，性能直逼闭源巨头GPT-4o Audio和Gemini2.5Pro。 AIbase独家解读:Fun-Audio-Chat并非简单聊天工具，而是真正意义上的“AI语音伙伴”。

阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B，这款模型以超低延迟、自然流畅的语音交互为核心，标志着开源语音AI进入全新阶段。它不仅能实时理解用户语音，还具备强大情感感知能力，性能直逼闭源巨头GPT-4o Audio和Gemini2.5Pro。AIbase独家解读:Fun-Audio-Chat并非简单聊天工具，而是真正意义上的“AI语音伙伴”。

用户只需开口说话，模型就能即时理解、思考并以自然语音回应，彻底摆脱传统ASR+LLM+TTS多模块拼接的延迟痛点，实现端到端Speech-to-Speech（S2S）架构，交互体验更接近真人对话。核心技术亮点超低延迟与高效设计:采用创新双分辨率架构(5Hz共享主干+25Hz精细头部)，GPU计算资源节省近50%，响应速度大幅提升，适合实时场景部署。

富有同理心的情感理解:模型能从语气、语速、停顿等细节感知用户情绪（如开心、疲惫或愤怒），即使未明确表达，也能给出贴心、共情的回应，让交互更人性化。

强大语音函数调用:支持Voice Function Calling，用户通过自然语音指令即可执行复杂任务，例如“帮我打开音乐”或“拨打电话”，真正实现“动口不动手”。

领先性能表现在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多项国际权威基准测试中，Fun-Audio-Chat-8B同尺寸模型排名第一，综合能力超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等开源竞品，部分指标已媲美或领先闭源顶级模型。丰富应用能力实时回答语音问题（如总结一段语音内容）;

精准识别情绪、音色和命令;

支持多语言翻译、角色扮演;

模拟多种情感语音输出（如温柔、严肃、开心）;

适用于情感陪伴、智能设备控制、语音客服等场景。

AIbase观点:此次开源包括完整8B模型权重、推理代码和Function Call示例，极大降低开发者门槛，推动语音AI生态快速发展。感兴趣的开发者可立即前往GitHub、Hugging Face或ModelScope下载体验，开启属于你的“高情商”语音AI时代!

项目地址：https://funaudiollm.github.io/funaudiochat/

阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

阿里巴巴通义大模型宣布，其 “百聆” 系列语音模型迎来了重大升级，并正式开源。此次更新的两款语音模型，能够在仅需三秒的录音后，实现无缝切换至多达九种语言和十八种方言，包括普通话、粤语、日语、英语等，同时还可以模拟多种情感如开心和愤怒。在这次升级中，Fun-CosyVoice3模型得到了显著改善。

12/15/2025 6:01:08 PM AI在线

20万悬赏AI美妆！欧莱雅美妆科技黑客松2025重磅来袭

DeepSeek 的风甚至吹到了美妆区。近日，一小红书博主跟足 DeepSeek 指示上妆，意外打造出「石矶娘娘」妆效，引发全网围观。一场看似无厘头的跨界实验，实则揭示了美妆与科技源远流长的共生关系：经济史上的「口红效应」本质就是技术迭代与消费心理的精准契合，而今 AI 又在重构美妆逻辑。

3/12/2025 2:39:00 PM 机器之心

钉钉、通义实验室联合发布 Fun-ASR，新一代语音识别大模型亮相

钉钉与通义实验室语音团队今日宣布，双方联手推出新一代语音识别大模型 Fun-ASR。这款模型旨在为企业用户提供更强大、更灵活的语音转写能力。 Fun-ASR 大模型具备多项核心优势。

8/22/2025 1:34:02 PM AI在线

阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

相关资讯

​阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换

20万悬赏AI美妆！欧莱雅美妆科技黑客松2025重磅来袭

钉钉、通义实验室联合发布 Fun-ASR，新一代语音识别大模型亮相

阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换