AI在线 AI在线

阿里通义开源语音交互大模型Fun-Audio-Chat-8B!超低延迟,能读懂情绪

阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B,这款模型以超低延迟、自然流畅的语音交互为核心,标志着开源语音AI进入全新阶段。 它不仅能实时理解用户语音,还具备强大情感感知能力,性能直逼闭源巨头GPT-4o Audio和Gemini2.5Pro。 AIbase独家解读:Fun-Audio-Chat并非简单聊天工具,而是真正意义上的“AI语音伙伴”。

阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B,这款模型以超低延迟、自然流畅的语音交互为核心,标志着开源语音AI进入全新阶段。它不仅能实时理解用户语音,还具备强大情感感知能力,性能直逼闭源巨头GPT-4o Audio和Gemini2.5Pro。AIbase独家解读:Fun-Audio-Chat并非简单聊天工具,而是真正意义上的“AI语音伙伴”。

image.png

用户只需开口说话,模型就能即时理解、思考并以自然语音回应,彻底摆脱传统ASR+LLM+TTS多模块拼接的延迟痛点,实现端到端Speech-to-Speech(S2S)架构,交互体验更接近真人对话。核心技术亮点超低延迟与高效设计:采用创新双分辨率架构(5Hz共享主干+25Hz精细头部),GPU计算资源节省近50%,响应速度大幅提升,适合实时场景部署。

富有同理心的情感理解:模型能从语气、语速、停顿等细节感知用户情绪(如开心、疲惫或愤怒),即使未明确表达,也能给出贴心、共情的回应,让交互更人性化。

强大语音函数调用:支持Voice Function Calling,用户通过自然语音指令即可执行复杂任务,例如“帮我打开音乐”或“拨打电话”,真正实现“动口不动手”。

image.png

领先性能表现在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多项国际权威基准测试中,Fun-Audio-Chat-8B同尺寸模型排名第一,综合能力超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等开源竞品,部分指标已媲美或领先闭源顶级模型。丰富应用能力实时回答语音问题(如总结一段语音内容);

精准识别情绪、音色和命令;

支持多语言翻译、角色扮演;

模拟多种情感语音输出(如温柔、严肃、开心);

适用于情感陪伴、智能设备控制、语音客服等场景。

AIbase观点:此次开源包括完整8B模型权重、推理代码和Function Call示例,极大降低开发者门槛,推动语音AI生态快速发展。感兴趣的开发者可立即前往GitHub、Hugging Face或ModelScope下载体验,开启属于你的“高情商”语音AI时代!

项目地址:https://funaudiollm.github.io/funaudiochat/

相关资讯

​阿里推出新语音模型“百聆”:三秒录音实现多语言与情感切换

阿里巴巴通义大模型宣布,其 “百聆” 系列语音模型迎来了重大升级,并正式开源。 此次更新的两款语音模型,能够在仅需三秒的录音后,实现无缝切换至多达九种语言和十八种方言,包括普通话、粤语、日语、英语等,同时还可以模拟多种情感如开心和愤怒。 在这次升级中,Fun-CosyVoice3模型得到了显著改善。
12/15/2025 6:01:08 PM
AI在线

20万悬赏AI美妆!欧莱雅美妆科技黑客松2025重磅来袭

DeepSeek 的风甚至吹到了美妆区。 近日,一小红书博主跟足 DeepSeek 指示上妆,意外打造出「石矶娘娘」妆效,引发全网围观。 一场看似无厘头的跨界实验,实则揭示了美妆与科技源远流长的共生关系:经济史上的「口红效应」本质就是技术迭代与消费心理的精准契合,而今 AI 又在重构美妆逻辑。
3/12/2025 2:39:00 PM
机器之心

钉钉、通义实验室联合发布 Fun-ASR,新一代语音识别大模型亮相

钉钉与通义实验室语音团队今日宣布,双方联手推出新一代语音识别大模型 Fun-ASR。 这款模型旨在为企业用户提供更强大、更灵活的语音转写能力。 Fun-ASR 大模型具备多项核心优势。
8/22/2025 1:34:02 PM
AI在线