AI在线 AI在线

阿里通义Fun-ASR语音模型升级 垂直领域识别率跃升超15%

阿里通义正式推出新一代端到端语音识别大模型Fun-ASR,该模型通过强化上下文感知与高精度转写能力,在家装、保险等垂直行业场景中实现语音识别准确率超15%的突破性提升。 实测数据显示,保险行业准确率较前代提升18%,家装、畜牧等领域增幅达15%-20%。 作为大语言模型驱动的语音识别算法,Fun-ASR采用自研语音算法与Qwen3监督微调技术,结合前沿模型架构与文本模态对齐技术,在保持语言处理优势的同时,集成RAG检索增强方案,支持超1000个自定义热词导入。

阿里通义正式推出新一代端到端语音识别大模型Fun-ASR,该模型通过强化上下文感知与高精度转写能力,在家装、保险等垂直行业场景中实现语音识别准确率超15%的突破性提升。实测数据显示,保险行业准确率较前代提升18%,家装、畜牧等领域增幅达15%-20%。

作为大语言模型驱动的语音识别算法,Fun-ASR采用自研语音算法与Qwen3监督微调技术,结合前沿模型架构与文本模态对齐技术,在保持语言处理优势的同时,集成RAG检索增强方案,支持超1000个自定义热词导入。该功能可自动匹配音频中的领域热词、历史文档及上下文记录,显著优化特定场景下的关键词识别效果。

阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提升超15%

针对语音识别中的噪声干扰、语种混淆及生成幻觉等痛点,研发团队创新性引入强化学习(RL)技术,通过动态优化策略减少识别误差,系统稳定性与可靠性获实质性提升。值得关注的是,模型在四川话、粤语、闽南语等方言识别中表现优于同类产品,同时适应远场拾音、近场降噪等复杂声学环境,覆盖会议室、工位、超市、户外等多元场景。

训练数据层面,Fun-ASR基于上亿小时音频数据构建,深度融合互联网、科技、畜牧、汽车等十余个领域的专业术语库。这一数据优势使其在垂直行业识别中展现出显著优势,例如在畜牧行业可精准识别牲畜叫声与环境噪声中的关键指令。

阿里通义技术团队表示,Fun-ASR的进化标志着语音识别技术从通用场景向专业化、场景化深度渗透。随着模型在更多行业落地,其动态热词更新与多模态交互能力将进一步推动语音交互效率革新。

相关资讯

20万悬赏AI美妆!欧莱雅美妆科技黑客松2025重磅来袭

20万悬赏AI美妆!欧莱雅美妆科技黑客松2025重磅来袭

DeepSeek 的风甚至吹到了美妆区。 近日,一小红书博主跟足 DeepSeek 指示上妆,意外打造出「石矶娘娘」妆效,引发全网围观。 一场看似无厘头的跨界实验,实则揭示了美妆与科技源远流长的共生关系:经济史上的「口红效应」本质就是技术迭代与消费心理的精准契合,而今 AI 又在重构美妆逻辑。
3/12/2025 2:39:00 PM 机器之心
阿里通义开源语音交互大模型Fun-Audio-Chat-8B!超低延迟,能读懂情绪

阿里通义开源语音交互大模型Fun-Audio-Chat-8B!超低延迟,能读懂情绪

阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B,这款模型以超低延迟、自然流畅的语音交互为核心,标志着开源语音AI进入全新阶段。 它不仅能实时理解用户语音,还具备强大情感感知能力,性能直逼闭源巨头GPT-4o Audio和Gemini2.5Pro。 AIbase独家解读:Fun-Audio-Chat并非简单聊天工具,而是真正意义上的“AI语音伙伴”。
12/24/2025 4:06:46 PM AI在线
调查:超72% 的企业选择 AI 工具时最看重易用性

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM AI在线