AI在线 AI在线

Hume AI重磅发布EVI 3:懂你情绪的语音AI,比GPT-4o还快!

近日,Hume AI正式发布了其第三代语音交互模型EVI3,这一全新语音AI以其卓越的情感理解能力和个性化交互体验引发业界广泛关注。 EVI3不仅能精准识别用户语音中的情绪,还能根据用户喜好生成特定风格的声音和个性,标志着语音AI在情感交互和自然沟通领域的重大突破。 以下,AIbase为您带来关于EVI3的最新资讯和深度解析。

近日,Hume AI正式发布了其第三代语音交互模型EVI3,这一全新语音AI以其卓越的情感理解能力和个性化交互体验引发业界广泛关注。EVI3不仅能精准识别用户语音中的情绪,还能根据用户喜好生成特定风格的声音和个性,标志着语音AI在情感交互和自然沟通领域的重大突破。以下,AIbase为您带来关于EVI3的最新资讯和深度解析。

image.png

体验地址:https://demo.hume.ai/

EVI3:情感智能与语音交互的完美融合

EVI3是Hume AI基于多模态数据集研发的第三代语音语言模型,集语音转录、推理和语音合成于一体。相较于前代模型,EVI3在情感理解、语音表达的自然度和个性化定制方面实现了质的飞跃。据官方介绍,该模型能够通过用户输入的简单文本提示,在不到一秒的时间内生成全新的声音和人格设定,支持超过30种复杂的语音风格,赋予AI独特的“性格”或“情绪”。

例如,用户可以通过描述生成“老派喜剧演员”或“睿智巫师”等多样化角色声音,EVI3不仅能精准模仿指定风格,还能根据对话情境动态调整语气和表达方式。这种高度个性化的交互体验,让EVI3在客户服务、虚拟助手、内容创作等场景中展现出巨大潜力。

超低延迟与智能响应:技术性能全面领先

EVI3的推理延迟低至300毫秒,响应速度显著优于OpenAI的GPT-4o,接近新兴技术Sesame,并远超Google的Gemini。在包含1,720名参与者的盲测中,EVI3在情感表达、自然度、语音质量、响应速度、打断处理等七个维度上均超越了GPT-4o,展现出无与伦比的性能优势。

更令人瞩目的是,EVI3能够在对话中实时进行搜索、推理和智能回答。例如,用户在与AI交谈时,EVI3可以一边“倾听”用户语音,一边调用外部工具获取信息,并在对话中无缝融入答案,极大提升了交互的流畅性和实用性。这种端到端的语音处理能力,使得EVI3成为当前语音AI领域的标杆。

情感识别:让AI更懂人类

EVI3的另一大亮点是其强大的情感识别能力。通过分析用户语音的音调、节奏和音色,EVI3能够精准捕捉用户的情绪状态,并据此调整自身的回应语气,营造出更自然、共情的人机交互体验。相比传统语音助手,EVI3在情感表达上的细腻程度更胜一筹,能够模拟人类对话中的停顿、语气变化甚至“umm”等自然口语习惯。

Hume AI表示,EVI3通过强化学习技术对音高、语速和情感风格进行了优化,训练数据涵盖了超过10万个语音样本。这种独特的多模态训练方法,使得EVI3能够从海量数据中提取人类语音的细微特征,从而生成更真实、更具感染力的语音表达。

多场景应用:从客服到内容创作的无限可能

EVI3现已通过Hume AI的iOS应用和在线演示平台向用户开放体验,API接口也将在未来几周内推出,供开发者集成到各类应用中。无论是用于客户服务、健康教练、沉浸式故事叙述,还是虚拟伴侣,EVI3都能提供高度个性化和情感化的交互体验。

例如,在客户服务场景中,EVI3能够根据用户的情绪状态调整语气,提供更贴心的回应;在内容创作领域,创作者可以利用EVI3生成定制化的有声书或游戏角色配音,极大地丰富了创作可能性。Hume AI还计划进一步优化EVI3的多语言能力,未来将更熟练地支持法语、德语、意大利语和西班牙语等语言,拓展全球市场。

Hume AI的愿景:以情感驱动AI未来

Hume AI由前DeepMind研究员Alan Cowen于2021年创立,致力于打造以人类情感和福祉为核心的AI技术。EVI3的发布是Hume AI实现其愿景的重要一步。官方表示,到2025年底,Hume AI的目标是打造一个完全个性化的语音AI体验,让语音交互成为人与AI沟通的主要方式。

相较于OpenAI和Anthropic等巨头专注于提升模型的通用智能,Hume AI更注重语音AI的真实感和情感共鸣。EVI3通过自然语言定制工具,让用户无需复杂的技术操作即可创建专属AI声音,这种用户友好的设计有望推动语音AI的普及和应用。

EVI3的发布无疑为语音AI领域注入了新的活力。其在情感识别、低延迟响应和个性化定制方面的突破,不仅挑战了现有语音AI模型的性能极限,也为未来的AI交互方式指明了方向。AIbase认为,EVI3的出现标志着语音AI从机械化的语音助手向真正“懂你”的智能伙伴迈出了关键一步。

相关资讯

Hume发布语音语言模型Hume EVI3:低延迟、高情感

Hume公司于2025年5月29日正式发布全新语音语言模型EVI3,这一创新标志着通用语音智能领域的重大飞跃。 相较于传统文本到语音(TTS)模型,EVI3不仅能够理解和生成任意人类语音,还能精准捕捉语调、节奏和情感表达,展现出前所未有的语音表现力。 得益于其先进的语音到语音架构,EVI3在保持低延迟的同时,具备与前沿大语言模型相当的智能水平,为用户带来更自然、更高效的交互体验。
5/30/2025 10:01:19 AM
AI在线

​微软 Edge 浏览器推出免费 Copilot Vision 功能,AI 助手实时解读屏幕内容

近日,微软在其 Edge 浏览器中免费上线了全新的 AI 助手功能 “Copilot Vision”。 这一功能的推出为用户提供了更为智能的操作体验,让用户可以通过语音与 AI 助手进行互动,实时解读屏幕内容,帮助用户完成各项任务。 根据微软人工智能首席执行官穆斯塔法・苏莱曼的介绍,Copilot Vision 是一种基于语音的助手功能。
4/17/2025 11:01:15 AM
AI在线

Kyutai Unmute 发布!10秒定制语音,AI对话进入超低延迟时代!

法国 AI 实验室 Kyutai 近日推出了一款革命性的语音 AI 系统 Unmute,为文本大语言模型(LLM)赋予了强大的语音交互能力。 这款高度模块化的语音模型以其智能对话、超低延迟和个性化定制功能引发业界热议。 AIbase 综合整理最新信息,带您深入了解 Unmute 的技术突破与应用前景。
5/27/2025 11:01:20 AM
AI在线
  • 1