AI在线 AI在线

原生音频模型

硬刚 OpenAI:谷歌 Gemini2.5实时音频性能霸榜,函数调用准确率达71.5%

据 AIbase 报道,谷歌本周宣布为其原生音频模型 Gemini2.5Flash Native Audio 推出重大更新,旨在将 AI 交互从简单的“文本转语音”跨越到真正的拟人化实时交流。 此次更新的核心在于“原生”处理能力。 不同于传统 AI 需要先将语音转为文字再处理的繁琐流程,该模型能够直接感知声音中的语调、情感和停顿,从而实现更自然流畅的对话。
12/18/2025 10:16:46 AM
AI在线