AI在线 AI在线

Gemini2.5版本发布原生音频功能,AI 对话更加自然

在最近的开发更新中,谷歌更新了 Gemini2.5版本,标志着 AI 音频对话和生成技术的重大进步。 Gemini2.5是一个多模态的 AI 系统,能够原生理解和生成文本、图像、音频、视频和代码,提升了用户与 AI 的互动体验。 Gemini2.5的实时音频对话功能使得人机交流变得更加自然。

在最近的开发更新中,谷歌更新了 Gemini2.5版本,标志着 AI 音频对话和生成技术的重大进步。Gemini2.5是一个多模态的 AI 系统,能够原生理解和生成文本、图像、音频、视频和代码,提升了用户与 AI 的互动体验。

image.png

Gemini2.5的实时音频对话功能使得人机交流变得更加自然。人类的对话往往涉及语调、口音以及非语言的声音(如笑声),这些细节都能通过 Gemini 的音频生成技术得到体现。其低延迟的特点使得交流流畅自然,用户可以通过自然语言调整对话的风格,如选择不同的口音和语气,甚至可以选择耳语的方式进行交流。

实时音频对话

人类的对话丰富而细腻,表达的意义不仅依赖于说出的话,还体现在语气、口音及非语言的声音,如笑声。Gemini2.5旨在通过音频实现高效、实时的交流,其音频对话功能包括:

  • 自然对话 :提供高质量的语音交互,展现出适当的表现力和韵律,使得对话流畅自然,延迟极低。
  • 风格控制 :用户可以通过自然语言提示,自定义对话的语调、口音及情感表达,甚至可以进行耳语。
  • 工具集成 :在对话过程中,Gemini2.5可以调用工具和函数,实时获取来自 Google 搜索等源的信息,增强对话的实用性。
  • 对话上下文感知 :该系统能够识别并忽略背景噪声和无关对话,确保在适当时机作出响应。
  • 音视频理解 :支持实时音频和视频流,能够与用户讨论视频内容或屏幕共享的信息。
  • 多语言支持 :支持24种以上的语言,能够在同一对话中灵活切换语言。
  • 情感对话 :根据用户的语调做出反应,理解不同表达方式的情感差异。
  • 高级思维对话 :凭借推理能力,提升对话的连贯性与智能性,特别在复杂问题上表现更佳。

可控文本转语音技术

Gemini2.5的文本转语音(TTS)技术迎来了新突破,用户不仅可以生成自然的语音输出,还能对音频进行前所未有的控制。用户可以生成从短语到长篇叙述的内容,精确掌控风格、语调、情感和表现,所有这些均可通过自然语言提示进行调整。

  • 动态表现 :可对文本进行生动的朗读,适用于诗歌、新闻播报及故事讲述,支持特定情感和口音的演绎。
  • 速度与发音控制 :用户可以控制语音的速度,并确保特定词汇的准确发音。
  • 多说话人对话生成 :能够根据文本输入生成双人对话音频,使内容更具吸引力。
  • 多语言音频生成 :轻松生成多语言音频内容,支持24种语言。

在 Gemini2.5的开发过程中,谷歌对潜在风险进行了全面评估,并采取了相应的缓解策略。所有音频输出均嵌入了名为 SynthID 的水印技术,以确保 AI 生成音频的透明性和可识别性。

Gemini2.5为开发者提供了丰富的原生音频功能,允许他们通过 Google AI Studio 或 Vertex AI 的 Gemini API,构建更具互动性的应用。开发者可以在 Google AI Studio 的流选项卡中试用 Gemini2.5Flash 预览的原生音频对话,或选择可控的文本转语音生成,推动公告、故事、播客及视频游戏等应用的音频创新。

相关资讯

​谷歌发布全新推理 AI 模型 Gemini 2.5和Gemini 2.5 Pro实验版

近日,谷歌在开发者平台 Google AI Studio 及 Gemini 应用程序上发布了其最新的人工智能推理模型 ——Gemini2.5。 此模型具备停下来 “思考” 的能力,标志着人工智能技术的新进步。 谷歌还推出了 Gemini2.5Pro Experimental,这款多模式推理 AI 模型被认为是迄今为止最智能的。
3/26/2025 9:47:00 AM
AI在线

谷歌推出更新版 Gemini 2.5 Pro,AI 性能大幅提升

谷歌最近在其 AI 模型系列中迎来了重要更新。 继今年3月底推出 Gemini2.5Pro 模型后,谷歌紧接着在4月发布了更为轻量的 Gemini2.5Flash 版本。 虽然两者目前都处于预览阶段,但 Gemini2.5Flash 版本已经通过 Gemini App 向全球用户开放,用户可以体验其强大的功能。
6/6/2025 9:00:55 AM
AI在线

​谷歌内部测试新搜索 “AI 模式”,基于Gemini 2.0 技术

谷歌搜索正在进行一项新功能的内部测试,该功能被称为 “AI 模式”,旨在为用户提供一个可以提出更开放式和探索性问题的 “持久性空间”。 这一新体验基于谷歌的 Gemini2.0技术,目前已经在员工中进行测试。 根据内部邮件的描述,“AI 模式” 将智能搜索能力提升到一个新的水平,帮助用户整理信息,以便轻松消化,并提供链接以探索网络上的相关内容。
2/6/2025 11:48:00 AM
AI在线
  • 1