微软正式发布 GPT-realtime 模型，主打更逼真语音与多模态输入

作者：AI在线 2025-09-05 10:17

微软正式宣布，其最新的语音转语音（S2S）模型 GPT-realtime 已在 Azure AI Foundry 平台上正式发布。这款新模型将微软在语音技术方面的多项改进整合到一个统一的产品中，其核心优势聚焦于自然的语言处理、卓越的音频质量以及更精准的指令跟随能力。开发者现在可以通过全新的 Real-time API 访问 GPT-realtime。

微软正式宣布，其最新的语音转语音（S2S）模型 GPT-realtime 已在 Azure AI Foundry 平台上正式发布。这款新模型将微软在语音技术方面的多项改进整合到一个统一的产品中，其核心优势聚焦于自然的语言处理、卓越的音频质量以及更精准的指令跟随能力。

开发者现在可以通过全新的 Real-time API 访问 GPT-realtime。该模型旨在提供更自然、富有表现力的语音输出和更高质量的音频体验。作为此次发布的一部分，微软还推出了两种全新的语音选项——Marin 和 Cedar，旨在为用户带来逼真且清晰的语音合成效果。

微软在公告中强调了新模型的几项关键改进，包括增强的功能调用能力、更高的指令执行准确性，以及创新的图像输入支持。这项新功能允许用户在语音对话中加入图像并进行讨论，从而实现多模态交互，而无需依赖视频流。

除了技术层面的升级，微软还对定价模型进行了调整。与之前的 gpt-4o-realtime 预览版本相比，正式版的 gpt-realtime 价格降低了20%，成本将依据每百万代币（token）的使用量进行计算。

此次发布标志着微软正致力于为广大开发者和企业扩展其实时 AI 能力。通过将富有表现力的语音合成、高质量音频和多模态输入相结合，GPT-realtime 有望为从高级客户支持系统到创新的辅助功能工具等广泛的应用场景提供强大的技术支持。

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。

3/21/2025 9:01:00 AM AI在线

OpenAI发布GPT-4.1系列模型：能力全面超越前代

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本处理等方面实现重大突破，全面超越前代 GPT-4o 及 GPT-4o mini。其中，模型上下文窗口扩展至100万 tokens，知识库更新至2024年6月，为复杂任务提供更强支持。

4/15/2025 9:00:45 AM AI在线

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级

人工智能领域的竞争日趋白热化，OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉，OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。这些模型在性能上全面超越现有GPT-4o及GPT-4o mini，尤其在编码、指令遵循和多模态能力上表现突出。

4/15/2025 10:01:37 AM AI在线

微软正式发布 GPT-realtime 模型，主打更逼真语音与多模态输入

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级