AI在线 AI在线

OpenAI 正式发布 o3-Pro 模型

近日,OpenAI 发布了两项重磅更新:一是将 o3 模型的价格下调 80%;二是推出了全新的 o3-Pro 模型。 o3-Pro 是目前 OpenAI 最强大的多模态推理模型,擅长分步思考,在编码、数学、科学、视觉感知等领域表现尤为出色,能够提供更可靠、更深入的推理能力。 o3 系列与 GPT-4 系列的区别GPT-4.x:支持文本与图片,但缺乏深度推理能力GPT-4o:在 GPT-4.x 基础上新增音频处理功能,“o” 即“omni”全能o3 / o3-Pro:专注于多模态推理的“思考型”模型,主要以文本推理为主,图像支持有限;o3-Pro 在此基础上投入更多算力,思考更充分,输出质量更高这些推理型模型可配合 ChatGPT 的全套工具——从网页搜索、文件分析(包括 Python 运行)、视觉输入判断,到部分场景下的图像生成,皆能灵活调用。

近日,OpenAI 发布了两项重磅更新:一是将 o3 模型的价格下调 80%;二是推出了全新的 o3-Pro 模型。

o3-Pro 是目前 OpenAI 最强大的多模态推理模型,擅长分步思考,在编码、数学、科学、视觉感知等领域表现尤为出色,能够提供更可靠、更深入的推理能力。

o3 系列与 GPT-4 系列的区别

  • GPT-4.x:支持文本与图片,但缺乏深度推理能力
  • GPT-4o:在 GPT-4.x 基础上新增音频处理功能,“o” 即“omni”全能
  • o3 / o3-Pro:专注于多模态推理的“思考型”模型,主要以文本推理为主,图像支持有限;o3-Pro 在此基础上投入更多算力,思考更充分,输出质量更高

这些推理型模型可配合 ChatGPT 的全套工具——从网页搜索、文件分析(包括 Python 运行)、视觉输入判断,到部分场景下的图像生成,皆能灵活调用。相比 o3,o3-Pro 凭借更高的计算预算,能持续提升答案的准确性与深度。

一、什么是 o3-Pro?

要理解 o3-Pro,必须先了解 o3 背后的技术思路。o3 属于 OpenAI 专门优化过的推理系列,与传统 GPT 系列不同:它不仅依赖海量互联网文本预训练,还融入了大规模强化学习(RL),通过「更多算力 ⇒ 更佳表现」的扩展定律,教会模型分步推理,而非单纯复述信息。

在 o3 的训练与推理过程中,OpenAI 发现,当给予模型更多计算预算时,其推理性能会持续攀升。基于这一规律,o3-Pro 便是在每次请求中分配了更高的算力与更长的运算时间,让模型「思考」得更透彻、更细致。

关键洞见:o3-Pro 并非全新架构,而是 o3 在推理预算上的「升配版」,同样遵循「算力越多,性能越好」的扩展规律。

二、基准测试:o3-Pro 对比 o3

在写作、编程和数据分析等多项评测中,o3-Pro 均以明显优势超越了 o3 和早期的 o 系列模型:

在编码、数学与科学题目的可靠性评估中,o3-Pro 的得分始终领先于前代模型:

在分步拆解复杂任务(尤其是多步骤编码或业务逻辑推理)时,o3-Pro 提供的计划和理由更加清晰详实,远胜 GPT-4o 或 4.1。

三、o3-Pro 的能力与局限

优势能力

  • 200K 上下文窗口,可处理超长对话与大规模输入
  • 100K 输出令牌(已能满足绝大多数长文生成需求)
  • 深度推理支持,分步思考、链式推理表现出色
  • 工具接入:可使用文件搜索、图像生成功能、MCP 多模态编程

尚未支持

  • 网页搜索、Code Interpreter、本地操作
  • ChatGPT 画布功能
  • 原生图像生成(仅限输入分析)

虽然部分用户希望更高的输出令牌上限(如 Google 已支持 1M),但 100K 对绝大多数结构化长文或状态管理场景足够;如果触顶,常见做法是让模型在达到上限后提示继续生成。

四、定价大幅下调

o3-Pro 定价(每 1M 输入/输出 Token):

  • 输入:$20
  • 输出:$80

相比已退役的 o1-Pro,价格降幅达 **87%**。但与基础 o3 相比,仍是后者的 10 倍成本。若应用场景对高并发或低延迟有更高要求,可优先考虑基础 o3 或 GPT-4.x;而对于深度推理或复杂 Agent 流程,o3-Pro 的价值更为明显。

五、如何获取 o3-Pro

  • ChatGPT Pro / Team 用户:已内置替换 o1-Pro
  • API 调用:开发者可直接接入 Responses API
  • Plus 订阅:可在 Playground 模型下拉列表中选择 o3-pro-2025-06-10

在 Playground 中,还能打开工具列表,接入文件搜索、图像生成功能、MCP 服务等,进一步提升模型实用性。

六、实测体验

示例 1:统计回答单词数

Prompt:请统计本次回答有多少个单词? o3-Pro 耗时约 34 秒给出准确结果;相比之下,GPT-4o 仅需 2 秒,说明简单任务可选用轻量模型。

示例 2:视觉输入误判

图片图片

Prompt:请数出此手势图标中的手指数量。

尽管输入图中为 6 根手指,o3-Pro 仍答出“5 根”,反映其视觉偏好与训练集中的常见模式一致,细节识别仍有提升空间。

示例 3:深度市场可行性评估

Prompt:评估在六个月内在欧洲市场推出新产品的可行性,考虑市场需求、竞争、法规和经济形势。 o3-Pro 用时约 1 分 39 秒,输出 2000+ 字详细分析,示例性地展示了其多因素、分步推理能力。

七、结语

对于深度推理与战略策划型应用,o3-Pro 的优势毋庸置疑;而大幅降价也让更多开发者能够承担得起这种高级模型。个人使用经验表明,o3 系列在编程与业务规划中表现最佳。未来,将持续关注 Google Gemini Ultra 等竞品动态,以评估更优性价比之选。

目前,期待 o3 能尽快在 Cursor 等编码工具中上线,届时可与 Claude 4 Sonnet、Opus、Gemini 2.5 Pro 并列对比。接下来的一周内将继续深度测试,若反馈稳定,或将提升订阅等级,在更多项目中广泛应用。

欢迎各位分享你的 o3-Pro 体验与心得,让我们共同见证深度推理模型的下一波进化!

相关资讯

OpenAI更新o3-mini模型,展示了给出答案的 “思维链”

近日,OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后,进行了重大更新,改变了 o3-mini 的回应方式。 现在,这款模型不仅能够回答用户的问题,还能展示其思考过程,为用户提供更多透明度。 这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步,使得 AI 工具的使用变得更加人性化。
2/7/2025 2:40:00 PM
AI在线

惊掉下巴!o3像是一个弥天大谎!基准构建者Epoch AI发长文认错曝猛料:OpenAI竟独家访问数据集,问题和答案可用来训练!

出品 | 51CTO技术栈(微信号:blog51cto)惊天大瓜来了! 去年年底OpenAI 推出o3推理,在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。 但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。
1/20/2025 1:37:16 PM

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来? Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。 就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。
1/20/2025 1:17:11 PM
  • 1