AI在线 AI在线

GPT‑5深夜发布:模型之战结束,Agent之战开始!

嘿,大家好! 这里是一个专注于前沿AI和智能体的频道~昨晚,Sam炒作了一个月的GPT-5正式发布了! 单纯卷参数和跑分的时代过去了,真正开箱即用的原生Agent时代,开始到来了。

嘿,大家好!这里是一个专注于前沿AI和智能体的频道~

昨晚,Sam炒作了一个月的GPT-5正式发布了!

单纯卷参数和跑分的时代过去了,真正开箱即用的原生Agent时代,开始到来了。

体验了一上午,先一句话概括一下:

GPT‑5 把思考内置为默认能力,确实是显著压低了幻觉,指令遵循与长上下文推理全面拔高;但在“首字延迟/吞吐”和“大上下文”上,Google 依旧强势。Anthropic 则稳在“精细编辑/极低TTFB”的差异位。

官方数据总结:https://openai.com/gpt-5/

  • 模型系列:gpt‑5 / gpt‑5‑mini / gpt‑5‑nano
  • 内置 Thinking 模式:复杂任务自动切到“更深推理”
  • 幻觉率下降:相对 GPT‑4o 约 −45%,相对 o3 约 −80%(启用思考时)
  • 指令遵循和多步骤任务显著提升;多模态读图、表格/图表理解更稳
  • 安全:引入“safe completions”范式,降低错误拒绝与隐性欺骗
  • 价格(API,$/1M tok):输入 1.25 / 输出 10;上下文最大 400k

快速上手:4 个细节(以 Cursor/工程场景为准)

  • 细节1:思考粒度更“工程化”在跨文件重构 + 集成测试场景,GPT‑5 的“思考”有明显的段落化与收敛动作,回溯与自检更积极,减少了“跑偏后还在编”的时间浪费。
  • 细节2:工具调用更“激进”,成功率↑、成本也↑在同等任务下,GPT‑5 倾向触发更多次工具/终端/读写(Reddit也有类似讨论),能更快覆盖依赖与配置,但请求计费与时延也会被抬高。需要策略限流。
  • 细节3:大体量阅读,Gemini 更像“高速批处理”读取 30w+ token 的混合仓库+技术方案时,Gemini 的吞吐和端到端时间更稳,适合“先读透再动刀”的工作流。GPT‑5 在读大上下文后做“长链路推理/制定变更计划”的表现更强。
  • 细节4:首问对话体验,Claude 最丝滑做“快速试错、小步快跑”的交互时,Claude 的极低 TTFB 让“来回打磨”舒服得多,但要控制其“过度铺垫/生成多余脚手架”的倾向。

御三家路线分化

OpenAI(GPT‑5):把“思考”与“工具用法”做成系统能力,服务 Agent 工作流(研究、编写、调试、流程编排),在长上下文推理、指令遵循、数学与科学问答上强势。

Google(Gemini 2.5 Pro):押注极大上下文(1M)与原生多模态,吞吐更快、端到端响应更稳,读取超大代码库/文档时体验最佳。

Anthropic(Claude 4 Sonnet/Opus):极低首字延迟,细腻编辑与“合宪式”理由化;在真实工程里的“多文件精修、审阅、规则一致性”口碑稳。

我整理了一份关键的对比图,不同任务御三家差异明显;请结合真实场景做具体测试!

维度

GPT‑5 (high)

Gemini 2.5 Pro

Claude 4 Sonnet (Thinking)

上下文

400k

1M

200k

定价($/1M tok)

In 1.25 / Out 10

In 1.25 / Out 10(≤200k)

In 3 / Out 15

AIME 2025

94%

88%

74%

GPQA Diamond

85%

84%

78%

指令遵循(IFBench)

73%

49%

55%

长上下文推理(AA‑LCR)

76%

66%

65%

代码(LiveCodeBench)

67%

80%

66%

首字延迟(TTFB)

较高

中等

极低(≈0.9s)

吞吐(tok/s)

三条反常识判断

不是谁分高用谁  你的瓶颈如果在“上下文吞吐/端到端时延”,Gemini 可能更香;如果在“跨步骤决策与自检”,GPT‑5 更稳。

低幻觉≠全可信  GPT‑5 在事实约束下确实稳,但一旦给模糊目标,它会主动补全“合理但未证”的步骤。

“思考越多越好”是错的 长思考常常提高质量,但会放大成本与时延。工程里应按任务颗粒度“自适应思考深度”。

最后

AI上半场,我们惊叹于模型的能力,思考如何写好每一个Prompt。

下半场,我们需要适应这些强大的“原生Agent”,思考如何为Agent设计好目标、工具和工作流。

AI一年,人间十年!

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线

OpenAI发布GPT-4.1系列模型,编码与多模态能力全面升级

人工智能领域的竞争日趋白热化,OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉,OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。 这些模型在性能上全面超越现有GPT-4o及GPT-4o mini,尤其在编码、指令遵循和多模态能力上表现突出。
4/15/2025 10:01:37 AM
AI在线
  • 1