嘿,大家好!这里是一个专注于前沿AI和智能体的频道~
昨晚,Sam炒作了一个月的GPT-5正式发布了!
单纯卷参数和跑分的时代过去了,真正开箱即用的原生Agent时代,开始到来了。
体验了一上午,先一句话概括一下:
GPT‑5 把思考内置为默认能力,确实是显著压低了幻觉,指令遵循与长上下文推理全面拔高;但在“首字延迟/吞吐”和“大上下文”上,Google 依旧强势。Anthropic 则稳在“精细编辑/极低TTFB”的差异位。
官方数据总结:https://openai.com/gpt-5/
- 模型系列:gpt‑5 / gpt‑5‑mini / gpt‑5‑nano
- 内置 Thinking 模式:复杂任务自动切到“更深推理”
- 幻觉率下降:相对 GPT‑4o 约 −45%,相对 o3 约 −80%(启用思考时)
- 指令遵循和多步骤任务显著提升;多模态读图、表格/图表理解更稳
- 安全:引入“safe completions”范式,降低错误拒绝与隐性欺骗
- 价格(API,$/1M tok):输入 1.25 / 输出 10;上下文最大 400k
快速上手:4 个细节(以 Cursor/工程场景为准)
- 细节1:思考粒度更“工程化”在跨文件重构 + 集成测试场景,GPT‑5 的“思考”有明显的段落化与收敛动作,回溯与自检更积极,减少了“跑偏后还在编”的时间浪费。
- 细节2:工具调用更“激进”,成功率↑、成本也↑在同等任务下,GPT‑5 倾向触发更多次工具/终端/读写(Reddit也有类似讨论),能更快覆盖依赖与配置,但请求计费与时延也会被抬高。需要策略限流。
- 细节3:大体量阅读,Gemini 更像“高速批处理”读取 30w+ token 的混合仓库+技术方案时,Gemini 的吞吐和端到端时间更稳,适合“先读透再动刀”的工作流。GPT‑5 在读大上下文后做“长链路推理/制定变更计划”的表现更强。
- 细节4:首问对话体验,Claude 最丝滑做“快速试错、小步快跑”的交互时,Claude 的极低 TTFB 让“来回打磨”舒服得多,但要控制其“过度铺垫/生成多余脚手架”的倾向。
御三家路线分化
OpenAI(GPT‑5):把“思考”与“工具用法”做成系统能力,服务 Agent 工作流(研究、编写、调试、流程编排),在长上下文推理、指令遵循、数学与科学问答上强势。
Google(Gemini 2.5 Pro):押注极大上下文(1M)与原生多模态,吞吐更快、端到端响应更稳,读取超大代码库/文档时体验最佳。
Anthropic(Claude 4 Sonnet/Opus):极低首字延迟,细腻编辑与“合宪式”理由化;在真实工程里的“多文件精修、审阅、规则一致性”口碑稳。
我整理了一份关键的对比图,不同任务御三家差异明显;请结合真实场景做具体测试!
维度 | GPT‑5 (high) | Gemini 2.5 Pro | Claude 4 Sonnet (Thinking) |
上下文 | 400k | 1M | 200k |
定价($/1M tok) | In 1.25 / Out 10 | In 1.25 / Out 10(≤200k) | In 3 / Out 15 |
AIME 2025 | 94% | 88% | 74% |
GPQA Diamond | 85% | 84% | 78% |
指令遵循(IFBench) | 73% | 49% | 55% |
长上下文推理(AA‑LCR) | 76% | 66% | 65% |
代码(LiveCodeBench) | 67% | 80% | 66% |
首字延迟(TTFB) | 较高 | 中等 | 极低(≈0.9s) |
吞吐(tok/s) | 中 | 高 | 低 |
三条反常识判断
不是谁分高用谁 你的瓶颈如果在“上下文吞吐/端到端时延”,Gemini 可能更香;如果在“跨步骤决策与自检”,GPT‑5 更稳。
低幻觉≠全可信 GPT‑5 在事实约束下确实稳,但一旦给模糊目标,它会主动补全“合理但未证”的步骤。
“思考越多越好”是错的 长思考常常提高质量,但会放大成本与时延。工程里应按任务颗粒度“自适应思考深度”。
最后
AI上半场,我们惊叹于模型的能力,思考如何写好每一个Prompt。
下半场,我们需要适应这些强大的“原生Agent”,思考如何为Agent设计好目标、工具和工作流。
AI一年,人间十年!