GPT-5 发布速记:
刚看完GPT-5发布会,我对GPT-5整体感觉都已经在标题里了。
整个发布会一上来就出现多个错误图片,瞬间刷爆整个网络。
而Sam Altman 一直在发推说GPT-5有多好,比如代码能力远超vibecoding的范围。
市场对GPT-5比较失望,OpenAI在polymarket惨败。
专家认为:GPT-5开发过于仓促,模型已经撞墙。
就像大家知道的那样GPT-5有三个型号,是一个包含快速回答、深度思考和智能路由器的统一系统,能自主判断问题难度,决定是秒回还是深度思考,也可以通过提示词引导它think hard about this。
所有人都可以免费访问,plus用量多一些,pro用户可以访问最多计算量。
GPT-5基础性能
可以这么说:
GPT-5 是没有推理能力的 o4.5,GPT-5-mini 是没有推理能力的 o4.5-mini。GPT-5-nano 本质上是 GPT-4.2。GPT-5-thinking 是带有少量推理能力的 o4.5。GPT-5-pro 是带有并行推理能力的 o4.5,而 o4.5 是带有推理能力的 GPT-4.5+。
GPT-5在ARC-AGI 1和ARC-AGI 2表现不佳,还不如Grok 4。
GPT-5在大模型竞技场排第一,这个看看就好了。
在人类最后的考试中就比ChatGPT Agent表现好一点,问题是ChatGPT Agent也比较鸡肋啊!
训练截止时间:2024年知识截止,这个真的很糟,看起来确实是人类产生的的数据不够了?不过OpenAI的研发人员说GPT-5证明了合成数据的有效。
400k 上下文窗口,符合预期。
非多模态输入。
GPT-5的幻觉症状明显改善,幻觉暴降80%。
GPT-5 定价
GPT-5最大的亮点可能是极具竞争力的价格,定价与谷歌的Gemini 2.5 pro持平了,这个要表扬一下了,毕竟谷歌推理用的自己的芯片。
GPT-5代码能力
OpenAI专门给开发者写了一个blog ,比较详细的说明了GPT-5代码能力,拉来了一大堆伙伴站台,比如cursor,windsurf,初步评价很猛,但是究竟与Claude 相比怎么样还是未知数。
cursor ceo评价:
GPT-5 是我们使用过的最智能的编码模型。我们的团队发现 GPT-5 非常智能,易于操控,甚至拥有我们在其他任何模型中都未曾见过的个性。它不仅能捕捉棘手、隐藏深层的 bug,还能运行长时间、多轮的后台代理,将复杂的任务进行到底——这类问题过去常常让其他模型陷入困境。它已经成为我们日常工作的驱动力,从范围界定和规划 PR,到完成端到端构建,无所不包。
Windsurf 工程主管评价:
GPT-5 在我们的内部评估中处于 SOTA 阶段,该评估衡量了模型在现实世界软件工程任务中的表现。我们还发现,该模型的工具调用错误率仅为其他前沿模型的一半。它始终能够以连贯、易懂的方式解决复杂任务。
具体的评估参数我就不放了,大家感兴趣可以去这里看:
https://openai.com/index/introducing-gpt-5-for-developers/
大家看后续测试吧,总结来说,感觉GPT-5是一个努力了很久的拼凑的模型,没有GPT-3到GPT-4的惊艳和震撼,更谈不上AGI。