AI在线 AI在线

GPT-5发布即翻车!奥特曼深夜承认:图表出错,模型变笨。用户只想用回GPT-4o

OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。 据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。 然而,就在发布后的不到24小时内,OpenAI首席执行官山姆·奥特曼就不得不面对现实。

OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。

据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。

然而,就在发布后的不到24小时内,OpenAI首席执行官山姆·奥特曼就不得不面对现实。

图片图片

他在Reddit的AMA问答和X平台的回应中承认,这次发布过程问题频发,远比预期更坎坷

核心问题之一来自新上线的自动“路由器”功能。这套系统会在用户发出指令后,自动将请求分配给GPT-5的四个变体之一:gpt-5-main / gpt-5-main-mini 与 gpt-5-thinking / gpt-5-thinking-mini,并在复杂任务中触发“思考模式”。

图片图片

API 还有 gpt-5-thinking-nano;ChatGPT 里有一种并行推理设置称 gpt-5-thinking-pro。

理论上,这能让用户始终得到最匹配的计算能力。但在发布当日,核心的自动切换功能宕机了数小时,导致大量用户接入的模型并非预期版本,体验直接“降级”。这让GPT-5在不少用户眼中“显得很笨”。

更糟的是,OpenAI在直播发布会中展示的性能图表出现明显错误。

图像图像

比如这个52.8大于69.1等于30.8

奥特曼解释称,这是由于团队成员工作至深夜,极度疲惫之下出现的“人为失误”。他补充说明,尽管直播出现差错,但配套发布的博客文章和系统卡片中的数据是准确的。

用户界面的变化也引发混乱。新版ChatGPT中,一些用户发现无法再选择旧的GPT-4o,这让很多依赖其稳定性的长期订阅者(包括小编)措手不及。

面对大量投诉,OpenAI紧急调整策略,宣布ChatGPT Plus用户可继续使用GPT-4o,以便公司在收集更多性能对比数据后再决定下一步。

图片图片

奥特曼在Reddit上回应称,公司会在未来的更新中提高模型切换的透明度,并允许用户手动触发“思考模式”,而不是完全依赖后台判断。他承认,用户体验被忽视是此次发布的一个严重问题。

1.真实体验与官方宣传落差

按照OpenAI的内部测试结果,GPT-5在各项基准上领先于市面上其他大模型。但当真实用户开始大规模使用时,这些光鲜的数字迅速被质疑。

上线后的第一天,社交平台上充斥着用户吐槽GPT-5在数学、逻辑、编程等基础任务上的低级错误。一位推特网名为Colin Fraser分享了截图:当被问到“8.888循环是否等于9”时,GPT-5给出了错误答案。另一位用户在测试方程“5.9 = x + 5.11”时,同样收到了错误解答。

图片图片

一些用户在数学文字题中发现,GPT-5要么计算错误,要么无法理解题意。而在代码调试中,它甚至无法正确修复自己制作的演示文稿图表的错误数据。

在开发者圈子里,批评声音同样密集。

多位程序员对比发现,GPT-5在“一次性”完成特定编程任务的能力,反而落后于竞争对手Anthropic的Claude Opus 4.1。这种差距不仅存在于复杂推理任务,甚至在简单的脚本编写中也能明显感知。

安全领域的反馈更让人担忧。

网络安全公司SPLX测试后指出,GPT-5依旧容易受到提示注入(Prompt Injection)和混淆逻辑攻击。这意味着,攻击者仍有机会通过巧妙构造的输入绕过安全限制,获得敏感信息或让模型执行非预期操作。

图片图片

显然,我们未预料到,OpenAI会在未充分征得用户同意的情况下直接替换旧版本,并且在性能尚未稳定的情况下全面推送新模型。

2.庞大用户量带来的压力与竞争

尽管GPT-5的首日表现不尽如人意,OpenAI依然拥有令人难以忽视的规模优势。ChatGPT的周活跃用户已达到7亿,远超其他生成式AI平台。

奥特曼透露,GPT-5上线仅24小时内,API调用量就翻倍,直接给后台带来了额外压力。这种激增在一定程度上加剧了平台的不稳定,也让运维团队调整限额与路由以稳定体验。

为了安抚高付费用户,OpenAI宣布将ChatGPT Plus的调用速率限制提升一倍,并承诺持续优化基础设施,确保在高峰时段也能稳定响应。同时,公司正在收集用户在不同版本上的交互数据,用于判断GPT-5在真实场景中的优劣势。

显然,OpenAI此刻面临的挑战,不仅是修复技术问题,还要重建用户对其产品节奏与决策流程的信任。如果GPT-5不能在接下来的几周内通过更新兑现“质的飞跃”的承诺,这次发布可能会被视为一次代价高昂的公关失误。

reddit:

https://www.reddit.com/r/ChatGPT/comments/1mkae1l/gpt5_ama_with_openais_sam_altman_and_some_of_the/?q=%E2%80%9CPeople+were+working+late+and+were+very+tired%2C+and+human+error+got+in+the+way.+A+lot+comes+together+for+a+livestream+in+the+last+hours.%E2%80%9D&type=comments&cId=3ba2c830-41e3-426f-829a-fd7fcc5ce27b&iId=aa80770e-1c54-4e68-83b3-c787514a0947

相关资讯

GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板

近来风头正盛的GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。 当GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个关键问题浮出水面:多模态大模型(MLLMs)的“创造力天花板”究竟在哪里? 写一篇基于图片的短篇小说、分析一张复杂的教学课件、甚至设计一份用户界面……这些对于人类驾轻就熟的任务,对于现有的部分多模态大模型却往往是“高难动作”。
4/7/2025 2:33:00 AM

GPT-5「全家桶」爆出本周上线!惊艳首测秒出网页,编程彻底起飞

传闻称,GPT-5的发布时间提前了,预计在本月底面世。 图片网友爆料,GPT-5共有4个版本:GPT-5-pro(zenith)  GPT-5-high(summit)  GPT-5-mini  GPT-5-nano(starfish)图片周六,网友们提前放出了一些,OpenAI开源模型——代号为「lobster」的实测。 图片今天,更多关于GPT-5多个版本惊艳demo公开了。
7/28/2025 6:07:12 PM
新智元

全网疯传GPT-5泄露!首次统一GPT和o系列,编程实测demo抢先曝光,下周发布?

GPT-5这回是真的要来了。 现在,全网都在“偶遇”GPT-5。 不仅是ChatGPT上有踪迹:图片而且在MacOS应用的模型列表中也发现了GPT-5。
7/31/2025 4:04:23 PM
  • 1