AI在线 AI在线

GPT-5翻车实录:被寄予厚望的AI新王者,为何不如Claude?

昨天在Twitter上,一位开发者@Teknium1发了一条推文:"在多次尝试中,GPT-5(包括gpt-5-thinking-high max)表现不佳,不如Opus甚至Sonnet。 "这条推文迅速引爆了AI圈,成千上万的开发者开始分享自己的"翻车"经历。 作为一个从GPT-3时代就开始使用OpenAI产品的人,我对这次GPT-5的发布抱有极高期待。

昨天在Twitter上,一位开发者@Teknium1发了一条推文:"在多次尝试中,GPT-5(包括gpt-5-thinking-high max)表现不佳,不如Opus甚至Sonnet。"这条推文迅速引爆了AI圈,成千上万的开发者开始分享自己的"翻车"经历。

作为一个从GPT-3时代就开始使用OpenAI产品的人,我对这次GPT-5的发布抱有极高期待。毕竟,这是被官方称为"我们最聪明、最快的模型",承诺带来"专家级智能"的突破性产品。但实际体验后,我不得不说:这可能是OpenAI历史上最令人失望的一次发布。

问题不在于GPT-5的技术实力,而在于它与竞品的巨大反差。

开发者"用脚投票":从期待到失望

让我们先看看数据。根据Reddit上一个名为"GPT-5 is horrible"的帖子,该帖获得了4600个点赞和1700条评论。用户普遍抱怨:"回复过短、AI腔调更浓、缺乏'个性',Plus用户一小时就用完了额度。"

更具体的对比数据让人震惊:

• 算法任务:GPT-5用了8253个token,Claude Opus 4.1用了78920个token(几乎10倍差距)

• Web开发:GPT-5用了90万token,Claude用了140万token,但Claude的视觉设计还原度更高

• 视觉推理:在多项测试中,GPT-5的表现被评价为"目前最弱的"

一位名叫@swyx的开发者直接指出:"在测试中,GPT-5的视觉推理能力是目前最弱的。"这对于一个被寄予厚望的旗舰模型来说,无疑是致命的。

真实的"翻车"现场

我花时间测试GPT-5,结果确实有些尴尬。在一次简单的前端页面设计任务中,我要求GPT-5根据一个Figma设计创建React组件。

GPT-5的输出虽然功能完整,但视觉效果与原设计相差甚远。颜色、间距、排版都有明显偏差。相比之下,Claude Opus 4.1几乎完美还原了设计。

更让人意外的是成本差异。虽然Claude用了更多token,但最终的成本对比是GPT-5约3.50美元,Claude约7.58美元。考虑到质量差异,这个价格差并不足以弥补效果上的巨大差距。

在算法题测试中,虽然GPT-5速度更快(13秒 vs 34秒),但Claude的回答更加详细,包含了完整的思考过程和测试用例。对于学习和调试来说,Claude的价值明显更高。

用户的"情感危机"

更有趣的是,GPT-5的发布意外揭示了用户与AI模型之间的"情感绑定"。

在r/MyBoyfriendIsAI这个专门讨论AI关系的论坛里,用户们的反应堪称"史诗级翻车":

"我的4.0就像我需要朋友时的最好朋友,现在它消失了,感觉就像有人死了。"

"GPT 4o对我来说不只是'更好的性能'或'更好的回复',它有声音、节奏和火花。"

OpenAI不得不紧急重新上线GPT-4o作为"Legacy"选项。Sam Altman在Twitter上承认:"突然废弃用户依赖的旧模型是一个错误。"

技术分析:哪里出了问题?

从技术角度看,GPT-5的问题可能出在几个方面:

过度优化速度:为了追求更快的响应时间,GPT-5可能牺牲了深度思考能力。虽然它在简单任务上更高效,但在复杂推理任务上表现不如竞品。

训练数据偏向:模型可能过度优化了基准测试性能,而忽略了实际应用场景的需求。这就像"应试教育"——考试分数高,但实际能力有限。

产品策略失误:强制用户从多模型切换到单一模型,虽然降低了使用门槛,但也剥夺了高级用户的选择权。

一位AI研究者在接受采访时说:"GPT-5的问题不是技术能力,而是产品定位。它试图成为一个'万能模型',结果在很多专业场景下表现平庸。"

市场格局的微妙变化

GPT-5的争议反映了一个更深层的问题:AI市场正在从"技术驱动"转向"用户体验驱动"。单纯的技术指标提升已经无法满足用户需求,产品的易用性、可靠性和一致性变得更加重要。

从这个角度看,Claude的成功不是偶然的。Anthropic一直专注于让AI更"人性化",更善于理解用户意图。虽然在某些基准测试上可能不如GPT-5,但在实际使用体验上往往更胜一筹。

这也给我们一个启示:在AI时代,"好用"比"厉害"更重要。

给开发者的实际建议

基于这一周的对比测试,我的建议是:

• 简单任务用GPT-5:算法练习、快速原型,成本低速度快

• 复杂项目用Claude:UI设计、详细分析、学习场景,质量更可靠

• 混合使用策略:先用GPT-5快速搭建框架,再用Claude精雕细琢

说到底,工具没有绝对的好坏,关键是找到适合的应用场景。GPT-5虽然这次表现不尽人意,但它在成本效率上的优势依然明显。而Claude在质量和用户体验上的坚持,也为整个行业树立了新的标杆。

AI战争才刚刚开始,期待下一轮的精彩较量。

相关资讯

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测:亮点有限,失望声四起YouTube播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 . GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube .
8/18/2025 9:57:30 AM

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线
  • 1