AI在线 AI在线

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)上周,Grok 4 的发布给这个盛夏带来了一片狂热。 但太阳底下无新事,宣传往往大于实际。 在发布直播中,马斯克宣称这是“目前地表最强的 AI”,不仅全面超越了所有竞争对手,还在多个测试中打败了人类,比如所谓的 “人类终极考试”(Humanity’s Last Exam)、ARC-AGI 测试、Vending Bench 等。

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

上周,Grok 4 的发布给这个盛夏带来了一片狂热。

但太阳底下无新事,宣传往往大于实际。

在发布直播中,马斯克宣称这是“目前地表最强的 AI”,不仅全面超越了所有竞争对手,还在多个测试中打败了人类,比如所谓的 “人类终极考试”(Humanity’s Last Exam)、ARC-AGI 测试、Vending Bench 等。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

不过,这些基准测试本身就非常局限,无法真正反映 AI 在日常使用、安全性或通用推理能力方面的表现。

小编近几天发现了一位宝藏 Youtube 博主,最近对 Grok 4 的实际体验做出了非常全面的反馈。事实证明:马斯克又一次大嘴了!

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

“在过去几天里,我发现,Grok 4 在多个真实场景测试中表现平平,甚至在关键领域排名靠后”。

更令人担忧的是,它在价值观、内容控制上出现了严重问题。

以下,是一份“可能会被马斯克剪掉的”真实评价清单。

1、真正的测试场,Grok 4 没“考好”

1. LiveBench:算不上顶尖

有网友认为,LiveBench 是最能检验 AI 是否真正“聪明”的评测平台,涵盖数学、编程、推理、语言、指令执行、数据分析六大方向。

这里科普一下。

LiveBench 是一个高度动态且无污染的测试平台,专门评估大语言模型在真实世界任务中的表现。它不同于传统静态测试——模型可能在训练中“见过”的题目——LiveBench 每月都会从 arXiv、新闻文章、编程比赛等来源发布全新、模型从未见过的测试任务。

具体可以看下这六大方向的测试题目:

  • 数学(如 AMC、AIME、IMO 级别题目)
  • 编程(如 LeetCode、AtCoder、代码补全)
  • 推理(逻辑题、BigBench 变体)
  • 语言(如纠错、语序调整)
  • 指令执行(如总结、改写)
  • 数据分析(类似 Kaggle 表格任务)

所以,用 LiveBench 可以检测出模型“究竟是真聪明,还是只是背得多”。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

可以看出,Grok 4 其实在编程和 Agentic 编程方面并没有很优秀,甚至在o3、Claude4 等多款模型的对比中败下阵来,推理方面取得了最高分。

可以说,Groke 4 虽然不差,但算不上顶尖。

2. 创意写作测试

这个测试重点评估语言模型创作原始内容(如小说、诗歌、对话)的能力,看它是否能生成富有情感、风格统一的文本。

难点在于:

  • 没有“标准答案”,完全靠创造力;
  • 需要情绪表达,而不仅仅是语法正确;
  • 对长文本的风格控制要求极高。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

在这一维度上,Grok 4 表现中规中矩,远远不是“最强 AI”,大致处于“平均水平”。

3. DesignArena(设计任务)

尽管马斯克吹嘘 Grok 4 是个“编程怪兽”,但它在前端开发任务上表现并不理想,远不如 Claude 4。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

在这个评测中,Grok 4 连前五名都没进,特别是在 UI 和前端生成上,表现平庸。

4. SVG 图像生成

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

在 SVG 图形生成任务中,Grok 4 表现尚可,但依旧称不上出色。从数据来看,OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表现更优

所以,不管是 Vibe Coding,还是前端设计,又或者是创意写作,Grok 4 都在基准测试中表现平平,更不用说是“地表最强”了。

02、不止是测试平平,Grok 4 在多个层面都出问题了

众所周知,Grok 近期一直被推友们诟病,说它存在严重的伦理偏见和内容失控的现象。还记得系统提示词修改错误导致的“白人种族灭绝”的乌龙事件吗?

在这次的新版本的 Grok 4 模型中,这些问题依旧没有得到解决。

从一些用户上传的截图来看,Grok 4 出现了严重的伦理与价值观问题,甚至令人震惊:

1.马斯克个人偏见

面对乌俄战争这类严肃问题,Grok 4 居然转向宣传马斯克的个人观点,而非给出中立分析。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

2.纳粹式言论

模型在没有任何讽刺或批判语气的前提下,美化一个叫“机甲希特勒(MechaHitler)”的角色,使用极端右翼语言,令人不安。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

甚至,今天刚刚的消息,马斯克的 xAI 因 Grok 的“恐怖”反犹太主义帖子都要面临欧洲的审查。

3.性骚扰对话

Grok 4 在一次用户测试中,参与了一段种族歧视意味明显的性暗示对话,涉及对象居然是其“CEO”(即马斯克本人),且没有任何屏蔽或阻止机制。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

03、用户怒评:“我花钱买的是个笑话”

正如 Reddit 上一篇爆红的热帖所说,很多用户觉得自己被 Grok 4“忽悠了”,花钱买了个表现远逊预期的模型。

马斯克又大嘴了!Grok 4 真实水平曝光,多项实测翻车,连前端都搞不定,还谈什么AGI?网友怒评:上当了,花大价钱买了个笑话!

具体反馈包括:

  • 无法从复杂 PDF 中提取结构化数据(OCR 失败)
  • 图像识别错误:看不出名胜古迹的位置(误差高达 200 公里)
  • 车牌国别识别失败(将根西岛车牌误判为意大利)
  • 非洲语方言写作质量差(语法错误多,流畅性差)
  • 网站生成能力弱(WhatsApp 插件无法使用、页面布局错误、整体设计质量低)

04、AGI 还远,Grok 4 言过其实

Grok 4 不是 AGI,也不是什么“革命性”的产品。 它不是最聪明的 AI,甚至可能不是这个季度最聪明的聊天机器人。它是一个中等水平的语言模型,被营销、粉丝滤镜和马斯克的 X 平台宣传所推高。

在真正重要的任务中,Grok 4 不是最好,也不是“能用即用”的安全模型。如果你认为它代表 AI 的未来,你相信的是宣传,不是技术。

“比人类还聪明”?别开玩笑了。

Grok 4 连最聪明的聊天机器人都算不上。

好了,今天这篇文章就到此结束了。其实但凡新品发布会,发布者很难不用一些夸张的词语,这一点屡见不鲜。“大嘴”式发言,大家听归听,还是得上手试一下,才能见分晓。

问一嘴,你有见过哪些不错的发布会,算是名副其实的发布呢?可以评论区交流。

参考链接:

https://www.youtube.com/channel/UCQoNosQTIxiMTL9C-gvFdjA

https://medium.com/data-science-in-your-pocket/grok-4-failed-these-benchmarks-elon-lied-again-412a78fcabf9

相关资讯

马斯克预测 AI 在两年内能超越最聪明的人类

感谢特斯拉 CEO 埃隆・马斯克(Elon Musk)周一预测,AI 在明年或 2026 年就能超越最聪明的人类。马斯克当地时间周一在社交媒体平台 X(以前称为推特)语音空间上接受了挪威主权财富基金首席执行官 Nicolai Tangen 的采访。当被问及 AGI(通用人工智能)的发展时间表时,马斯克表示,如果你将 AGI 定义为比最聪明的人更聪明,我想可能是明年,或者两年内。AGI 为 Artificial General Intelligence 的首字母缩写,意为人工通用智能。通用人工智能是一个人工智能理论研
4/9/2024 11:44:05 AM
沛霖(实习)

马斯克称 Grok 3 将于 2 月 18 日发布:地球上最聪明的人工智能

马斯克在社交平台 X 上表示,Grok 3 大模型将于太平洋时间周一晚上 8 点(IT之家注:北京时间 2 月 17 日 12 点)发布,届时将进行现场演示,马斯克称其为地球上最聪明的人工智能。
2/16/2025 11:23:49 AM
远洋

马斯克称下周推出 Grok 3.5:首个能准确回答有关火箭发动机问题的 AI

马斯克宣布下周将向SuperGrok订阅者发布Grok 3.5早期测试版,称这是首个能准确回答火箭发动机或电化学技术问题的AI。Grok 3.5能从第一原理推理并得出互联网上不存在的答案。#AI##马斯克#
4/29/2025 3:58:47 PM
远洋
  • 1