订阅费300刀，值吗？马斯克发布Grok 4登顶SOTA！一项突破上大分：训练阶段就教AI用工具！网友：地表最强AI回来了！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）马斯克，又双叒叕意料之中地迟到了。 Grok 4 原定的直播足足晚了一个小时，马老板终于姗姗来迟，开始了这场发布会。图片更加推迟上线的，则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布，让人有些小失望。

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

马斯克，又双叒叕意料之中地迟到了。

Grok 4 原定的直播足足晚了一个小时，马老板终于姗姗来迟，开始了这场发布会。

图片

更加推迟上线的，则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布，让人有些小失望。

不过，接下来的几个月，xAI 还将陆续推出一款多模态智能体，以及一款具备视频理解与生成能力的综合模型。可以说从7月到10月，Grok 4家族都持续有大动作出来，值得期待。

图片

回到这场直播，Grok 4 成为了绝对的主角。

本次共发布两款模型：

Grok 4
Grok 4 Heavy：xAI 称其为“多智能体版本”，多个 Grok 4 协同工作，性能进一步提升。

“Grok 4 是全球最强大的 AI 模型。”

马斯克在直播中说：“它在所有学科上的学术水平都超过博士，无一例外。如果到明年 Grok 还没发现点新的科学知识，我会感到很惊讶。”

Grok 4 Heavy 在列出的各项学术基准测试中全面登顶，拿下 SOTA。

图片

价格也拉开了差距：

普通版（Grok 4）为每月 30 美元
超大杯（Grok 4 Heavy）则高达每月 300 美元！

图片

整场直播的演示环节不像上次Grok 3的发布如此密集。

但仍然有些“整活”环节，让人印象十分深刻！首先，就是为了展示Grok的语音交互能力，直接在直播里“拉踩”了OpenAI的4o，从下面这个演示里可以看到Grok的助手“伊芙”反应更迅速、语气更自然。

订阅费300刀，值吗？马斯克发布Grok 4登顶SOTA！一项突破上大分：训练阶段就教AI用工具！网友：地表最强AI回来了！

而另一个点，则是此前Grok 3发布时马斯克就心心念念的AI手搓电子游戏。

到了Grok 4 AI已经做的非常像模像样了，马斯克预计明年就有成熟的大型游戏能跑出来：

图片

1.碾压一切的基准成绩——这不就是 AGI？

当 Grok 4 的基准成绩铺天盖地刷屏后，网友们几乎给出了统一的结论：

这不就略等于是 AGI了吗？

从官方发布的测试结果来看，Grok 4 在多个标杆级任务中全面碾压对手，毫无悬念地登顶各项榜单，成为当前最强的 SOTA 模型。

图片

比如在 AI 社区关注的 Artificial Analysis 综合测评中，Grok 从上代的 67 分，跃升至 73 分，实现了明显的跨代突破。

图片

而在ARC-AGI基准中，Grok 4也直接飞升，将一众对手远远甩在后面。

这项测试的难度在于，它不是传统的问答题，而是要求 AI 具备图形推理、模式识别等“类人类直觉”能力，被视为检验“是否具备 AGI 潜力”的试金石。

图片

而在外界称为“人类最后一场考试”（Humanity’s Last Exam）的评估中，Grok 4 Heavy 更是以 44.4% 的高分拔得头筹，远超 Gemini 和 OpenAI 的 o3 模型。

图片

甚至在 Claude 曾参与过的“售货机模拟商战”实验中，Grok 也横空出世，成为最会赚钱的 AI 商人：

最终净利润是 Claude 的两倍多
执行时长更长

之所以有这么出色的战绩，是因为Grok 4能有效地制定策略，并在长时间内保持一致性。

他们还提了一个超级疯狂的计划：如果有办法把GPU的成本打下来。就可以尝试搞一百万台自动售货机，然后稳稳赚47亿美元。。。

值得一提的是，Grok 4和Claude 4都超过了人类的经商水平。

图片

不过，面对如此梦幻的数据，我们也不能全然“上头”，还是可以泼一点冷水：

首先，官方数据可能具备一些水分。例如，据此前披露，Grok 3 的部分成绩采用了consensus@64”的方式，也就是一题跑 64 次，挑最好的结果出来展示——而对比模型则大多是“一次跑完”的标准流程，这显然是个有些讨巧的“刷榜”策略。

所以，Grok 4 的实际能力还需要权威的独立榜单来进一步验证，建议大家蹲蹲民间榜单，综合评估。

此外，这次 Grok 4 能打得这么猛，也离不开一个“外挂”：

它已经掌握了调用工具（tools）的能力 —— 不再是光靠语言模型硬算，而是能外接计算器、搜索器、甚至模拟浏览网页。看来，模型即Agent也是一个大趋势。

2.训练飞跃：首次在训练阶段引入工具使用

在 Grok 4 的训练过程中，xAI 做出了一项意义重大的突破：首次在训练阶段就引入了工具使用机制。不再仅依赖语言模型自身的泛化能力，而是让模型从一开始就学会如何调用搜索引擎、计算器等外部工具来完成任务。

这不仅是方法上的革新，更带来了量级上的性能飞跃。

这个操作到底有多猛？看看下面这张图就懂了——

图片

可以说，在“工具使用”这件事上，Grok 4 的可靠性和表现已经把前几代模型远远甩在身后。

而且，也有眼尖的网友发现，Grok 4 heavy之后，性能还有上升空间。据爆料说，xAI内部还有更强的模型因为成本问题没有发布！

图片

不过，团队也坦言，目前 Grok 使用的工具仍然比较原始。如果拿它与 Tesla 或 SpaceX 等工业场景中的工程工具相比，比如精密的物理模拟和有限元分析系统，它还远远不够。但马斯克明确表示，今年晚些时候，xAI 将为 Grok 接入这些“真正的商业级工具链”，让它具备解决现实科技问题的能力。

而马斯克也提出，终极形态是将 Grok 与 Optimus（人形机器人）结合，实现 AI 主动感知并操作现实世界。

一旦模型拥有了物理交互能力，它就可以自己“动手试验”、修正假设、验证反馈。换句话说，AI 不只是坐在云端思考，而是走进现实世界动手改造它。这将给整个 AI 硬件生态带来颠覆性的冲击。

在Grok他们看来，通向 AGI 的路径，已经不再是“算力够不够”这么简单的问题，而是一个“算力 + 工具 + 实体交互能力”三位一体的大模型工程。

而马斯克也展望说一旦AI具备了该项能力，将引爆一个数千倍甚至百万倍规模的新经济体。

3.写在最后：Gemini 3、GPT-5都在路上了

虽然 Grok 4 的发布引发热议，但战局远未尘埃落定。

据X上的网友爆料，Gemini 3 很快就要登场了。谷歌最近的迭代速度真的既快又狠，眼见要成为领跑者了。

图片

而根据奥特曼此前的透露，GPT-5 将在今夏发布，照这个节奏，接下来一到两个月内，大模型圈还会有更多炸点。

有网友说得很形象：

“哪有什么AI撞墙期？根本看不到墙在哪里！”

你看好今天发布的Grok 4吗？

或者，你觉得下个最令人期待的大模型会是哪一家推出的？评论区聊聊你的观点。

订阅费300刀，值吗？马斯克发布Grok 4登顶SOTA！一项突破上大分：训练阶段就教AI用工具！网友：地表最强AI回来了！

1.碾压一切的基准成绩——这不就是 AGI？

2.训练飞跃：首次在训练阶段引入工具使用

3.写在最后：Gemini 3、GPT-5都在路上了

相关资讯

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克称下周推出 Grok 3.5：首个能准确回答有关火箭发动机问题的 AI

特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相