编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
马斯克,又双叒叕意料之中地迟到了。
Grok 4 原定的直播足足晚了一个小时,马老板终于姗姗来迟,开始了这场发布会。
图片
更加推迟上线的,则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布,让人有些小失望。
不过,接下来的几个月,xAI 还将陆续推出一款多模态智能体,以及一款具备视频理解与生成能力的综合模型。可以说从7月到10月,Grok 4家族都持续有大动作出来,值得期待。
图片
回到这场直播,Grok 4 成为了绝对的主角。
本次共发布两款模型:
- Grok 4
- Grok 4 Heavy:xAI 称其为“多智能体版本”,多个 Grok 4 协同工作,性能进一步提升。
“Grok 4 是全球最强大的 AI 模型。”
马斯克在直播中说:“它在所有学科上的学术水平都超过博士,无一例外。如果到明年 Grok 还没发现点新的科学知识,我会感到很惊讶。”
Grok 4 Heavy 在列出的各项学术基准测试中全面登顶,拿下 SOTA。
图片
价格也拉开了差距:
- 普通版(Grok 4)为 每月 30 美元
- 超大杯(Grok 4 Heavy)则高达 每月 300 美元!
图片
整场直播的演示环节不像上次Grok 3的发布如此密集。
但仍然有些“整活”环节,让人印象十分深刻!首先,就是为了展示Grok的语音交互能力,直接在直播里“拉踩”了OpenAI的4o,从下面这个演示里可以看到Grok的助手“伊芙”反应更迅速、语气更自然。
而另一个点,则是此前Grok 3发布时马斯克就心心念念的AI手搓电子游戏。
到了Grok 4 AI已经做的非常像模像样了,马斯克预计明年就有成熟的大型游戏能跑出来:
图片
1.碾压一切的基准成绩——这不就是 AGI?
当 Grok 4 的基准成绩铺天盖地刷屏后,网友们几乎给出了统一的结论:
这不就略等于是 AGI了吗?
从官方发布的测试结果来看,Grok 4 在多个标杆级任务中全面碾压对手,毫无悬念地登顶各项榜单,成为当前最强的 SOTA 模型。
图片
比如在 AI 社区关注的 Artificial Analysis 综合测评中,Grok 从上代的 67 分,跃升至 73 分,实现了明显的跨代突破。
图片
而在ARC-AGI基准中,Grok 4也直接飞升,将一众对手远远甩在后面。
这项测试的难度在于,它不是传统的问答题,而是要求 AI 具备图形推理、模式识别等“类人类直觉”能力,被视为检验“是否具备 AGI 潜力”的试金石。
图片
而在外界称为“人类最后一场考试”(Humanity’s Last Exam)的评估中,Grok 4 Heavy 更是以 44.4% 的高分拔得头筹,远超 Gemini 和 OpenAI 的 o3 模型。
图片
甚至在 Claude 曾参与过的“售货机模拟商战”实验中,Grok 也横空出世,成为最会赚钱的 AI 商人:
- 最终净利润是 Claude 的两倍多
- 执行时长更长
之所以有这么出色的战绩,是因为Grok 4能有效地制定策略,并在长时间内保持一致性。
他们还提了一个超级疯狂的计划:如果有办法把GPU的成本打下来。就可以尝试搞一百万台自动售货机,然后稳稳赚47亿美元。。。
值得一提的是,Grok 4和Claude 4都超过了人类的经商水平。
图片
不过,面对如此梦幻的数据,我们也不能全然“上头”,还是可以泼一点冷水:
首先,官方数据可能具备一些水分。例如,据此前披露,Grok 3 的部分成绩采用了consensus@64”的方式,也就是一题跑 64 次,挑最好的结果出来展示——而对比模型则大多是“一次跑完”的标准流程,这显然是个有些讨巧的“刷榜”策略。
所以,Grok 4 的实际能力还需要权威的独立榜单来进一步验证,建议大家蹲蹲民间榜单,综合评估。
此外,这次 Grok 4 能打得这么猛,也离不开一个“外挂”:
它已经掌握了调用工具(tools)的能力 —— 不再是光靠语言模型硬算,而是能外接计算器、搜索器、甚至模拟浏览网页。看来,模型即Agent也是一个大趋势。
2.训练飞跃:首次在训练阶段引入工具使用
在 Grok 4 的训练过程中,xAI 做出了一项意义重大的突破:首次在训练阶段就引入了工具使用机制。不再仅依赖语言模型自身的泛化能力,而是让模型从一开始就学会如何调用搜索引擎、计算器等外部工具来完成任务。
这不仅是方法上的革新,更带来了量级上的性能飞跃。
这个操作到底有多猛?看看下面这张图就懂了——
图片
可以说,在“工具使用”这件事上,Grok 4 的可靠性和表现已经把前几代模型远远甩在身后。
而且,也有眼尖的网友发现,Grok 4 heavy之后,性能还有上升空间。据爆料说,xAI内部还有更强的模型因为成本问题没有发布!
图片
不过,团队也坦言,目前 Grok 使用的工具仍然比较原始。如果拿它与 Tesla 或 SpaceX 等工业场景中的工程工具相比,比如精密的物理模拟和有限元分析系统,它还远远不够。但马斯克明确表示,今年晚些时候,xAI 将为 Grok 接入这些“真正的商业级工具链”,让它具备解决现实科技问题的能力。
而马斯克也提出,终极形态是将 Grok 与 Optimus(人形机器人)结合,实现 AI 主动感知并操作现实世界。
一旦模型拥有了物理交互能力,它就可以自己“动手试验”、修正假设、验证反馈。换句话说,AI 不只是坐在云端思考,而是走进现实世界动手改造它。这将给整个 AI 硬件生态带来颠覆性的冲击。
在Grok他们看来,通向 AGI 的路径,已经不再是“算力够不够”这么简单的问题,而是一个“算力 + 工具 + 实体交互能力”三位一体的大模型工程。
而马斯克也展望说一旦AI具备了该项能力,将引爆一个数千倍甚至百万倍规模的新经济体。
3.写在最后:Gemini 3、GPT-5都在路上了
虽然 Grok 4 的发布引发热议,但战局远未尘埃落定。
据X上的网友爆料,Gemini 3 很快就要登场了。谷歌最近的迭代速度真的既快又狠,眼见要成为领跑者了。
图片
而根据奥特曼此前的透露,GPT-5 将在今夏发布,照这个节奏,接下来一到两个月内,大模型圈还会有更多炸点。
有网友说得很形象:
“哪有什么AI撞墙期?根本看不到墙在哪里!”
你看好今天发布的Grok 4吗?
或者,你觉得下个最令人期待的大模型会是哪一家推出的?评论区聊聊你的观点。