AI在线 AI在线

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!网友:地表最强AI回来了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)马斯克,又双叒叕意料之中地迟到了。 Grok 4 原定的直播足足晚了一个小时,马老板终于姗姗来迟,开始了这场发布会。 图片更加推迟上线的,则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布,让人有些小失望。

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

马斯克,又双叒叕意料之中地迟到了。

Grok 4 原定的直播足足晚了一个小时,马老板终于姗姗来迟,开始了这场发布会。

图片图片

更加推迟上线的,则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布,让人有些小失望。

不过,接下来的几个月,xAI 还将陆续推出一款多模态智能体,以及一款具备视频理解与生成能力的综合模型。可以说从7月到10月,Grok 4家族都持续有大动作出来,值得期待。

图片图片

回到这场直播,Grok 4 成为了绝对的主角。

本次共发布两款模型:

  • Grok 4
  • Grok 4 Heavy:xAI 称其为“多智能体版本”,多个 Grok 4 协同工作,性能进一步提升。

“Grok 4 是全球最强大的 AI 模型。”

 马斯克在直播中说:“它在所有学科上的学术水平都超过博士,无一例外。如果到明年 Grok 还没发现点新的科学知识,我会感到很惊讶。”

Grok 4 Heavy 在列出的各项学术基准测试中全面登顶,拿下 SOTA。

图片图片

价格也拉开了差距:

  •  普通版(Grok 4)为 每月 30 美元
  •  超大杯(Grok 4 Heavy)则高达 每月 300 美元!

图片图片

整场直播的演示环节不像上次Grok 3的发布如此密集。

但仍然有些“整活”环节,让人印象十分深刻!首先,就是为了展示Grok的语音交互能力,直接在直播里“拉踩”了OpenAI的4o,从下面这个演示里可以看到Grok的助手“伊芙”反应更迅速、语气更自然。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!网友:地表最强AI回来了!

而另一个点,则是此前Grok 3发布时马斯克就心心念念的AI手搓电子游戏。

到了Grok 4 AI已经做的非常像模像样了,马斯克预计明年就有成熟的大型游戏能跑出来:

图片图片

1.碾压一切的基准成绩——这不就是 AGI?

当 Grok 4 的基准成绩铺天盖地刷屏后,网友们几乎给出了统一的结论:

这不就略等于是 AGI了吗?

从官方发布的测试结果来看,Grok 4 在多个标杆级任务中全面碾压对手,毫无悬念地登顶各项榜单,成为当前最强的 SOTA 模型。

图片图片

比如在 AI 社区关注的 Artificial Analysis 综合测评中,Grok 从上代的 67 分,跃升至 73 分,实现了明显的跨代突破。

图片图片

而在ARC-AGI基准中,Grok 4也直接飞升,将一众对手远远甩在后面。

这项测试的难度在于,它不是传统的问答题,而是要求 AI 具备图形推理、模式识别等“类人类直觉”能力,被视为检验“是否具备 AGI 潜力”的试金石。

图片图片

而在外界称为“人类最后一场考试”(Humanity’s Last Exam)的评估中,Grok 4 Heavy 更是以 44.4% 的高分拔得头筹,远超 Gemini 和 OpenAI 的 o3 模型。

图片图片

甚至在 Claude 曾参与过的“售货机模拟商战”实验中,Grok 也横空出世,成为最会赚钱的 AI 商人:

  •  最终净利润是 Claude 的两倍多 
  •  执行时长更长

之所以有这么出色的战绩,是因为Grok 4能有效地制定策略,并在长时间内保持一致性。

他们还提了一个超级疯狂的计划:如果有办法把GPU的成本打下来。就可以尝试搞一百万台自动售货机,然后稳稳赚47亿美元。。。

值得一提的是,Grok 4和Claude 4都超过了人类的经商水平。

图片图片

不过,面对如此梦幻的数据,我们也不能全然“上头”,还是可以泼一点冷水:

首先,官方数据可能具备一些水分。例如,据此前披露,Grok 3 的部分成绩采用了consensus@64”的方式,也就是一题跑 64 次,挑最好的结果出来展示——而对比模型则大多是“一次跑完”的标准流程,这显然是个有些讨巧的“刷榜”策略。

所以,Grok 4 的实际能力还需要权威的独立榜单来进一步验证,建议大家蹲蹲民间榜单,综合评估。

此外,这次 Grok 4 能打得这么猛,也离不开一个“外挂”:

 它已经掌握了调用工具(tools)的能力 —— 不再是光靠语言模型硬算,而是能外接计算器、搜索器、甚至模拟浏览网页。看来,模型即Agent也是一个大趋势。

2.训练飞跃:首次在训练阶段引入工具使用

在 Grok 4 的训练过程中,xAI 做出了一项意义重大的突破:首次在训练阶段就引入了工具使用机制。不再仅依赖语言模型自身的泛化能力,而是让模型从一开始就学会如何调用搜索引擎、计算器等外部工具来完成任务。

这不仅是方法上的革新,更带来了量级上的性能飞跃。

这个操作到底有多猛?看看下面这张图就懂了——

图片图片

可以说,在“工具使用”这件事上,Grok 4 的可靠性和表现已经把前几代模型远远甩在身后。

而且,也有眼尖的网友发现,Grok 4 heavy之后,性能还有上升空间。据爆料说,xAI内部还有更强的模型因为成本问题没有发布!

图片图片

不过,团队也坦言,目前 Grok 使用的工具仍然比较原始。如果拿它与 Tesla 或 SpaceX 等工业场景中的工程工具相比,比如精密的物理模拟和有限元分析系统,它还远远不够。但马斯克明确表示,今年晚些时候,xAI 将为 Grok 接入这些“真正的商业级工具链”,让它具备解决现实科技问题的能力。

而马斯克也提出,终极形态是将 Grok 与 Optimus(人形机器人)结合,实现 AI 主动感知并操作现实世界。

一旦模型拥有了物理交互能力,它就可以自己“动手试验”、修正假设、验证反馈。换句话说,AI 不只是坐在云端思考,而是走进现实世界动手改造它。这将给整个 AI 硬件生态带来颠覆性的冲击。

在Grok他们看来,通向 AGI 的路径,已经不再是“算力够不够”这么简单的问题,而是一个“算力 + 工具 + 实体交互能力”三位一体的大模型工程。

而马斯克也展望说一旦AI具备了该项能力,将引爆一个数千倍甚至百万倍规模的新经济体。

3.写在最后:Gemini 3、GPT-5都在路上了

虽然 Grok 4 的发布引发热议,但战局远未尘埃落定。

据X上的网友爆料,Gemini 3 很快就要登场了。谷歌最近的迭代速度真的既快又狠,眼见要成为领跑者了。

图片图片

而根据奥特曼此前的透露,GPT-5 将在今夏发布,照这个节奏,接下来一到两个月内,大模型圈还会有更多炸点。

有网友说得很形象:

 “哪有什么AI撞墙期?根本看不到墙在哪里!” 

你看好今天发布的Grok 4吗?

或者,你觉得下个最令人期待的大模型会是哪一家推出的?评论区聊聊你的观点。

相关资讯

马斯克称 Grok 3 将于 2 月 18 日发布:地球上最聪明的人工智能

马斯克在社交平台 X 上表示,Grok 3 大模型将于太平洋时间周一晚上 8 点(IT之家注:北京时间 2 月 17 日 12 点)发布,届时将进行现场演示,马斯克称其为地球上最聪明的人工智能。
2/16/2025 11:23:49 AM
远洋

马斯克称下周推出 Grok 3.5:首个能准确回答有关火箭发动机问题的 AI

马斯克宣布下周将向SuperGrok订阅者发布Grok 3.5早期测试版,称这是首个能准确回答火箭发动机或电化学技术问题的AI。Grok 3.5能从第一原理推理并得出互联网上不存在的答案。#AI##马斯克#
4/29/2025 3:58:47 PM
远洋

特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相

特斯拉正在加速推出其最新的车载 AI 助手 Grok,预计不久将上线。 尽管目前 Grok 尚未集成到特斯拉的汽车中,但通过固件分析,特斯拉的黑客 “green” 发现了关于 Grok 的多项新功能。 特斯拉首席执行官埃隆・马斯克几个月前曾表示,Grok 将带来更真实的互动体验,用户能够与车辆进行自由对话,询问任何问题。
6/18/2025 10:01:58 AM
AI在线
  • 1