刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

马斯克搭帐篷熬夜开发有效果了？这么高跑分，还不发布。

刚刚，Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。

X 博主 @legit_api 发帖称，Grok 4 在 HLE（Humanities Last Exam，人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%；在 GPQA 上的得分是 87-88%；而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

这个跑分结果意味着什么？有网友将其与 OpenAI o3 和 Claude Opus 4 等竞争模型进行了对比。

Grok 4 在 HLE 上的标准得分约为 35%，使用推理技术后提升至 45%，这比 OpenAI o3 的最佳公开得分（约 20%）高出两倍，比 GPT-4o 高出四到五倍。要知道 HLE 是一个自由回答测试，随机猜测准确率仅约 5%，因此每个百分点的提升都非常困难。

在 GPQA（研究生级物理和天文学问题）上，Grok 4 得分 87-88%，与 OpenAI o3 的顶级表现相当，并明显超过 Claude 4 Opus 的约 75%。

Grok 4 在 AIME '25（2025 年美国数学奥赛）上得分 95%，远超 Claude 4 Opus 的 34%，并略优于 OpenAI o3 的 80-90%（取决于思维模式）。

此外，Grok 4 Code 在 SWEBench 的得分与 Claude Opus 4 的 72.5% 持平，略高于 OpenAI o3 的 71.7%。而在 Terminal-Bench 上，Claude 4 Opus 领先，得分 43%，xAI 尚未发布 Grok-4 的相关数据。

其中，网友讨论最多的就是 Grok 4 在 HLE 上达到了惊人的 45%，几乎是 Gemini 2.5 Pro 成绩的两倍。如果泄露的测试结果属实，那么意味着 Grok 4 通过了 AI 基准测试中最艰难的一关。

还有网友建议关注「标准」得分，认为这是公开模型的基准，推理得分可能涉及实验性配置。

不过，也有网友表示质疑，认为 Grok 4 的 HLE 分数不太可能这么高，这里面肯定有问题。

该网友给出的理由是，上次 xAI 报告了其他模型使用单次尝试的结果，但对自己的模型却使用了不同的报告方法。

@legit_api 回复称，这些数字是真实的，但我们不知道配置。

有网友总结道，目前 Grok 4 泄露出来的所有基准成绩，除了 HLE 以外，其他的看起来似乎还算「合理」。不过 HLE 能跑到这么高分又应该如何解释呢？毕竟这个基准中包含很多晦涩难懂的信息检索。

或许一切都要等待模型正式发布才能有答案了。

其实早在 7 月 1 日，外媒 TestingCatalog 就发文爆料，Grok 4 系列模型的相关信息在 xAI 开发者中控台网站上泄露，包括旗舰模型 Grok 4 和编程模型 Grok 4 Code。

截图显示，Grok 4 仅支持文本模式，视觉、图像生成及其他功能即将推出。Grok4 支持约 13 万 tokens 上下文窗口，较许多竞争对手的前沿模型要小，这可能表明 xAI 在优化推理速度和实时可用性，而非追求最大化的长上下文性能。从功能上来看，Grok 4 将包括函数调用、结构化输出和推理能力。

还有网友扒出了 xAI 开发者中控台的源代码，这些代码显示，Grok 4 是一个在自然语言、数学和推理方面「拥有无可匹敌的能力」的通才模型，并在当地时间 6 月 29 日完成了训练，其标语为「Think Bigger and Smarter」。