马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

作者：梦晨 2025-11-18 03:01

梦晨发自凹非寺量子位 | 公众号 QbitAI刚刚，马斯克发布Grok 4.1，同时霸榜大模型竞技场的第一和第二。 Grok 4.1思考模式以1483的Elo分数稳居榜首，领先非xAI模型中的最高分整整31分。 Grok 4.1非思考模式以1465分拿下第二名，超越了公开排行榜上所有其他模型的完整推理模式。

梦晨发自凹非寺量子位 | 公众号 QbitAI

刚刚，马斯克发布Grok 4.1，同时霸榜大模型竞技场的第一和第二。

怎么做到的？

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

Grok 4.1思考模式以1483的Elo分数稳居榜首，领先非xAI模型中的最高分整整31分。

Grok 4.1非思考模式以1465分拿下第二名，超越了公开排行榜上所有其他模型的完整推理模式。

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

之前的Grok 4在排行榜上仅排第33位。不到半年时间，xAI就实现了巨大飞跃。

在大模型竞技场新推出的专家榜和职业榜上，Grok 4.1思考模式同样霸榜。

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

专家榜中的题目预计只有各自领域的顶尖专家才会提出，职业榜分为八个细分：

软件和IT服务，写作、文学和语言，生命科学、物理科学和社会科学，娱乐、体育和媒体，商业、管理和财务运营，数学、法律与政府，医疗保健

Grok4.1目前只在文学榜上输给Gemini2.5，数学榜输给Claude4.5和o3，其他六个榜单均拿下第一。

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

不过由于模型刚发布，投票数还很少，等“Preliminary”标记消失（超过一定票数）后的成绩更有参考价值。

在非用户投票的EQ-Bench情商测试中，Grok 4.1的表现同样出色，超过刚发布不久的Kimi K2（但不是Thinking版本）。

EQ-Bench是一个由大语言模型评判的测试，评估主动情商能力、理解力、洞察力、同理心和人际交往技能。

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

Grok 4.1原来早就暗中测试了。

从11月1日起，新版模型被逐步推送越来越多的用户，期间持续进行盲测对比评估，64.78%的用户更喜欢新版。

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

xAI官网给出了Grok4.1与之前版本在各个方面的回答对比。

响应情感问题：

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

创意写作：

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

xAI在技术报告中特别强调，Grok 4.1在创造性、情感性和协作性互动方面带来了显著改进。模型变得更加善于捕捉细微的意图，对话更有吸引力，个性表现更加连贯，同时完全保留了前代产品的敏锐智能和可靠性。

为了实现这些提升，团队使用了支撑Grok 4的大规模强化学习基础设施，并将其应用于优化模型的风格、个性、有用性和对齐性。他们开发的新方法让前沿智能推理模型作为奖励模型，能够自主评估和迭代响应。

xAI负责后训练的Dust Tran分享了更多细节，主要改进在强化学习上，将 RLHF推向前所未有的高度。

在过去的几个月里，我们这个由十几人组成的团队利用用户在真实对话中的偏好，以及基于强大推理能力进行评分的智能体奖励模型，对强化学习 (RL) 的算法进行了全面改进.

此外，我们还将RL的规模扩大了一个数量级，远超Grok 4中现有的类似预训练的规模。

Grok 4.1对不需要思维链推理的快速回复模式做了特别加强。关闭推理功能后，输出标记数从约2300个减少到850个。

此外Grok 4.1还重点改善了幻觉问题。

配备搜索工具的非推理模型可以快速给出答案，但由于推理深度受限和工具调用预算有限，很容易出现事实错误。

在Grok 4.1的后训练阶段，专注于减少信息检索提示中出现的事实性幻觉。随后观察到，对于抽样生成的信息检索提示，幻觉发生率显著降低。

在包含500个个人传记问题的FActScore测试中，Grok 4.1非推理模式的成绩也比前一代有明显改善。

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

在更多示例中，Grok 4.1还展示出可以输出图文并茂的回答。

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

目前，Grok 4.1已经在grok.com、X平台以及iOS和Android应用上向所有用户开放，默认以自动模式推出，用户也可以在模型选择器中明确选择Grok 4.1。

参考链接：[1]https://x.ai/news/grok-4-1[2]https://x.com/arena/status/1990530984014676155[3]https://x.com/dustinvtran/status/1990532663258853720

相关标签：

Grok

相关资讯

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克在社交平台 X 上表示，Grok 3 大模型将于太平洋时间周一晚上 8 点（IT之家注：北京时间 2 月 17 日 12 点）发布，届时将进行现场演示，马斯克称其为地球上最聪明的人工智能。

2/16/2025 11:23:49 AM 远洋

马斯克称下周推出 Grok 3.5：首个能准确回答有关火箭发动机问题的 AI

马斯克称下周推出 Grok 3.5：首个能准确回答有关火箭发动机问题的 AI

马斯克宣布下周将向SuperGrok订阅者发布Grok 3.5早期测试版，称这是首个能准确回答火箭发动机或电化学技术问题的AI。Grok 3.5能从第一原理推理并得出互联网上不存在的答案。#AI##马斯克#

4/29/2025 3:58:47 PM 远洋

特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相

特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相

特斯拉正在加速推出其最新的车载 AI 助手 Grok，预计不久将上线。尽管目前 Grok 尚未集成到特斯拉的汽车中，但通过固件分析，特斯拉的黑客 “green” 发现了关于 Grok 的多项新功能。特斯拉首席执行官埃隆・马斯克几个月前曾表示，Grok 将带来更真实的互动体验，用户能够与车辆进行自由对话，询问任何问题。

6/18/2025 10:01:58 AM AI在线