AI在线 AI在线

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

梦晨 发自 凹非寺量子位 | 公众号 QbitAI刚刚,马斯克发布Grok 4.1,同时霸榜大模型竞技场的第一和第二。 Grok 4.1思考模式以1483的Elo分数稳居榜首,领先非xAI模型中的最高分整整31分。 Grok 4.1非思考模式以1465分拿下第二名,超越了公开排行榜上所有其他模型的完整推理模式。

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

刚刚,马斯克发布Grok 4.1,同时霸榜大模型竞技场的第一和第二。

怎么做到的?

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

Grok 4.1思考模式以1483的Elo分数稳居榜首,领先非xAI模型中的最高分整整31分。

Grok 4.1非思考模式以1465分拿下第二名,超越了公开排行榜上所有其他模型的完整推理模式。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

之前的Grok 4在排行榜上仅排第33位。不到半年时间,xAI就实现了巨大飞跃。

在大模型竞技场新推出的专家榜和职业榜上,Grok 4.1思考模式同样霸榜。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

专家榜中的题目预计只有各自领域的顶尖专家才会提出,职业榜分为八个细分:

软件和IT服务,写作、文学和语言,生命科学、物理科学和社会科学,娱乐、体育和媒体,商业、管理和财务运营,数学、法律与政府,医疗保健

Grok4.1目前只在文学榜上输给Gemini2.5,数学榜输给Claude4.5和o3,其他六个榜单均拿下第一。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

不过由于模型刚发布,投票数还很少,等“Preliminary”标记消失(超过一定票数)后的成绩更有参考价值。

在非用户投票的EQ-Bench情商测试中,Grok 4.1的表现同样出色,超过刚发布不久的Kimi K2(但不是Thinking版本)。

EQ-Bench是一个由大语言模型评判的测试,评估主动情商能力、理解力、洞察力、同理心和人际交往技能。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

Grok 4.1原来早就暗中测试了。

从11月1日起,新版模型被逐步推送越来越多的用户,期间持续进行盲测对比评估,64.78%的用户更喜欢新版。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

xAI官网给出了Grok4.1与之前版本在各个方面的回答对比。

响应情感问题:

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

创意写作:

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

xAI在技术报告中特别强调,Grok 4.1在创造性、情感性和协作性互动方面带来了显著改进。模型变得更加善于捕捉细微的意图,对话更有吸引力,个性表现更加连贯,同时完全保留了前代产品的敏锐智能和可靠性。

为了实现这些提升,团队使用了支撑Grok 4的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、有用性和对齐性。他们开发的新方法让前沿智能推理模型作为奖励模型,能够自主评估和迭代响应。

xAI负责后训练的Dust Tran分享了更多细节,主要改进在强化学习上,将 RLHF推向前所未有的高度。

在过去的几个月里,我们这个由十几人组成的团队利用用户在真实对话中的偏好,以及基于强大推理能力进行评分的智能体奖励模型,对强化学习 (RL) 的算法进行了全面改进.

此外,我们还将RL的规模扩大了一个数量级,远超Grok 4中现有的类似预训练的规模。

Grok 4.1对不需要思维链推理的快速回复模式做了特别加强。关闭推理功能后,输出标记数从约2300个减少到850个。

此外Grok 4.1还重点改善了幻觉问题。

配备搜索工具的非推理模型可以快速给出答案,但由于推理深度受限和工具调用预算有限,很容易出现事实错误。

在Grok 4.1的后训练阶段,专注于减少信息检索提示中出现的事实性幻觉。随后观察到,对于抽样生成的信息检索提示,幻觉发生率显著降低。

在包含500个个人传记问题的FActScore测试中,Grok 4.1非推理模式的成绩也比前一代有明显改善。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

在更多示例中,Grok 4.1还展示出可以输出图文并茂的回答。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

目前,Grok 4.1已经在grok.com、X平台以及iOS和Android应用上向所有用户开放,默认以自动模式推出,用户也可以在模型选择器中明确选择Grok 4.1。

参考链接:[1]https://x.ai/news/grok-4-1[2]https://x.com/arena/status/1990530984014676155[3]https://x.com/dustinvtran/status/1990532663258853720

相关资讯

马斯克称 Grok 3 将于 2 月 18 日发布:地球上最聪明的人工智能

马斯克在社交平台 X 上表示,Grok 3 大模型将于太平洋时间周一晚上 8 点(IT之家注:北京时间 2 月 17 日 12 点)发布,届时将进行现场演示,马斯克称其为地球上最聪明的人工智能。
2/16/2025 11:23:49 AM
远洋

马斯克称下周推出 Grok 3.5:首个能准确回答有关火箭发动机问题的 AI

马斯克宣布下周将向SuperGrok订阅者发布Grok 3.5早期测试版,称这是首个能准确回答火箭发动机或电化学技术问题的AI。Grok 3.5能从第一原理推理并得出互联网上不存在的答案。#AI##马斯克#
4/29/2025 3:58:47 PM
远洋

特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相

特斯拉正在加速推出其最新的车载 AI 助手 Grok,预计不久将上线。 尽管目前 Grok 尚未集成到特斯拉的汽车中,但通过固件分析,特斯拉的黑客 “green” 发现了关于 Grok 的多项新功能。 特斯拉首席执行官埃隆・马斯克几个月前曾表示,Grok 将带来更真实的互动体验,用户能够与车辆进行自由对话,询问任何问题。
6/18/2025 10:01:58 AM
AI在线