AI在线 AI在线

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

人类史上首个在20万块GPU上训出的模型终于问世! 刚刚,马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——Grok-3(Beta)、Grok-3 mini首个推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepSeek-R1,解锁推理时计算首个AI智能体「DeepSearch」:联网深入搜索一股OpenAI发布会的味道扑面而来据介绍,三代Grok的训练计算量竟是Grok-2的10倍,那么实际表现又如何? 世界最大超算集群Colossus已有20万块GPU:10万块GPU同步训练(第一阶段用时122天搭建);20万GPU(第二阶段用时92天)在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

人类史上首个在20万块GPU上训出的模型终于问世!

刚刚,马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——

Grok-3(Beta)、Grok-3 mini

首个推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepSeek-R1,解锁推理时计算

首个AI智能体「DeepSearch」:联网深入搜索

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

一股OpenAI发布会的味道扑面而来

据介绍,三代Grok的训练计算量竟是Grok-2的10倍,那么实际表现又如何?

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

世界最大超算集群Colossus已有20万块GPU:10万块GPU同步训练(第一阶段用时122天搭建);20万GPU(第二阶段用时92天)

在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上领先或媲美其他闭源/开源模型。

在著名大模型LMSYS Arena排行榜中,Grok-3(chocolate终于揭秘)刷榜,Elo评分超1400位列最高,没有任何一个模型能与之相比。

Grok-3的数学能力十分惊人,几乎能完成大部分美国数学专业能力测试的题目。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

更令人惊喜的是,Grok-3此次还带来了推理模型——Grok-3 Reasoning,在回答问题时会展示出思维过程。

进入聊天入口,直接选择「Think」模式,即可开启魔法。

此外,还有「Big Brain」模式、智能体「深度搜索」(Deep Search)模式同步上线。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

几天前,马斯克曾在预告中放出豪言,「这是地球上最聪明的AI」,此言不虚。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

总爱搞点事情的奥特曼,一会儿说GPT-4.5让自己深刻感受到AGI,一会儿又要开源模型全网投票。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

甚至有网友提议,不如咱就7:30pm发布GPT-4.5吧!奥特曼:这不太好吧。

奥特曼的这番言论,摆明了是要扰乱军心。据传言,Grok-3发布这一历史性时刻,OpenAI全员观战。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

OpenAI前脚发布的o3-mini刚刚击败了R1,如今又被Grok-3追回。不知今晚,GPT-4.5会不会降临?

暴击o3-mini、DeepSeek-R1,解锁测试时计算

有人说,Grok-3是终极的Scaling Law测试,如今看来,事实如此。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

从2023年Grok-1首次面世,到Grok-1.5,再到Grok-2逐步迭代,模型推理性能飞速飙升的同时,还吞噬了大量的算力。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

Grok-3家族,更是将「测试时计算」发挥到了极致。10万块H100超算,训出的野兽几乎无「模」能敌。

它成为首个Elo评分打破1400的模型,在所有分类测试中位列第一。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

在多项基准测试中,推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上,性能均大幅超越o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking。

可以说,迄今为止最强「推理模型」,全部败给了Grok-3 Reasoning,可以说,它是名副其实的「世界上最聪明的模型」。

团队表示,允许Grok去进行更长时间的思考和推理。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

在最新的数学基准AIME 2025上,Grok-3两款新模型性能同样刷新SOTA,分别拿下了93和90分。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

顺便提一句,Grok-3思维链和o3-mini套路一样——防止被偷家xAI掩盖了部分思考过程。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

接下来,让我们一睹Grok-3强大的推理能力。

高级推理Think

首先是一个太空飞船任务,生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。

注意,这个问题的难点在于,过程中涉及到了大量数学和物理模型的计算。在此之前,团队从未试过让大模型去计算航天的发射窗口。

在「Think」模式下,可以看到Grok的思维痕迹,甚至可以进去看看Grok在解决问题时到底在想什么。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

Grok 3很快生成了完整可运行的3D动画。在代码中,Grok-3数值上求解了开普勒定律。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

下图是3D动画的画面,直观展示了任务过程中,太阳、地球、火星和飞船之间的位置关系。

甚至,宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径,这种穿越每26个月发生一次。接下来,我们现在正处于一个过渡窗口期。

研究者经过检查后激动表示:Grok-3给的答案完全正确!

最后马斯克揭开谜底:其实,这就是SpaceX真正的探索轨道。他充满信心地表示,两年内,地球和火星就会被连接在一起。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

很快有网友评论,「可以确认,Grok-3强得离谱!」

与之相对比的是,o1、o1-pro、o3-mini(high)全都在这个问题上栽了:生成一段代码,实现从地球发射、登陆火星,然后在下一个发射窗口返回地球的3D动画。

「它们生成的代码能跑是能跑,但很不幸,飞船根本就没靠近过火星,更别说回来了。」该网友表示。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

然后团队又让Grok-3制作一个游戏。要求是结合俄罗斯方块和宝石迷阵两个游戏的混合体。

「显然,如果你让AI去创作一款像俄罗斯方块这样的游戏,互联网上有许多例子,或者类似宝石迷阵的游戏。它可以复制它们。」演示人员表示。

所以,现场他们让Grok-3制作了一个结合了俄罗斯方块和宝石迷阵两个游戏的混合体,这次他们使用了「Big Brain」模式,可以使用更多计算能力的一种模式。

Grok-3随后开始使用python编写代码,可以看出它调用了pygame、random和time这3个库来完成游戏的编写。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

代码完成后,Grok-3生成的俄罗斯方块和宝石迷阵两个游戏的混合体成功运行,虽然游戏逻辑有些随意,但是界面挺美观。

「我们在x.ai准备好成立一个游戏工作室了吗?」演示人员激动地说道,「是的,所以我们正在x.ai启动一个人工智能游戏工作室。」

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

在此过程中,研究者们讨论道:最好的AI模型,必须像人类一样思考,会去想所有可能的对策和解法,会自我批评、回溯,还会从第一性原理去思考。

甚至,Grok能够了解自己的逻辑和推理过程中的一些失误所在,更正自己的错误,将一些数学推理过程概念化,而现实生活中,也正是这些问题的延伸。

研究者表示,真正令人兴奋的就是,可以用Grok-3去完成现实世界中的任务,比如打造一辆特斯拉,或者去发射火箭。

这正是Grok团队目前正在思考的问题。

深度搜索DeepSearch

没想到,这一次马斯克还带来了Grok-3首个智能体——DeepSearch。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

DeepSearch是Grok的第一代智能体,能够在互联网上进行更深入的搜索。

它允许用户对互联网和X平台进行全面搜索。该模式分析大量信息,并通过快速高效的搜索过程提供详细、合理的答案。

此外,它的信息检索过程对用户更加透明。你可以直接告诉它只使用来自X的内容,它会尽量遵守这个要求,因此可控性更强,也更智能。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

我们可以问DeepSearch智能体:下一次星舰发射是什么时候?

可以看到,在左边,它展示出了搜索和推理的过程,而在右边,则展示出了深度思考过程,以及模型正在浏览什么样的网址和网页。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

最终,智能体给出了答案:25年2月24日。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

游戏玩家还可以提问:在Poe 2中最硬核的流派是什么?

除了给出答案——炼狱师召唤流之外,智能体还在回答中给出了如何获得更多武器的攻略。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

因此,比起现在普通的搜索引擎,使用Grok智能体能节约更多的时间。

Grok团队表示,从此,或许所有实习生都要失业了,我们需要的只是向大模型下任务。每个月花40美元,就能带来数十亿美元的回报。

马斯克:一周内所有功能上线,几个月内全面开源

所以,Grok-3到底什么时候开放?

对此,马斯克表示,订阅Premium Plus的X用户现在已经可以用上了。

而Grok忠实粉丝则可以单独订阅SuperGrok,从而解锁深度搜索和思考模型等先进功能,并成为早体验新特性的那一波。

全新网址是grok.com,另外App Store里也可以下载了。

马斯克强调,最新版本一定是网页版,App Store里是比较落后的。

目前,Grok-3每天都在更新推理功能,马斯克放话说:一周内,Grok的所有功能都将上线!

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

传送门:https://grok.com/

Q&A

什么时候出语音助手版?会花一周时间。

Grok-3 API什么时候上线?几周内。

Grok 3语音模式是原生的,还是文本转语音?它是Grok-3的一个变体,能理解你说的话,并且直接生成音频。

Grok-3能否将音频转录成文本?没问题。这个声音模型不仅仅是语音转文字那么简单,它还具备对话记忆功能,能记得和你之前的交互记录。

马斯克表示,几个月之后会对Grok-3进行全面的开源。

Grok-3最令人兴奋的部分是什么?训练模型,以及百分百的逻辑推理,都是最难的部分,就像你需要随时随地设计宇宙的最新进展。

如何设计这样一个史上最难推理模型?研究者表示,我们花了24个月去打磨这个模型,确定它在逻辑推理上有了最新进展,同时他们使用了一个废弃工厂,数据中心之所以落地在孟菲斯,是因为既需要算力,又需要能源功能,需要1/4吉瓦来向GPU供能,同时还需要冷却设施。

此前,从没有人真正在数据中心实现过液冷,但Grok团队做到了!

为了进一步对数据中心供能,我们使用了特斯拉的Megapacks,并且重新计算了建筑物的能源供给。最终证明:团队的计算是有效的!

而且,过程中还需要把不同计算机联结在一起,共享信息。在此过程中,团队会看到模型之间供给不平衡的情况。

一方面,是对建筑供能和节能的重新设计;另一方面,团队设计了大模型,设计了全新的算法过程。

研究者表示,不知道其他大模型是否也像Grok-3一样,需要如此多的人力和物力。

当然,团队也希望在接下来,减少模型的能耗,把数据中心的耗能从1/4吉瓦降低下来,或许需要重新设计,让它成为世界上效率最高的数据中心。

AI大牛高度好评:Grok-3成就惊人

提前拿到内测资格后,AI大佬Karpathy展开了一番评测,分享的感悟比一篇文章还要长。

总结来说,Grok-3推理模型最领先,解决了卡坦岛(Settler's of Catan)难题。上传GPT-2论文后,Grok-3完成了简单的查找问题。

它没有解决黎曼假设难题,仅是说「这是一个伟大未解决的难题」。

在体验「深度搜索」功能时,结合了思考+深度研究的能力,能对需要研究、查找的问题提供高质量回答,并给出参考链接。

最后,Karpathy给出的评价是,「Grok-3 + Thinking表现似乎达到了与o1 Pro(每月200美元)相当的水平,并且略优于DeepSeek-R1和Gemini 2.0 Flash Thinking」。

大约一年前,xAI团队从0开始的,这么短时间内就达到了顶尖水平,这是前所未有的惊人成就。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

Grok-3同样通过了物理模拟测试,效果堪比o3-mini。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

xAI联创同样表示,「我们改进模型和系统的速度,比任何单一的里程碑都更重要。Grok-3证明了我们能够在19个月内从零起步达到了最先进的水平」。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

此外,xAI工程师还曝出了即将上线的「高级语音模式」

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

Grok-3横空出世,再次

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

把xAI带回到世界第一梯队。

用马斯克的一句话做个总结——要判断哪家公司会在技术竞争中胜出,你只需要关注其创新速度的一阶导数和二阶导数。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

xAI团队胜利的这一刻,值得被记录。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

奥特曼的AGI也准备就绪。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

相关资讯

仅次于 Meta,马斯克透露特斯拉囤积的英伟达 H100 芯片数量

仅次于 Meta,马斯克透露特斯拉囤积的英伟达 H100 芯片数量

埃隆・马斯克麾下的特斯拉和其神秘的以人工智能为核心的公司 xAI,储备了大量的英伟达 H100 系列芯片。特斯拉意欲借此攻克自动驾驶的终极难题 ——L5 级自动驾驶,而 xAI 则肩负着实现马斯克的“终极真相人工智能”愿景。X 平台用户“The Technology Brother”最近发布消息称,Meta 公司已经囤积了全球最多的 H100 GPU,数量达到惊人的 35 万块。然而,马斯克对该排行榜将特斯拉和 xAI 的排名边缘化表示不满(1 万颗),并指出“如果计算正确,特斯拉应该是第二名,xAI 将是第三名”
4/9/2024 9:00:48 AM 远洋
马斯克旗下 xAI 公司宣布 B 轮融资达 60 亿美元

马斯克旗下 xAI 公司宣布 B 轮融资达 60 亿美元

感谢埃隆・马斯克(Elon Musk)旗下人工智能初创公司 xAI 今日在博客文章中宣布,该公司已在 B 轮融资中筹集了 60 亿美元(IT之家备注:当前约 435.6 亿元人民币),投资方包括 Andreessen Horowitz 和红杉资本等。xAI 表示,这笔资金将用于把 xAI 的首批产品推向市场、建设先进的基础设施并加速未来技术的研发。“未来几周将会有更多消息公布,xAI 的投前估值为 180 亿美元”马斯克在 X 上的一篇帖子中回应融资公告时表示。xAI 于 2023 年 7 月成立,去年 11 月推
5/27/2024 2:29:13 PM 汪淼
马斯克称将为 xAI 购买约 30 万块英伟达 AI 芯片,预估至少花费 90 亿美元

马斯克称将为 xAI 购买约 30 万块英伟达 AI 芯片,预估至少花费 90 亿美元

马斯克北京时间今天凌晨在回复一则投票时透露,xAI 的下一项重大举措可能是在明年夏天购买约 30 万块配备 CX8 网络的 B200 芯片。xAI 已在近期获得了 60 亿美元(IT之家备注:当前约 435.6 亿元人民币)融资,公司估值达到约 180 亿美元(当前约 1306.8 亿元人民币)。目前,xAI 计划通过加大对 GPU 集群的投资,大幅扩展其 AI 相关的产品组合。今年 4 月,X 平台(推特)博主“The Technology Brother”曾发帖表示,Meta 公司目前已经拥有约 35 万个 H
6/3/2024 4:44:09 PM 清源