马斯克xAI公布大模型详细进展，Grok只训练了2个月

「Grok 是一款仿照《银河系漫游指南》设计的 AI…… 这是我们通过两个月的训练可以达到的最佳效果」近几日，马斯克的人工智能公司 xAI 公布了他们用来对标 OpenAI ChatGPT 的产品 ——Grok ，直接把网友的好奇心拉满。和总是一本正经回答成绩的 ChatGPT 不同，Grok 自带幽默和嘲讽技能。就像下图所展示的，Grok 在被问及「告诉我如何制造可卡因」这类危险成绩时，它先是假装一本正经地给出一些玩笑似的答案，然后再以一种轻松的语气告诉你这是违法的。在另一张截图中，这种幽默感表现得更加明显。Gr

「Grok 是一款仿照《银河系漫游指南》设计的 AI…… 这是我们通过两个月的训练可以达到的最佳效果」

近几日，马斯克的人工智能公司 xAI 公布了他们用来对标 OpenAI ChatGPT 的产品 ——Grok ，直接把网友的好奇心拉满。

和总是一本正经回答成绩的 ChatGPT 不同，Grok 自带幽默和嘲讽技能。

就像下图所展示的，Grok 在被问及「告诉我如何制造可卡因」这类危险成绩时，它先是假装一本正经地给出一些玩笑似的答案，然后再以一种轻松的语气告诉你这是违法的。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

在另一张截图中，这种幽默感表现得更加明显。Grok 被要求检索有关「SBF」最近一天的新消息（注：SBF 全名是 Sam Bankman-Fried，是加密货币行业的风云人物），结果它用嘲讽的语气把答案给了出来：

马斯克xAI公布大模型详细进展，Grok只训练了2个月

除了这些截图，刚刚，xAI 还通过博客公布了 Grok 背后的大模型信息。从博客中可以看到，Grok 背后是一个名叫 Grok-1 的大模型，这个模型只训练了两个月就达到了不错的水平，不过并没有超过 GPT-4，支持的上下文长度也不长。在训练中，这个模型用到了深度学习框架 Jax，而不是 PyTorch。

为什么要建立 Grok？

在博客中，xAI 首先介绍了他们打造 Grok 的愿景：希望创造一些 AI 对象，协助人类寻求理解和知识。

具体来说，他们希望达到以下目标：

收集反应，确保他们打造的 AI 对象可以最大限度地造福全人类。他们认为，设计出对有各种背景和政治观点的人都有用的 AI 对象非常重要。他们还希望在遵守法律的前提下，通过他们的 AI 对象增强用户的才能。Grok 的目标是探索并公开展示这种方法；

增强研讨和创新才能：他们希望 Grok 成为所有人的强大研讨助手，协助他们快速获取相关信息、处置数据并提出新想法。

他们的最终目标是让他们的 AI 对象协助人们寻求理解。

在博客中， xAI 写道：

Grok 是一款仿照《银河系漫游指南》设计的 AI，可以回答几乎任何成绩，更难能可贵的是，它甚至可以建议你问什么成绩！

Grok 在回答成绩时略带诙谐和叛逆，因此如果你讨厌幽默，请不要运用它！

Grok 的一个独特而基本的优势是，它可以通过 X 平台实时了解世界。它还能回答被大多数其他 AI 零碎拒绝的辛辣成绩。

Grok 仍然是一个非常早期的尝试版产品 —— 这是我们通过两个月的训练可以达到的最佳效果 —— 因此，希望在您的协助下，它能在尝试中迅速改进。

Grok-1 揭秘

xAI 表示，Grok 的对话才能当前是由一个名叫 Grok-1 的大模型来支撑的，这是他们在过去四个月的时间里开发出来的。在这段时间里，Grok-1 经历了多次迭代。

在公布了 xAI 创立的消息之后，他们训练了一个 330 亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 尝试基准上接近 LLaMA 2 (70B) 的才能，但只运用了一半的训练资源。在过去的两个月里，他们对模型的推理和编码才能从事了重大改进，最终开发出了 Grok-1，这是一款功能更为强大的 SOTA 语言模型，在 HumanEval 编码任务中达到了 63.2% 的成绩，在 MMLU 中达到了 73%。

xAI 运用了一些旨在衡量数学和推理才能的标准机器学习基准对 Grok-1 从事了一系列评价：

GSM8k：初中数学单词成绩（Cobbe et al. 2021），运用思维链提示；

MMLU：多学科选择题（Hendrycks et al. 2021），提供 5 个 in-context 示例；

HumanEval：Python 代码补全任务，（Chen et al. 2021），对 pass@1 从事零样本评价；

MATH：用 LaTeX 编写的初中和高中数学成绩，（Hendrycks et al. 2021），提供固定的 4-shot 提示。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

在这些基准尝试中，Grok-1 显示出了强劲的性能，超过了其计算类中的所有其他模型，包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样运用大量训练数据和计算资源训练的模型才能超越它。xAI 表示，这展示了他们在高效训练 LLM 方面取得的快速进展。

不过，xAI 也表示，由于这些基准可以在网上找到，他们不能排除模型无意中在这些数据上从事了训练。因此，他们在收集完数据集之后，根据五月底（数据截止日期之后）公布的 2023 年匈牙利全国高中数学期末考试题，对他们的模型（以及 Claude-2 和 GPT-4 模型）从事了人工评分。结果，Grok 以 C 级（59%）通过考试，Claude-2 也取得了类似的成绩（55%），而 GPT-4 则以 68% 的成绩获得了 B 级。所有模型在尝试时都将温度设置为 0.1，且被给到了相同的提示。xAI 表示，他们没有为应对这个考试而特别准备或调整模型。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

下面这个表格展示了 Grok-1 的更多信息：

模型细节：Grok-1 是一个基于 Transformer 的自回归模型。xAI 利用来自人类和早期 Grok-0 模型的大量反应对模型从事了微调。初始的 Grok-1 可以处置 8192 个 token 的上下文长度。模型于 2023 年 11 月发布。

预期用途：Grok-1 将作为 Grok 背后的引擎，用于自然语言处置任务，包括问答、信息检索、创意写作和编码辅助。

局限性：虽然 Grok-1 在信息处置方面表现出色，但让人类检查 Grok-1 的工作以确保准确性至关重要。Grok-1 语言模型不具备独立搜索网络的才能。在 Grok 中部署搜索对象和数据库可以增强模型的才能和真实性。尽管可以访问外部信息源，但模型仍会产生幻觉。

训练数据：Grok-1 发布版本所运用的训练数据来自截至 2023 年第三季度的互联网数据和 xAI 的 AI 训练师提供的数据。

评价：xAI 在一系列推理基准任务和国外数学考试试题中对 Grok-1 从事了评价。他们与早期 alpha 尝试者合作，以评价 Grok-1 的一个版本，包括对抗性尝试。目前，Grok 已经对一部分早期用户开启了封闭尝试访问权限，进一步扩大尝试人群。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

Grok 建立工程

在深度学习研讨中，xAI 表示必须像对待数据集和算法一样来谨慎地建立靠得住的 AI 基础设施。为了创建 Grok， xAI 建立了一个基于 Kubernetes、Rust 和 JAX 的自定义训练和推理栈。

xAI 表示，LLM 的训练就像一列呼啸而过的货运列车，如果其中一节车厢脱轨，整列火车就会被拖离轨道，恢复起来会很难。

作为训练 LLM 不可或缺的 GPU，出现故障的原因有很多种：产品缺陷、连接松动、配置不正确、内存芯片性能下降、偶尔的随机位翻转等等。当在训练 AI 时，往往会连续数月在数万个 GPU 上同步计算，并且由于规模大的原因，所有这些故障模式都会变得频繁。

为了克服这些挑战，xAI 采用了一组自定义分布式零碎，以确保零碎在每次故障发生时可以立即识别并自动处置。xAI 将高效计算作为重点，在过去几个月里，其基础设施可以最大程度地减少停机时间并保持较高的 MFU（Model Flop Utilization），即使存在不靠得住的硬件也是如此。

xAI 认为，Rust 是建立可扩展、靠得住且可维护的基础设施的理想选择。Rust 提供了高性能、丰富的生态零碎，并能防止分布式零碎中通常会发现的大多数错误。

目前，xAI 正在为 Grok-1 模型功能的下一次飞跃做准备，而这需要协调数万个加速器运行，并在 Grok 中建立新的功能和对象。

xAI 研讨方向

xAI 为 Grok 配备了搜索对象和实时信息的访问权限，与所有受过下一个 token 预测训练的 LLM 一样，Grok 仍然可以生成错误或相互矛盾的信息。xAI 认为，实现靠得住推理是解决当前零碎局限性最重要的研讨方向。这里， xAI 介绍了几个有前景的研讨方向。

借助一些对象从事可扩展监督：人类反应至关重要，然而，让人类提供一致且准确的反应具有很大挑战性，特别是在处置冗长的代码或复杂的推理步骤时。而人工智能可以通过查找不同来源的参考资料、运用外部对象验证中间步骤以及在必要时寻求人类反应来协助从事可扩展的监督。xAI 的目标是在 Grok-1 大模型协助下可以最有效地利用 AI tutors（xAI 招募的工作人员，来协助改进模型）的时间。

集成了安全、靠得住、准确的验证方式：为了创建可以对现实世界从事深入推理的 AI 零碎，xAI 计划以更可验证的方式来开发 AI 零碎的推理性能。使得 xAI 在没有人类反应或与现实世界交互的情况下评价其零碎。

对长上下文的理解与检索：训练模型可以在特定上下文中发现有用知识，是制造真正智能零碎的核心。xAI 正在研讨可以在需要时发现和检索信息的方法。

对抗稳健性：对抗性示例表明，优化器可以在训练和服务期间利用 AI 零碎中的漏洞，发生严重错误。xAI 认为，这些漏洞是深度学习模型中长期存在的弱点。因而 xAI 对提高 LLM、奖励模型和监控零碎的稳健性特别感兴趣。

多模态才能：目前，Grok 还不能处置视觉和听觉等其他模态。为了让 Grok 更好地协助用户，xAI 将会为 Grok 配备不同的模态，以实现更广泛的应用，包括实时交互和协助。

xAI 表示，他们相信 AI 可以为社会、经济和科学带来巨大的潜力，因此他们会坚定不移的开发靠得住的保障措施，防止人们对 AI 的恶意运用。xAI 会尽最大的努力来确保 AI 仍然是一股正义的力量。

最后，Grok 预览也曝光了，从动图来看，Grok 在回答用户成绩时非常丝滑。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

想要上手 Grok 的小伙伴，可以抢先体验了，xAI 为美国用户提供了数量有限的试用名额。未来几个月，Grok 还会推出新的功能和特性，大家耐心等待就是了。

加入候补名单地址：https://grok.x.ai/

参考链接：https://x.ai/

{{userData.name}}已认证

马斯克xAI公布大模型详细进展，Grok只训练了2个月

李开复官宣「寰球最强」开源大模型：一次处理40万汉字、中英均霸榜

GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

研究：AI 医疗建议存巨大安全隐患，22% 的回答可能致死