为什么要纯C谈话手搓GPT-2，Karpathy回应网友质疑

机器之心 • 2024年 4月 11日下午3:18 • AI

Karpathy：for fun.几天前，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实行 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型（LM）训练变得简单 —— 使用纯 C 谈话 / CUDA，不须要 245MB 的 PyTorch 或 107MB 的 cPython。例如，训练 GPT-2（CPU、fp32）仅须要单个文献中的大约 1000 行干净代码（clean

Karpathy：for fun.

几天前，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实行 GPT-2 训练的项目「llm.c」。

llm.c 旨在让大模型（LM）训练变得简单 —— 使用纯 C 谈话 / CUDA，不须要 245MB 的 PyTorch 或 107MB 的 cPython。例如，训练 GPT-2（CPU、fp32）仅须要单个文献中的大约 1000 行干净代码（clean code），可以立即编译运转，并且完全可以媲美 PyTorch 参考实行。

项目链接：https://github.com/karpathy/llm.c

项目的 Star 量不到七个小时就冲上了 2000，目前已经接近一万 Star。很多网友惊呼太强了：「即使顶着指针 ptsd，我也能感受到这些代码的美。」

然而，llm.c 项目收到的不只是称赞，还有很多质疑的声音。例如，有网友间接提问：「能具体描述下这个项目做了什么吗，解决了什么问题？」

对此，Karpathy 今天正面回应了网友们的疑问，详细阐述了 llm.c 项目的意义是什么，优缺点有哪些。

机器之心对 Karpathy 叙述原文进行了不改变原意的编译、整理，我们来看下 Karpathy 是怎么说的：

训练大型谈话模型 (LLM)，例如 ChatGPT，涉及大量代码，复杂度很高。例如，典型的 LLM 训练能够会使用 PyTorch 深度学习库。PyTorch 本身就相当复杂，因为它实行了：

一个十分通用的张量抽象（一种排列和操作数组的方法，这些数组用于存储神经网络参数和激活）；

一个十分通用的反向传播 Autograd 引擎（训练神经网络参数的算法）；

在神经网络中使用的大量深度学习层。

PyTorch 项目有 11449 个文献中的 3327184 行代码。最重要的是，PyTorch 是用 Python 编写的，Python 本身就是一种十分高级的谈话 —— 必须运转 Python 解释器将训练代码转换为低级计算机指令。例如，执行此转换的 cPython 项目包含 4306 个文献中的 2437955 行代码。

llm.c 项目旨在移除全部这些复杂性，并将 LLM 训练简化为其最基本的要素，用十分低级的谈话 (C 谈话) 间接与计算机对话，并且没有其他库依赖项，唯一的抽象是汇编代码本身。

令人惊讶的是，训练像 GPT-2 这样的 LLM 实际上只须要在单个文献中使用大约 1000 行 C 谈话代码。我通过间接在 C 谈话中实行 GPT-2 的神经网络训练算法来实行这种压缩。这实际上很困难，因为你必须详细了解训练算法，能够导出全部层反向传播（backpropagation）的 forward pass 和 backward pass，并十分仔细地实行全部数组索引计算，因为没有可用的 PyTorch 张量抽象。但一旦这样做了，并且通过再次检查 PyTorch 来验证正确性，你就会得到一些十分简单、小且精致的东西。

那么，为什么人们不一直这样做呢？

第一：这放弃了很大的灵活性。如果你想改动神经网络，在 PyTorch 中你能够只须要变动一行代码。而在 llm.c 中，改动很能够会涉及更多代码，能够会更加困难，并且须要更多专业知识。例如。如果涉及一个新的操作，你能够就须要做一些微积分，并写出它的 forward pass 和 backward pass 以进行反向传播，并确保其在数学上是正确的。

第二：放弃速度，至少一开始是这样的。天下没有免费的午餐 —— 不应该指望仅 1000 行代码就能达到最先进的速度。PyTorch 在后台做了很多工作，以确保神经网络十分高效。不仅全部张量操作都十分仔细地挪用最高效的 CUDA 内核，而且还有 torch.compile 等等，以进一步分析和优化神经网络并有效地在计算机上运转。

现在，原则上，llm.c 应该能够挪用全部相同的内核并间接运转。但这须要更多的工作，就像上述第一点一样，如果变动神经网络或正在运转的计算机的任何内容，你能够必须使用不同的参数挪用不同的内核，并且能够会手动进行更多变动。

总的来说，llm.c 是训练 GPT-2 的间接实行。这个实行结果出人意料地简短。但 llm.c 不支持其他神经网络，仅支持 GPT-2，如果你想变动神经网络的任何内容，则须要专业知识。幸运的是，全部最先进的 LLM 实际上与 GPT-2 根本没有太大的区别。并且，llm.c 必须进行额外的调整和完善，但原则上我认为它应该几乎能够媲美，甚至超越 PyTorch，因为我们消除了全部开销。

最后，我为什么要做这个工作？因为这很有趣。它也很有教育意义，因为只须要那 1000 行十分简单的 C 谈话代码。它只是一些数组和对其元素进行一些简单的数学运算，例如 + 和 *。对于正在进行的更多工作，它能够会变得实际有用。

参考链接：https://twitter.com/karpathy/status/1778153659106533806

原创文章，作者：机器之心，如若转载，请注明出处：https://www.iaiol.com/news/wei-shen-me-yao-chun-c-tan-hua-shou-cuo-gpt2-karpathy-hui/

机器之心

94岁诺奖得主希格斯去世，曾预言「上帝粒子」的存留

上一篇 2024年 4月 10日

瑞莱聪明完成新一轮战略融资，加速打造中国AGI危险基座

下一篇 2024年 4月 12日

AI

百分点大数据技术团队：数据管理“PAI”实施方法论

编者按数据作为第五大生产要素，已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需要个性化、数据应用智能化的需要，以及在2B和2G行业中数据品质参差不齐、数据应用难以发挥价值、数据资产难以积淀等问题，如何做好数据管理事务、提拔数据管理才智成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据管理项目经验，总结了一套做好数据管理事务及提拔数据管理才智的实施方法论。近年来，推动数据管理体系建设一直是业界探索的热点，另外，《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数

2021年 3月 10日
AI

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

2021 年英特尔架构日上，英特尔发布一系列重大技术架构的改变和创新：两款崭新的 x86 内核架构（能效核与机能核）、代号为 Alder Lake 的首个机能混合架构、英特尔硬件线程调剂器、专为数据中心设计的下一代英特尔至强可扩大处理器 Sapphire Rapids 以及基础设施处理器（IPU）等内容。

2021年 8月 20日
AI

深度进修领域最常用的10个激活函数，一文详解数学原理及优缺点

激活函数是神经网络模型重要的组成部分，本文作者Sukanya Bag从激活函数的数学原理出发，详解了十种激活函数的优缺点。

2021年 2月 24日
AI

新版Linux在M2 MacBook Air可用，Linus Torvalds发布最新内核

更多人应用 Arm 硬件将带来更好的 Arm 软件。

2022年 8月 2日
AI

暴雪也没拦住的新版本：Linux之父家中停电6天，「冰冻荒原」版Linux内核还是来了

既然是冬天停电的时候诞生的，那就叫它「冰冻荒原」吧。

2021年 3月 2日
AI

这个夏天，跟陈天奇学「呆板进修编译」中英文课程，6月17日开课！

陈天奇：「因为世界上还没有关于这个方位的体系性课程，所以这一次尝试应该会是和小伙伴们共同的探索」。随着呆板进修框架和硬件需求的发展，呆板进修 / 深度进修编译正成为一个越来越受关注的话题。在去年 12 月的一篇文章中，TVM、MXNET、XGBoost 作者，CMU 助理教授，OctoML CTO 陈天奇探讨了「新一代深度进修编译技术的变革和展望」。他指出，现在深度进修编译生态正围绕四类笼统展开：估计图体现、张量步调体现、算子库和运行情况、硬件专用指令。不过，由于篇幅受限，陈天奇并未就这一话题展开体系、详细的讨论，

2022年 6月 4日
AI

站在2022前展望大模型的未来，周志华、唐杰、杨红霞这些大咖怎么看？

岁末年初之际，让我们回顾大模型的过去，展望大模型的未来。

2021年 12月 29日
AI

安谋华夏首款ISP处置惩罚器“小巧”面世，IP产物线逐渐完善

12月3日，安谋华夏发布了全新“小巧”多媒体产物线，其中首款产物“小巧”i3/i5 ISP处置惩罚器由安谋华夏本土团队自主研发，在降噪、清晰度和宽动静等指标上达到业界领先水平，具有高画质、低延时、可配置能力强、扩展兼容性高等特点。该款ISP处置惩罚器可广泛适用于安防监控、AIoT及智能汽车等领域的视频、图象处置惩罚工作，满足分歧场景的数据处置惩罚需要。安谋华夏产物研发常务副总裁刘澍表示：“近年来，伴随着智能化、网络化的发展，视频图象处置惩罚被广泛应用于智能安防、AIoT、智能汽车等诸多领域。受益于这些应用在华夏的蓬勃发展，华夏ISP市

2020年 12月 7日
AI

算法“视”界杯强势来袭，2021腾讯告白算法大赛正式开启！

技无止竞！算法巅峰对决再起，技术大咖速来报名！

2021年 3月 11日
AI

给一个词就能仿照你的笔迹，Facebook这个AI强大到不敢开源代码

你在纸上写个词，AI 只要看一眼就能仿照你的笔迹，还是看起来毫无破绽的那种。

2021年 7月 27日

为什么要纯C谈话手搓GPT-2，Karpathy回应网友质疑

相关推荐

发表回复