OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

上个周末，Karpathy 花了整个周六来忙一个 Llama2 的有趣项目。

这一周来，Meta 开源的 Llama2 火遍了整个 AI 社区。

这不，连特斯拉前 AI 总监、年初重回 OpenAI 的 Andrej Karpathy 也坐不住了。他利用周末时间，做了一个关于 Llama2 的有趣项目 ——「llama2.c」。

GitHub 地点：https://github.com/karpathy/llama2.c

具体是什么呢？他表明「llama2.c」可以让你在 PyTorch 中训练一个 baby Llama2 模型，然后应用近 500 行纯 C、无任何依赖性的文件从事推理。并且，这个预训练模型能够在 M1 芯片的 MacBook Air 上以 fp32 的浮点精度、18 tok/s 的速率对小说从事采样。

Karpathy 介绍称，「llama2.c」的灵感来自 llama.cpp，后者由资深开源社区开发者 Georgi Gerganov 创建，可以在 MacBook 上应用 4-bit 量化运转第一代 LLaMA 模型。

对于「llama2.c」，它的训练代码由 nanoGPT 修改而来，用来训练 Llama2 架构的模型。核心是在如下 run.c 中编写 C 推理引擎，不过它目前并不是一个生产级库。下面是部分推理代码。

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

完整代码地点：https://github.com/karpathy/llama2.c/blob/master/run.c

结果令 Karpathy 极度惊讶，你可以在（M1）CPU 的纯单线程 C 语言中以 fp32 的交互速率来推理更小（O (~10MB)）的模型。

当然，他表明自己没有尝试对最小规模的 Llama2 模型（70 亿参数）从事推理，他预计速率会极度慢。

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

目前，Karpathy 在 M1 MacBook Air 上，能够以 fp32 的浮点精度、100tok/s 的速率对 15M 参数的 288 6 层 6 头的模型从事推理。

之后，Karpathy 对项目从事了更新，应用「-O3」从事编译可以将 M1 MacBook Air 上的 tok/s 从 18 增加到了 98。这还没完，应用「-funsafe-math-optimizations」从事编译更是将 tok/s 增加到 315。他表明，只要在 gcc 命令中包含更多字符，速率就能提升 17.5 倍。

也许你要问了，这个项目有什么意义呢？在 Karpathy 看来，在一些较窄的领域（如生成小说）中，人们可以应用极其小的 Transformers 来做有趣的事情。

因此，这种可以移植的纯 C 实现或许极度有用，我们可以通过简略的方法高交互速率地运转合理大小的模型（几千万参数）。

有网友对「llama2.c」的开发过程很感兴趣，很多人都会有这样的想法，只是在等待合适的时机，他们没意识到几天内就可以完成很多工作。

Karpathy 回复称，自己对利用 float32 权重块及其上的微小推理代码来生成小说极度感兴趣。所以他花了整个周六的时间（从起床一直到睡觉）来写代码，然后让项目工作。

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

此外，Karpathy 还表明自己将出讲解视频。

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

项目详情

到目前为止，「llama2.c」项目已经在 GitHub 上获得了 1.6k 的 Stars，并在快速增长。

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

下面简略介绍一下该项目的运转步骤。

为了应用纯 C 语言运转一个 baby Llama2 模型，你需要以下的模型检查点。下载 TinyStories 数据集上训练的一个 15M 参数的模型（大约 58MB），并将它放入默认检查点目录中。

wget https://karpathy.ai/llama2c/model.bin -P out

然后编译并运转 C 代码。

gcc -O3 -o run run.c -lm
./run out/model.bin

请注意这只是原始 tokens 流。遗憾的是，我们现在必须通过一个简略的转换封装器来运转 C 代码（只有 30 行）。

pip install sentencepiece
python run_wrap.py

最后你将看到文本流。在 Karpathy 的 M1 MacBook Air 上，运转速率约 100 tok/s，对于超级原生的 fp32 单线程 C 代码来说还不错。示例输出如下所示。

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

更多细节请查看原项目。

{{userData.name}}已认证

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

我为什么放弃了 LangChain？

本科毕业加入google，还写了「头脑链」开山之作，这位OpenAI新秀正为本科生答疑解惑

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

{{userData.name}}已认证

我为什么放弃了 LangChain？

本科毕业加入google，还写了「头脑链」开山之作，这位OpenAI新秀正为本科生答疑解惑

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

字节跳动清华AIR成立联合研究中心推动大模型产学研合作