PDF文件长出「AI大脑」？网友惊呼：这操作太「黑科技」了！

技术宅太疯狂！

在PDF中，也能运行LLM。

从PDF里跑出AI大脑？网友惊呼：这操作太「黑科技」了！

最近，Aiden Bai的推文掀起了热议，已有数万浏览！

他展示了一个名为「llm.pdf」的项目，标题赫然写着：「在PDF文件中，运行大语言模型！」

疯狂程度堪比人类穿越进入电子游戏！

更夸张的是，评论区里还有人爆料，连Linux系统都能塞进PDF里运行。

日常办公、「高端爆料」中常见的文件格式——

Portable Document Format（.PDF），还能跑大模型，这到底怎么回事儿？

PDF里藏AI：还能讲故事、聊聊天

「llm.pdf」的项目在PDF里面，嵌入了几个小型语言模型（SLM），比如TinyStories（3M参数）、Pythia（31M参数）和TinyLLM（10M参数）。

这些模型虽然「小巧」，但功能可不简单！

TinyStories：3M参数，运行速度快。号称是最小的能生成连贯文本的语言模型，专门为讲故事设计。想象一下，打开PDF，它给你讲个儿童故事，比如「小红帽大战大灰狼2.0」！

Pythia：31M参数，速度稍慢，支持对话。一个小型对话模型，能与人聊天，比如问它「今天天气怎么样」，它可能会一本正经地回答：「我不知道，但我可以给你讲个下雨天的故事！」

TinyLLM：10M参数，速度快。一个概念验证模型，专注于文本生成，适合做些简单的创作实验。

用户可以直接下载这些已构建好的PDF文件，打开后就能体验AI的「魔法」——直接在PDF里生成文本、讲故事，甚至聊天！

想象一下，你打开一个PDF文件，里面不是枯燥的文档，而是一个能跟你互动的AI小助手，给你讲个睡前故事，或者陪你聊聊今天的趣事。

这种体验是不是有点像科幻电影里的场景？

网友们炸开了锅，有人调侃：「我现在是更怕醒来发现自己被困在PDF里，还是怕变成Fortnite里的联动角色？」

TinyStories：讲睡前故事的最小LLM

「llm.pdf」项目里提到的TinyStories模型，其实背后还有一段有趣的故事。

这个模型基于TinyStories数据集，最早是为了研究小型语言模型的能力。

研究者用GPT-3.5和GPT-4生成了数百万个儿童小故事，内容简单但包含了语法、词汇和推理等语言要素。

词汇简单，3到4岁儿童就能看得懂。

论文链接：https://arxiv.org/abs/2305.07759

Pythia：从实验室到百姓

Pythia旨在研究语言模型的「可解释性」和「学习动态」。

简单来说，他们想搞清楚：AI模型在训练过程中，到底是怎么「学会」语言的？知识又是如何一步步积累的？

论文链接：https://arxiv.org/abs/2304.01373

Pythia项目聚焦于自回归Transformer模型，结合可解释性分析和规模法则（scaling laws），研究模型在训练中的知识演变。

Pythia模型家族包含多个版本，从70M到12B参数不等，而「llm.pdf」里用到的Pythia-31M是其中最小的一个版本。

虽然小，但它继承了Pythia项目的核心优势：高效、透明、适合研究。

多项目研究利用Pythia模型的透明性和可控性，深入探索了语言模型的「黑箱」问题。

而「llm.pdf」项目把Pythia-31M塞进PDF里，也算是让学术成果「飞入寻常百姓家」，从实验室走向了普通用户。

TinyLLM：为边缘设备量身打造

TinyLLM的目标是为边缘设备（比如物联网设备、嵌入式传感器）设计轻量级语言模型，因为这些设备通常计算资源有限，跑不动动辄几十亿参数的大模型。

TinyLLM框架有几个亮点：

轻量高效：TinyLLM模型只有10M参数，却能完成基本的文本生成任务，非常适合资源受限的场景。这种小模型在边缘设备上推理时，内存占用和计算需求都极低。
训练框架：TinyLLM提供了一个完整的训练和部署pipeline，支持用户用自己的数据训练模型。框架支持多种优化技术，比如量化（quantization）和剪枝（pruning），进一步降低模型的资源需求。
嵌入式应用：TinyLLM最初是为嵌入式传感设备设计的。

「llm.pdf」项目里的TinyLLM-10M，正是这个框架的一个实例。

虽然PDF并不是TinyLLM的典型应用场景，但这种跨界玩法也体现了小型语言模型的灵活性。

不只是AI，连Linux都能跑？

更让人瞠目结舌的是，Zaid在评论区丢出一记「重磅炸弹」：早在2月份，他就发帖提到过，PDF文件还能运行Linux系统！

他提到的项目利用RISC-V模拟器（基于TinyEMU），通过JavaScript在PDF里模拟出一个完整的Linux环境。

换句话说，你打开一个PDF，里面可能藏着一个能跑命令行的小型操作系统！

PDF文件长出「AI大脑」？网友惊呼：这操作太「黑科技」了！

这波操作简直让网友们脑洞大开。

网友Gadgets Fan甚至开玩笑说：「这不算啥，毕竟我们整个宇宙可能都在一个PDF里模拟运行呢！」

虽然是玩笑，但也反映了大家对这种技术的惊叹——PDF这个我们常用的文件格式，竟然能变成一个「万能容器」，装下AI、操作系统，甚至更多可能性。

这背后是怎么做到的？

技术原理

你可能好奇，PDF不是用来存文档的吗？怎么还能跑AI和Linux？

其实，这一切都要归功于PDF格式的一个隐藏技能——它支持JavaScript！

是的，你没听错，PDF文件可以通过嵌入JavaScript代码来执行动态操作。

早在Adobe Acrobat等PDF编辑软件中，就已经支持在PDF里运行JavaScript了，比如用来做动态表单或者交互效果。

「llm.pdf」项目正是利用了这一点。

开发团队将小型语言模型编译成JavaScript代码（通过工具像Emscripten将C代码转为asm.js），然后嵌入到PDF中。

打开PDF时，JavaScript引擎就会运行这些代码，让AI模型「活」过来。

在对应的Github项目中，开发者解释了具体的细节：

模型编译：用Emscripten工具把高效的语言模型推理框架llama.cpp编译成了asm.js，这样模型就可以在JavaScript环境中运行。

嵌入PDF：利用老版本的PDF JavaScript注入技术（PDF JS injection），他们把编译好的模型代码嵌入到PDF文件中。

不仅如此，模型的权重文件（比如TinyStories的3M参数权重）也被转成base64格式，直接塞进了PDF里。

这意味着，整个AI模型和它的运行环境都打包在一个PDF文件里，打开就能用！

运行推理：当你打开PDF时，阅读器会执行嵌入的JavaScript代码，加载模型并运行推理（inference），直接在PDF界面上生成文本或对话。

PDF文件长出「AI大脑」？网友惊呼：这操作太「黑科技」了！

不过，这种操作也有局限性。

现代浏览器（比如Chrome）的PDF引擎禁用了JIT（即时编译）功能，导致JavaScript运行速度较慢。

相比之下，Adobe Acrobat的表现更好，因为它的JavaScript引擎更宽松，支持更高效的执行。

至于Linux项目，原理类似，也是利用PDF的JavaScript支持，通过RISC-V模拟器（TinyEMU）在PDF里模拟一个小型操作系统。虽然性能有限，但这种创意已经足够震撼了！

结语：PDF，你还有多少惊喜？

谁能想到，平日里我们用来存简历、合同的PDF，竟然能变成AI和操作系统的「游乐场」？

从Linux模拟，再到如今的「llm.pdf」，PDF的潜力似乎被彻底挖掘出来了。

或许在未来，PDF不再只是静态文档，而是可以互动、计算甚至「思考」的智能容器。

PDF的下一个「魔法」会是什么？

参考资料：

https://www.youtube.com/watch?v=4cBom2lAx-g https://www.youtube.com/watch?v=4cBom2lAx-g

https://x.com/aidenybai/status/1916171665421053963

PDF文件长出「AI大脑」？网友惊呼：这操作太「黑科技」了！

PDF里藏AI：还能讲故事、聊聊天

不只是AI，连Linux都能跑？

这背后是怎么做到的？

技术原理

结语：PDF，你还有多少惊喜？

相关资讯

AI 与非结构化数据：简单 RAG 的局限及生产级解决方案全解析

2025 年 AI 工具全栈开发引擎：从 PDF 到语音仪表板

OpenAI新领导上任第一把火：DeepResearch一个小改动被网友狂赞！终于可导出PDF网友：啥时候能导出ChatGPT？