尤雨溪今天宣布 Vue、Vite 和 Rolldown 项目都加上了 llms.txt 文件。这是为了让大型语言模型 (LLM) 更方便地理解这些前端技术。那这个 llms.txt 到底是什么?有什么用?我们来简单看看。
图片
llms.txt 是什么?
llms.txt 是一个还在提议阶段的网站标准。简单说,就是建议网站在根目录下放一个叫 llms.txt 的 Markdown 文件。
这个文件的主要想法,是给 LLM 提供一个“浓缩版”的网站内容介绍,帮助 AI 更快、更准地理解网站信息。跟普通 HTML 页面不一样的是,llms.txt 会去掉导航菜单、广告、复杂的脚本这些干扰项,只留下最核心、简洁的内容给 AI 看。
标准提案链接:https://llmstxt.org/
按照官方的说法,llms.txt 主要想解决 LLM 看网站时的两个麻烦:
- 上下文窗口不够大:很多 LLM 一次能处理的信息量有限,塞不下一个完整的复杂网站。
- HTML 太难解析:把花里胡哨的 HTML 网页转成 AI 能懂的纯文本,不仅麻烦还容易出错。
llms.txt 就好比给了 LLM 一张内容“地图”,让它知道去哪里找需要的信息。具体来说,它的好处有:
- 让 LLM 看得更明白:结构化的概要能帮 AI 快速抓住网站重点,不容易被页面样式带偏。
- 找信息更高效:文件里直接给了关键内容的 Markdown 链接,AI 可以直达,不用自己吭哧吭哧爬整个站。
- 突破上下文限制:对大网站来说,这个精简的入口对 LLM 有限的“内存”更友好。
- 用在哪里?
开发文档:特别适合给编程文档、API 参考用,AI 能更快地回答开发者的问题。
其他地方:像电商网站的产品介绍、在线课程的资料、个人博客等等,内容更清晰总归是好事。
跟 robots.txt 和 sitemap.xml 有啥不同?
- robots.txt:管爬虫能不能进来,但不管内容是什么。
- sitemap.xml:告诉搜索引擎有哪些页面可以收录,但也不提供内容概要。
- llms.txt:专门为 AI 设计的,提供优化过的内容结构,方便 AI 理解和处理。
llms.txt 长什么样?(规范)
这个规范定义了两种文件:
- /llms.txt:核心文件,是个简化的导航,告诉 AI 网站大概有什么内容,重点在哪里。
- /llms-full.txt (可选):如果 llms.txt 里放不下,可以把完整的网页内容(比如整个文档页、代码例子)放这里,供 AI 需要深入了解时查阅。
文件的格式有讲究,得按规矩来,方便程序解析:
- # 项目名称:只能有一个 H1 标题,写网站或项目的名字。
- > 项目简介:用 Markdown 的引用格式,简单介绍下这个网站是干嘛的。
- ## 核心文档, ## API 参考 等:用 H2 标题分类,下面用列表 - [链接文字](URL "链接文字"):简单说明 的形式放重要资源的链接和简介。
- ## 其他资源 (可选):放些次要信息,比如社交账号、联系方式等。
# 示例项目 > 一个用来演示 llms.txt 功能的简单项目。 ## 核心文档 - [快速入门](https://example.com/quickstart "快速入门"):教你怎么快速用起来。 - [API 文档](https://example.com/api "API 文档"):所有 API 的详细说明。 ## 示例代码 - [GitHub 仓库](https://github.com/example/repo "GitHub 仓库"):完整的代码都在这儿。 ## 联系方式 - https://example.com/contact
比如 Vite 的 llms.txt 就是这样的:
图片
怎么生成 llms.txt?
现在已经有一些工具能帮你生成 llms.txt。大致流程都差不多:
爬你的网站(特别是文档站)的核心页面 -> 抓关键信息(标题、简介、链接) -> 按格式生成 llms.txt(和可选的 llms-full.txt) -> 让你下载或者直接放网站根目录。
可以用下面这些工具试试:
- Firecrawl LLMs.txt Generator[1]:还在测试中,提供 API,给个网址就能拿到 llms.txt 和 llms-full.txt。
- SiteSpeakAI LLMs.txt Generator[2]:免费在线工具,输入域名,它帮你爬内容、生成文件。
- apify/actor-llmstxt-generator[3]:一个开源爬虫工具 (Apify Actor),能深度爬取网站生成 llms.txt。
- *WordLift AI-Powered SEO Generator[4]:这个工具更偏 SEO,企业版功能更强,生成的 llms.txt 对搜索引擎和 AI 都友好。
- Mintlify[5]:如果你用 Mintlify 托管文档,它会自动帮你生成并部署好 /llms.txt。
哪里能看到哪些网站用了 llms.txt?
想看看哪些网站用了 llms.txt?下面这些地方可以找到一些例子:
- LLMs TXT Hub: https://llmstxthub.com/[6]
图片
- LLMs TXT Cloud Directory: http://directory.llmstxt.cloud/[7]
图片
- LLMs TXT Site: https://llmstxt.site/[8]
图片
llms.txt 现在怎么样了?未来呢?
llms.txt 是 Jeremy Howard 在 2024 年 9 月 3 号提出来的。虽然这个标准在 AI 和开发者圈子里有不少讨论,但像 OpenAI、Google 这些大厂还没正式说支持它。
不过,已经有不少平台和工具开始用起来了:
- 官方和社区工具:有官方的 Python/CLI 库 (llms_txt2ctx)、JS 示例代码,可以直接读取网站的 llms.txt 给 LLM 用 。
- IDE 和 AI 编程助手:通过 MCPDoc 协议,一些编辑器和 AI 工具(比如 Cursor, Windsurf, Claude Desktop/Code)能读到 llms.txt 里的文档信息 。
- API 文档平台:像 Apidog、APIfox 这些平台,生成的文档网站会自动带上 llms.txt,方便它们内置的 AI 助手理解 API。
- 基于 MCP 协议的工具:MCP 是个开放协议,一些服务和 SDK (Java, TypeScript, Python 等) 用它来读 llms.txt。Replit, Codeium, Sourcegraph 这些平台都在用,方便 AI 应用接入外部文档。
小结
总的来说,llms.txt 还很新,但它提供了一个标准化的方法,让 AI 能更好地和网站内容互动,潜力不小。随着 AI 在搜索、写代码这些场景用得越来越多,这种专门为 AI 优化内容呈现方式,可能会成为一个趋势。
当然,它能不能流行起来,还得看大模型厂商会不会跟进,以及开发者们用不用。现在主要用在技术文档和 API 上,以后可能会用到更多地方。
相关链接
[1] Firecrawl LLMs.txt Generator: https://docs.firecrawl.dev/features/alpha/llmstxt
[2] SiteSpeakAI LLMs.txt Generator: https://sitespeak.ai/tools/llms-txt-generator
[3] apify/actor-llmstxt-generator: https://github.com/apify/actor-llmstxt-generator
[4] WordLift AI-Powered SEO Generator: https://wordlift.io/generate-llms-txt/
[5] Mintlify: https://mintlify.com/docs/settings/llms