Sebastian Raschka万字年终复盘：2025，属于「推理模型」的一年

随着2025年的日历翻过最后一页，AI 领域再次证明了预测未来的难度。在这一年，Scaling Law 并没有失效，但它的战场已经转移：从单纯的参数堆叠转向了推理侧的强化。 DeepSeek R1 的横空出世，不仅打破了专有模型的神话，更让 RLVR 和 GRPO 算法成为了年度技术风向标。

Sebastian Raschka万字年终复盘：2025，属于「推理模型」的一年随着2025年的日历翻过最后一页，AI 领域再次证明了预测未来的难度。

在这一年，Scaling Law 并没有失效，但它的战场已经转移：从单纯的参数堆叠转向了推理侧的强化。DeepSeek R1 的横空出世，不仅打破了专有模型的神话，更让 RLVR 和 GRPO 算法成为了年度技术风向标。与此同时，我们在架构上看到了 MoE 与高效注意力机制的收敛，也在行业中目睹了「极限刷榜」带来的评估困境。

著名 AI 教育家与研究员 Sebastian Raschka 在他今年的年度总结中，以其一贯的「硬核工程视角」对 2025 年进行了全面复盘。从 DeepSeek 的成本经济学到推理模型的算法细节，从工具使用的演进到 AI 辅助编程的真实体验，Raschka 不仅梳理了技术脉络，还反思了人与 AI 的协作边界。

以下是 Sebastian Raschka 的博客原文：

https://magazine.sebastianraschka.com/p/state-of-llms-2025

随着 2025 年接近尾声，我想回顾一下大语言模型（LLM）在本年度的一些最重要进展，反思现存的局限性和未解难题，并分享一些关于未来的想法。

正如我每年常说的那样，2025 年对于 LLM 和 AI 来说又是充满变数的一年，而且今年没有迹象表明这种进步正在饱和或放缓。

1、推理之年：RLVR 与 GRPO

我想探讨的有趣话题很多，让我们按时间顺序从 2025 年 1 月开始说起。

Scaling 仍然有效，但它并没有真正改变 LLM 在实际应用中的表现或感觉（唯一的例外是 OpenAI 刚发布的 o1，它增加了推理轨迹）。因此，当 DeepSeek 在 2025 年 1 月发布 R1 论文，展示了类似推理的行为可以通过强化学习开发出来时，这意义非凡。（在 LLM 的语境下，推理意味着模型会解释其答案，而这种解释本身通常会带来答案准确性的提升。）

图 1：一个简短的回答和一个包含中间步骤的更长的回答，后者通常是推理模型生成的。

1.1 DeepSeek 时刻

DeepSeek R1 因各种原因备受关注：

首先，DeepSeek R1 是作为开放权重模型发布的，其表现非常出色，足以媲美当时最好的专有模型（如 ChatGPT, Gemini 等）。

其次，DeepSeek R1 的论文促使许多人（尤其是投资者和记者）重新审视 2024 年 12 月发布的 DeepSeek V3 论文。这导致了一个修正后的结论：虽然训练最先进的模型仍然昂贵，但其成本可能比之前假设的低一个数量级，估计更接近 500 万美元，而不是 5000 万或 5 亿美元。

图 2：来自 DeepSeek V3 论文的表格，估计训练 6710 亿参数 DeepSeek V3 模型的成本。

DeepSeek R1 的补充材料估计，在 DeepSeek V3 基础上训练 R1 模型的成本仅需额外的 29.4 万美元，这再次远低于所有人的预期。

图 3：来自 DeepSeek R1 论文补充材料的表格，估计在 DeepSeek V3 基础上训练 R1 模型的成本。

当然，关于 500 万美元的估算有许多注意事项。例如，它仅涵盖了最终模型运行的算力信用成本，并未计入研究人员的薪水以及与超参数调整和实验相关的其他开发成本。

第三，也是最有趣的一点，该论文提出了带有可验证奖励的强化学习 (RLVR) 配合 GRPO 算法，作为一种新的（或至少是改进的）算法方法，用于开发所谓的推理模型并在后训练阶段改进 LLM。

图 4：强化学习应用的广泛概述及其时机。在这一概述中，我跳过了许多细节，但有兴趣的读者可以在我的《LLMs 推理的强化学习现状》一文中阅读更多内容。

在此之前，像监督指令微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 这样的后训练方法（它们仍然是训练流程的重要组成部分）一直受限于昂贵的书面回复或偏好标签。（当然，人们也可以用其他 LLM 合成生成这些数据，但这有点像「先有鸡还是先有蛋」的问题。）

DeepSeek R1 和 RLVR 的重要性在于，它们允许我们在大量数据上对 LLM 进行后训练，这使它们成为通过在后训练期间扩展算力来改进和解锁能力的绝佳候选者（假设有可用的算力预算）。

RLVR 中的 V 代表「可验证」，意味着我们可以使用确定性方法来分配正确性标签，而这些标签足以让 LLM 学习复杂的问题解决能力。（典型的类别是数学和代码，但也有可能将此想法扩展到其他领域。）

图5：可验证奖励的一个简单示例。

我不想在这里过于纠结技术细节，因为我想在这篇年度回顾文章中涵盖其他方面。关于推理 LLM 和 RLVR，完全可以写整篇文章或整本书。例如，如果您有兴趣了解更多，可以查看我之前的文章。

https://magazine.sebastianraschka.com/p/understanding-reasoning-llms
https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training

综上所述，结论是：今年的 LLM 发展本质上是由使用 RLVR 和 GRPO 的推理模型主导的。基本上，继 DeepSeek R1 之后，每一个主要的开放权重或专有 LLM 开发商都发布了其模型的推理（通常称为「思考/Thinking」）变体。

1.2 LLM 关注重点

如果我要简洁地总结每一年 LLM 开发的关注重点（除了单纯扩展架构和预训练算力之外），我的列表会是这样的：

2022: RLHF + PPO
2023: LoRA SFT
2024: 中期训练 (Mid-Training)
2025: RLVR + GRPO

预训练仍然是一切的必要基础。除此之外，RLHF（通过 PPO 算法）当然是早在 2022 年带来最初 ChatGPT 模型的功臣。

在 2023 年，重点大量集中在 LoRA 和类 LoRA 的参数高效微调技术上，用于训练小型自定义 LLM。

图 6：近年来专有和开源权重 LLM 开发的一些关注领域。请注意，这是累积性的，意味着例如 RLHF + PPO 仍然相关且被使用。然而，它已不再是讨论的热点话题。

接着，在 2024 年，所有主要实验室开始通过关注合成数据、优化数据混合、使用特定领域数据以及增加专门的长上下文训练阶段，使其（预）训练流程更加复杂。我在当时的 2024 年文章中总结了这些不同的方法（当时我将这些技术归类为预训练，因为「中期训练」这个术语当时还没被创造出来）：

当时，我认为这些是预训练技术，因为它们使用相同的预训练算法和目标。今天，这些紧随常规通用数据预训练之后的、稍微更专业化的预训练阶段，通常被称为「中期训练」（作为常规预训练和包括 SFT、RLHF 以及现在的 RLVR 在内的后训练之间的桥梁）。

那么，你可能会问，接下来是什么？

我认为明年我们会看到对 RLVR 的（更多）关注。目前，RLVR 主要应用于数学和代码领域。下一个合乎逻辑的步骤是，不仅使用最终答案的正确性作为奖励信号，还要在 RLVR 训练期间评判 LLM 的解释。这在过去多年里一直以「过程奖励模型」的研究标签存在。然而，它尚未取得超级成功。例如，引用 DeepSeek R1 论文：

4.2. 不成功的尝试 [...] 总之，虽然 PRM 展示了良好的能力来对模型生成的前 N 个响应进行重新排序或辅助引导搜索 (Snell et al., 2024)，但在我们的实验中，与其在大规模强化学习过程中引入的额外计算开销相比，其优势是有限的。

然而，看看上个月发布的最新 DeepSeekMath-V2 论文（我在之前的文章《从 DeepSeek V3 到 V3.2：架构、稀疏注意力和 RL 更新》中讨论过），我认为未来我们会看到更多将「解释评分」作为训练信号的做法。

https://sebastianraschka.com/blog/2025/technical-deepseek.html

目前对解释进行评分的方法涉及第二个 LLM。这引出了我看到的 RLVR 的另一个方向：扩展到数学和代码以外的其他领域。

所以，如果你今天问我如果不展望 2026 年和 2027 年会看到什么，我会说：

2026: RLVR 的扩展和更多的推理时扩展
2027: 持续学习

除了上述的 RLVR 扩展，我认为 2026 年将会有更多关注点放在推理时扩展上。推理时扩展意味着我们在训练后，让 LLM 生成答案时花费更多的时间和金钱，但其效果非常显著。

推理扩展并不是一个新的范式，LLM 平台已经在底层使用了某些技术。这是延迟、成本和响应准确性之间的权衡。然而，在某些应用中，准确性比延迟和成本更重要，极端的推理扩展完全是值得的。例如，正如最近的 DeepSeekV2-Math 论文所示，它将模型在具有挑战性的数学竞赛基准测试中的表现推向了金牌水平。

图 7：两种推理时扩展方法的结合：自一致性与自精炼。额外的自精炼迭代可以提高准确性。该图来自 DeepSeekMath-V2 论文。自一致性与自精炼在《从零构建推理模型》一书的第 4 章和第 5 章中有详细说明。

今年同事之间也有很多关于持续学习的讨论。简而言之，持续学习是指在不从头开始重新训练的情况下，在数据或知识上训练模型。这并非新想法，我也好奇为什么今年它被提及这么多次，因为目前在持续学习方面并没有任何新的或实质性的突破。

持续学习的挑战在于灾难性遗忘（正如持续预训练的实验所示，学习新知识意味着 LLM 在某种程度上正在遗忘旧知识）。不过，既然这看起来是一个如此热门的话题，我确实期望在未来几年在最小化灾难性遗忘和使持续学习方法开发成为重要进展方面取得更多进步。

2、GRPO：年度研究宠儿

在昂贵的 LLM 时代，学术研究近年来一直颇具挑战性。当然，尽管（或者正因为）预算较少，学术界仍然可以做出重要的发现，并成为主流和 LLM 进步及突破的关键支柱。近年来的流行例子包括 LoRA（2021 年的大型语言模型低秩适应）及其相关的参数高效微调方法。

图 8：基于代码的 LoRA 教程介绍

另一个是 DPO（直接偏好优化：你的语言模型秘密地是一个奖励模型）及其相关的无奖励模型对齐方法，作为基于人类反馈的强化学习的替代方案。

图 9：基于代码的 DPO 教程介绍

在我的圈子里，今年的研究亮点是 GRPO。虽然它是在 DeepSeek R1 论文中介绍的，而非源自学术界，但它仍然让研究人员度过了令人兴奋的一年：RLVR 和 GRPO 在概念上都很有趣，而且根据规模不同，进行实验的成本并不令人望而却步。

因此，今年我在 LLM 研究文献中看到了许多对 GRPO 的数学改进（来自公司和学术研究人员），这些后来被采纳进了最先进 LLM 的训练流程中。例如，其中包括以下改进：

Olmo 3：

零梯度信号过滤 (DAPO by Yu et al., 2025)
主动采样 (DAPO by Yu et al., 2025)
Token 级损失 (DAPO by Yu et al., 2025)
无 KL 损失 (DAPO by Yu et al., 2025 和 Dr. GRPO by Liu et al., 2025)
Clip higher (DAPO by Yu et al., 2025)
截断重要性采样 (Yao et al., 2025)
无标准差归一化 (Dr. GRPO by Liu et al., 2025)

DeepSeek V3.2：

带有特定领域 KL 强度的 KL 调优（数学领域为零）
重新加权的 KL
Off-policy 序列掩码
保留 top-p / top-k 的采样掩码
保留原始 GRPO 优势归一化

我可以确认，这些 GRPO 的技巧或修改在实践中具有巨大的影响。例如，采用了其中一些或多项修改后，糟糕的更新不再破坏我的训练运行，我也不再需要定期重新加载检查点。

即便是非常短的运行，我在采用这些技巧时也观察到了巨大的收益：

图 10：我从零开始的 GRPO 训练代码部分结果，该代码可在 GitHub 上获取

无论如何，如果你想尝试一下，我在「从头构建推理模型」的代码库中有一个原生 GRPO 脚本。（我很快会添加更多包含相应修改的消融研究。）

3、LLM 架构：岔路口？

说到 LLM 架构，最先进的模型仍然使用老式的解码器风格 Transformer。然而，今年，开放权重 LLM 或多或少都收敛于使用混合专家 (MoE) 层，以及至少一种「效率调整」的注意力机制：分组查询注意力、滑动窗口注意力或多头潜在注意力。

除了这些相当标准的 LLM 架构外，我们还看到了针对注意力机制的更激进的效率调整，旨在随序列长度线性扩展。这方面的例子包括 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets，以及 NVIDIA Nemotron 3 中的 Mamba-2 层。

无论如何，我不想在这里深入太多细节，因为如果您想了解更多，我有一篇完整的 1.3 万字且最近更新的文章专门讨论这些架构：大型 LLM 架构比较

https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

图 11：大型 LLM 架构对比

我的预测是，我们将继续基于 Transformer 架构构建至少几年，至少在最先进的建模性能方面是这样。同时，我确实认为我们会看到越来越多像 Gated DeltaNet 和 Mamba 层这样的效率和工程调整，因为在 LLM 训练、部署和使用的规模下，从财务角度来看，这对那些仍在为服务 LLM 烧钱的公司来说是有意义的。

这并不意味着没有其他替代方案。正如我在《超越标准 LLM》中所写，文本扩散模型是一种有趣的方法。目前，它们属于实验性研究模型类别，但 Google 分享说他们将发布 Gemini Diffusion 模型。它在建模质量上不会与其最先进的产品相抗衡，但对于低延迟要求的任务（如代码补全），它将非常快且具吸引力。

此外，两周前，开放权重的 LLaDA 2.0 模型发布了。其中最大的一个拥有 1000 亿参数，是迄今为止最大的文本扩散模型，与 Qwen3 30B 相当。（是的，它并没有推动整体的最先进水平，但在扩散模型领域仍是一个值得注意的版本。）

4、这也是推理扩展和工具使用的一年

通过扩展训练数据和架构来改进 LLM 是一个既定公式，且（仍然）持续奏效。然而，特别是在今年，这已不再是「唯一」足够的秘诀。我们在 GPT 4.5（2025 年 2 月）上看到了这一点，据传它比 GPT 4（以及后来发布的 GPT 5）大得多，但单纯的Scaling 通常不是最明智的前进方式。GPT 4.5 的能力可能比 GPT 4 更好，但增加的训练预算被认为是「性价比低」。

相反，更好的训练流程（更加关注中期和后训练）和推理扩展推动了今年的大部分进步。例如，如前所述，在谈论达到金牌级数学表现的 DeepSeekMath-V2 时，推理扩展是我们可以利用的杠杆之一，让 LLM 按需解决极其复杂的任务（GPT Heavy Thinking or Pro 是其他例子；由于高延迟和成本，将这些用于所有事情是没有意义的，但在某些例子中，如具有挑战性的数学或编码问题，高强度的推理扩展是有意义的。）

另一个重大改进来自以工具使用为核心的 LLM 训练。如您所知，幻觉是 LLM 最大的问题之一。可以说，幻觉率一直在改善，我认为这很大程度上归功于上述的工具使用。例如，当被问及谁赢得了 1998 年 FIFA 世界杯时，LLM 不再尝试死记硬背，而是可以通过工具使用传统的搜索引擎，并从该主题的可信网站（例如本例中的 FIFA 官方网站）选择和抓取此信息。数学问题也是如此，使用计算器 API 等等。

例如，OpenAI 的 gpt-oss 模型是今年发布的早期开放权重模型之一，其开发时就特别考虑了工具使用。

图 12：来自 gpt-oss 模型卡片论文的注释表格.

遗憾的是，开源生态系统尚未完全赶上，许多（如果不是大多数）工具仍然默认在非工具使用模式下运行这些 LLM。一个原因是这是一个较新的、不断发展的范式，工具需要适应。另一个原因也是这是一个更难解决的问题，出于安全考虑（给予 LLM 无限制的工具使用访问权限可能会带来潜在的安全风险或对系统造成其他形式的破坏。我认为应该始终问的一个明智问题是：你会信任一个新实习生拥有这种级别的系统访问权限来做这件事吗？）

我确实认为，在未来几年，当在本地使用 LLM 时，启用和允许工具使用将变得越来越普遍。

5、年度词汇：Benchmaxxing

如果我必须选一个词或趋势来描述今年的 LLM 发展，那将是「极限刷榜 (Benchmaxxing)」。在这里，Benchmaxxing 意味着过度关注推高排行榜的分数，有时甚至到了基准测试表现本身成为目标，而不是作为通用能力的代理指标的地步。

一个突出的例子是 Llama 4，它在许多既定基准测试中得分极高。然而，一旦用户和开发者上手使用，他们就意识到这些分数并不能反映真实世界的能力和实用性。正如那句流行语所说，如果测试集是公开的，它就不是真正的测试集。而如今的问题是，测试集数据不仅（有意或无意地）是训练语料库的一部分，而且在 LLM 开发过程中经常被直接优化。

过去，即使公共测试集的基准分数虚高，至少模型排名仍然保持不变。例如，参见下方 2019 年论文《ImageNet 分类器能泛化到 ImageNet 吗？》中的注释图。

图 13：来自 2019 年论文《Do ImageNet Classifiers Generalize to ImageNet?》的标注图。

在 LLM 开发中，这已经到了基准数字不再是值得信赖的 LLM 性能指标的地步。然而，我确实认为基准测试仍然是 LLM 必须跨越的必要门槛。即，如果我看到一个 LLM 在基准 Y 上的得分低于 X，我就已经知道它不是一个好的 LLM。然而，如果它在基准 Y 上的得分高于 X，这并不意味着它比另一个在同一基准上得分高于 X 的 LLM 好多少。

另一个需要考虑的方面是，图像分类器只有一个工作，即分类图像。然而，LLM 用于许多不同的任务：翻译文本、总结文本、编写代码、头脑风暴、解决数学问题等等。评估图像分类器（有明确的指标如分类准确率）比评估 LLM 在确定性和自由形式任务上的表现要简单得多。

除了在实践中尝试 LLM 并不断生成新的基准测试外，遗憾的是，这个问题没有解决方案。顺便说一句，如果你好奇了解 LLM 评估的主要类别，你可能会喜欢我的文章《从头理解 LLM 评估的 4 种主要方法》。

6、AI 用于编码、写作和研究

既然这个问题经常出现，我想分享一下我对 LLM 取代人类进行某些类型任务（甚至工作）的看法。从高层次来看，我将 LLM 视为赋予某些职业的人们「超能力」的工具。我的意思是，当 LLM 被用好时，它们可以使个人效率大幅提高，并消除日常工作中的许多摩擦。这范围从相对平凡的任务（如确保章节标题的大小写一致）到在大型代码库中查找复杂的错误。

6.1 编码

今天，我仍然自己编写大部分我关心的代码。「我关心的」是指在那些我理解代码且代码正确性至关重要的上下文中。例如，如果我设置一个 LLM 训练脚本，我会实现并仔细检查训练逻辑。这是为了 a) 确保它在做我认为它应该做的事情，以及 b) 保留我在该任务中的知识和专业技能。然而，我现在使用 LLM 来添加周围更平凡的代码，例如添加命令行 argparse 样板代码，以便我可以更方便地从命令行使用我自己的代码。

图 14：使用提示「为 training-script.py 添加 argparse 以支持所有超参数选项」向训练脚本添加命令行参数的例子。

但我也越来越多地依靠 LLM 来发现问题、建议改进或对想法进行健全性检查。同时，我想了解我正在构建什么，作为个人目标，我旨在加深我的知识和技能，并继续增长我的专业知识。

与此同时，LLM 对于我核心专业知识之外的任务非常有价值。它们让我自动化了一些我本来没有时间或精力去处理的事情。一个例子是我最近写的一个工具，用于将我的 Substack 文章提取并备份为 Markdown。（我在 Markdown 中起草所有内容，但我经常直接在 Substack 编辑器中编辑和扩充文章，所以我的本地草稿并不总是最新的）。LLM 还帮助我清理了网站上的 CSS，这些 CSS 积累了多年的重复和不一致。今年有很多类似的案例我使用了 LLM。

简而言之，我认为这里的诀窍是识别何时使用以及何时不使用 LLM。以及如何以一种有助于你增长专业知识同时也令人感到满足的方式使用 LLM。

6.2 代码库和代码库

LLM 在编写代码方面变得更好了，但尽管我听到其他人这么说，我不认为代码是或将变得短暂或过时。LLM 赋予人们超能力来生成某些编码项目，这些项目如果由他们自己创建，将需要大量精力。然而，纯粹由 LLM 生成的代码库并不能取代专家精心制作的代码库。这些专家代码库甚至可能是由人类编码员自己使用 LLM 创建的。但关键点在于，该领域的专家投入了大量时间和精力来创建、测试和完善它。其他人要复制它需要大量工作，所以如果它存在，为什么不采用它呢？

简而言之，我认为一个学习了良好设计模式和权衡取舍、并在职业生涯中研究、见过并构建了许多平台的专家全栈 Web 开发人员，将能够构建比一个随机提示 LLM 构建平台的人更好的平台。很棒的是，一个随机的人现在可以构建一个平台，即使它不是最好的。然而，使用和提示 LLM 只能让那个人走这么远，平台的质量可能会停滞不前。因此，如果这个人真的关心改进平台，深入研究这里，学习其他人如何构建平台，并带着更多的知识回来更有效地使用 LLM 来指导和改进平台设计，将是一个好主意。

6.3 技术写作和研究

与编码类似，我不认为 LLM 会使技术写作过时。写一本好的技术书籍需要数千小时和对主题的深刻熟悉。这个过程可能涉及 LLM 来提高清晰度、检查技术正确性、探索替代方案或运行小型实验，但核心工作仍然取决于人类的判断和专业知识。

图 15：一个非分阶段的例子，其中 LLM 只是帮助我找到并修复了前一篇文章中的错误。

是的，LLM 可以让技术书籍变得更好。它们可以帮助作者发现错误、扩充参考文献，并通常减少花在平凡任务上的时间。这释放了更多时间用于真正需要创造力和经验的深度工作。

从读者的角度来看，我也不认为 LLM 取代了技术写作。使用 LLM 了解一个主题对于快速提问和初学者级别的解释非常有效。然而，当你想要建立更深层次的理解时，这种方法很快就会变得混乱。

在那一点上，与其可能浪费数小时自己试图过滤 LLM 关于你试图学习但（尚）不是专家的主题的回复，通常遵循专家设计的结构化学习路径更有意义。（专家可能使用了也可能没有使用 LLM。）

当然，在参加课程或从书中学习时，使用 LLM 来澄清问题或探索旁支路径仍然非常有意义。让它设计测验或练习来实践知识也很棒。

总的来说，我认为 LLM 对作者和读者来说都是净收益。但我也认为这里的诀窍是学会识别何时使用以及何时不使用 LLM。例如，主要的缺点是，当一个话题变得困难时，人们很容易立即使用 LLM，因为先自己努力解决问题通常会带来更强的学习效果。

我看待研究的方式也差不多。LLM 对于查找相关文献、发现数学符号中的问题和建议后续实验非常有用。但让一位人类研究员坐在驾驶座上仍然是有意义的。也许这里的经验法则是这样的：

如果这篇（研究）文章或书完全由人类生成，它可能还有进一步改进的空间。
如果这篇（研究）文章或书可以通过仅仅提示 LLM 生成，那么它可能不够新颖和/或不够深刻。

6.4 LLM 与职业倦怠

LLM 仍然相当新且在不断发展，我认为过度使用 LLM 也有一个较少讨论的缺点。例如，我认为如果模型做了所有的操作，而人类主要是在监督，工作可能会开始让人感到空虚。

当然，有些人真的喜欢专注于管理系统和编排工作流程，这是一个完全有效的偏好。但对于那些喜欢亲手做事的人来说，我认为这种工作模式可能会加速职业倦怠。（这对于那些期望因为有了 LLM 而能更快获得更多结果的公司来说尤其如此。）

与难题搏斗并最终看到它成功，有一种特别的满足感。当 LLM 一次性搞定解决方案时，我没有同样的感觉。我想这类似于烹饪（这只是我想到的，我不是一个好厨师）。如果你喜欢做披萨，使用预制的面团只加配料可能会消除很多乐趣，烹饪变成了达到目的的手段。这不一定是坏事，但我认为如果你在较长一段时间内（几个月或几年）每天做很多小时这样的工作，我能看到它会让人感到空虚并最终导致倦怠。所以，一个自私的观点是写代码也比读代码更有趣。你可能会同意，创建 Pull Request 通常比审查它们更有趣（当然，这对每个人来说并不都是真的）。

也许一个很好的、理想化的（但并非完美的）类比，说明我们应该如何以可持续的方式使用 AI，就是国际象棋。

国际象棋引擎在几十年前就超越了人类棋手，但人类进行的职业国际象棋仍然活跃且繁荣。我不是国际象棋专家，但我觉得这项游戏可能甚至变得更加丰富和有趣了。

根据我听到的（例如，基于 Kasparov 的《Deep Thinking》一书和以 Magnus Carlsen 为特色的播客），现代棋手一直在使用 AI 来探索不同的想法，挑战他们的直觉，并以前所未有的深度分析错误。

我认为这是一个有用的模型，可以用来思考智力工作其他形式中的 AI。如果用得好，AI 可以加速学习并扩展一个人可以合理承担的工作。我认为我们应该更多地把它视为合作伙伴而不是替代品。但我也认为，如果 AI 被用来完全外包思考和编码，它就有可能破坏动力和长期技能发展。

图 16：LLMs 降低了入门门槛，使程序员（无论是初学者还是专家）更加高效。然而，在我们即将结束 2025 年之际，我认为仍然值得投资成为专家，因为这样你将能从 LLMs 中获得更多的价值，并能够交付更出色的结果。

7、优势：私有数据

LLM 的通用编码、知识问答和写作能力在不断提高。这很大程度上是因为由于训练流程和范式（例如 RLVR）以及推理扩展和工具使用的改进，Scaling 仍然提供了正向的投资回报。

然而，这将在某个时刻开始趋于平稳（类似于我们在 GPT 4 到 GPT 4.5 开发中看到的），除非我们继续发明新的训练方法和/或架构（目前，还没有人知道这些可能是什么样子的）。

LLM 目前能够解决许多通用任务和低垂的果实。但要将它们确立在某些行业中，就需要更多的领域专业化。我认为 LLM 提供商会很乐意获得高质量的、特定领域的数据。目前看来，这将是一个挑战。

例如，似乎大多数接触过的公司都拒绝了此类交易，恰恰是因为数据是专有的并且是其业务差异化的核心。（我从多个来源听到了这一点，还有一篇关于此主题的 The Information 文章。）

在我看来，这完全说得通。我认为将有价值的专有数据（有一天可能会给公司带来优势）卖给 OpenAI 或 Anthropic 可能有点短视。

图 17：可用于训练领域专用 LLMs 的数据领域和类型示例，但在这些情况下将数据出售给外部方可能会引起担忧。(我不是法律专家，这也不构成法律建议，但我可以想象，如果是一个纯本地的 LLM，不会离开公司的安全服务器，那么在患者健康数据上训练模型与开发其他使用该患者健康数据的内部软件并无不同。)

目前，LLM 开发在大规模上极其昂贵且具有挑战性，这就是为什么只有少数大公司开发最先进的 LLM。然而，我认为 LLM 开发正变得越来越商品化，因为 LLM 开发者频繁在雇主之间轮换，最终将被更大的金融机构、生物技术公司和其他有预算开发利用其私有数据的具有竞争力的内部 LLM 的公司聘用。

这些 LLM 甚至不必完全从头开始训练；许多最先进的 LLM 如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在发布，可以进行调整和进一步的后训练。

8、从头构建 LLM 和推理模型

你可能想知道我今年都在忙些什么。我的重心几乎完全放在了 LLM 相关的工作上。去年，我决定成为一名独立人士并创办了自己的公司，主要是为了有更多时间从事我自己的研究、书籍撰写、Substack 写作以及行业合作。

作为一名独立研究员，咨询项目是维持这种工作模式可持续的一部分。这不仅涵盖了日常开销（从食品杂货到健康保险），还包括一些不太显眼的成本，比如用于上述实验的云端算力费用。

随着时间的推移，我的目标是进一步减少咨询工作，将更多时间花在长篇研究和写作上，特别是我在这里分享的技术深度文章。

我很幸运，许多公司都联系我提供全职职位。如果独立这条路走不通，那将是一个可行的选择，但目前，我计划保持独立。

如果你觉得我的工作有用，并且在能力范围内，订阅我的 Substack 或购买我的一本书，确实有助于使这类工作变得可持续，我真心感谢大家的支持。

今年我的个人高光时刻之一是收到了关于我的书《从头构建大语言模型》 (Build A Large Language Model (From Scratch))的积极反馈。我收到了来自世界各地公司和大学读者的许多深思熟虑的留言。

这些反馈涵盖了广泛的用例：从大学教授将其作为主要教科书来教授 LLM 原理，到前学生用它准备面试并获得新职位，再到工程师依靠它作为在生产环境中实施自定义 LLM 的踏板。

得知这本书现在已经被翻译成至少九种语言，我也感到非常兴奋。

图 18：构建一个大型语言模型（从头开始）翻译成不同语言。

许多读者还问是否会有第二版，涵盖更新、更高级的主题。虽然我也考虑过这一点，但我对降低这本书的易读性持谨慎态度。例如，用更复杂的变体（如一些较新的 DeepSeek 模型中使用的多头潜在注意力）来替换标准的多头注意力，会大大提高准入门槛。

相反，目前我倾向于保持这本书的原样，因为它非常适合那些想入门 LLM 的人。对于对更高级材料感兴趣的读者，作为后续，我在这一年中向该书的 GitHub 代码库添加了大量的补充材料。我计划随着时间的推移继续扩展这些材料。

图 19：我今年为《从零构建大型语言模型》（From Scratch）仓库添加的一些附加内容摘录。

此外，正如你可能知道的，我目前正在撰写续作《从头构建推理模型》。

第一本书《从头构建大语言模型》侧重于核心的大语言模型架构和预训练的基础知识。

[图片]

图 20：展示这两本从零开始的书籍如何相互关联的示意图。

这本关于推理模型的书则紧接第一本书的内容。它从一个预训练好的基础模型开始，探索专门旨在提高推理能力的推理时扩展方法和强化学习技术。

图 21：《从零构建推理模型》（早期访问版）的摘录.

除了这个 Substack 博客，我正在努力撰写这本关于推理的书。在许多方面，我认为这是我迄今为止构思最周密、打磨最精细的一本书。

目前，我估计每一章大约花费 75-120 小时。如果你好奇的话，我估计具体的时间分配通常如下：

3-5 小时：头脑风暴和修改选题
5-10 小时：构建内容结构
20 小时：编写初始代码
10-20 小时：运行额外实验并阅读最新文献以获取更多见解
10-20 小时：制作图表
10 小时：撰写初稿文本
10-20 小时：重写和润色章节
5-10 小时：制作练习题加上运行实验
2-5 小时：整合编辑和读者的建议

目前，我已经完成了第 6 章的一半，该章实现了用于训练推理模型的带有可验证奖励的强化学习代码。

图 22：第 6 章和第 7 章中关于可验证奖励的强化学习实验的初步结果。

《从头构建推理模型》是一项非常艰巨的工作，但我完全乐在其中！我希望你和其他读者会发现它像《从头构建大语言模型》一样有用。

9、2025 年的惊喜与 2026 年的预测

我想用一些主要的收获来结束这篇文章，重点关注我认为对我来说有点令人惊讶的事情，以及我对 2026 年的预测。

9.1 2025 年值得注意和令人惊讶的事情

让我们从 2025 年的惊喜开始。如果你在 2024 年早些时候问我，这些可能是我没想到的发展：

几个推理模型已经在主要数学竞赛中达到金牌级表现（OpenAI 的一个未命名模型、Gemini Deep Think 和开放权重的 DeepSeekMath-V2）。我对这种事情的发生并不感到惊讶，但我很惊讶这在 2025 年就已经发生了，而不是 2026 年。
Llama 4（或一般的 Llama）在开放权重社区中几乎完全失宠，Qwen 在受欢迎程度上已经超过了 Llama（根据 Nathan Lambert 的 ATOM 项目报告的下载量和衍生品数量衡量）。
Mistral AI 在 2025 年 12 月宣布的最新旗舰 Mistral 3 模型使用了 DeepSeek V3 架构。
除了 Qwen3 和 DeepSeek R1/V3.2 之外，许多额外的竞争者出现在最先进开放权重模型的竞赛中，包括 Kimi、GLM、MiniMax 和 Yi。
更便宜、高效的混合架构已经成为领先实验室的更大优先事项（Qwen3-Next、Kimi Linear、Nemotron 3），而不是由单独的实验室开发。
OpenAI 发布了一个开放权重模型（gpt-oss，我今年早些时候写了一篇关于它的独立文章）。
MCP（加入 Linux 基金会）已经成为代理式 LLM 系统中工具和数据访问的标准（目前）；我原本预计生态系统在 2025 年会保持更加碎片化，直到至少 2026 年。

9.2 2026 年预测

我们可能会看到一个工业规模、面向消费者的扩散模型，用于廉价、可靠、低延迟的推理，Gemini Diffusion 可能会率先推出。
开放权重社区将缓慢但稳定地采用具有本地工具使用和日益增强的代理能力的 LLM。
RLVR 将更广泛地扩展到数学和编码以外的其他领域（例如化学、生物学等）。
经典的 RAG 将慢慢淡出作为文档查询的默认解决方案。与其在每个文档相关的查询上使用检索，开发人员将更多地依赖更好的长上下文处理，特别是随着将会有更好的「小型」开放权重模型出现。
大量的 LLM 基准测试和性能进步将来自于改进的工具和推理时扩展，而不是来自于训练或核心模型本身。看起来 LLM 正在变得更好，但这主要是因为周围的应用正在改进。同时，开发人员将更多地专注于降低延迟，并使推理模型在不必要时减少推理 Token 的消耗。别误会，2026 年将进一步推动最先进水平，但今年的进步比例将更多地来自推理端，而不仅仅是训练端。

最后总结，我认为如果说 2025 年有一个元教训，那就是 LLM 的进步不再是关于单一的突破，而是通过多个独立的杠杆在多条战线上进行改进。这包括架构调整、数据质量改进、推理训练、推理扩展、工具调用等等。同时，评估仍然很困难，基准测试是不完美的，关于何时以及如何使用这些系统的良好判断仍然至关重要。

我希望 2026 年我们继续看到有趣的改进，但也希望我们了解改进来自何处。这既需要更好和更一致的基准测试，当然也需要透明度。

谢谢阅读！

Cheers, Sebastian

附赠：LLM 研究论文精选列表（2025 年 7 月至 12 月）

今年 6 月，我曾分享了一篇附赠文章，其中包含了我为付费订阅者（是你们让这个 Substack 博客得以维持）精心挑选并收藏的研究论文列表。

以同样的方式，作为对所有好心支持者的感谢，我在下面准备了一份列表，列出了我在 2025 年 7 月至 12 月期间收藏并归类的所有有趣的研究文章。我略读了这些论文的摘要，但只详细阅读了其中很小的一部分。不过，我仍然喜欢不断收集这些有条理的列表，因为在进行特定项目时，我经常会回过头来查阅其中的某一组论文。

然而，鉴于目前这篇文章的篇幅已经非常巨大，我将这份列表分享在一篇单独的文章中，链接如下：

https://magazine.sebastianraschka.com/p/llm-research-papers-2025-list-one

Sebastian Raschka万字年终复盘：2025，属于「推理模型」的一年

相关资讯

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？