《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

作者：机器之心 2024-06-24 10:53

自 ChatGPT 发布以来，大型语言模型（LLM）已经成为推动人工智能发展的关键技术。近期，机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》，旨在讲解从头开始构建大型语言模型的整个过程，包括如何创建、训练和调整大型语言模型。最近，Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。项目地址： LLM 来说，指令微调能够有效

自 ChatGPT 发布以来，大型语言模型（LLM）已经成为推动人工智能发展的关键技术。

近期，机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》，旨在讲解从头开始构建大型语言模型的整个过程，包括如何创建、训练和调整大型语言模型。

最近，Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。

项目地址：https://github.com/rasbt/LLMs-from-scratch/tree/main?tab=readme-ov-file

对 LLM 来说，指令微调能够有效提升模型性能，因此各种指令微调方法陆续被提出。Sebastian Raschka 发推重点介绍了项目中关于指令微调的部分，其中讲解了：

如何将数据格式化为 1100 指令 - 响应对；

如何应用 prompt-style 模板；

如何使用掩码。

《Build a Large Language Model (From Scratch)》用清晰的文字、图表和示例解释每个阶段，从最初的设计和创建，到采用通用语料库进行预训练，一直到针对特定任务进行微调。

具体来说，新书和项目讲解了如何：

规划和编码 LLM 的所有部分；

准备适合 LLM 训练的数据集；

使用自己的数据微调 LLM；

应用指令调整方法来确保 LLM 遵循指令；

将预训练权重加载到 LLM 中。

作者介绍

个人主页：https://sebastianraschka.com/

Sebastian Raschka 是一名机器学习和人工智能研究员，曾在威斯康星大学麦迪逊分校担任统计学助理教授，专门研究深度学习和机器学习。他让关于 AI 和深度学习相关的内容更加容易获得，并教人们如何大规模利用这些技术。

此外，Sebastian 热衷于开源软件，十多年来一直是一个充满热情的开源贡献者。他提出的方法现已成功应用于 Kaggle 等机器学习竞赛。

除了编写代码，Sebastian 还喜欢写作，并撰写了畅销书《Python Machine Learning》（《Python 机器学习》）和《Machine Learning with PyTorch and ScikitLearn》。

参考链接：https://twitter.com/rasbt/status/1802327699937009807

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

自首次提出 GPT 架构以来，转眼已经过去了七年。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。当然，细节上仍有不少演进。

8/7/2025 9:40:00 PM

机器之心

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

8/7/2025 9:40:00 PM

机器之心

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

还有 10 个月，2024 年还有很多期待空间。在过去的 2023 年中，大型语言模型（LLM）在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展，似乎我们即将进入一个可喜的新阶段：在不增大模型规模的前提下让模型变得更好，甚至让模型变得更小。现在，2024 年的第一个月已经过去，也许是时候盘点一番新年首月进展了。近日，AI 研究者 Sebastian Raschka 发布了一份报告，介绍了四篇与上述新阶段有关的重要论文。它们的研究主题简单总结起来是这样：1. 权重平均和模型融合可将多个 LLM

2/22/2024 10:49:00 AM

机器之心

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

相关资讯

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向