我的 Transformer 与 LLM 架构之书

2026年1月11日

为什么写这本书

你用过 ChatGPT。但你真的理解它是怎么工作的吗？

大多数 Transformer 教程要么太学院派，一上来就堆公式，却没有建立直觉；要么太表层，只教你调用 API，却不解释底层原理。

这本 LLM Transformer Book 想要补上中间的那段路。

你会学到什么

第一性原理

什么是 GPT —— LLM 的历史与核心概念
Tokenization —— 文本如何变成数字
Embeddings —— 词向量背后的几何意义
Positional Encoding —— 为什么序列顺序很重要

深入 Attention

Self-Attention —— Transformer 的核心创新
Query, Key, Value —— 用几何直觉理解注意力
Multi-Head Attention —— 为什么需要多种视角
Masked Attention —— 自回归生成背后的秘密

完整架构

Layer Normalization —— 稳定训练的关键
Feed-Forward Networks —— 被低估的组件
Residual Connections —— 让深层网络成为可能
Full Forward Pass —— 从输入到输出，一步一步走完

生产优化

Flash Attention —— IO 感知的 attention 计算
KV Cache —— 推理加速的核心技术
Quantization —— 让模型更小、更快
Distributed Training —— 突破单卡限制

2024-2025 前沿

RLHF —— 来自人类反馈的强化学习
Mixture of Experts —— 稀疏激活革命
Reasoning Models —— o1/o3 与 DeepSeek R1
Post-Transformer Architectures —— Mamba 与 State Space Models

这本书有什么不同

先建立直觉，再进入公式

每一章都会先建立直觉，再展示方程。等你有了直觉，公式只是更精确的描述。

可运行的代码

从零手写实现，而不是只调用 nn.MultiheadAttention。能自己写出来的代码，才是真正理解过的代码。

持续更新

覆盖 2024-2025 年的最新进展，包括 OpenAI o1/o3、DeepSeek R1，以及 Flash Attention 2/3。

谁适合读

用过 ChatGPT，并想理解其内部机制的开发者
读过 Transformer 入门文章，但仍然感觉一团雾的人
想从零实现 GPT 的实践者
需要一本快速参考手册的 ML 工程师

开始阅读

这本书可以完全免费在线阅读：

阅读 LLM Transformer Book →

这本书源自我在 Bilibili 上的 Transformer 视频系列，后来经过重新组织，并补充了更多细节、修正内容，以及对 2024-2025 年进展的覆盖。