Transformer 架构之书：英文版已上线

为什么做英文版

最初的 LLM Transformer Book 是用中文写的。过去几个月里，来自中文世界之外的读者一直在问英文版什么时候上线。短答案是：今天。

英文版现在已经完整上线：32 章与 3 个附录，全部可以在网页上免费阅读。

书里有什么

全书分为 9 个部分，加一个附录：

第一部分：建立直觉

Chapter 1: 什么是 GPT？LLM 的简短历史
Chapter 2: 大模型就是两个文件（weights + runner）
Chapter 3: Transformer 地图：一个能装下整套架构的心智模型

第二部分：核心组件

Tokenization、positional encoding、LayerNorm、Softmax、FFN —— 这些小零件让整个系统真正跑起来

第三部分：真正理解 Attention

线性变换、attention 几何、Q/K/V 的含义、multi-head attention、output projection —— 用五章一步步搭起直觉

第四部分：完整架构

残差连接、embedding 与 position 相加的细节处理、完整前向传播、训练与推理、学习率调度

第五部分：代码实现

三个手写文件：model.py、train.py、inference.py。不是 API 调用，而是你能读、能跑的真实代码。

第六部分：生产优化

Flash Attention —— 为什么 GPU memory hierarchy 才是真正的瓶颈
KV Cache —— 把 O(N²) 推理变成 O(N) 的技巧

第七部分：架构变体

MHA → MQA → GQA，sparse 与 infinite attention，位置编码从 sinusoidal 到 RoPE、ALiBi、YaRN 的演化

第八部分：部署与微调

LoRA 与 QLoRA，模型量化（GPTQ、AWQ、GGUF）

第九部分：前沿进展

Prompt engineering、RLHF 与 DPO、Mixture-of-Experts、推理模型（o1、o3、R1、K1.5）、后 Transformer 架构（Mamba、RWKV、hybrids）

附录

Scaling laws 与 compute estimation
Decoding strategies（greedy、sampling、beam search、top-k、top-p）
用于自测的 37 问 FAQ

这本书有什么不同

先直觉，后公式。 每一章都先建立心智图像，再进入数学。只要图像是对的，方程就只是对你已经理解的东西做精确描述。

从零实现代码。 实现章节会用朴素的 PyTorch 写出模型，而不是走 nn.MultiheadAttention 这种捷径。完整代码在 github.com/waylandzhang/Transformer-from-scratch。

跟到 2025 当下。 这本书覆盖 OpenAI o1/o3、DeepSeek R1、Claude Opus 4.7、Kimi K1.5、Gemini 2.5、Flash Attention 3，以及 2025 年已经进入实际使用的后 Transformer 架构。推理模型、大规模 MoE、Mamba 都有完整章节。

英文版是一次重新书写。 这不是机器翻译。整本书都用更自然的英文表达、更适合英文读者的类比，以及更紧的声音重新写过。中文版里有些依赖中文语境的成语或文化引用，英文版没有硬搬，而是从第一性原理重新搭解释。

谁适合读

使用 OpenAI / Anthropic API，并想理解背后机制的开发者
读过很多零散 Transformer 文章，但仍然没有形成统一心智模型的 ML 工程师
正在从零实现 Transformer，或在生产环境 fine-tune Transformer 的人
想追踪 2024-2025 前沿进展，但不想淹没在 arXiv 里的实践者

开始阅读

这本书可以完全免费在线阅读：

阅读 Transformer Book — English Edition →

中文版仍然维护在 /llm-transformer-book —— 两个版本会彼此跟进。

如果你发现错误，或有建议，源码就在这个网站的同一个 repo 里。欢迎提 Pull Request。

这个英文版经过多轮审阅，并在最后做了一次 tier-1/3 编辑扫尾。配套的 AI Agent 书也已经有英文版：/ai-agent-book-en。