为什么做英文版
最初的 LLM Transformer Book 是用中文写的。过去几个月里,来自中文世界之外的读者一直在问英文版什么时候上线。短答案是:今天。
英文版 现在已经完整上线:32 章与 3 个附录,全部可以在网页上免费阅读。
书里有什么
全书分为 9 个部分,加一个附录:
第一部分:建立直觉
- Chapter 1: 什么是 GPT?LLM 的简短历史
- Chapter 2: 大模型就是两个文件(weights + runner)
- Chapter 3: Transformer 地图:一个能装下整套架构的心智模型
第二部分:核心组件
- Tokenization、positional encoding、LayerNorm、Softmax、FFN —— 这些小零件让整个系统真正跑起来
第三部分:真正理解 Attention
- 线性变换、attention 几何、Q/K/V 的含义、multi-head attention、output projection —— 用五章一步步搭起直觉
第四部分:完整架构
- 残差连接、embedding 与 position 相加的细节处理、完整前向传播、训练与推理、学习率调度
第五部分:代码实现
- 三个手写文件:
model.py、train.py、inference.py。不是 API 调用,而是你能读、能跑的真实代码。
第六部分:生产优化
- Flash Attention —— 为什么 GPU memory hierarchy 才是真正的瓶颈
- KV Cache —— 把 O(N²) 推理变成 O(N) 的技巧
第七部分:架构变体
- MHA → MQA → GQA,sparse 与 infinite attention,位置编码从 sinusoidal 到 RoPE、ALiBi、YaRN 的演化
第八部分:部署与微调
- LoRA 与 QLoRA,模型量化(GPTQ、AWQ、GGUF)
第九部分:前沿进展
- Prompt engineering、RLHF 与 DPO、Mixture-of-Experts、推理模型(o1、o3、R1、K1.5)、后 Transformer 架构(Mamba、RWKV、hybrids)
附录
- Scaling laws 与 compute estimation
- Decoding strategies(greedy、sampling、beam search、top-k、top-p)
- 用于自测的 37 问 FAQ
这本书有什么不同
先直觉,后公式。 每一章都先建立心智图像,再进入数学。只要图像是对的,方程就只是对你已经理解的东西做精确描述。
从零实现代码。 实现章节会用朴素的 PyTorch 写出模型,而不是走 nn.MultiheadAttention 这种捷径。完整代码在 github.com/waylandzhang/Transformer-from-scratch。
跟到 2025 当下。 这本书覆盖 OpenAI o1/o3、DeepSeek R1、Claude Opus 4.7、Kimi K1.5、Gemini 2.5、Flash Attention 3,以及 2025 年已经进入实际使用的后 Transformer 架构。推理模型、大规模 MoE、Mamba 都有完整章节。
英文版是一次重新书写。 这不是机器翻译。整本书都用更自然的英文表达、更适合英文读者的类比,以及更紧的声音重新写过。中文版里有些依赖中文语境的成语或文化引用,英文版没有硬搬,而是从第一性原理重新搭解释。
谁适合读
- 使用 OpenAI / Anthropic API,并想理解背后机制的开发者
- 读过很多零散 Transformer 文章,但仍然没有形成统一心智模型的 ML 工程师
- 正在从零实现 Transformer,或在生产环境 fine-tune Transformer 的人
- 想追踪 2024-2025 前沿进展,但不想淹没在 arXiv 里的实践者
开始阅读
这本书可以完全免费在线阅读:
阅读 Transformer Book — English Edition →
中文版仍然维护在 /llm-transformer-book —— 两个版本会彼此跟进。
如果你发现错误,或有建议,源码就在这个网站的同一个 repo 里。欢迎提 Pull Request。
这个英文版经过多轮审阅,并在最后做了一次 tier-1/3 编辑扫尾。配套的 AI Agent 书也已经有英文版:/ai-agent-book-en。