博客

Transformer 架构之书:英文版已上线

2026年4月25日

English

为什么做英文版

最初的 LLM Transformer Book 是用中文写的。过去几个月里,来自中文世界之外的读者一直在问英文版什么时候上线。短答案是:今天。

英文版 现在已经完整上线:32 章与 3 个附录,全部可以在网页上免费阅读。


书里有什么

全书分为 9 个部分,加一个附录:

第一部分:建立直觉

  • Chapter 1: 什么是 GPT?LLM 的简短历史
  • Chapter 2: 大模型就是两个文件(weights + runner)
  • Chapter 3: Transformer 地图:一个能装下整套架构的心智模型

第二部分:核心组件

  • Tokenization、positional encoding、LayerNorm、Softmax、FFN —— 这些小零件让整个系统真正跑起来

第三部分:真正理解 Attention

  • 线性变换、attention 几何、Q/K/V 的含义、multi-head attention、output projection —— 用五章一步步搭起直觉

第四部分:完整架构

  • 残差连接、embedding 与 position 相加的细节处理、完整前向传播、训练与推理、学习率调度

第五部分:代码实现

  • 三个手写文件:model.pytrain.pyinference.py。不是 API 调用,而是你能读、能跑的真实代码。

第六部分:生产优化

  • Flash Attention —— 为什么 GPU memory hierarchy 才是真正的瓶颈
  • KV Cache —— 把 O(N²) 推理变成 O(N) 的技巧

第七部分:架构变体

  • MHA → MQA → GQA,sparse 与 infinite attention,位置编码从 sinusoidal 到 RoPE、ALiBi、YaRN 的演化

第八部分:部署与微调

  • LoRA 与 QLoRA,模型量化(GPTQ、AWQ、GGUF)

第九部分:前沿进展

  • Prompt engineering、RLHF 与 DPO、Mixture-of-Experts、推理模型(o1、o3、R1、K1.5)、后 Transformer 架构(Mamba、RWKV、hybrids)

附录

  • Scaling laws 与 compute estimation
  • Decoding strategies(greedy、sampling、beam search、top-k、top-p)
  • 用于自测的 37 问 FAQ

这本书有什么不同

先直觉,后公式。 每一章都先建立心智图像,再进入数学。只要图像是对的,方程就只是对你已经理解的东西做精确描述。

从零实现代码。 实现章节会用朴素的 PyTorch 写出模型,而不是走 nn.MultiheadAttention 这种捷径。完整代码在 github.com/waylandzhang/Transformer-from-scratch

跟到 2025 当下。 这本书覆盖 OpenAI o1/o3、DeepSeek R1、Claude Opus 4.7、Kimi K1.5、Gemini 2.5、Flash Attention 3,以及 2025 年已经进入实际使用的后 Transformer 架构。推理模型、大规模 MoE、Mamba 都有完整章节。

英文版是一次重新书写。 这不是机器翻译。整本书都用更自然的英文表达、更适合英文读者的类比,以及更紧的声音重新写过。中文版里有些依赖中文语境的成语或文化引用,英文版没有硬搬,而是从第一性原理重新搭解释。


谁适合读

  • 使用 OpenAI / Anthropic API,并想理解背后机制的开发者
  • 读过很多零散 Transformer 文章,但仍然没有形成统一心智模型的 ML 工程师
  • 正在从零实现 Transformer,或在生产环境 fine-tune Transformer 的人
  • 想追踪 2024-2025 前沿进展,但不想淹没在 arXiv 里的实践者

开始阅读

这本书可以完全免费在线阅读:

阅读 Transformer Book — English Edition →

中文版仍然维护在 /llm-transformer-book —— 两个版本会彼此跟进。

如果你发现错误,或有建议,源码就在这个网站的同一个 repo 里。欢迎提 Pull Request。


这个英文版经过多轮审阅,并在最后做了一次 tier-1/3 编辑扫尾。配套的 AI Agent 书也已经有英文版:/ai-agent-book-en