为什么写这本书
你用过 ChatGPT。但你真的理解它是怎么工作的吗?
大多数 Transformer 教程要么太学院派,一上来就堆公式,却没有建立直觉;要么太表层,只教你调用 API,却不解释底层原理。
这本 LLM Transformer Book 想要补上中间的那段路。
你会学到什么
第一性原理
- 什么是 GPT —— LLM 的历史与核心概念
- Tokenization —— 文本如何变成数字
- Embeddings —— 词向量背后的几何意义
- Positional Encoding —— 为什么序列顺序很重要
深入 Attention
- Self-Attention —— Transformer 的核心创新
- Query, Key, Value —— 用几何直觉理解注意力
- Multi-Head Attention —— 为什么需要多种视角
- Masked Attention —— 自回归生成背后的秘密
完整架构
- Layer Normalization —— 稳定训练的关键
- Feed-Forward Networks —— 被低估的组件
- Residual Connections —— 让深层网络成为可能
- Full Forward Pass —— 从输入到输出,一步一步走完
生产优化
- Flash Attention —— IO 感知的 attention 计算
- KV Cache —— 推理加速的核心技术
- Quantization —— 让模型更小、更快
- Distributed Training —— 突破单卡限制
2024-2025 前沿
- RLHF —— 来自人类反馈的强化学习
- Mixture of Experts —— 稀疏激活革命
- Reasoning Models —— o1/o3 与 DeepSeek R1
- Post-Transformer Architectures —— Mamba 与 State Space Models
这本书有什么不同
先建立直觉,再进入公式
每一章都会先建立直觉,再展示方程。等你有了直觉,公式只是更精确的描述。
可运行的代码
从零手写实现,而不是只调用 nn.MultiheadAttention。能自己写出来的代码,才是真正理解过的代码。
持续更新
覆盖 2024-2025 年的最新进展,包括 OpenAI o1/o3、DeepSeek R1,以及 Flash Attention 2/3。
谁适合读
- 用过 ChatGPT,并想理解其内部机制的开发者
- 读过 Transformer 入门文章,但仍然感觉一团雾的人
- 想从零实现 GPT 的实践者
- 需要一本快速参考手册的 ML 工程师
开始阅读
这本书可以完全免费在线阅读:
这本书源自我在 Bilibili 上的 Transformer 视频系列,后来经过重新组织,并补充了更多细节、修正内容,以及对 2024-2025 年进展的覆盖。