博客

我的 Transformer 与 LLM 架构之书

2026年1月11日

English

为什么写这本书

你用过 ChatGPT。但你真的理解它是怎么工作的吗?

大多数 Transformer 教程要么太学院派,一上来就堆公式,却没有建立直觉;要么太表层,只教你调用 API,却不解释底层原理。

这本 LLM Transformer Book 想要补上中间的那段路。


你会学到什么

第一性原理

  • 什么是 GPT —— LLM 的历史与核心概念
  • Tokenization —— 文本如何变成数字
  • Embeddings —— 词向量背后的几何意义
  • Positional Encoding —— 为什么序列顺序很重要

深入 Attention

  • Self-Attention —— Transformer 的核心创新
  • Query, Key, Value —— 用几何直觉理解注意力
  • Multi-Head Attention —— 为什么需要多种视角
  • Masked Attention —— 自回归生成背后的秘密

完整架构

  • Layer Normalization —— 稳定训练的关键
  • Feed-Forward Networks —— 被低估的组件
  • Residual Connections —— 让深层网络成为可能
  • Full Forward Pass —— 从输入到输出,一步一步走完

生产优化

  • Flash Attention —— IO 感知的 attention 计算
  • KV Cache —— 推理加速的核心技术
  • Quantization —— 让模型更小、更快
  • Distributed Training —— 突破单卡限制

2024-2025 前沿

  • RLHF —— 来自人类反馈的强化学习
  • Mixture of Experts —— 稀疏激活革命
  • Reasoning Models —— o1/o3 与 DeepSeek R1
  • Post-Transformer Architectures —— Mamba 与 State Space Models

这本书有什么不同

先建立直觉,再进入公式

每一章都会先建立直觉,再展示方程。等你有了直觉,公式只是更精确的描述。

可运行的代码

从零手写实现,而不是只调用 nn.MultiheadAttention。能自己写出来的代码,才是真正理解过的代码。

持续更新

覆盖 2024-2025 年的最新进展,包括 OpenAI o1/o3、DeepSeek R1,以及 Flash Attention 2/3。


谁适合读

  • 用过 ChatGPT,并想理解其内部机制的开发者
  • 读过 Transformer 入门文章,但仍然感觉一团雾的人
  • 想从零实现 GPT 的实践者
  • 需要一本快速参考手册的 ML 工程师

开始阅读

这本书可以完全免费在线阅读:

阅读 LLM Transformer Book →


这本书源自我在 Bilibili 上的 Transformer 视频系列,后来经过重新组织,并补充了更多细节、修正内容,以及对 2024-2025 年进展的覆盖。