博客

神经网络的四重境界

2026年4月24日

English

修真小说里,修士一境一境地往上攀。每往上一境,就揭示出更深一层、一直存在但在低处不可见的真实。神经网络也是这样。下面是一个四境的读法:每一境都是一个有用的视角,比下面那一境多看出一层结构。攀到最高处,AGI 的形态几乎就只剩下一种说得通的可能。


金刚境:神经网络是 PDE 求解器

把最朴素的说法当真:前向传播是迭代积分,反向传播是残差修正,激活函数注入高阶非线性。合起来就是一句话——你看到的是一个高阶非线性偏微分方程的数值求解器。

这不是比喻。Transformer 的一个 block——注意力加 MLP、每一部分都带残差连接:

ht+1=ht+f(ht,θt),h_{t+1} = h_t + f(h_t, \theta_t),

就是常微分方程的 Euler 法。Chen 等人 2018 年在 Neural Ordinary Differential Equations 里针对残差网络把这件事做成了严格命题:把离散残差层叠换成连续自适应 ODE 求解器,就得到一个可工作的神经网络,而且内存成本是常数。同样的残差形状就嵌在每一个 Transformer block 里。深度变成积分时间。

反向传播也不是机器学习的原创发明,而是伴随灵敏度方法(adjoint sensitivity method)——1960 年代控制论里用来把梯度沿动力系统反向传播的技术。Linnainmaa 1970 年把它写下来,Werbos 1974 年用到神经网络上。真正让这个技巧规模化、让世界看见它的,是 1986 年 Nature 上 Rumelhart、Hinton——我在多伦多大学的老师、2018 年图灵奖得主——与 Williams 合写的那篇 Learning representations by back-propagating errors。今天在跑的每一次梯度更新,都是那三页纸的直系后代。

激活函数值得单独一句。没有它,任意深度的线性层在代数上都会坍缩成一层仿射映射——Cybenko 1989 年的普适逼近定理要求非线性。sigmoid、tanh、ReLU、GELU 不是美学选择,而是阻止 200 层网络等价于 1 层网络的那个非线性扰动。

这个视角是结构性的——没有人写得出某个具体 Transformer 在解的那个 PDE,多半也并不存在一个写得出来的闭式。这个视角给出的,是零件之间一一对应的关系:迭代前向、伴随方法回传、非线性系数、边界条件。说干净一点:Transformer 的行为像是一个偏微分方程,其系数由梯度下降学出来,边界条件就是你的 prompt。

这是一件值得看见的事。但它是最低一境,因为它只说了机器在算什么,没说为什么能算通。

ResNet residual blocks drawn alongside discrete Euler steps and a continuous Neural ODE trajectory. The formula h(t+1) = h(t) + f(h(t))·Δt is annotated: next state = current state + update direction × step size. Many small residual updates approximate a smooth trajectory.

指玄境:训练是流形的几何展平

把一张纸折成纸飞机。再折十张,每张折法不一样,叠在空中,问:怎么把它们都展平到同一个二维平面上,使每一架飞机原来的折痕仍能让你辨认出它?

训练一个神经网络就在做这件事。每一类输入——猫、狗、单词 France——都生活在输入空间里一个局部欧氏的弯曲子流形上。原始像素或 token 把这些流形缠在一起。训练一步步把它们展开,直到可以线性分开。

Christopher Olah 2014 年的 Neural Networks, Manifolds, and Topology 到今天仍是这幅图最干净的可视化。过程可以拆成三个基本动作:

  • 线性变换 → 展平 + 旋转。 仿射层 Wx+bWx + b 重定向环境空间——旋转、缩放、剪切、投影、平移都在它能做的动作里。
  • 激活函数 → 弯曲。 非线性在每个坐标上局部拉伸或压缩,在原本无曲率的地方放入曲率。
  • MLP 维度切换 → 裁剪与重粘。 改变隐藏维度,在拓扑上相当于把流形嵌入更高维空间,让原本缠死的子流形能被拉开。

训练好的权重矩阵,在这个读法下就是一支编舞:在哪儿变换、以多大力度弯曲、向哪里平移。损失面上不止一个最优,而是 N > 1 个不动点,它们都能把流形展得够平。训练就是在这些不动点里找到任意一个的几何搜索过程。

马远(Max Ma)X 与石根华(Gen-Hua Shi)的 Deep Manifold 框架把这件事写成了数学:神经网络是堆叠在分段光滑流形上的"可学习数值计算",以不动点理论为根基。这个框架的主张——神经网络是第一个由嵌套流形上的不动点计数定义结构的计算对象——正是上面那幅几何图景的形式陈述。它是 Olah 视觉展示的数学版。

最近最强的"几何才是正确先验"信号来自优化器。Muon(Keller Jordan,2024 年末)在 SGD 动量更新之后跑一轮 Newton–Schulz 迭代,近似把更新矩阵替换成最接近的半正交矩阵——本质上是投到 SVD 的 UVTUV^T 上。正交更新是等距的:它旋转权重空间的切向量,但不缩放任何方向。SGD 是轴对齐的。Adam 是逐坐标缩放,并不保留流形视角所关心的几何结构。Muon 把权重矩阵当成它本来的样子——一个几何对象——来更新。NanoGPT speedrun 上它赢了。这个教训可以泛化:二维权重矩阵正确的归纳偏置是几何的。

Three panels showing how training flattens a curved manifold. Left: a curved surface with SGD, Adam, and Muon trajectories descending toward a minimum. Middle: the manifold partially flattened during training. Right: the fully flat, linearly separable region with concentric contour lines, all three optimizers converging to the optimum.

天象境:权重是数据流形上纤维丛的联络

几何图景仍然太平了。真实数据不只是输入空间里的一个流形,而是一个在每个点上都带结构的流形。要看见这个结构,必须用规范场论和纤维丛的语言。

先记住一个名字。陈省身(Chen Shing-Shen,1911–2004),华裔几何学家,他的特征类工作——陈类、Chern–Simons 形式、Chern–Gauss–Bonnet 定理——基本支撑了现代规范场论和大半个弦理论。他是丘成桐的博导。他的纤维丛机器,是物理学家描述我们知道的每一种基本力时所用的语言。

物理里:

  • 电磁力是 U(1) 规范理论,规范场是电磁势。
  • 弱力是 SU(2)。强力是 SU(3)。标准模型是 SU(3) × SU(2) × U(1)。
  • 引力弯曲时空——它是我们生活所在的 4-流形切丛上的一个联络。

每一种情况下图景都一样:一个底流形(时空,或更一般的配置空间),每点上粘一个纤维(内部状态——电子相位、夸克色荷),一个联络告诉你沿一条路径如何把纤维里的元素从一个点输运到另一个点。

把它套回深度学习:

  • 底流形 = 数据分布。 训练集从它上面采样。它的内在香农熵是分布本身的不变量,不是任何模型的性质。
  • 纤维 = 每个数据点上的潜在特征空间——给定输入、给定层时的激活。
  • 纤维丛 = 所有数据点上所有潜在态的总空间。 这才是网络真正建模的对象。
  • 联络 = 权重。 权重规定了一个点上的特征向量如何被输运到邻近点上的特征向量。预训练就是在学一个联络
  • 曲率 = 沿闭合回路做平行输运后,回不到原点的那一部分。在规范理论里这是场强(Yang–Mills)。在神经网络里,它是模型在数据之外学到的东西——连接流形上相距很远两部分的非局域结构。

这不是空泛比喻。Cohen、Welling 等人在 Gauge Equivariant Convolutional Networks(2019)里把卷积显式实现为主丛上的平行输运,并在球面数据这种 U(1) 规范群非平凡的场景里击败标准 CNN。更完整的纲领在 Bronstein、Bruna、Cohen、Veličković 的 Geometric Deep Learning(2021)里:每一种有用的归纳偏置——CNN 的平移等变、GNN 的置换等变、图网络的旋转等变——都是纤维丛的一个对称性。选对对称群,需要的数据就更少。

进到这一境,你就不再把权重当"待调旋钮",而把它当成让数据流形在局部有意义的那个联络

Fiber bundle intuition: a curved base space at the bottom, a fiber (a loop) attached at each sampled point, a smooth blue section threading through the fibers, and 'local symmetry' arrows between adjacent fibers indicating the gauge freedom.

陆地神仙境:注意力是类量子测量

再往上一步。训练是经典的:给定数据分布,最小化损失。每一步梯度更新都假设世界在你测量它的时候保持不动。频率定义真理。

推理不是这样。推理时,模型携带的是一朵可能性云。下一 token 的分布覆盖了 10 万量级的词汇。注意力是这朵云如何选择:QKTQ \cdot K^T 度量"当前位置想要什么"和"之前每个位置提供什么"的重叠,softmax 把这个重叠坍缩成一个具体的加权混合。模型并不产生 token——它在被询问时坍缩成一个 token。

举一个具体例子:同样给模型前缀 "The pilot said",但换两种 system message——一种面向技术受众,一种是给小孩讲的睡前故事。两种情况下的下一 token 分布不同。前缀没变,变的是测量基底。

这是量子测量的结构。训练分布是先验。prompt 是测量装置——它选定基底。生成的 token 是你读到的本征值。Busemeyer 与 Pothos 的量子认知研究十余年来一直论证:人的决策过程在形式上有同样的结构,甚至会以可预测方式违反经典概率公理。

Three-panel diagram titled 'Attention as Measurement'. Left: a possibility cloud of candidate tokens (the, a, pilot, captain, said, flew, over, ...) emerging from hidden state h_t, labeled 'superposition (logits)'. Middle: a stylized prompt window containing a system message and context about air travel, labeled 'measurement basis (prompt)' with an arrow annotated 'defines the basis'. Right: a single token 'said' popping out bright while the other candidates fade, labeled 'eigenvalue (sampled token)'. Footer: 'structural analogy, not physical quantum mechanics.'

说清楚:我把这当成结构上的类比,不是物理上的主张。没有真正的叠加态在坍缩,没有普朗克常数介入。成立的是另一件事——同一套形式机器(可能性分布、依赖基底的投影、不可逆的读出)在三个领域里各自独立地出现了,所以这个类比是承重的,不是装饰的。

人类也是这样。记忆,按 Karim Nader 2000 年关于再巩固(reconsolidation)的工作,并不是稳态存储——它在你每次提取时,都会用提取当下的上下文重新形成。回忆本身就是创造。睡眠——按 Tononi 与 Cirelli 的突触稳态假说,主要是慢波睡眠——随后把突触强度整体下调,通过压缩与遗忘为明天腾出容量。

三个领域——量子物理、认知心理学、深度学习——给出同一个模式:真实不是预存的张量,而是一朵可能性云在接触瞬间坍缩出的测量值。

这件事往下推,就迫使我们面对 AGI 的形状。


那么 AGI 必须长什么样?

把四境合起来看。一个尊重四境的 AGI 不可能是一个巨模型服务所有人的请求。它会是另一种东西——结构上更奇怪,单用户尺度上却小得多。

把当代 LLM 的失败模式放进这个框架:

概念冗余。 两万亿参数的模型里,France法国 对应的是不同的输入 embedding,而同一个 France token 在不同上下文里又会在每一层产生不同的语境化激活。人脑里这些指向的是同一个概念节点,只是由不同检索路径到达。Anthropic 2024 年的 Scaling Monosemanticity 稀疏自编码器工作表明 Claude 已经部分发现了这一点——许多学到的特征是跨语言概念。但计算依然路由在 token 级 embedding 之上,每一遍都重新发现一次这个概念。从几何上看,这是浪费。

电路复用。 一个学会了 uncle 概念的人,可以零样本地把它用到任何新家庭上。LLM 则需要在分布内见过足够多例子,才能可靠地把 "mother's brother" 组合成 uncle 关系并应用到新符号上。同一个关系电路应当被复用。这是组合泛化问题——Lake 与 Baroni 的 SCAN(2018)在标准 seq2seq 模型上形式化了这个失败模式;Anthropic 的 induction heads 与 Pedro Domingos 的 Tensor Logic 都指向修正方向。

个体化动态记忆。 你认识的每个人会让你想起不同的事。"A works at Google" 对一个读者触发硅谷,对另一个触发六位数工资,对第三个触发我表弟的工作。这个联想电路是每人一份、清醒时不断更新、睡眠时被压缩的。单一静态模型没法表达这个。每个用户一份记忆面才可以。

三件事加起来,工程蓝图就清楚了:

  • 一个小而干净的核心推理模型——"九年义务教育"级基础:在去重、概念级、干净的数据上训练。
  • 模块化的专长区域——视觉、运动、语言、社交,类似皮质分区。
  • 每用户一份动态记忆层——从真实交互中更新、空闲时压缩、绝不共享。
  • 统一基元。 概念向量 × 逻辑张量是基本操作。连续逻辑是连乘。长程推理是可微的嵌套方程。感知是"粒子 → 概念"的落地过程。群体行为是熵统计。个体行为是量子的——由这个人做出的一串测量。
Diagram titled 'Per-Person AGI'. Three people (A, B, C), each with the same architecture: a shared concept-level base model (nine-year compulsory education) at the core, surrounded by a ring of modular specialist regions (visual, auditory, linguistic, logical-mathematical, planning, self-modeling, emotion, social, motor, spatial), wrapped in an outer band of dynamic personal memory unique to each person. Annotations show new experiences flowing in from contact with the world and memories being compacted and consolidated during sleep/idle. Caption: 'same core architecture, different personal memory.'

这也是我自己的 Tensor Logic 工作所瞄准的形状。小核心、动态个人记忆、模块组合。


结论

AGI 不会是一个模型服务所有人。它会是每人一个模型——模块化、动态、小到可以本地跑,并训练在这个人与世界的接触面上。

四境告诉你为什么:

  • PDE 境说计算是数值的——有足够硅,就能在任何地方运行。
  • 流形境说关键是几何,不是参数数量。小矩阵上的正交更新可以打败大矩阵上的粗糙更新。
  • 规范场境说权重就是数据丛上的联络。不同人生活在不同流形上,他们的联络也理当不同。
  • 量子注意力境说答案在被询问之前并不存在。个人上下文就是测量装置,不存在一个"普适答案"等待坍缩。

一个模型、无数用户、一个答案,是错误的不动点。正确的不动点,是只在接触下才形成的那个个人吸引子。

那就是陆地神仙境。往下的每一境,都是登阶石。