本文整理自《深度流形漫谈》里我和马远老师、石根华老师关于「AI 与数学」的一次对谈,背后是马远与石根华的 Deep Manifold 框架。它接着我此前在 神经网络的四重境界 和 DeepSeek V4 与流形撕裂 里立的"流形先验"往回追一层:这套数学到底是从哪里来的。
1991 年石根华提出数值流形法,得到过陈省身很高的评价。漫谈里提到,陈先生还留下过一个更大的疑问:
分片堆叠的流形,能不能推广到任意复杂的区域?
这是一个纯几何的问题。但它后来在两个毫不相干的世界里,各被回答了一次——一次在山体力学里,由石根华的数值流形法回答;一次在人工智能里,由神经网络回答。
更奇怪的是,两个答案是同一个。
而回答第二个问题的人——那些训练大模型的工程师——大多数并不知道自己在回答一个几何学家的提问。这篇文章想把这条线接起来:这套数学从黎曼一路走到神经网络,中间是怎么传下来的,又为什么会在 AI 里"无意中"重现。
1. 流形这一脉:黎曼 → 庞加莱 → 陈省身
数学有一条很长的暗线,主题只有一句话:怎么用局部,拼出整体。
黎曼最早把这件事做实。他研究多值函数时发现,与其在一张平面上硬塞一个会自我冲突的函数,不如把它铺到分层的曲面上——每一层局部都规则、可微,整体却能容纳分支和奇点。这就是流形思想的种子:整体可以很复杂,局部必须足够简单,简单到可以做微积分。
庞加莱把它代数化。他用单纯形、边界、胶合,把"局部怎么拼成整体"变成可以计算的拓扑:一个流形,就是一堆局部小块按相容的规则粘起来的东西。"覆盖"这个词,从他这里开始有了精确含义。
中间还有博雷尔和勒贝格补上的一块地基——开覆盖、有限子覆盖、紧性。它回答了一个很要命的技术问题:无穷多个局部小块,什么条件下能用有限个就把整体盖住。没有这块地基,"局部拼整体"只是直觉;有了它,才是能算的数学。
到陈省身,这条线收口成现代微分几何。其实回头看,数学每隔一阵就会做一次类似的"广义化",节奏很像:
- 伽罗瓦把对称性变成可计算的对象——群论,从此"结构"本身成了研究对象。
- 庞加莱把空间的形状变成可计算的拓扑——1895 年的《Analysis Situs》,奠定了代数拓扑。
- 陈省身把这套几何推到全局——陈类、现代微分几何(1940 年代),让局部的几何量拼出整体的不变量。
每一步都是同一个手法:先承认整体太复杂、没法直接处理,再退回局部去找规则,最后用"覆盖"这套语言把局部重新拼回整体。陈省身做的,是让这套几何语言强大到能承载微分方程、能对接真实世界的物理。江泽涵有一句话被反复引用——**透过微分方程的窗子,数学家看到现实世界的光。**陈省身这一步,等于把那扇窗子彻底擦亮了。
2. 中国的一脉:江泽涵 → 姜伯驹、石根华
这条流形/拓扑的线传到中国,第一个关键人物是江泽涵——他把代数拓扑带进了北大,也带出了一整支人。
其中两支后来走得很远,而且都落在同一个题目上:不动点。
一支是姜伯驹,走的是纯粹的 Nielsen 不动点理论,是这个方向上国际公认的代表性工作。
另一支是石根华。1963 年他从北大数学系毕业、留校做研究生,师从江泽涵,主攻代数拓扑和不动点理论。他和江泽涵、姜伯驹一起发展了拓扑不动点理论,提出了"石氏类空间"与"石根华条件"。
到这里,石根华还是个标准的拓扑学家。真正特别的是他后来去的地方——他没有继续待在纯数学里,而是把这套不动点和流形的功夫,对准了岩石。
- 1968–1977 年,他做出了岩体稳定分析的赤平投影方法。
- 1980 年前后,系统完善了块体理论,发展出块体切割、单纯形积分,以及非连续变形分析(DDA)。这一段是他和伯克利的 Richard Goodman 一起做的,是岩石力学里绕不开的工作。
- 1991 年,他创立了数值流形法(NMM),拿到了陈省身的高度肯定。
- 2013 年,又系统构建了接触理论。
一个研究不动点的拓扑学家,转身去算一块石头会不会塌。听上去像是离开了数学,其实他是把数学带去了一个数学家通常不去的地方。陈省身那个疑问——分片堆叠的流形能不能推广到任意复杂区域——石根华是在工程现场把它答出来的。
3. 一个疑问,两个世界同时回答
陈省身的洞见可以浓缩成一句:复杂的整体行为,可以由层叠的、局部的分片流形构造出来。
这句话被印证了两次。
第一次在计算力学里,由数值流形法回答。 真实的岩体是最不讲道理的研究对象:不连续、带裂缝、有断层、会大变形、还会接触挤压。古典的解析方法在这种几何面前基本失效。NMM 的回答是:用层叠的分片光滑流形去逼近它,再复杂的物理区域都能处理。陈省身的几何直觉,在工程里被证明是对的。
第二次在 AI 里,由神经网络回答。 神经网络也是层叠的、分片的、局部光滑的流形——只不过它们不是被谁设计成这样的,而是从数据里学成这样的。同一种几何直觉,在两个互不知情的世界里各长了一遍。
差别只在一个字:石根华是把流形选出来的,神经网络是把流形学出来的。结构一样,来源不同。
接下来两节,把这个"结构一样"讲实——它具体一样在哪。
4. NMM 的核心:数学覆盖 vs 物理覆盖
数值流形法最漂亮的一招,是它把"覆盖"拆成了两层。
数学覆盖:由分析者选定。它是一张连续、规则、光滑的数学骨架——一堆互相重叠的局部小块,每块上面带一个级数展开。它跟你研究的那块石头长什么样没关系,是你主动选的理想化的连续结构。
物理覆盖:由材料给定。真实的物体自带边界——材料的棱角、断层、裂缝、切割线。把这些切下去,就形成了物理单元。这是被施加的、可观测的结构。
关键在于单元 = 两者的交集。真正参与计算的那个单元,是一块数学小块和一块物理区域相遇的地方。
打个比方:数学覆盖像一张半透明、规则的网格膜,是你自己铺上去的、连续光滑的;物理覆盖是膜底下那块真实的、带裂缝的石头。把膜盖上去,膜和石头的交线,才是你真正去算的单元。石头裂了,膜不裂——裂缝的信息通过"交集"进入计算,却不破坏底下那张光滑的数学膜。
这就是 NMM 能从局部走到整体、能处理不连续、能同时算正问题和反问题的原因:它把"在哪里逼近"(数学)和"材料实际在哪里"(物理)分开,再让它们相交。
5. 同一套结构,出现在神经网络里
现在把这两类覆盖搬到神经网络上,会发现它严丝合缝地对得上。
- 物理覆盖,对应网络里可观测的东西:激活值、神经元/单元、数据流的结构。就像那块带裂缝的真实石头——你能测到它。
- 数学覆盖,对应网络里隐藏的东西:它从数据里学出来的那层流形结构,符号和计算层面的骨架。就像那张光滑的数学膜——只不过这一次,没有人去画它,是网络自己学出来的。
- 而计算,发生在两者相遇之处。和 NMM 一个原理。
具体到一个 token:它并不活在某一层上,而是活在一摞堆叠的流形层里;网络的第一层 FFN 投影,做的就是一次局部覆盖。一个 token 在多个流形层中被分别表示,整体行为从这些局部分片里拼出来——又是陈省身那句话。
| 数学覆盖 | 物理覆盖 | 计算发生在 | |
|---|---|---|---|
| 数值流形(山体) | 分析者选定的连续光滑覆盖 | 材料给定的边界、断层、裂缝 | 两者的交集 |
| 神经网络(AI) | 隐藏的、学到的流形结构 | 可观测的激活、单元、数据流 | 两者的交集 |
神经网络在没人告诉它的情况下,自己重建了石根华那套覆盖。它不是被设计成数值流形的,它是学成了数值流形。
6. 不动点:石根华的拓扑,和大模型的训练,是一回事
别忘了石根华的底色是不动点理论。这一节是这篇文章里我最想讲清楚的一层联系。
不动点是什么?给一个映射 T,那个满足 u = T(u) 的点——映过去还是它自己——就是不动点。不动点理论问三个经典问题:
- 存在性:到底有没有解?
- 唯一性:如果有,是不是只有一个?
- 稳定性:解受一点扰动,还回得来吗?
这三个问题,正好是大模型训练每天在面对的问题,只是没人用这套词去讲。
神经网络的学习,本质上是在高维空间里找一个(近似的)不动点。把它写成残差的形式:f(x) − x = e(x)。当残差 e(x) 趋于零,系统就"停"在了不动点上——它不再变化,学习收敛了。更妙的是不同模态共享同一个数值形式:"dog"这个词,和一张狗的图片,被嵌入到同一个 f(x) = x 的结构里,差异被折叠进同一套不动点的语言。
再往上一层,不同的训练范式,对应着对不动点类的不同操作:
- 预训练:形成不动点类——在一片混沌里长出许多稳定吸引点。
- 指令微调:对齐这些类别——把目标类别挑出来、强化。
- 强化学习:驱动、扰动这些类别——把许多类别推得动起来。
所以石根华在拓扑里研究的不动点类,和大模型训练时在做的事,不是"像",而是同一套数学。一个在抽象空间里刻画解的结构,一个在高维参数里寻找数值不动点——本质上是一回事。这也是马远和石根华那个 Deep Manifold 框架的一句话总结:神经网络,是一种基于不动点理论的可学习数值计算。
7. 马远:站在两个世界中间的人
这条线能被看见,靠的是一个同时在两个世界里待过的人——马远老师。
他 1986 年从同济大学建筑工程系毕业,很早就做过人工智能辅助工程制图。1989 到 1999 年师从石根华,发展了 Fourier 级数富集的数值流形和高阶非连续变形分析。后来他转进 IT,在微软研究院做过大数据和人工智能。
这份履历的关键,不是它长,而是它横跨:一头是石根华的工程数值方法,一头是现代 AI。
这种对应——神经网络和数值流形是同一套结构——没有一个两边都熟的人,是看不见的。只懂数值流形的人,不会去读 Transformer 的论文;只懂深度学习的人,没听说过 NMM 和不动点类。要让一个 1991 年的岩石力学方法,和一个 2020 年代的大模型对上号,得有人同时在两张地图上站过。2024 年起,马远和石根华正式合作,把这件事写成了 Deep Manifold 理论。
8. 这也解释了 AI 为什么"靠不住"
把神经网络看成反问题、看成找不动点,还有一个直接的副产品:它解释了 AI 为什么这么不稳。
数学里有个判据叫适定性:一个问题要算得"干净",得同时满足存在、唯一、稳定。只要缺一个,它就自动被归为病态(ill-posed)。
而学习常常是个反问题——从观测到的结果,反推隐藏的结构——这类问题往往欠约束,容易在唯一性和稳定性上出问题,也就是偏"病态"。AI 表现出来的"锯齿状"(jagged)——能在一个任务上惊艳,又在一个看起来更简单的任务上摔得莫名其妙——多少就是这种欠约束在表面上的样子。
反问题数学早有一味药:正则化——给欠定的问题补上额外的约束、先验和边界,把它拉回到可解、稳定的范围。今天我们给大模型配的那一套,是同一味药的工程版:用脚手架(scaffolding)稳住多步推理,用检索和工具给它锚定外部事实,用**约束框架(harness)**圈住输出的边界。说到底,都是在给一个欠约束的内核补上外部约束,让它跑得更稳、更可靠。
而这恰好又回到了石根华的老本行。岩体本身就是不连续、带裂缝、不稳定的——工程师从来不去消灭裂缝,那不可能;他们给岩体配支护,让它带着裂缝照样稳住。**给大模型配脚手架,和给山体配支护,是同一种思路。**一个欠约束的内核,外面套一层工程的约束,才跑得稳。
结论
- 流形/覆盖是一条长线:黎曼 → 庞加莱 → 陈省身,主题始终是"用局部拼出整体"。
- 这条线传到中国:江泽涵 → 姜伯驹、石根华,把不动点和流形接在了一起。
- 陈省身的疑问被两个世界同时回答:山体力学(NMM)和 AI(神经网络),答案是同一个。
- 关键机制是两类覆盖:数学覆盖(选出/学出的光滑结构)与物理覆盖(给定/可观测的结构),计算发生在它们的交集。
- 学习就是找不动点:不动点类对应预训练 / 微调 / 强化学习——这和石根华在拓扑里做的,是同一套数学。
- 学习偏"病态"(欠约束的反问题):正则化、检索、工具、约束框架(harness)给它补上外部约束——和给山体做支护,是同一种思路。
漫谈里有一句话我很喜欢——一块石头掉下来,最后总是会停下来的。 一个迭代系统,最后会停在它的不动点上。神经网络一边追着预测精度,一边在无意中,把黎曼、庞加莱、陈省身、江泽涵、石根华这一脉的数学,又往前推了一把。
如果陈省身看到这一点,大概会感到欣慰:他那个几何直觉——整体可由局部拼成——既活在数值流形里,也活在 AI 的兴起之中。