博客

alpha 的几何学:为什么量化的护城河是工厂而不是配方

2026年7月4日

English

问一个问题:如果给你两个选择——一个 Sharpe 2.0 的单一策略,或者三十个 Sharpe 0.4 但彼此独立的弱信号——你选哪个?

大多数人的直觉会选前者。市场的直觉恰恰相反。

那个 Sharpe 2.0 的策略,大概率是这三种东西之一:还没被发现的运气、还没被剥离的因子暴露、或者还没被拥挤交易吃掉的短暂窗口。而三十个独立弱信号的组合,在数学上会给你一个超过 2.0 的组合信息比率——并且没有任何单一失效点,还有一条清晰的路继续往上走。

这篇文章讲的就是这个反直觉背后的数学,以及它对量化系统设计的推论:下一代量化的护城河不是任何一个信号配方,而是持续生产、验证、淘汰信号的工厂本身。

这是 Dnalyaw 系列的第三篇。前两篇讲了行业全貌系统架构。这一篇讲研究方法论——过去几个月我们在实盘资金上运转这套方法之后,一些值得写下来的认知。

平方根定律:独立性比强度更值钱

弱信号聚合的核心数学非常简单。如果你有 N 个彼此独立、信息比率都为 IR 的信号,等权组合的信息比率大约是:

IR_combined ≈ √N × IR

这里先把 Sharpe 和 IR 都当作同一类“单位风险下的边际收益”来近似理解;严格定义当然不同,但本文关心的是组合几何里的相关结构,而不是指标命名。

三十个 IR 0.4 的独立信号,组合起来接近 2.2。一百个,接近 4.0。这就是文艺复兴路线的全部秘密——不是找到一个别人看不见的圣杯,而是把大量平庸但独立的边际优势堆叠成一个统计上几乎必然的结果。

combined IR vs number of signals (each signal IR = 0.4)012341255075100N (number of independent signals)single “star recipe”, Sharpe 2.0ρ = 0 → IR ≈ 0.4·√Nρ = 0.2 → caps at ~0.9ρ = 0.5 → caps at ~0.6N = 25 crossover

三条曲线之间只有一个变量:信号之间的两两相关性 ρ。真正扎眼的是那两条平的——组合 IR 的一般式是 IR·√(N/(1+(N−1)ρ)),N 变大时极限是 IR/√ρ,和 N 无关。相关性不清零,N 加到一百也追不上一个平庸的单一策略。 独立性不是锦上添花,它是这条路线成立的全部前提。

注意公式里真正承重的不是 IR,是那个 √N——而 √N 成立的前提是独立。这个前提值多少钱?做个算术:三十个信号如果两两相关性是 0.5 而不是 0,有效 N 会从 30 塌缩到 2 左右。你以为自己持有一个多元化的信号组合,实际上持有的是同一个赌注的三十份复印件。

所以弱信号聚合的工程重心,从第一天起就不在“找更强的信号”,而在两件事上:

  1. 验证候选信号真的携带独立信息——而不是已知因子换了个马甲;
  2. 验证独立性在你最需要它的时候依然成立——也就是尾部。

这两件事,比找信号本身难得多。也贵得多。

第一道关卡:先剥离,再谈 alpha

行业里最常见的自欺是这样的:某个信号回测下来年化 15%,Sharpe 漂亮,曲线好看,于是上线。没有人问一句:这 15% 里面,有多少是这个信号自己挣的?

答案往往令人尴尬。把市场 beta、动量、市值、波动率这些人尽皆知的因子暴露剥离之后,很多“好看的历史业绩”会直接归零,甚至翻负。那条漂亮的净值曲线不是 alpha,是给因子暴露拍的一张侧脸照——你买的不是信息,是杠杆化的 beta,只是包装纸上写着别的名字。

如果你熟悉神经网络,这张侧脸照有一个精确的对应物:一层降维投影。高维输入穿过一个低秩权重矩阵时,只有与权重方向共振的分量能活着到达下一层,与之正交的一切细节都被投影抹成零——多样性不是被丢弃的,是被降维本身吃掉的。净值曲线就是那个投影:它把一个高维的收益过程压到一根一维的曲线上,而市场因子恰好是这个投影里最响的共振方向。看曲线选信号,等于隔着投影猜高维;归因剥离,是把向量拉回高维空间,一个分量一个分量地看。

alpha is the component orthogonal to the factor subspacefactor subspace — market beta · momentum · size · vol (everything already known)candidate signalprojection = factor exposureresidual ⊥ factors = alphathe equity curve you see — the profile photothe only part that countsa 1-D shadow can only show what resonates with its axis — strip first, then judge what is left standing

这件事的可怕之处在于:不剥离因子暴露的回测,几乎总是会给出一个更好看的数字。 所以任何允许“先上线、后归因”的研究流程,都在系统性地奖励自欺。

我们的做法是把它变成一条不可协商的准入纪律:任何候选信号,先剥离全部已知因子暴露,剩下的残差才有资格被称为 alpha;残差再过样本外和净成本两道门,三道全过才进入候选池。 没有例外,没有“这个信号很有道理所以先放进去看看”。有道理不是标准,剥离后的残差统计显著才是。

这条纪律的机器学习版本更有意思。当你用模型(无论是线性模型还是更复杂的非线性 learner)去组合特征时,模型会非常聪明地替你偷懒——如果特征空间里藏着因子暴露,模型会第一时间找到它并加满杠杆,因为在训练样本内这是损失下降最快的方向。你看到的“模型学到了 alpha”,很多时候是模型学会了做多波动率。所以剥离必须发生在进模型之前,而不是出模型之后——这是特征工程层面的决策,等到归因阶段再做就晚了。

第二道关卡:尾部相关性,组合真正的试金石

假设你的候选信号通过了剥离和样本外检验,进了组合。还有一个更隐蔽的陷阱在等着:全样本相关性是一个会撒谎的统计量。

两个信号可以在 95% 的交易日里近乎正交——相关性 0.1 以下,教科书级别的多元化——然后在最糟糕的 5% 里高度抱团。日常里它们看起来是两个赌注,压力日里它们是同一个。而决定你能不能活下来的,恰恰只有那 5%。

这不是理论担忧。2007 年 8 月的 quant unwind、2020 年 3 月、以及每一次因子快速反转,市场都在重复同一件事:平时的相关性结构在压力下不守恒。多元化是一种会在你最需要它的时候蒸发的资产——除非你直接对尾部做过检验。

所以我们的信号准入筛的不是全样本相关性,而是条件在组合最差日子上的尾部相关性。一个候选信号只有在存量信号流血的日子里依然提供独立信息,它的 √N 贡献才是真的。否则它只是让你的账面 N 变大、有效 N 不变——多元化幻觉比没有多元化更危险,因为它会诱使你加杠杆。

顺便说一句,这个检验有一个残酷的经验规律:越是尾部正交的候选,越难找。 alpha 和尾部独立性之间似乎存在某种张力——容易挖到的信号往往和存量信号共享同一批极端日。这正是“工厂”存在的理由:如果好信号俯拾皆是,你不需要工厂,只需要一次好运。

三道关卡,一个操作:正交化

回头看,这两道关卡其实是同一个数学操作——正交化(orthogonalization)——在不同层面的应用:因子剥离是对已知因子正交化,剩下的残差才配叫 alpha;候选筛选是对存量信号正交化,携带增量信息的部分才有 √N 贡献;尾部检验则是在问,这份正交性在压力下是否守恒。三条纪律,一个几何直觉:真正的多元化不是“持有很多信号”,而是“持有很多正交方向”——账面上的 N 是数出来的,有效的 N 是正交出来的。

工程上,正交化在流水线的哪一站发生、以什么顺序对什么剥离,是研究管线里少数真正值得反复推敲的设计决策之一——它决定了下游的组合器模型看到的是一组干净的正交方向,还是一堆彼此纠缠、等着模型自己去解开的原始特征。两条路线我们都走过,结论这里不展开;只说一句:这个选择对最终组合的影响,大于绝大多数人花在模型调参上的全部功夫。

所以工厂生产的从来不是信号,是正交方向。而一旦你开始用“方向”而不是“信号”思考,一扇更大的门就开了。

同一套几何:市场的四重境界

读过我《神经网络的四重境界》的读者,可能已经嗅到了什么。那篇文章一境一境地往上读神经网络:方程、流形、联络、测量。现在把同一双眼睛转向市场——你会发现本文的三条纪律不是三条独立的经验法则,而是同一套几何在金融里的显形。逐境走一遍。

金刚境——信号是函数空间里的向量,√N 是勾股定理。 每个信号本质上是定义在市场状态空间上的一个函数 s(x) → 预期收益,全体候选生活在 L² 空间里。这时一切都变成初等几何:相关性就是内积,ρ 就是夹角余弦,“正交”是字面意义上的 90°。√N 定律不再需要记忆——N 个正交向量之和的模长是 √N 倍,这就是勾股定理;而 N 个平行向量之和只是同一个向量画粗了 N 倍,这就是“三十份复印件”。因子剥离也不是比喻:对因子回归取残差,就是向已知因子子空间的正交补做投影。alpha 的严格定义由此而来——落在因子子空间之外的分量。没有神秘的东西,只有内积。

指玄境——组合器训练是把信号流形展平。 原始特征彼此纠缠,像那篇文章里叠在空中的纸飞机;组合器训练做的事和神经网络训练同构:把缠在一起的信号流形一步步展开,直到 alpha 线性可分(用层叠的分片光滑流形去逼近不讲道理的真实对象,这正是数值流形法(NMM)的家法——市场大概是比岩体更不讲道理的研究对象)。这个视角还顺手解释了一个我们付过学费的实证结论:为什么数据成为瓶颈时,简单的线性组合器反而稳定打败更复杂的非线性模型——当前数据分辨率下,信号流形的曲率低于噪声水平,它局部看起来就是平的;非线性模型在试图学习一个数据还看不见的曲率,于是只能拟合到噪声。“数据的边界决定模型的上限”由此有了一个几何判据:什么时候该上非线性?当数据多到曲率显影的时候。

天象境——尾部相关性是联络的和乐。 这一境回答本文最深的那个问题:为什么平时正交的信号,压力日会抱团?函数空间的语言说破了很简单:内积依赖测度。L² 的内积是在市场状态的概率测度下取的期望,而平静市场和危机市场是两个不同的测度——测度一换,所有夹角都变了。白话说,平时测到的独立性,只是在平静市场这套权重下成立;危机来了,市场给状态重新加权,两个信号之间的角度也会跟着变。翻译成微分几何:市场状态空间是底流形,每个状态点上挂着信号空间这根纤维;你在平静区校准好的正交标架,沿一条穿过危机的路径平行输运过去,会被曲率拧转——危机就是曲率集中的区域,“相关性趋近于 1”等价于有效维度坍缩到第一主成分。尾部相关性检验,测的就是这条路径的和乐(holonomy)——所谓和乐:在球面上举着一支箭头绕一圈,你从未主动转动它,回到原点它却转了一个角度,那个角度就是路径包住的曲率的总账。我们的检验做的就是这件事,只不过赶在市场替你测之前。“市场中性不等于危机中性”在这一境里不是一条经验教训,是一条几何定理:弯曲的底流形上,不存在全局平坦的标架。

parallel transport of an orthogonal signal frame — the angle does not survive stresstime →stress regioncurvature concentratessignal Asignal BABafter transport: nearly parallel, ρ → 1calm regime — a full right angle, ρ ≈ 0same two signals, same book — carried through a crisis, the frame comes out rotated toward collinearthe tail-correlation gate measures exactly this holonomy, before the market does

陆地神仙境——观测即扰动。 四境里最高的一境,市场版本只需一句话:你的每一笔成交,都在扰动你试图测量的那个分布。回测假设你是市场的旁观者;实盘里你是它的参与者——下单越大,测量对系统的坍缩越明显。这就是执行为什么值 alpha 的一半,也是执行层的学习问题(下文还会遇到的那个强化学习)真正的深度所在。这一境展开是另一篇文章。

从这套几何出发我还有一个推论。市场本身是一个被所有参与者的“梯度下降”共同训练的流形——每个人都沿着自己相信的 alpha 方向更新仓位。拥挤交易,就是太多人沿同一方向更新,直到把那个方向从流形上撕下来。alpha 衰减不是缓慢的氧化,是几何上的撕裂——读过我写 MoE 撕裂的读者会认出这个形状。顺带说一句:组合的“有效维度”是一个可以实时度量的量,相关矩阵谱的集中程度就是市场当前真实维度的读数,而维度坍缩的速度本身携带信息。这里不展开。

把四重境界收回工程:既然 alpha 是正交方向,既然正交性会被压力拧转,既然方向本身会被拥挤撕掉——可持续的做法就只剩一种:批量地、纪律地、不断地生产新的正交方向。 这就是工厂。

工厂:把研究本身变成一条生产线

从几何回到组织。弱信号聚合对研究的组织形态提出了一个苛刻的要求:研究必须是可重复的流水线,而不是一次次灵感的闪现。

一个配方型的团队是这样工作的:某个聪明人有了一个想法,做出一个策略,策略赚钱,团队围绕它扩张,直到它衰减。整个组织的价值 = 那个配方的剩余寿命。

一个工厂型的系统是这样工作的:候选信号从数据表面被系统性地枚举出来,每一个都走完全相同的验证流程——因子剥离、样本外、净成本、尾部相关——绝大多数被淘汰,极少数进入候选池,等待人的最终准入决策。信号会衰减、会被淘汰,但生产线本身在复利:每一轮筛选留下的不只是幸存者,还有“这一族方向已被证伪”的负知识,让下一轮枚举更聪明。

the signal factory — every candidate walks the same frozen gatesenumerate~100 candidatesfactor stripresidual onlyout-of-samplepre-registerednet of costlive-calibratedtail corrworst-days testhumanadmissionNO GO → append-only negative-knowledge ledgerfalsified directions are never re-mined — rejection is an asset, not a failuregates frozen before data is seen · verdicts need no human discretion · agents run the line, the human keeps the last door

这条生产线上有几个环节值得展开:

淘汰和生产同样重要。 工厂的输出里,被拒绝的候选远多于被接纳的——而这是健康的标志,不是失败。一个从不拒绝候选的研究流程,等价于一个没有免疫系统的机体。我们把每一次筛选的完整结论(包括所有 NO GO)写入一个只增不删的账本:证伪过的方向不重复挖,除非有新数据或新角度。负知识是有产权的资产。

验证必须对抗人性。 回测过拟合不是技术问题,是激励问题——研究者永远有动机让自己的候选通过。解法是把验证规则在看到数据之前就冻结:评估窗口、准入阈值、成本假设,全部预注册,候选跑完只看裁决。这套纪律的存在,让“工厂一夜跑几十个候选”成为可能——因为裁决不依赖任何人的自由裁量。

模型是组合器,不是神谕。 在弱信号范式里,机器学习的位置很明确:它负责把通过准入的特征组合成预测,并在市场结构漂移时保持校准。我们同时维护线性和非线性的组合器并让它们互相对标——一个值得记下的经验是,当特征本身的信息含量是瓶颈时,更复杂的模型不会创造不存在的信息,只会更快地过拟合噪声。数据的边界决定模型的上限,这句话的实践含义是:扩充特征表面的优先级永远高于升级模型架构。

执行层有自己的学习问题。 信号告诉你想持有什么,执行决定你以什么成本拿到它——而在弱信号范式下,单个信号的毛利本来就薄,执行成本可以轻易吃掉全部边际。怎么拆单、何时交易、如何在冲击成本和时间风险之间权衡,这本质上是一个序贯决策问题,也是强化学习在整个系统里最名正言顺的位置——环境可模拟、奖励可度量、反馈周期短。这里不展开,只说一个结论:执行是 alpha 的一半,而它是可以被训练的那一半。

为什么这只有垂直整合的系统做得动

读到这里你可能会问:这些道理并不神秘,为什么不是所有人都这么做?

因为工厂对基础设施的要求是乘法而不是加法。因子剥离需要干净的因子库和归因引擎;样本外纪律需要严格的时点数据(point-in-time),任何一处未来信息泄漏都会让整条流水线的裁决作废;净成本检验需要来自实盘的成本模型校准,而不是拍脑袋的手续费假设;尾部相关检验需要组合层面的完整历史。这四样东西分别缺一样,工厂就退化回配方作坊。

而这四样东西恰好就是上一篇讲的垂直整合:研究和执行共享同一条 pipeline,回测用的成本模型由实盘成交持续校准,信号从假设到实盘资金走的是同一套数据、同一套归因、同一套风控。工厂不是一个研究部门的工作方式,它是整个系统的架构属性。

AI 让这件事出现了一个新的拐点。验证流程一旦被冻结成纪律,它就是可以被 AI agents 全天候执行的——枚举候选、跑筛选、写裁决、维护账本,机器做;只有最后的准入决策留给人。工厂的产能第一次和人头数解耦了。这是我们正在走的路,也值得单独写一篇。

结语

量化行业喜欢讲信号的故事,因为配方好传播:“我们发现了 X。”工厂的故事难讲得多:“我们建了一条生产线,它大部分时间在说不。”

但数学站在工厂这边。√N 定律说独立性比强度值钱;因子剥离说大多数好看的业绩经不起归因;尾部相关说多元化必须在压力下验证。放进同一套几何里,这三条是同一个对象的三个切面——勾股定理、投影、和乐。它们加起来的推论是:可持续的量化优势,是一个系统性生产并诚实验证正交方向的机器——而机器,是可以被工程出来的。

我们用同一套几何读神经网络,也读市场。这不是巧合,是方法论:在高维里,能被信任的从来不是某个具体的向量,而是不断重建正交标架的能力。

配方会衰减。工厂在复利。

本文是 Dnalyaw 量化系列的第三篇。前篇:AI 量化交易:从模型到量化基金Dnalyaw:从零工程化一个 AI 量化交易系统回测到实盘的落差,本质上是成本模型问题