背景知识：机器学习在金融中的限制

"如果深度学习能预测股价，为什么顶级 AI 公司不都去做量化？"

核心限制：信噪比极低

领域	信噪比	可达到的准确率
图像识别	高	95%+
语音识别	高	90%+
自然语言	中	80%+
股价预测	极低	52-55% 已是顶级

为什么金融信噪比这么低？

市场接近有效：明显的规律很快被套利消除
参与者众多：你发现的规律别人也在用
噪音主导：短期价格 90% 是随机波动
反身性：预测本身会改变被预测的结果

限制一：数据不够多

深度学习需要海量数据，但金融数据有限。

数据类型	样本量	深度学习适用性
日线 20 年	5,000 条	❌ 远远不够
分钟线 5 年	50 万条	⚠️ 勉强可用
Tick 数据 1 年	数百万条	✅ 可以尝试

对比：ImageNet 有 1400 万张图片，GPT 用了数万亿 token。

限制二：分布不稳定

训练数据和预测数据的分布不同（Regime Shift）。

训练集（2015-2019）：
  - 牛市为主
  - 波动率 15%
  - VIX 均值 15

测试集（2020）：
  - COVID 崩盘
  - 波动率飙升到 80%
  - VIX 最高 82

→ 模型完全失效

深度学习的假设：训练和测试数据来自同一分布。金融市场违反这一假设。

限制三：过拟合容易

金融数据的"规律"可能只是噪音。

模型复杂度	训练集表现	测试集表现	诊断
简单线性	8% 年化	6% 年化	正常
随机森林	25% 年化	8% 年化	轻微过拟合
LSTM	80% 年化	-5% 年化	严重过拟合
Transformer	150% 年化	-15% 年化	灾难性过拟合

复杂模型 ≠ 更好预测，在金融中往往相反。

限制四：预测 ≠ 盈利

52% 的准确率听起来比随机好，但扣除成本后可能亏钱。

假设：
  - 预测准确率 52%
  - 每笔盈利 1%，亏损 1%
  - 交易成本 0.3%

期望收益 = 52% × 1% - 48% × 1% - 0.3%
        = 0.52% - 0.48% - 0.3%
        = -0.26% (亏钱！)

需要的盈亏比：
  盈利时赚 1.5%，亏损时亏 1%
  → 52% × 1.5% - 48% × 1% - 0.3% = 0.28% (微利)

限制五：可解释性差

深度学习是黑盒，金融监管和风控需要解释。

场景	线性模型	深度学习
为什么买这只股票？	"动量因子得分高"	"网络输出 0.7"
亏损归因	"价值因子失效"	不知道
监管解释	可提供	困难
风控调整	调单一因子	需要重训练

限制六：硬件和成本

训练深度模型需要大量算力，量化收益可能无法覆盖。

资源	成本	收益要求
GPU 集群训练	$10,000+/月	年化 >`1`0%
数据购买	$50,000+/年	年化 >`5`%
人才成本	$200,000+/年	年化 >`2`0%

对比：简单的均线策略成本接近零。

什么情况下 ML 有效？

场景	ML 有效性	原因
高频交易	⚠️ 有限	延迟比模型更重要
日频选股	✅ 可用	足够的数据，适中复杂度
月频资产配置	⚠️ 有限	数据太少
另类数据挖掘	✅ 有价值	非结构化数据处理
风险模型	✅ 有价值	预测波动率比收益容易

实用建议

1. 简单模型优先

首选：线性回归、岭回归、逻辑回归
次选：随机森林、XGBoost
最后：LSTM、Transformer

2. 验证优先于模型

花 80% 时间在验证上：
- Walk-Forward 验证
- 多时期稳定性
- 扣除成本后收益

3. 特征优先于模型

80% Alpha 来自特征工程
20% 来自模型选择

好特征 + 简单模型 > 差特征 + 复杂模型

4. 预测波动率而非收益

波动率更容易预测：
- 波动率有聚集效应
- 波动率自相关 0.7-0.9
- 收益率自相关 ≈ 0

用 ML 预测波动率 → 用规则交易

总结

限制	影响	应对
信噪比低	准确率难超 55%	降低预期
数据不够	容易过拟合	简化模型
分布漂移	模型失效	滚动重训练
成本高	收益被吞噬	降低换手
黑盒	难以风控	保持可解释

核心结论：ML 在量化中的价值是信号增强，不是预测涨跌。