背景知识:机器学习在金融中的限制
"如果深度学习能预测股价,为什么顶级 AI 公司不都去做量化?"
核心限制:信噪比极低
| 领域 | 信噪比 | 可达到的准确率 |
|---|---|---|
| 图像识别 | 高 | 95%+ |
| 语音识别 | 高 | 90%+ |
| 自然语言 | 中 | 80%+ |
| 股价预测 | 极低 | 52-55% 已是顶级 |
为什么金融信噪比这么低?
- 市场接近有效:明显的规律很快被套利消除
- 参与者众多:你发现的规律别人也在用
- 噪音主导:短期价格 90% 是随机波动
- 反身性:预测本身会改变被预测的结果
限制一:数据不够多
深度学习需要海量数据,但金融数据有限。
| 数据类型 | 样本量 | 深度学习适用性 |
|---|---|---|
| 日线 20 年 | 5,000 条 | ❌ 远远不够 |
| 分钟线 5 年 | 50 万条 | ⚠️ 勉强可用 |
| Tick 数据 1 年 | 数百万条 | ✅ 可以尝试 |
对比:ImageNet 有 1400 万张图片,GPT 用了数万亿 token。
限制二:分布不稳定
训练数据和预测数据的分布不同(Regime Shift)。
训练集(2015-2019):
- 牛市为主
- 波动率 15%
- VIX 均值 15
测试集(2020):
- COVID 崩盘
- 波动率飙升到 80%
- VIX 最高 82
→ 模型完全失效
深度学习的假设:训练和测试数据来自同一分布。金融市场违反这一假设。
限制三:过拟合容易
金融数据的"规律"可能只是噪音。
| 模型复杂度 | 训练集表现 | 测试集表现 | 诊断 |
|---|---|---|---|
| 简单线性 | 8% 年化 | 6% 年化 | 正常 |
| 随机森林 | 25% 年化 | 8% 年化 | 轻微过拟合 |
| LSTM | 80% 年化 | -5% 年化 | 严重过拟合 |
| Transformer | 150% 年化 | -15% 年化 | 灾难性过拟合 |
复杂模型 ≠ 更好预测,在金融中往往相反。
限制四:预测 ≠ 盈利
52% 的准确率听起来比随机好,但扣除成本后可能亏钱。
假设:
- 预测准确率 52%
- 每笔盈利 1%,亏损 1%
- 交易成本 0.3%
期望收益 = 52% × 1% - 48% × 1% - 0.3%
= 0.52% - 0.48% - 0.3%
= -0.26% (亏钱!)
需要的盈亏比:
盈利时赚 1.5%,亏损时亏 1%
→ 52% × 1.5% - 48% × 1% - 0.3% = 0.28% (微利)
限制五:可解释性差
深度学习是黑盒,金融监管和风控需要解释。
| 场景 | 线性模型 | 深度学习 |
|---|---|---|
| 为什么买这只股票? | "动量因子得分高" | "网络输出 0.7" |
| 亏损归因 | "价值因子失效" | 不知道 |
| 监管解释 | 可提供 | 困难 |
| 风控调整 | 调单一因子 | 需要重训练 |
限制六:硬件和成本
训练深度模型需要大量算力,量化收益可能无法覆盖。
| 资源 | 成本 | 收益要求 |
|---|---|---|
| GPU 集群训练 | $10,000+/月 | 年化 >10% |
| 数据购买 | $50,000+/年 | 年化 >5% |
| 人才成本 | $200,000+/年 | 年化 >20% |
对比:简单的均线策略成本接近零。
什么情况下 ML 有效?
| 场景 | ML 有效性 | 原因 |
|---|---|---|
| 高频交易 | ⚠️ 有限 | 延迟比模型更重要 |
| 日频选股 | ✅ 可用 | 足够的数据,适中复杂度 |
| 月频资产配置 | ⚠️ 有限 | 数据太少 |
| 另类数据挖掘 | ✅ 有价值 | 非结构化数据处理 |
| 风险模型 | ✅ 有价值 | 预测波动率比收益容易 |
实用建议
1. 简单模型优先
首选:线性回归、岭回归、逻辑回归
次选:随机森林、XGBoost
最后:LSTM、Transformer
2. 验证优先于模型
花 80% 时间在验证上:
- Walk-Forward 验证
- 多时期稳定性
- 扣除成本后收益
3. 特征优先于模型
80% Alpha 来自特征工程
20% 来自模型选择
好特征 + 简单模型 > 差特征 + 复杂模型
4. 预测波动率而非收益
波动率更容易预测:
- 波动率有聚集效应
- 波动率自相关 0.7-0.9
- 收益率自相关 ≈ 0
用 ML 预测波动率 → 用规则交易
总结
| 限制 | 影响 | 应对 |
|---|---|---|
| 信噪比低 | 准确率难超 55% | 降低预期 |
| 数据不够 | 容易过拟合 | 简化模型 |
| 分布漂移 | 模型失效 | 滚动重训练 |
| 成本高 | 收益被吞噬 | 降低换手 |
| 黑盒 | 难以风控 | 保持可解释 |
核心结论:ML 在量化中的价值是信号增强,不是预测涨跌。