【国君金工 学界纵横系列】量化建模需放下 奥卡姆剃刀
创建于 更新于
摘要
本报告围绕Bryan Kelly等学者《THE VIRTUE OF COMPLEXITY IN RETURN PREDICTION》,探讨了金融资产收益预测中复杂机器学习模型的表现优于简单模型的良性过拟合现象。研究显示,当模型复杂度P远大于样本数T且采用合理的特征压缩技术时,样本外预测精准度和策略表现均随复杂度提升显著增强,挑战了传统奥卡姆剃刀原则,提出投资者应尽可能增加模型有效信息以逼近真实收益生成过程,同时指出样本外拟合优度R²不能完全反映策略优劣,策略收益和夏普比率等指标更具参考价值 [page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7]。
速读内容
- 机器学习复杂模型的良性过拟合现象:与传统认为复杂模型易过拟合不同,在金融收益预测场景中,复杂非线性机器学习模型即使参数数P大于样本数量T,仍能实现更优的样本外预测效果,被称为良性过拟合。[page::0][page::1][page::2]
- 模型复杂度的权衡与选择:
| 模型类型 | 参数数P与样本数T关系 | 方差 | 偏差 |
|----------|---------------------|---------|---------|
| 简单模型 | P << T | 低方差 | 高偏差 |
| 复杂模型 | P > T | 高方差 | 低偏差 |
复杂模型由于可近似更真实的收益函数f,提升预测精度,但需利用特征压缩控制方差 [page::1]
- 理论与实证发现:
- 理论证明在高维线性回归简化模型中,随着P/T比率c从1增至1000,样本外收益预测准确度及策略表现线性提升。
- 实证基于美股CRSP月度收益,应用傅里叶随机特征(RFF)算法生成特征,结果显示预期收益、夏普比率信息比率均显著提升。



[page::4][page::5][page::6]
- 样本外拟合优度R²解释限制:
- R²可能为负,无法完全反映策略优劣,
- 这是因为R²受预测方差影响较大,策略波动率的调整带来负的拟合优度时依然能够实现盈利。
- 因此,投资者应关注策略的收益风险指标如夏普比率等而非单纯追求高R²。[page::3]
- 正则化的作用:
- 增加正则化力度降低预期收益,
- 但同时显著降低策略风险波动,
- 综合效果是策略夏普比率有所提升,[page::3]
- 投资建议与结论:
- 建议投资者尽可能利用所有相关特征构建复杂非线性模型,
- 即使数据不足,合理使用特征压缩也能避免过拟合。
- 奥卡姆剃刀原则在金融收益预测中不适用,因为模型真实形式往往未知且复杂。
- 大型机器学习模型在金融领域和其他领域均表现优异,值得推广应用。[page::7]
- 图1表征偏差与方差的权衡,对于金融预测建模理解有启发:

[page::2]
深度阅读
详尽分析报告:《量化建模需放下 奥卡姆剃刀》——基于“THE VIRTUE OF COMPLEXITY IN RETURN PREDICTION”的深度解读
---
1. 元数据与概览(引言与报告概览)
- 报告标题: 【国君金工 学界纵横系列】量化建模需放下 奥卡姆剃刀
- 作者与发布机构: 陈奥林、杨,国泰君安证券研究所“国君金工”团队原创发布
- 发布时间与地点: 2022年7月14日,上海
- 主题聚焦: 量化投资中的机器学习模型建构,重点探讨模型复杂度(参数数量)与样本外预测表现的关系。
- 核心论点: 传统金融建模遵循“奥卡姆剃刀原理”,即“如无必要,勿增实体”,倾向于使用简单模型避免过拟合。报告引用Bryan Kelly等学者合著的论文《THE VIRTUE OF COMPLEXITY IN RETURN PREDICTION》,反驳这一观点,认为在金融资产收益预测中,模型复杂度越高(参数数P明显大于样本数T),反而能提高样本外预测表现和组合收益,体现了“良性过拟合”现象,奥卡姆剃刀原则不适用,投资者应拥抱复杂模型以逼近真实收益生成过程。[page::0,1]
---
2. 逐节深度解读
2.1 引言:良性过拟合及研究动机
- 关键论点: 机器学习中复杂模型参数众多,理应更容易过拟合而在样本外表现下降,但大量实证发现复杂机器学习模型样本外预测优于简单线性模型,称为“良性过拟合”。
- 运用奥卡姆剃刀原理的传统观点与对比: 奥卡姆剃刀提倡模型简洁,这本应减少过拟合风险。但报告指出,金融收益预测中这种逻辑不成立,复杂模型反而优势明显,因其能更逼近未知真实的收益函数f。
- 研究引用: 重点推崇Bryan Kelly、Semyon Malamud和Kangying Zhou的工作,结合随机矩阵理论解释为何复杂度增加能够提升样本外预测精度和策略表现。
- 逻辑支撑: 若真实函数f复杂且高维,简单模型必然模型偏差大;复杂模型虽方差增大,但充分逼近真实模型,总体预测效果更优。[page::0]
2.2 问题提出:模型复杂度选择的困境
- 基本设定: 金融资产收益$R{t+1}$可表示为函数$f(G{t})$($G{t}$为预测信号集)加误差项。因未知$f$具体形式,采用Hornik等人的逼近理论,将$f$近似为一组非线性激活函数$S{i,t}$的线性组合,即线性回归框架:
$$
R{t+1} \approx \sum{i=1}^P S{i,t} \betai + \Delta \varepsilon_{t+1}
$$
- 模型复杂度差异:
- 简单模型:特征数$P \ll T$,低方差但高偏差(欠拟合)
- 复杂模型:$P > T$,可更准确拟合$f$,但高方差,面临过拟合风险
- 核心问题: 应选择何种复杂度$P$?复杂模型是提高预测还是仅带来方差膨胀与训练集过拟合?[page::1]
2.3 方差-偏差图示(图1)
- 针对模型预测误差组成,图1四个象限示意低偏差低方差的理想及不同组合的预测表现。
- 直观帮助理解复杂模型带来的方差膨胀以及简单模型的偏差。
- 图示强调权衡关系,但本报告随后的实证挑战了传统对此权衡的预期。[page::2]
2.4 理论结论及主要发现
- 良性过拟合现象:当$P > T$,且模型参数通过特征压缩合理调整,模型复杂度提升带来线性提高的样本外预测精度和策略表现。
- 建议: 投资者应加入尽可能多的有效信息(即增大$P$),以逼近真实收益函数$f$,从而提升策略表现。增加复杂度带来的方差增加被更准确的函数逼近所抵消。
- 理论简化假设:
- 机器学习模型被视为高维线性回归
- 针对单一资产收益预测
- 这种简化助于理论证明,不损害结论的普适性与指导意义。[page::2]
2.5 传统OLS与机器学习对比
- 在传统最小二乘(OLS)中,$P$接近$T$时协方差矩阵不稳定,预测方差暴增,样本外表现急剧下降。
- 机器学习背景下,实际收益生成过程非常复杂,真实特征维度$P$远大于样本量$T$,因此$P>T$模型不应视为过拟合,而是合理的参数化。
- 关键结论:
- 样本外$R^2$不能完全判断策略优劣,负的$R^2$仍然可能带来正的投资收益,原因是$R^2$严重受预测方差影响。
- 适当正则化有助降低策略波动,增加夏普比率,但会降低预期收益,优化收益与波动间的平衡。
- 实证方法说明与数据来源:
- 使用15个预测因子预测美股CRSP月收益
- 采用傅里叶随机特征(RFF)算法构造大量特征,即两层神经网络结构(第一层权重随机,第二层回归求得权重)
- 定义复杂度比$c = P / T$,通过调节$c$观察预测表现变化。[page::3]
2.6 实证分析与图表解读
图2:收益预测策略样本外表现
- 图面内容说明: 图2分为4个Panel分别显示随$c$变化的不同指标:
- Panel A:样本外$R^2$
- Panel B:参数范数$\|\hat{\beta}\|$
- Panel C:预测策略的期望收益
- Panel D:收益的波动率(Volatility)
- 数据表现趋势:
- $R^2$虽负值较多,但随$c$增加,$R^2$趋近于0或正,表明预测精度提升。
- 参数范数整体下降,表明正则化使得模型权重收敛。
- 期望收益明显随$c$上升,复杂模型明显带来收益提升。
- 波动率随$c$增大先急剧下降后趋于平稳。
- 结论对应文本: 支持理论中复杂度增加提升策略表现的结论,同时表明仅依赖$R^2$评判策略优劣有局限。
图3:策略风险调整表现
- 内容: 以$c$为横轴,展示夏普比率(Panel A)、Alpha(Panel B)、信息比率(Panel C)及Alpha t值(Panel D)。
- 数据趋势解读:
- 随$c$增大,夏普比率及Alpha均显著增长,信息比率和Alpha统计显著性也随之上升。
- 表明更高复杂度提供更稳健、收益更高且统计显著的投资信号。
- 与文本关联: 实证结果验证了利用大量复杂非线性特征可以显著提升策略风险调整后表现,进一步强化复杂模型优势论点。
图4:分时期样本外表现检验
- 面板划分: 左侧1930-1974年,右侧1975-2020年,历史跨度宽泛,确保结果稳健。
- 指标: 分显示期望收益、波动率和信息比率。
- 解读:
- 两个时间段均显示$c$提升提升策略收益及信息比率的趋势一致,波动率趋于稳定或下降。
- 加强结论的时间稳健性,证明复杂模型的优势非偶然现象。
- 文本强调: 强调了机器学习模型的增长性优点非短期现象,具有长期稳定性支持。[page::4,5,6]
2.7 研究总结与建议
- 不鼓励加入随机信号: 复杂度提升需基于“有效”“相关”的投资因子,而非随机无关变量。
- 鼓励使用非线性及复杂模型: 即使训练样本有限,使用特征压缩和正则化,复杂模型在样本外依然表现优于简单线性模型。
- 背离奥卡姆剃刀原则: 只有当模型形式完全正确时,简约模型才优;因为真实模型形式几乎总不完全正确,选择更复杂模型更合逻辑。
- 机器学习文献支持: 该结论背靠广泛机器学习实践及理论,表明其在金融领域同样适用。
- 投资者启示: 量化建模不应刻意追求简约,反而需拥抱复杂多变的模型架构,提升投资决策的精度和收益表现。[page::7]
---
3. 图表深度解读
3.1 图1 方差与偏差示意图
- 四个射靶图形象展示了不同偏差和方差组合下预测点的分布:
- 低偏差且低方差为理想,点聚焦靶心
- 高方差与高偏差导致点散落广泛且不居中
- 直观辅助理解模型复杂度提高带来的偏差下降但方差上升的经典权衡。[page::2]
3.2 图2 收益预测策略样本外表现
- Panel A ($R^2$): 负值随$c$(复杂度比)增加迅速接近零甚至转正,说明复杂模型提升了预测准确性。
- Panel B ($\|\hat{\beta}\|$): 模型参数幅度整体减小,体现正则化及特征压缩效果,避免参数爆炸。
- Panel C (期望收益): 随$c$提升明显向上,收益改善最直接体现。
- Panel D (波动率): 先快速降低后趋稳,说明复杂模型在控制策略波动方面优于简单模型。
- 结论支撑: 复杂模型虽参数繁多,但得益于正则化等技术控制,整体效果卓越。[page::4]
3.3 图3 策略风险调整表现
- Panel A (夏普比率): 明显随复杂度提升,风险调整收益改善。
- Panel B (Alpha): 策略在考虑基准风险因素后,仍获得持续显著超额收益。
- Panel C (信息比率): 再次验证了信息含量及预测能力增强。
- Panel D (Alpha t-stat): 超额收益显著性增强,统计学支持策略有效性提升。
- 解读: 复杂度有力推动了投资策略的综合质量提升。[page::5]
3.4 图4 分时期表现
- 纵观近百年两不同时期,复杂模型表现提升趋势一致,
- 兼顾收益、波动及信息比率,验证结果长期稳健,非单一时期效应。
- 强化了复杂模型建构的长期有效性和普适性。[page::6]
---
4. 估值分析
本报告并未具体讨论传统意义上的企业估值分析,而侧重于量化策略的预测精度及表现评估,相关指标包括$R^2$,夏普比率,信息比率及Alpha等风险调整收益指标。体现了基于统计与风险测度的策略“估值”与评价,实质上属于量化投资策略性能评估范畴。
---
5. 风险因素评估
报告指出多维风险及挑战:
- 样本外过拟合风险: 传统观点仍然担忧高P模型可能过拟合小样本。
- 信号有效性风险: 新增信号须相关且有效,否则复杂度提升或带来噪音,反害策略表现。
- 模型简化假设限制: 理论基于高维线性回归近似,仅预测单一资产,实际多资产多因子情况更复杂。
- 量化建模实施难度: 需要特征压缩和正则化以控制方差与参数爆炸,技术实践门槛及计算成本较高。
- 市场变化适应风险: 高复杂度模型是否能适应不同市场环境待持续观察和实证。
报告对上述风险均酌情承认,强调合理特征选择和正则化的重要缓解作用。[page::2,3,7]
---
6. 批判性视角与细微差别
- 正视传统估计限制: 报告极力推崇复杂模型,可能存在对简单模型及小样本下实际风险低估的倾向,需要警惕过度乐观。
- 理论假设简化: 将复杂机器学习模型简化为高维线性回归,有一定局限,可能忽视深层非线性和交互影响的细节。
- 限制于单资产预测: 多资产及组合层面复杂度问题未充分涉及,实际应用中复杂度管理更艰难。
- $R^2$低被弱化: 虽然报告强调负$R^2$依然能盈利,投资者仍需关注模型稳健性及其他评价指标,单一指标忽视可能导致错误解读。
- 样本内外时间覆盖的差异: 实证长周期虽涵盖多市场环境,个别极端事件下模型表现仍需深入分析。
- 无随机信号加入重申: 明确要求信号需相关且有效,提醒模型复杂度膨胀不可盲目扩展特征集。
总体报告科学严谨且立论充分,但对机器学习与金融市场高维性质的应用门槛与潜在问题未全面展开讨论,值得投资实践时谨慎对待。[page::7]
---
7. 结论性综合
本报告系统阐述并验证了在金融资产收益预测中,传统的奥卡姆剃刀原理并不适用,反而应该拥抱高维、复杂的机器学习模型。理论上,通过将未知复杂真实函数$f$用大量非线性激活函数表示的高维线性模型替代,其模型复杂度$P$远超样本数$T$时,仍能实现良性过拟合,获得更好样本外预测效果。
实证基于美股月度收益,利用傅里叶随机特征构建大量复杂因子,结果显示随着$P/T$比率$c$从1攀升至1000,整体策略表现指标(期望收益,夏普比率,信息比率,Alpha及其显著性)均显著攀升,且实时波动率稳定下降,策略整体风险调整表现得到改善。分历史区间检验结果进一步支持复杂模型优势的时间稳健性。
图表丰富而直观地展现了复杂度提升如何影响模型性能:虽然样本外$R^2$有限,但这并不妨碍策略收益生成,参数正则化有效压制过大方差。图1模型偏差与方差示意帮助理解传统偏差-方差权衡,但整体论文强调了这种权衡在金融收益预测中的欠缺适用性。
投资者应采纳的关键建议为:尽可能纳入所有可得的有效因子,运用非线性并具备高复杂度的机器学习模型,通过合理的特征压缩技术保证样本外泛化效果,从而提升组合收益表现。该观点突破了传统的量化建模思维,为金融量化研究与投资实践提供了理论与实证基础。
报告对机器学习在资产管理领域的快速发展、量化策略构建复杂性的指导意义明确,具有较强的前瞻性和实践价值。投资者及研究者应充分认识并应用机器学习“大模型”的优势,同时注意风险管理与模型验证的重要性。
---
附图展示
图1 方差与偏差图示

图2 收益预测策略样本外表现

图3 收益预测策略样本外表现

图4 收益预测策略分区间样本外表现

---
总结
本报告科学论证并强调,金融量化中的复杂机器学习模型能有效提升投资组合的样本外表现,实践中应反向拥抱复杂性而非一味追求模型简约,开创了量化建模的新视角和思路,是理解与应用现代金融机器学习理论成果的重要参考。投资实务者应结合报告所述合理扩充特征集,科学运用特征压缩及正则化技术,谨慎而高效地利用复杂模型带来的潜在策略收益提升。以上论断均有充分的文献理论和实证数据支撑,特别是通过图表揭示复杂度对收益与风险指标的正向推动关系,为资产管理行业数字化、智能化进阶提供重要依据与指引。[page::0,1,2,3,4,5,6,7]