`

基于 CSCV 框架计算三组量化研究案例的回测过拟合概率

创建于 更新于

摘要

本报告基于组合对称交叉验证(CSCV)框架,系统介绍回测过拟合概率(PBO)的计算方法,评估三类量化策略的过拟合风险。结果显示,机器学习多因子选股和交叉验证多因子选股模型的回测过拟合概率较低,XGBoost表现更优;而基于双均线择时的50ETF模型过拟合概率较高。报告详细阐述了PBO的定义、计算步骤和案例分析,结合多图表数据验证PBO的有效性,为量化策略回测风险管理提供理论与实证支持 [page::0][page::3][page::8][page::15]

速读内容


研究背景与定义 [page::3][page::4]

  • 回测是量化策略的重要工具,但存在回测过拟合风险。

- 过拟合分为训练过拟合(机器学习语境)和回测过拟合(量化策略语境)。
  • 训练过拟合通过合理交叉验证可缓解,回测过拟合难以根除,需量化衡量。

- 图示区分训练过拟合和回测过拟合,帮助理解两者差异。



PBO定义与计算流程 [page::5][page::6][page::7]

  • PBO(回测过拟合概率)基于CSCV框架,衡量训练集最优策略在测试集上的相对排名。

- 回测时间划分为S份,任取S/2为训练集,剩余为测试集,遍历全部组合计算训练集最优策略测试集排名。
  • 统计排名后半区概率即为PBO。该方法计算简单,适用范围广。

- 计算流程图示,示例说明具体步骤与优势。



案例介绍:三类量化策略分析 [page::8][page::9][page::10]

  • 案例1:7种机器学习模型多因子选股,XGBoost表现最佳,选股覆盖全部A股且构建中证500指数增强组合。

- 案例2:6种交叉验证方法的多因子模型,包含逻辑回归和XGBoost,比较不同调参方法对策略影响。
  • 案例3:50ETF双均线择时策略,分析不同短均线和长均线参数的择时效果。

- 图示三类策略回测净值走势,XGBoost策略优势明显,择时模型波动较大。




案例1结果分析:机器学习多因子选股模型 [page::11][page::12]

  • 多空组合和Top组合训练集最优策略在测试集相对排名集中于前25%,PBO较低,说明过拟合风险低。

- 指数增强组合使用信息比率评价,测试集相对排名多数集中在25%-37.5%,亦显示较低过拟合风险。
  • PBO具体数值:多空组合约7%-13%,Top组合约20%-30%,指数增强组合信息比率约16%-34%。





| T/S(子矩阵包含月份) | 多空组合夏普比率PBO | Top组合夏普比率PBO | 指数增强组合夏普比率PBO | 指数增强组合信息比率PBO |
|-------------------|--------------------|-------------------|-----------------------|-----------------------|
| 6 | 13.5% | 22.4% | 54.3% | |
| 8 | 7.4% | 20.6% | 48.9% | 34.5% |
| 12 | 12.9% | 30.0% | 54.3% | 32.9% |
| 16 | 0.0% | 25.0% | 45.0% | 20.0% |
| 24 | 0.0% | 50.0% | 33.3% | 16.7% |
| 48 | 0.0% | 50.0% | 100.0% | |

案例2结果分析:不同交叉验证方法多因子选股模型 [page::13]

  • 逻辑回归多空组合PBO集中在20%-50%,XGBoost多空组合PBO较低,为10%-40%,均显示较低回测过拟合风险。

- XGBoost回测过拟合概率明显低于逻辑回归,表明分组时序交叉验证提升效果更明显。



| T/S(子矩阵包含月份) | 逻辑回归多空组合夏普比率PBO | XGBoost多空组合夏普比率PBO |
|-------------------|-----------------------------|----------------------------|
| 6 | 26.5% | 33.7% |
| 8 | 49.6% | 31.3% |
| 12 | 44.3% | 38.6% |
| 16 | 40.0% | 15.0% |
| 24 | 33.3% | 33.3% |
| 48 | 0.0% | 50.0% |

案例3结果分析:50ETF双均线择时模型 [page::13][page::14]

  • 训练集最优策略参数在测试集相对排名多集中于后半区,PBO高达50%-90%,表明择时策略过拟合概率高。

- 参数数量多(91组)时,过拟合概率稍降低但仍处于较高水平。



| T/S(子矩阵包含月份) | 7组参数择时模型净值夏普比率PBO | 91组参数择时模型净值夏普比率PBO |
|-------------------|-----------------------------|-----------------------------|
| 12 | 77.7% | 66.6% |
| 14 | 80.1% | 64.8% |
| 21 | 74.3% | 57.1% |
| 28 | 80.0% | 70.0% |
| 42 | 50.0% | 83.3% |

结论与建议 [page::15]

  • CSCV框架计算的PBO有效区分量化策略回测过拟合风险。

- 机器学习多因子选股模型(尤其XGBoost)和基于交叉验证方法的选股模型过拟合概率较低,具备较好泛化能力。
  • 传统双均线择时模型过拟合概率高,需警惕参数调优导致的过拟合陷阱。

- PBO可作为量化策略评估的重要补充指标,优化策略设计和风险控制。

深度阅读

金工研究报告解析:基于 CSCV 框架的回测过拟合概率测算分析



---

一、元数据与报告概览


  • 报告标题:基于 CSCV 框架的回测过拟合概率——华泰人工智能系列之二十二

- 作者:林晓明、陈烨、李子钰、何康(华泰证券研究所)
  • 发布机构:华泰证券股份有限公司

- 发布日期:2019年6月17日
  • 研究主题:量化投资领域中的“回测过拟合”问题及其量化测量——利用组合对称交叉验证(CSCV)框架计算回测过拟合概率(PBO),并应用于三组量化策略案例

- 报告核心观点
- 回测过拟合存在两个层次:训练过拟合(机器学习领域含义)和回测过拟合(量化研究场景的广义含义);
- 利用 CSCV 框架计算的回测过拟合概率可有效刻画和量化回测过拟合风险;
- 通过实证案例发现,多因子选股模型的过拟合概率整体较低,择时模型的过拟合概率较高;
- 对风险偏好和模型选择有指导意义,提示某些结论大概率非偶然或非过拟合结果。

---

二、逐节深度解读



1. 研究背景



报告首先阐述量化策略回测的重要性及其固有局限。本文指出回测是基于“历史会重演未来”的假设来推断策略表现的不可替代手段,然而历史市场规律可能发生变化,且回测过程可能捕捉的是偶然噪音,导致模型未来失效,这便是“回测过拟合”。本文进一步将回测过拟合区别于机器学习中的“训练过拟合”,为后续建立模型测算体系奠定基础。

报告强调,尽管回测并非严格的科学实验,但仍是量化研究不可或缺的工具,同时测量回测过拟合风险具有重要实用价值。[page::3]

2. 过拟合的两个层次


  • 训练过拟合:指机器学习模型在训练集表现良好,但在测试集表现欠佳,根因在于模型选择参数不当或训练过度。该问题可通过合理交叉验证解决,如时序交叉验证。

- 回测过拟合:指量化模型在历史回测阶段表现优异,但在实盘中表现不佳。根因包括市场规律改变或历史数据噪音的过度拟合,难以根除,只能通过测量风险概率检验。

附有两项图示:
  • 图表1说明训练过拟合的拟合曲线,显示不同过拟合程度;

- 图表2展示回测过拟合现象,具体表现为策略样本外(实盘)期表现大幅弱于回测期。[page::4]

3. 回测过拟合概率PBO的定义及计算框架



PBO为衡量回测过拟合风险的量化指标,基于2017年论文中引入的CSCV框架。
  • 核心思想:计算在训练集表现最好的策略(夏普比率最高)其在测试集中的相对排名。若该策略在测试集相对排名高(即表现依然优异),回测过拟合概率低;反之概率高。

- 计算步骤
- 将回测时间序列划分为S份;
- 任取其中S/2份作为训练集,剩余S/2份作为测试集;
- 对所有策略,在训练集和测试集分别计算评价指标(通常为夏普比率);
- 对比最优策略在测试集中的排名,建立其相对排名ω;
- 通过对所有可能的训练测试集划分组合遍历,统计ω大于50%的概率即为PBO。

具体数学定义和实现流程包含详细符号描述及流程图(图表3和图表4)。报告特别指出,PBO适用于机器学习策略,也可推广至其它量化策略,且不强依赖特定假设[page::5][page::6]。

4. PBO计算举例与优点



举例说明:以9条策略、96个月数据拆分为16份为例,演示训练测试集划分、夏普比率计算、排名统计及PBO计算的过程,非常直观地说明了算法执行流程[page::7]。

优点总结:
  • 保持训练测试集样本量一致,避免评价指标比较失衡;

- 通过策略间横向比较,有效排除多个影响因素干扰;
  • 保留序列时序结构,增强合理性;

- 非参数方法,无需复杂分布假设;
  • 支持替换评价指标,灵活适应多策略框架。


5. 案例介绍与实证方法概括



报告选择三组典型量化策略:
  • 案例1:7种机器学习模型的多因子选股(如XGBoost、随机森林等),回测时间共96月,策略数7。

- 案例2:6种不同交叉验证方法下的多因子选股模型,回测时间同样为96月,策略数6。
  • 案例3:基于不同参数组合的50ETF双均线择时模型,回测时间168月,策略数7或91。


三组案例分别采用单因子分层回测、多空组合、指数增强组合和择时策略,图表展示了各模型净值曲线,说明不同模型和方法表现情况,为后续PBO计算提供样本和评价基础[page::8][page::9][page::10]。

6. 案例实证结果详解



案例1:机器学习多因子选股模型


  • PBO值整体较低(多空组合7.4%-13.5%,Top组合20.6%-30%),说明模型表现较为稳定,XGBoost特别表现优良,指数增强组合以信息比率为评价指标时PBO同样较低。

- 当划分粒度(T/S)变大,如48时,PBO统计不稳定,受样本组合次数限制影响较大,应予谨慎解释。
  • 结论支持XGBoost模型表现最优的结论大概率非偶然或过拟合。

- 图表13-17详细展示了各T/S下相对排名分布及PBO计算结果。[page::11][page::12]

案例2:不同交叉验证方法多因子选股


  • 逻辑回归与XGBoost模型的回测过拟合概率均较低,尤其XGBoost PBO低于逻辑回归(10%-40%),且分组时序交叉验证表现最好,支持该方法能有效缓解训练过拟合风险。

- PBO随T/S不同略有波动,但整体维持较低水平,充分证明“分组时序交叉验证表现最佳”的结论大概率非过拟合。
  • 图表18-20显示了不同策略和T/S参数下的相对排名分布和PBO结果。[page::12][page::13]


案例3:50ETF双均线择时模型


  • 择时策略回测过拟合概率明显较高(70%-90%以上,91参数组合为50%-70%),训练集最优策略在测试集的表现排名靠后,说明择时模型容易发生过拟合。

- 这与市场经验相符,择时模型参数敏感且容易对噪音数据过度拟合。
  • 图表21-23展示了训练集最优参数在测试集排名分布及不同T/S下PBO结果。

- 结论强调择时模型的研究和实盘风险值得警惕。[page::13][page::14]

7. 研究总结



总结重点强调:
  • CSCV框架为测量回测过拟合概率提供简单、灵活且通用的方法;

- 多因子选股模型回测过拟合概率整体较低,实盘表现预期相对可信;
  • 择时模型特别容易过拟合,需谨慎使用预期;

- “训练集最优策略”在测试集排名用以评价模型稳健性,核心原理明确;
  • 细节上建议选取较小T/S以平衡计算开销和结果可靠性;

- 夏普比率为常用策略评价标准,也可依据策略特性选择其他指标(如信息比率)。

报告呼应前文观点,力图提升量化策略选型和风险管理水平,防止策略过拟合给投资带来潜在损失。[page::15]

---

三、图表深度解读



关键图表分析


  • 图表1(训练过拟合示意):三幅拟合图分别展现欠拟合、正常拟合和过拟合模型的回归拟合情况,视觉上直观区分模型学习偏差,为后续训练过拟合的定义提供形象支撑。[page::4]
  • 图表2(回测过拟合示意):用3个策略净值走势展示回测阶段和实盘阶段的改变,强调某些策略在样本外阶段表现显著衰退,构成回测过拟合实例。[page::4]
  • 图表3&4(PBO计算框架图):流程图展示如何划分训练集和测试集,对方案中训练集最优策略的排名分布进行统计,直观展现PBO计算逻辑和步骤,便于理解框架实际应用。[page::5][page::6]
  • 图表6-9(案例1策略净值曲线)

- 多因子单因子分层回测多空与Top组合净值均显示XGBoost模型明显领先,表现稳定上涨;
- 指数增强组合及其超额收益净值曲线显示相似趋势,表明XGBoost策略优异。
- 该图为判断模型优劣以及选择回测数据窗口提供基础。
[page::8]
  • 图表10-11(案例2交叉验证方法表现)

- 逻辑回归和XGBoost均比较不同交叉验证方法下的多空组合净值,分组时序交叉验证表现优于其他方法,结论依据充分。
[page::9]
  • 图表12(案例3择时模型参数净值)

- 展示了不同均线参数组合下的择时策略净值走势,部分参数明显优于其他,但也呈较大波动,暗示择时参数敏感。
[page::10]
  • 图表13-16(案例1相对排名分布)

- 不同T/S下训练集最优策略在测试集的排名频率分析,集中在前2名,说明策略稳定且过拟合概率低;
- 指数增强组合以信息比率评价时表现更合理,避免夏普比率误判。
[page::11][page::12]
  • 图表17(案例1 PBO汇总表)

- 列示各指标、不同T/S下PBO,除最大组合拆分数(48)外,PBO保持低位,支撑模型有效性。
[page::11]
  • 图表18-20(案例2相对排名与PBO)

- 逻辑回归和XGBoost相对排名分布显示XGBoost更集中于前列,PBO数值也更低,验证分组时序交叉验证优势。
[page::12][page::13]
  • 图表21-23(案例3择时模型相对排名与PBO)

- 相对排名多集中于后半段,PBO高达70%以上,确定择时模型过拟合风险显著。
[page::13][page::14]
  • 图表24(多因子选股因子列表及描述)

- 详细罗列七大类70个具体选股因子,涵盖估值、成长、财务质量、杠杆、市值、动量反转、技术指标等,为案例1量化模型提供全面特征基础。
[page::17]
  • 图表25(交叉验证方法示意图)

- 图解6种交叉验证方法的划分逻辑,包括K折、时序、分组时序及乱序等类型,清晰展示模型调优方式差异。
[page::18]

---

四、估值分析



本报告主要集中于回测过拟合的统计测算与风险识别,未涉及具体投资标的估值分析或目标价格制定。估值方法方面使用的是策略表现指标(如夏普比率、信息比率)作为优劣判定依据,而非金融资产价值衡量,因此传统意义上的现金流折现(DCF)、市盈率(P/E)等估值方法未被应用。

---

五、风险因素评估


  • 核心风险:量化模型依赖于历史数据,若市场环境未来发生实质变化,模型失效风险显著。

- 回测过拟合测量的简化假设风险:PBO计算通过时间序列重排序忽略路径依赖特性,可能导致对回测过拟合风险的过度简化,实际风险可能偏高或偏低。
  • 机器学习模型超参数选择风险:训练过拟合仍可能存在,尽管CSCV框架能在一定程度上控制风险,但仍需不断优化。

- 择时模型特别脆弱:由于参数组合多且敏感,择时模型回测过拟合风险最高,实盘应用需慎重。\[page::20\]

---

六、批判性视角与细微差别


  • 样本划分粒度(T/S)选择对PBO影响显著:报告指出T/S过大时组合数量下降,统计意义减弱,偶发性影响加剧,这一限制需在实际应用中警惕,尤其是样本较少时。

- 评价指标的选择影响结论稳定性:尽管夏普比率是常用指标,但对于指数增强组合,信息比率更合适,提示需针对策略特性灵活选择指标。
  • PBO仅说明过拟合概率,不完全等同于未来表现稳定性:方法虽有效但仍属于统计学推断,有模型和数据依赖性,需结合其他指标辅助判断。

- 报告研究依赖于历史数据,市场环境变化可能导致策略失效的风险,尽管量化检验帮助识别过拟合风险,但不能确保绝对规避。
  • 择时模型回测过拟合概率高企反映其模型复杂度高、参数敏感度大,建议与多因子选股模型区分评估。

- 报告未探讨如何具体缓解回测过拟合,只能检测概率,未来方法学研究空间较大。

---

七、结论性综合



华泰证券研究所通过本文系统阐述了量化策略中的“回测过拟合”问题,提出并运用组合对称交叉验证(CSCV)框架计算“回测过拟合概率”(PBO),从根本上解决了以往仅凭主观判断或复杂重采样方法难以定量衡量回测过拟合的问题。

通过对三组丰富量化案例的实证计算:
  • 多因子选股策略(涵盖7种机器学习模型与6种交叉验证方法)表现稳健,PBO多数低于50%,说明训练集最优策略在测试集仍保持较佳表现,回测结论可信,尤其XGBoost表现优异,稳定性最强;

- 择时策略因参数敏感和模型简单,回测过拟合概率高达50%至90%,大概率属于过拟合,提示实盘谨慎;
  • CSCV框架在保留数据时序特征、样本量均衡以及对策略多样性适应方面具备较大优势,提供了一种实用且普适的过拟合风险测评手段;

- 选用不同评价指标(夏普比率、信息比率)对不同策略适用,确保了结论科学合理;
  • PBO的计算需注意T/S划分粒度,过粗样本减少会降低统计效力。


总体而言,报告不仅深化了量化投资界对回测过拟合的理解,也为策略设计和选型提供了科学工具,对减少策略失效风险、提升投资决策质量具有重要现实意义和指导价值。

---

参考文献


  • Bailey et al. (2017), “The probability of backtest overfitting”, Journal of Computational Finance

- López de Prado (2018), Advances in Financial Machine Learning, Wiley

---

总结图表索引与页面



| 图表名 | 页面 |
|-------------------------|-------|
| 训练过拟合示意图 | 4 |
| 回测过拟合示意图 | 4 |
| PBO计算框架中的回测过拟合示意图 | 5 |
| 基于CSCV框架的PBO计算示意图 | 6 |
| 案例1 多因子选股模型净值曲线系列 | 8 |
| 案例2 不同交叉验证方法模型净值曲线 | 9 |
| 案例3 50ETF 双均线择时模型净值 | 10 |
| 案例1-3 训练集最优策略测试集排名分布及PBO结果 | 11-14 |
| 多因子选股因子列表 | 17 |
| 交叉验证方法示意图 | 18 |

---

总结



本报告以严谨的量化方法和丰富案例,详细解析了量化策略回测的过拟合风险,首次将PBO指标推广到多种策略框架,实证验证了多因子选股与择时策略的差异性过拟合概率。对量化策略开发者而言,该研究为模型选择和风险管理提供了重要工具和指导,在实际投资中具有很高的参考价值和借鉴意义。[page::0,3,4,5,6,7,8,9,11,12,13,14,15,17,18,20]

---

如需进一步详细解读具体图表的数值、排序或数学符号含义,或具体案例参数及模型调优流程,可另行深入解析。

报告