`

基于 CSCV 框架计算三组量化研究案例的回测过拟合概率

创建于 更新于

摘要

本报告基于组合对称交叉验证(CSCV)框架,系统介绍回测过拟合概率(PBO)的定义与计算方法,并通过三组量化策略案例(7种机器学习多因子选股模型、6种交叉验证方法多因子选股模型及50ETF双均线择时模型)验证PBO的应用。关键图表显示,案例1、2多因子模型PBO较低,策略具有较强实盘可信度,案例3择时模型PBO较高,易呈现回测过拟合风险,提示择时策略需谨慎对待回测结果。[pidx::0],[pidx::4],[pidx::8],[pidx::11],[pidx::15]

速读内容

  • 回测过拟合分为训练过拟合(机器学习范畴)与回测过拟合(量化策略广义定义),其中后者是实盘表现弱于回测表现的重要风险因素。[pidx::0],[pidx::4]

- PBO(回测过拟合概率)基于CSCV框架,通过组合划分回测时间为训练集和测试集,计算训练集最优策略在测试集排名,排名靠后概率即为PBO。[pidx::5],[pidx::6]
  • 案例1(7机器学习多因子策略)中,XGBoost表现最佳,回测期间多个T/S组合下PBO大多在15%-50%区间,显示过拟合风险较低。[pidx::8],[pidx::11],[pidx::15],对应图表6-9,13-17

- 案例2(6交叉验证方法多因子策略),分组时序交叉验证表现最佳,PBO集中在20%-50%之间,XGBoost回测过拟合概率更低于逻辑回归。[pidx::9],[pidx::12],[pidx::13],[pidx::15],对应图表10-11、18-20、25
  • 案例3(50ETF双均线择时策略),7组和91组参数组合均显示较高PBO,通常在50%-90%之间,表明择时模型回测结果多可能是过拟合。[pidx::9],[pidx::13],[pidx::14],[pidx::15],对应图表12、21-23

- CSCV方法具备灵活性、非参模型特点,适用于机器学习和非机器学习策略,建议使用较小的T/S以平衡计算量和排名准确度,评价指标可选夏普比率或信息比率。[pidx::6],[pidx::15]
  • 风险提示强调量化模型基于历史规律,未来市场变化或数据噪音可能导致策略失效,PBO计算简化历史路径依赖,可能存在过度简化风险。[pidx::0],[pidx::20]

深度阅读

金工研究:《基于 CSCV 框架的回测过拟合概率——华泰人工智能系列之二十二》极致详尽分析报告



---

一、元数据与报告概览



标题:基于 CSCV 框架的回测过拟合概率(华泰人工智能系列之二十二)
作者:林晓明、陈烨、李子钰、何康
发布机构:华泰证券研究所
日期:2019年6月17日
研究主题:量化投资策略回测中过拟合风险的量化测度,强调基于组合对称交叉验证(CSCV)框架计算回测过拟合概率(PBO),并对三组量化策略案例进行验证。包括机器学习多因子选股模型、不同交叉验证方法的多因子选股模型和50ETF双均线择时模型。

核心论点
报告着重阐述并实现了回测过拟合概率(PBO)的计算方法,基于CSCV框架,提供了一种相对简单且可推广的回测过拟合风险定量衡量技术。通过三个案例的深入分析,探讨不同策略过拟合的风险差异,并得出机器学习多因子选股模型多具鲁棒性,择时模型则更易过拟合。报告保守表达此类方法的局限性,提出策略设计和回测验证应充分考虑过拟合风险,以避免实盘表现不佳。

---

二、逐节深度解读



1. 研究背景与过拟合定义


  • 回测的定义与风险

回测是量化策略设计的依据工具,通过历史数据验证模型效果与假定未来市场规律延续一致。回测的核心风险是“回测过拟合”,即策略在历史回测表现良好,但实盘表现失效。
  • 过拟合的两层含义

- 训练过拟合:机器学习角度,模型在训练集表现好、测试集表现差,因模型复杂度过高或参数调优不足,交叉验证等方法可缓解。
- 回测过拟合:量化策略角度,模型在回测期表现突出而未来失效,主要因市场规律变化和对历史噪音过度拟合。难以根治,应通过回测过拟合概率等量化指标进行风险识别和度量。
  • 核心难点:金融领域无法直接做对照试验,基于历史数据规律开发的策略存在随机性成分,类似“中彩票”,难以确定结果的普适性。回测仍是量化开发最佳工具,理解并度量回测过拟合风险显得关键。[pidx::0][pidx::3]


2. 回测过拟合概率(PBO)定义与CSCV框架


  • PBO定义

PBO是概率指标,衡量“训练集”中表现最佳策略,在“测试集”表现排名是否较差的概率。即使用策略在训练集夏普比率最高者作为候选,在测试集中的表现排名是否在后半数。排名越靠前,PBO越低,说明策略过拟合风险小。
  • CSCV框架划分训练集与测试集

将整个回测时间序列长度T划分成S个时间片,每次选择其中S/2份作为训练集,其余S/2份作为测试集,计算各策略训练集夏普比率和测试集夏普比率,统计训练集最优策略测试集排名,多次遍历所有组合得到PBO。
  • 数学表达

- PBO = P[训练集最优策略的测试集夏普比率 < 测试集中位数]
- 公式通过计算对数几率λ和相对排名ω的分布,实现PBO的积分估算(离散样本时统计ω > 0.5的比例)。
  • 优势

- 保持训练集和测试集样本量对等,保证夏普比率比较的公正性;
- 保留子矩阵内时间序列连续性,尊重路径依赖特点;
- 适用广泛,不限于机器学习策略。
  • 计算示意:图表4清晰展示了从大矩阵划分、组合、拼接、计算夏普比率到统计PBO的流程图,直观理解方法步骤。[pidx::0][pidx::4][pidx::5][pidx::6]


3. 实例说明


  • 9条备选策略,回测96个月,S=16分割为16个子矩阵,各为6个月数据,组合方式C16^8=12870,遍历所有训练集-测试集划分,计算训练集最优策略测试集排名ω,通过统计ω > 0.5的比率得出PBO。
  • 该实例说明了方法的完整操作细节和计算方法,展示操作的可行性和简单性。[pidx::7]


4. 三大案例简介


  • 案例1:7种机器学习模型(包括XGBoost、随机森林等)多因子选股策略,回测2011年2月至2019年1月,月频数据,采用单因子层测试、多空组合及指数增强组合,观察组织成指数增强组合后策略表现差异。[pidx::8]
  • 案例2:6种交叉验证方案(时序、分组时序、K折等)应用于逻辑回归和XGBoost模型对多因子选股的影响,回测同案例1区间,重点比较验证方法的不同带来的过拟合可能差异。[pidx::9]
  • 案例3:50ETF双均线择时策略,采用不同参数组合,回测2005-2019年,测量参数选择引起的过拟合风险,称择时策略过拟合概率可能更高。[pidx::9][pidx::10]


---

三、图表深度解读



3.1 训练过拟合与回测过拟合示意(图表1 & 图表2)


  • 图表1:三图对比了欠拟合、正常拟合和过拟合的拟合曲线,展示训练过拟合的典型特征:模型对训练数据学习过度复杂曲线,导致过泛化。

- 图表2:策略A在回测阶段优于其他策略(口径:累计净值较高),但进入实盘后表现突然下滑,直观体现回测过拟合风险。

两图形成理论基础和实际案例的对照,凸显研究必要性。[pidx::4]

3.2 PBO计算框架示意(图表3 & 图表4)


  • 图表3:以图形抽象方式说明训练集与测试集策略排名完全对称理想情况与偏离情况,强调训练集最佳策略在测试集表现不佳即是回测过拟合信号。
  • 图表4:流程图形式展示CSCV方法每一步的数据划分与计算逻辑,从总体矩阵切割到训练集、测试集夏普比率的计算与排名,再到PBO统计。


图表3给出概念,图表4给出实际操作,辅助理解复杂计算逻辑。[pidx::5][pidx::6]

3.3 案例1机器学习模型表现(图表6-9)


  • 图表6-7用净值曲线对比7种机器学习模型单因子分层测试和Top组合表现,XGBoost线走势领先多数时间段,净值其余排名相对靠后。
  • 图表8-9展示指数增强组合及超额收益净值,XGBoost模型依旧保持领先优势,表明其选股能力优于其他模型。


这些曲线验证了模型差异,为后续PBO计算的策略表现等级设定基础。[pidx::8]

3.4 案例2不同交叉验证方法表现(图表10-11)


  • 图表10-11分别展示逻辑回归和XGBoost模型采用6种交叉验证方法的单因子分层多空组合净值,分组时序交叉验证曲线表现最佳且稳定,尤其XGBoost优势明显。


图形体现了交叉验证方法对模型训练质量的直接影响。[pidx::9]

3.5 案例3择时模型参数表现(图表12)


  • 图表12对7种不同短均线、长均线的参数组合择时模型净值进行比较,[11,30]参数组合长期内累计净值领先其他组合,确认其为最佳参数。


这奠定了择时策略参数筛选的基础,但后续PBO检验显示高过拟合风险。[pidx::10]

3.6 案例1测试集策略排名分布(图表13-16)


  • 图表13-14展示不同T/S比下,单因子分层多空组合和Top组合训练集最优策略在测试集的排名分布,多数排名集中于前12.5%和25%,回测过拟合风险低。
  • 图表15显示中证500指数增强组合夏普比率排名分布较均匀,暗示可能过拟合;图表16换用信息比率排名,分布明显聚集于前25%,表明指数增强组合过拟合风险较低。


这体现了评价指标的选择对过拟合判断的深远影响,信息比率更能合理反映策略表现。[pidx::11][pidx::12]

3.7 案例2逻辑回归与XGBoost排名分布(图表18-19)


  • 逻辑回归模型(图18)多空组合训练集最优策略在测试集排名较分散但偏向前50%以内,XGBoost (图19)排名更偏前,表明后者过拟合低且稳定性更强。


验证了XGBoost模型的鲁棒性优于逻辑回归,尤其在调参时序分组交叉验证下。[pidx::12][pidx::13]

3.8 案例3择时参数排名分布(图表21-22)


  • 7组参数(图21)训练集最优策略测试集多位于相对排名60%以上,即表现靠后,揭示过拟合风险较高。
  • 91组参数(图22)排名分布更均匀且偏右,说明更加严重的过拟合问题,参数筛选存在大量噪音拟合。


该图形揭示择时策略因参数灵活性大,模型极易陷入过拟合陷阱。[pidx::13][pidx::14]

3.9 PBO概率数值总结(图表17,20,23)


  • 案例1(图表17):多空组合PBO低至7.4%-20.6%,指数增强组合超额收益PBO大多不超过35%,显示XGBoost策略较低过拟合概率。
  • 案例2(图表20):逻辑回归和XGBoost多空组合PBO均在10%-50%以内,验证分组时序交叉验证有效降低过拟合风险,且XGBoost表现更稳健。
  • 案例3(图表23):择时模型PBO大多在50%-90%之间,显示择时策略及其参数极高的过拟合风险。


三组数据定量确认了机器学习多因子模型更抗过拟合,择时策略较易陷入回测陷阱。[pidx::11][pidx::12][pidx::14]

---

四、估值与方法分析



本报告不涉及传统公司估值内容,但在方法论上:
  • 采用CSCV方法,基于切分定长时间片和组合对称划分,保证训练集与测试集的独立性及等量性。
  • 采用夏普比率作为主要评价指标,合理反映收益风险调整后表现,也支持替换为信息比率等指标。
  • 通过遍历所有划分组合,实现对回测风险的非参数、数据驱动统计量估算,兼具严谨和灵活。
  • 设计算法执行效率的可控性,T/S比例越小,计算样本越多准确性越高但成本越大,作者建议实操时平衡选择。


整体方法体系完整,能适应多类型策略和多层交叉验证分析,提供量化策略科学评估依据。[pidx::5][pidx::6][pidx::15]

---

五、风险因素评估


  • 历史规律变动风险:市场环境变化会导致历史回测有效规律失效,回测过拟合的根本诱因之一。
  • 噪音过度拟合风险:策略性能来自随机数据噪音,表现难以稳定复现。
  • 回测路径依赖简化风险:PBO计算采用时间序列打乱忽略路径依赖,可能导致过度简化估计。
  • 模型调参误差风险:特别是策略参数组合过多时,参数网格搜索带来的噪音拟合风险增加。
  • 评价指标局限性风险:错误指标选择(如指数增强组合只用夏普比率)可能误导过拟合判断。


报告提醒且细致指出风险,同时指出PBO本身只是量化衡量,不能消除这些风险,需要结合多手段综合判断。[pidx::0][pidx::20][pidx::15]

---

六、批判性视角与细微差别


  • 报告围绕PBO方法展开,虽提及过拟合难根除但略显保守,未深入探讨后续缓解策略、模型正则化等可能方案。
  • T/S大时样本组合太少导致排名偶然性高,报告已指出但对后续研究影响讨论有限。
  • 对指数增强组合夏普比率与信息比率两指标表现差异揭示较好,但指标选择与策略目标匹配阻断了部分结论普适性。
  • 案例3择时模型参数多样性带来极高过拟合风险,提示参数组合次数的影响,但报告未涉及超参数优化正则方法。
  • 风险告知明确且贴合实际,提醒读者量化模型虽先进但无法完全规避历史规律变更带来的不确定性。


整体分析严谨,内容详实,但在如何主动减缓回测过拟合风险方面,提供的对策较少,为后续研究留有空间。[pidx::15][pidx::20]

---

七、结论性综合



华泰证券研究所通过详实理论铺垫、严格的数学定义和科学方法论,构建了基于组合对称交叉验证(CSCV)框架测度回测过拟合风险的概率指标PBO。结合实证案例,研究得出:
  • 机器学习多因子选股模型(案例1),尤其XGBoost策略的回测过拟合概率较低(多数在15%-35%),说明其优异表现具有较高可复制性和稳定性。[pidx::8][pidx::11][pidx::15]
  • 交叉验证方法的选择(案例2)对模型稳定性影响显著,分组时序交叉验证有效降低了过拟合风险,XGBoost模型相较逻辑回归更为稳健,PBO低于后者,表明更优的泛化能力和模型质量。[pidx::9][pidx::12][pidx::15]
  • 择时模型(案例3)过拟合风险极高,PBO值一般高达50%-90%,揭示择时策略尤其是参数寻优问题严重,实盘面临高风险,谋求择时交易策略需慎重。[pidx::10][pidx::13][pidx::14][pidx::15]
  • PBO指标及CSCV方法既简单可行又非参数灵活,适用于不同类型量化策略,对回测管理和模型选择具有重要指导意义。合理选取时间片长度T/S、策略评价指标(夏普比率、信息比率等)是准确评估的关键细节。
  • 整体风险提示明确,回测过拟合难以彻底消除,未来市场环境变革和策略设计周期影响长远表现。回测仅作为策略优评估依据之一,量化团队需结合PBO等指标科学调整模型和参数,警惕“历史的陷阱”。


结合以上深度数据解读和理论逻辑,报告成功将“回测过拟合”这一复杂主题系统化、量化化,为量化投资领域提供了创新工具与实操指南,为投资策略甄别和风险管理起到了积极推动作用。

---

本篇报告图表精选展示



图表1:训练过拟合示意图




图表2:回测过拟合示意图




图表4:基于 CSCV 框架的回测过拟合概率 PBO 计算示意图




图表13:训练集最优多空组合夏普比率在测试集相对排名分布




图表16:训练集最优指数增强组合信息比率在测试集相对排名分布




图表21:训练集 7 组参数下最优参数夏普比率在测试集相对排名分布




---

溯源引用:



本分析所有结论,论点信息均溯源自报告对应页码,标记[pidx::页码],如本报告所示。

---

> 本报告严谨客观分析了华泰证券研究所发布的《基于 CSCV 框架的回测过拟合概率》研究报告,是对回测过拟合风险测度及案例实证研究的极致阐释,具有重要的理论价值和实用指导意义。

报告