华泰人工智能系列之二十二：基于CSCV框架的回测过拟合概率-华泰证券-20190617

由qxiao创建，最终由qxiao更新于2021-11-26 07:30 被浏览 105 用户

摘要

基于CSCV框架计算三组量化研究案例的回测过拟合概率

本文基于组合对称交叉验证（CSCV）框架，以三组量化研究为案例展示回测过拟合概率（PBO）的计算流程，发现两组多因子选股模型的PBO较低，择时模型的PBO较高。案例1为7种机器学习模型的多因子选股策略，指数增强组合PBO大多在15%~50%，“XGBoost表现最佳”的结论大概率不是回测过拟合。案例2为6种交叉验证方法的多因子选股策略，多空组合PBO在20%~50%，“分组时序交叉验证表现最佳”的结论大概率不是回测过拟合。案例3为双均线50ETF择时策略，PBO在50%~90%，“参数组合[11,30]和[11,24]表现最佳”的结论可能为回测过拟合。

过拟合可分为两个层次：训练过拟合和回测过拟

合华泰人工智能系列多项研究探讨过拟合。过拟合可分为训练过拟合和回测过拟合两个层次。训练过拟合是机器学习语境下偏狭义色彩的过拟合，是指机器学习模型在训练集表现好，在测试集表现差，产生原因是模型超参数选择不当或者模型过度训练，解决方案是采用合理的交叉验证方法选择模型超参数或迭代次数。回测过拟合是量化研究语境下偏广义色彩的过拟合，是指量化模型在回测阶段表现好，在实盘阶段表现差，产生原因是市场规律发生变化，或者对回测期数据噪音的过度学习。回测过拟合难以根除，相对合理的解决方案是借助量化指标检验回测过拟合程度。

核心思想是计算“训练集”夏普比率最高的策略在“测试集”的相对排名

CSCV框架下回测过拟合概率的核心思想是：计算“训练集”夏普比率最高的策略，在“测试集”中的相对排名，如果相对排名靠前，代表回测过拟合概率较低，反之则代表回测过拟合概率较高。“训练集”和“测试集”的划分基于组合的思想，将全部回测时间划分成S份，任取其中S/2份拼接得到“训练集”，剩余S/2份拼接得到“测试集”，分别计算各条策略的夏普比率，进而得到相对排名，并重复多次，将相对排名大于50%即排在后一半的概率视作回测过拟合概率。回测过拟合概率的计算相对简单，不仅适用于机器学习策略，还能推广到其它类型的量化策略。

探讨回测过拟合概率计算过程中的各项细节

回测过拟合概率的计算过程中包含多项细节。将长度为T的全部回测时间划分成S份，每份回测时间长度为T/S。T/S越小，组合次数越大，计算时间开销越大；T/S越大，组合次数越小，策略排名结果受偶然性因素影响更大，实际使用时建议采用较小的T/S比。对策略进行排名时一般采用夏普比率，也可以根据实际需要选择其它评价指标，例如本文的指数增强组合采用信息比率进行排名更为合理。

正文

/wiki/static/upload/45/45a33608-7c6e-4360-bb6d-de753e3f6b43.pdf

华泰人工智能系列之二十二：基于CSCV框架的回测过拟合概率-华泰证券-20190617

摘要

正文

标签