研报&论文

华泰人工智能系列之二十二:基于CSCV框架的回测过拟合概率-华泰证券-20190617

由qxiao创建,最终由qxiao 被浏览 97 用户

摘要

基于CSCV框架计算三组量化研究案例的回测过拟合概率

本文基于组合对称交叉验证(CSCV)框架,以三组量化研究为案例展示回测过拟合概率(PBO)的计算流程,发现两组多因子选股模型的PBO较低,择时模型的PBO较高。案例1为7种机器学习模型的多因子选股策略,指数增强组合PBO大多在15%~50%,“XGBoost表现最佳”的结论大概率不是回测过拟合。案例2为6种交叉验证方法的多因子选股策略,多空组合PBO在20%~50%,“分组时序交叉验证表现最佳”的结论大概率不是回测过拟合。案例3为双均线50ETF择时策略,PBO在50%~90%,“参数组合[11,30]和[11,24]表现最佳”的结论可能为回测过拟合。

过拟合可分为两个层次:训练过拟合和回测过拟

合华泰人工智能系列多项研究探讨过拟合。过拟合可分为训练过拟合和回测过拟合两个层次。训练过拟合是机器学习语境下偏狭义色彩的过拟合,是指机器学习模型在训练集表现好,在测试集表现差,产生原因是模型超参数选择不当或者模型过度训练,解决方案是采用合理的交叉验证方法选择模型超参数或迭代次数。回测过拟合是量化研究语境下偏广义色彩的过拟合,是指量化模型在回测阶段表现好,在实盘阶段表现差,产生原因是市场规律发生变化,或者对回测期数据噪音的过度学习。回测过拟合难以根除,相对合理的解决方案是借助量化指标检验回测过拟合程度。

核心思想是计算“训练集”夏普比率最高的策略在“测试集”的相对排名

CSCV框架下回测过拟合概率的核心思想是:计算“训练集”夏普比率最高的策略,在“测试集”中的相对排名,如果相对排名靠前,代表回测过拟合概率较低,反之则代表回测过拟合概率较高。“训练集”和“测试集”的划分基于组合的思想,将全部回测时间划分成S份,任取其中S/2份拼接得到“训练集”,剩余S/2份拼接得到“测试集”,分别计算各条策略的夏普比率,进而得到相对排名,并重复多次,将相对排名大于50%即排在后一半的概率视作回测过拟合概率。回测过拟合概率的计算相对简单,不仅适用于机器学习策略,还能推广到其它类型的量化策略。

探讨回测过拟合概率计算过程中的各项细节

回测过拟合概率的计算过程中包含多项细节。将长度为T的全部回测时间划分成S份,每份回测时间长度为T/S。T/S越小,组合次数越大,计算时间开销越大;T/S越大,组合次数越小,策略排名结果受偶然性因素影响更大,实际使用时建议采用较小的T/S比。对策略进行排名时一般采用夏普比率,也可以根据实际需要选择其它评价指标,例如本文的指数增强组合采用信息比率进行排名更为合理。

正文

/wiki/static/upload/45/45a33608-7c6e-4360-bb6d-de753e3f6b43.pdf

\

标签

多因子选股模型机器学习模型策略回测
{link}