华泰人工智能系列之十四:对抗过拟合,从时序交叉验证谈起 华泰证券_20181128_
由small_q创建,最终由small_q 被浏览 19 用户
摘要
时序交叉验证方法适用于时间序列数据,能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。 传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验证的核心思想是将全部样本划分成训练集和验证集,考察模型在两部分的表现是否接近。如果训练集的表现远优于验证集,说明模型存在过拟合的风险。根据训练集和验证集的划分方式,传统交叉验证方法可细分为简单交叉验证、K折交叉验证、留一法和留P法。当样本是时间序列时,数据存在序列相关性,不满足样本独立同分布假设。采用传统交叉验证会将未来数据划入训练集,历史数据划入验证集,进而出现用未来规律预测历史结果的“作弊”行为。时序交叉验证既能保证数据利用率,又能保留时序数据之间相互关系,适用于时序数据的调参。 从多角度比较时序交叉验证与传统K折交叉验证从交叉验证方法使用的前提看,时序数据不满足样本独立同分布原则,违背传统K折交叉验证的前提假设。从模型选择的最优超参数角度看,时序交叉验证倾向于选择超参数“简单”的模型,体现出更低的过拟合程度。 从不同基学习器的比较看,两种交叉验证的差异在逻辑回归等简单模型上体现不明显,而在XGBoost等复杂模型上体现较为明显;复杂模型更易表现出过拟合,时序交叉验证能够带来更大提升。从合成单因子分层回测以及构建策略组合回测的结果看,时序交叉验证在获取收益方面具备较大优势,在控制回撤方面具有一定优势。时序交叉验证思想可以应用于其它量化策略的参数寻优除机器学习模型涉及到超参数选择以外,很多量化策略也都涉及参数寻优。 传统的参数寻优方法是将全部样本按时间先后分为样本内和样本外,寻找使得策略在样本内表现最好的参数,最终应用于样本外。未来可以借鉴时序交叉验证的思路,将样本内数据按时序切分为若干折,寻找使得策略在多个验证集平均表现最好的参数,从而提升策略的稳定性,避免过拟合的发生。 风险提示:时序交叉验证方法是对传统模型调参方法的改进,高度依赖基学习器表现。该方法是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基学习器失效,则该方法存在失效的可能。时序交叉验证方法存在一定欠拟合风险。
正文
/wiki/static/upload/d8/d8d189f4-5d0a-45c1-afd6-8be5a6364c15.pdf
\