这里有个问题想请教一下大神。


(lzh41764176) #1

关于AI多因子训练模型,假如训练集取的15年至17年的数据,根据2年的数据训练出模型,再取18年整年的数据进行回测。如果对结果比较满意,想实盘跑,正常来讲,应该取16年到18年的数据重新训练模型,还是直接把之前的模型直接进行实盘呢?
如果取16年-18年的数据跑实盘,怎么能保证效果跟15-17跑出来的模型一致呢?


(lzh41764176) #2

简单来讲,有什么方法能保证模型的实效性呢?


(iQuant) #3

您好,收到您的提问,我们已将问题分配给策略工程师,稍后会由策略工程师为您解答。


(polll) #4

在训练模型过程中,您使用了15年至17年的因子数据和标注数据(默认是个股未来5日收益率),这些数据分布都会随着市场状态的变化而变化。
您可以考虑直接使用15-17年数据训练的模型直接预测19年的数据,也可以使用16年到18年的数据重新训练模型,但无论怎么做都无法保证效果跟15-17年训练的模型在18年跑出的效果完全一致。
使用不同的时间阶段数据训练出来的模型是不同的,通常来说使用过短的数据集训练的模型未必会长期有效。您可以考虑监控一个模型在实盘中的回撤是否超过了历史最大回撤判断模型是否失效,作为风险控制。例如小市值策略在2017年的失效表现是无法提前预知的,但是可以通过监控夏普/最大回撤作为模型是否失效的判据。
建议您仔细测试模型在历史较长一段时间的表现是否足够稳定,例如使用2010年到2015年的数据作为训练集,验证2016年到2018年的长期表现。
另外,开发足够多的策略,进行多策略组合,及时停止失效的策略也是必要的。