人工智能系列之十:宏观周期指标应用于随机森林选股 华泰证券_20180320_
由small_q创建,最终由small_q 被浏览 20 用户
摘要
将周期三因子引入随机森林模型中构建带有因子择时效应的选股策略本报告中,我们将多因子截面数据和华泰周期三因子进行合并,构建了因子择时+选股一体化的随机森林模型。周期三因子在随机森林模型中起到了状态切换的作用,不同状态下对应不同的截面因子选股逻辑。加入周期三因子的随机森林模型能获得更好的回测结果,本质上利用了周期因子的两个效应:(1)在周期因子取值单调的训练期内,模型侧重于遵循离当前更近的截面期样本的投资逻辑。(2)在周期因子取值非单调的训练期内(即拐点处),模型能够利用到周期因子在拐点处所带来的增量信息。 加入周期三因子的随机森林模型选股表现有稳定的提升加入了周期三因子的随机森林模型,样本外的平均预测正确率从提升至53.72%,平均AUC从0.5491提升至0.5503。同时,我们构建了全A选股策略(回测期:20110201~20180131,中证500行业中性),回测结果显示,加入周期三因子后,随机森林模型构建的选股组合年化超额收益率平均提升了2.6%,超额收益最大回撤平均下降了3.7%,信息比率平均提升了0.55,Calmar比率平均提升了0.82,选股表现有稳定的提升。 本报告中我们选用的训练集数据长度为6个月综合考虑前期人工智能选股系列报告的结论和周期因子的特性,我们选用的训练集数据长度为6个月,具体原因如下:(1)过长的训练期长度在投资风格发生转变时(2017年)面临较大回撤,2011年至2016年的投资风格已经不适合于当下。而较短的训练期长度(10个月以内)使得模型能够及时扭转投资风格,大幅减少回撤。2.较短的训练期长度下,周期因子能够更加精细地切分市场状态,并且模型能更加及时地利用到周期因子位于拐点时的信息。 随机森林比XGBoost更适合结合宏观周期因子随机森林和XGBoost同为决策树集成模型,其集成方式存在一定区别。随机森林模型中每棵决策树都可以得出独立的拟合结果,最后通过平均投票的方式提高预测精度,因此单棵树深度基本都在20层以上;而模型的迭代过程中每棵决策树都在学习上一棵决策树拟合的残差,为了防止过拟合,单棵树深度基本都在5层以下。宏观周期因子相比传统的截面因子能提供的信息增益较少,因此,深度更大、分支节点更多的随机森林模型相比XGBoost模型有更大概率能够选中周期因子成为决策树的分支节点,从而利用到更多的时间序列信息,提升预测能力。 风险提示:加入周期三因子的随机森林选股模型是对历史投资规律的挖掘,若未来市场投资环境发生变化,则模型存在失效的可能。
正文
/wiki/static/upload/7b/7b748be6-a3ff-413f-b026-8467c3b0477a.pdf
\