【量化研报分享】东方证券-《因子选股系列研究之七十》:机器因子库相对人工因子库的增量-20200911


(adhaha111) #1

摘要

国内量化发展已有十余年,各家机构投资者的 Alpha 因子库已有较大规模,这时面临的问题是,继续花时间和精力进行因子挖掘扩充因子库是否划算,还能带来多少增量收益。我们尝试将近年来兴起的机器学习算法应用到Alpha 模型上,进行低频层面的因子挖掘,考察机器因子库相对人工因子库的增量。
本文首先利用遗传规划算法进行因子挖掘,再将机器因子库与人工因子库通过随机森林模型转换为预测收益率,从组合层面进行因子库效果的整体比较。考虑到技术类因子和财务类因子历史表现差别较大,我们将这两类因子的挖掘和对比分开进行。
遗传规划是一种启发式的进化策略算法,可以用来进行选股因子挖掘。遗传规划算法的主要想法是模拟自然界中生物遗传进化过程,从随机生成的公式种群开始,通过不断变异优化,逐渐生成适应度更优的公式群体。
Python 中的 gplearn 是目前最成熟的遗传规划包之一。但 gplearn 存在不能直接处理多维面板数据、不能进行时间序列运算等问题,所以不能直接运用于选股因子的挖掘,为此,我们将 gplearn 的底层代码进行了修改。
基于遗传规划算法进行因子挖掘的整体过程,包括设定随机种子、初始化种群、计算适应度、选择与进化、筛选有效因子五个步骤。回测区间为 2010.06.30 – 2020.06.30,每半年进行一次因子挖掘,以过去三年的月均因子收益率为适应度,每次得到 100 个有效因子,使样本外使用的因子保持最新的状态。
基于随机森林模型进行 Alpha 预测,直接由初始 Alpha 因子库得到预测收益率。随机森林模型逻辑简单,参数调整容易,数据过拟合的可能性小,其基分类器决策树可实现噪音变量的剔除,适合处理多变量问题,实际应用效果好。
经过遗传规划算法可以从日频量价数据中挖掘出有效的月频技术类指标,叠加到传统技术类因子库中之后,多空组合收益和稳定性均有所提高,但提升并不显著。遗传算法技术类因子与传统技术类因子相比,IC、ICIR、多空组合月均收益均有提高。叠加传统技术类因子后,合成因子库的组合表现相比传统技术类因子也有所提升,最大回撤有所降低,但增量在统计上并不显著。
经过遗传规划算法可以从财务报表数据中挖掘出有效的月频财务类指标,因子整体表现不如传统财务因子,但差异也不显著。遗传算法财务类因子与传统财务类因子相比,IC、ICIR、多空组合月均收益均有降低。叠加传统财务类因子后,相比传统财务类因子,表现也有降低,差异在统计上不显著。
在低频领域,挖掘新因子相对成熟因子库的增量有限,组合收益更多还得靠因子择时。