华泰人工智能系列之五：人工智能选股之随机森林模型-华泰证券-20170831

由qxiao创建，最终由qxiao更新于2022-01-17 05:51 被浏览 219 用户

摘要

随机森林模型是以Bagging并行方法集成决策树而得到的强分类器

随机森林（RandomForest）是近年来备受青睐的机器学习方法之一。随机森林是以Bagging并行方法集成一系列决策树而训练出的强分类器，可以较好地应用于分类和回归的不同场景下。本篇报告我们将对随机森林模型进行系统性的测试，并分析它们应用于多因子选股的异同，希望对本领域的投资者产生有实用意义的参考价值。

随机森林模型的构建：7阶段样本内训练与交叉验证、样本外测试

随机森林的构建包括特征和标签提取、特征预处理、样本内训练、交叉验证和样本外测试等步骤。最终在每个月底可以产生对全部个股下期上涨概率的预测值，然后根据正确率、AUC等指标以及策略回测结果对模型进行评价。我们的模型设置为月频换仓，为了让模型及时学习到市场特征的变化并兼顾计算效率，我们采用了7阶段滚动回测方法，即从2010年底开始，每年底重新构建一次模型，在下一年进行测试。我们还根据模型的预测结果构建了沪深300成份内选股、中证500成份内选股和全A选股策略，通过年化收益率、信息比率、最大回撤等指标综合评价策略效果。

随机森林选股模型的收益和信息比率相较于线性回归具有较大优势

对于沪深300成份股内选股的行业中性策略（每个行业选6只个股），随机森林模型的超额收益为6.2%，信息比率为1.74。对于中证500成份股内选股的行业中性策略，随机森林的超额收益为8.4%，信息比率为2.16。对于全A选股的行业中性策略，随机森林相对于中证500的超额收益为30.6%，信息比率为4.17。总体而言，随机森林模型在多数情况下能获取更高的超额收益和信息比率，相较于前度报告中广义线性模型、支持向量机模型、朴素贝叶斯模型在此方面具有比较大的优势，而对回撤的控制不具备优势。

市值和反转因子在随机森林模型中重要性评分较高

模型训练出的因子重要性评分表显示，随机森林模型主要受市值和反转因子影响较大。基于树的分类方法一般在大环境不发生变化的前提下能够获取比较好的预测效果，而此类方法对于参数、噪音、环境变化等因素也比较敏感，即泛化能力不够强。所以随机森林模型在2011～2016年这段小盘股风格主导的时期展示出了强大的选股能力，但2017年以来确实遭遇一定幅度的困境。我们将在后续报告中持续关注基于树的分类方法，希望寻找到有效的手段解决这一难题。

摘要

/wiki/static/upload/a3/a354b0d1-27a0-4583-a415-82de7dfb3db5.pdf