华泰人工智能系列之六：人工智能选股之Boosting模型-华泰证券-20170911

由qxiao创建，最终由qxiao更新于2021-11-26 07:28 被浏览 211 用户

摘要

报告对各种Boosting集成学习模型进行系统测试

Boosting集成学习模型将多个弱学习器串行结合，能够很好地兼顾模型的偏差和方差，该类模型在最近几年获得了长足的发展，主要包括AdaBoost、GBDT、XGBoost。本篇报告我们将对这三种Boosting集成学习模型进行系统性的测试，并分析它们应用于多因子选股的异同，希望对本领域的投资者产生有实用意义的参考价值。

Boosting集成学习模型构建：7阶段样本内训练与交叉验证、样本外测试

Boosting集成学习模型的构建包括特征和标签提取、特征预处理、样本内训练、交叉验证和样本外测试等步骤。最终在每个月底可以产生对全部个股下期上涨概率的预测值，然后根据正确率、AUC等指标以及策略回测结果对模型进行评价。为了让模型及时学习到市场特征的变化，我们采用了7阶段滚动回测方法。我们还根据模型的预测结果构建了沪深300成份内选股、中证500成份内选股和全A选股策略，通过年化收益率、信息比率、最大回撤等指标综合评价策略效果。

XGBoost模型超额收益和信息比率的表现优于线性回归

对于沪深300成份股内选股的行业中性策略（每个行业选6只个股），XGBoost分类模型的超额收益为6.4%，信息比率为1.78。对于中证500成份股内选股的行业中性策略，XGBoost分类模型的超额收益为7.2%，信息比率为2.03。对于全A选股的行业中性策略，XGBoost分类模型相对于中证500的超额收益为31.5%，信息比率为4.4。总体而言，XGBoost分类模型在超额收益和信息比率方面表现不错，各种策略构建方式下都能稳定地优于线性回归模型；最大回撤方面XGBoost分类相比于线性回归不具备明显优势。

XGBoost模型预测能力与其他集成学习模型持平，但运算速度有明显优势

我们比较了不同的Boosting集成学习模型的预测能力，发现XGBoost模型和其他模型持平。AdaBoost、GBDT、XGBoost三种模型样本外平均AUC分别为0.5695，0.5699，0.5696，样本外平均正确率分别为53.94%，54.12%，54.02%。但XGBoost模型在运算速度上有明显优势，其他集成学习模型训练所需时间普遍在XGBoost模型的2～8倍。

Boosting模型比Bagging模型（随机森林）更简单

在达到相近预测能力和回测绩效时，Boosting模型比Bagging模型（随机森林）要简单。本文的Boosting模型中，每个决策树的深度都为3，决策树总数为100。而Bagging模型中每个决策树的深度普遍在20以上，决策树总数有数百个，模型的复杂程度远大于Boosting模型。

正文

/wiki/static/upload/32/321c6177-ce74-4e53-b00b-a90ac0101af1.pdf