研报&论文

人工智能研究之八:Xgboost算法在选股中的应用-中信建投-20200317

由bigquant创建,最终由bigquant 被浏览 395 用户

摘要

主要结论

决策树及Boosting思想是理解Xgboost算法不可或缺的部分Xgboost算法是Boosting(集成)算法的高效体现。集成学习方法是将多个学习模型组合,使得组成的模型具有更强的泛化能力。

另外,Xgboost的基模型一般选择均为CART分类回归树,其逻辑清晰且理论优美,适合用于金融领域。报告将首先介绍CART分类回归树与boosting思想,再衍生至高效实现其思想的Xgboost。

将全市场收益率按大小顺序等分为三类,本文利用Xgboost算法对股票收益率所属类别作出预测与传统多因子模型类似,算法试图拟合多个因子与股票收益率之间的规律关系,不同的是,传统多因子模型多数选择股票收益率作为因变量,而由于xgboost算法可以很好地处理分类问题,所以我们选用股票收益率在全市场分层后所位于的层数作为因变量,即模型最终预测的目标。

因子数据预处理包括去极值、缺失值填充、行业市值中性化及标准化的处理,算法包括训练集训练、测试集检验效果。对于算法的效果评价,我们从两方面进行:模型拟合优度包括精确率、召回率、F1-Score等,模型预测股票组合收益率计算机领域的机器学习算法评价的主要指标是算法的拟合优度及预测准确率,而在金融领域,除以上目标外,投资者对模型预测股票组合的收益率相关指标更为关心。所以本文对算法的评价指标包括累计收益率、超额收益率、精确率、召回率、F1-Score等指标对模型进行评价。Xgboost算法在全市场中选股超额收益年化11%在以2011-2019的样本区间中,Xgboost的多头组合年化收益19.4%,较等权基准年化超额收益11%,空头组合年化超额负收益38%,学习效果优异。

Xgboost算法指数增强策略表现优异,中证500指数增强策略年化超额收益10%,沪深300指数增强策略年化超额收益4%本文对中证500指数和沪深300指数建立Xgboost指数增强模型。在对基础策略优化的情况下,中证500指数增强策略年化超额收益10%,信息比率1.4,跟踪误差7.2%,2016年以来最大回撤7.8%;沪深300指数增强策略年化超额收益4.6%,信息比率0.70,2016年以来最大回撤22%。

正文

/wiki/static/upload/9a/9afca9e9-8dc4-4514-a789-a20a8fbaac6e.pdf

\

标签

决策树XGBoostxgboost
{link}