机器学习模型在因子选股上的比较分析-20190512-广发证券
由bigquant创建,最终由bigquant 被浏览 155 用户
摘要
研究内容本报告采用机器学习方法从历史数据中学习股票因子和收益率的关系,建立股票收益预测模型。本报告研究的机器学习方法包括多类别逻辑回归(MLR)、支持向量机(SVM)、随机森林(RF)、极限梯度提升树(XGBoost)、深层神经网络(DNN)等5类模型。
机器学习模型介绍本报告考察的5种机器学习模型中,MLR和线性SVM属于线性分类器,但优化目标不同。RF、XGBoost和DNN属于非线性分类器。其中,RF和XGBoost是以决策树为基学习器的集成学习方法,但模型集成的方式不一样。DNN是深度学习方法。这5种模型在机器学习领域具有很强的代表性。
策略表现从实证结果来看,5种机器学习模型都取得了显著的超额收益,而且收益曲线相似。由于机器学习模型都是从历史数据建立起股票因子和收益率的关系,不同模型的表现有较大的相关性,模型打分相关性和模型IC相关性都比较高。其中,同为线性分类器的MLR和线性SVM模型的相关性最高。
日频样本训练模式平均每次用48万个样本训练模型。在5种不同的模型中,DNN模型表现最佳,具有最高的IC、ICIR、年化对冲收益和夏普比率。但是DNN模型的训练耗时,平均每个模型训练需要5个多小时。半月频样本训练模式平均每次用4.8万个样本训练模型。在5种不同的模型中,XGBoost模型表现最好。而且XGBoost的训练时间短,和线性分类模型的训练时间差别不大。总体来看,日频样本模式训练的模型表现优于半月频样本模式训练的模型。尤其是DNN和XGBoost模型,日频样本模式明显优于半月频样本模式。因为这两种模型训练时更依赖于大量的训练样本。从机器学习模型打分来看模型的风格暴露情况,DNN和XGBoost在风格因子上的暴露相对较少,而RF在风格因子上的暴露最大。
风险提示策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。
正文
/wiki/static/upload/28/280759d3-85e4-4c8e-a3af-fb5a1cde4e4c.pdf
\