东方机器选股模型Ver1.0-东方证券-20161107
由qxiao创建,最终由qxiao 被浏览 130 用户
研究结论
机器学习容易给人“黑箱模型”和“过拟合”的印象,但事实上一些机器学习算法的逻辑和结果都非常直白,而且算法自身带有一套避免过拟合的参数估计机制。众多的实践研究说明,机器学习方法的预测能力大部分情况下都强于线性模型,很值得在量化投资中测试使用。本报告主要讲述机器学习的基本原理和用其来做量化选股的实证结果。
机器学习模型众多,不存在所谓的最强模型,不同的数据,不同的问题适用不同的模型。我们测试了LASSO、SVM、增强型决策树、随机森林等几种常见机器学习方法,最终选择用随机森林,主要是因为它结构简单、参数少、过拟合概率低,同时还具有非常强的样本外预测能力。机器选股模型省去了“因子筛选”、“因子加权”和“ZSCORE转收益率”这三个步骤,直接通过随机森林做回归,由alpha因子来预测收益率。需要说明的是,决策树本身也可以用来做变量筛选,但是我们并没有把这一步交给机器,而是仍然保留了“因子IC检验”这个步骤,保证随机森林的输入变量确确实实是符合我们传统意义的alpha因子;如果把很多没有选股效用的因子混在一起作为输入变量,会导致数据噪音过大,产生“Garbage in, Garbage out”的问题,降低模型的预测能力。
实证结果显示,和传统alpha因子IC_IR加权方法相比,随机森林模型得到的多空组合收益率和稳健性都更高,处理alpha因子间信息重叠的效果要比我们之前报告提出的线性方法好。
风险提示
量化模型失效风险
市场极端环境的冲击
正文
/wiki/static/upload/8e/8e5c9d4e-8e8c-4f01-906c-777c0104b8d6.pdf
\