基于惩罚性线性回归的选股模型研究-兴业证券-20200222
由qxiao创建,最终由qxiao 被浏览 68 用户
摘要
线性多因子体系是量化选股的基石,传统的Fama三因素模型,以及后来提出的五因素模型均是在多元线性回归的框架下去探讨因子在选股层面的有效性。当选定的线性模型存在比较严重的多重共线性时,由此构建的选股模型将变得极不稳定。因此,在多元线性框架下进行研究时,多重共线性是我们必须要考量并想办法解决的重要问题!
惩罚性线性回归通过引入对系数的惩罚,进而降低或消除一些自变量对回归方程的影响,从而达到控制模型多重共线性的目的。我们以惩罚线性回归模型Lasso、Adaptive Lsso、ElasticNet为核心对因子进行筛选,并构建复合选股因子。结果显示三种方法均表现出了较强的选股能力,但多重共线性问题却始终存在。以Lasso算法为例,我们将165个因子放入模型进行训练,在模型保留的因子数目小于30个的情况下,出现多重共线性的样本在全部测试期内的占比依然高达30%以上。
结合《当线性模型遇见机器学习》中对高相关因子进行筛选的方法,我们建立了修正的惩罚性线性回归选股模型。以利用修正的ElasticNet模型生成的D_Net因子为例:因子IC达到0.135,T值高达17.1,多空组合年化收益率达到61.7%,夏普率达到5.3,而此时每期选择的因子数平均为25.3个。对每期选择的因子风格进行分析,结果发现,各类别风格均有体现。2019年以来,D_Net因子在质量类风格上暴露更高,符合市场实际情况。
不同股票池的风格差异较大,这会直接影响模型训练的效果。我们基于沪深300、中证500、中证800股票池进行训练,所得的因子表现更加稳健。以基于沪深300股票池进行训练为例:新合成的因子D_Net_300,其在沪深300内IC达到0.075、T值达到9.1、多空组合年化收益率为25.8%,均优于基于全市场训练所得的结果。
正文
/wiki/static/upload/30/30d7ceef-62a9-42ad-947c-f2a4796ffcbd.pdf
\