机器学习驱动的基本面量化投资

由small_q创建，最终由small_q更新于2022-11-07 06:10 被浏览 97 用户

引言

机器学习在股价预测中展现出明显的优势，国内外学者在这一领域已经进行了大量的研究。本文首先运用六种机器学习算法与基准RW模型和现有五种模型进行对比，对比结果发现机器学习模型，尤其是非线性机器学习模型具有较好对预测精确性。其次，考虑到基于基本面分析的股价预测方法可以实现对中长期股票的预测，本文分析了基本面量化投资在长期股票预测中的应用与模型性能对比。最后，本文将基本面量化投资应用于我国A股市场进行适用性分析和模型绩效分析。

机器学习模型预测有效性的验证

模型架构

主要采用六种机器学习模型，包括三种线性机器学习和三种非线性机器学习模型。

线性机器学习算法

第一种最简单的线性机器学习算法是OLS(Ordinary Least Squares)，该算法通过最小化目标函数来预估参数，目标函数的计算如下：

{w:100} 其中 {w:100} 是预测变量 {w:100} 的线性函数，包括前面提到的56个预测变量和参数向量 {w:100} ， {w:100} 表示公司 {w:100} 在第t+1年的收益。

当使用大量历史财务报表数据来预测未来收益时，预测因子的丰富性会使OLS过拟合，为解决这一问题，作者引入两种受惩罚的线性模型：LASSO(Least Absolute Shrinkage and Selection Operator)和岭回归(Ridge)。其中LASSO回归在OLS目标函数上增加了一个凸惩罚项（L1）：

{w:100} 其中 {w:100} 是参数向量 {w:100} 的第 {w:100} 个元素, {w:100} 是正则化参数。

与LASSO不同，Ridge回归使用了 {w:100} 正则项，目标函数如下：

{w:100}

非线性机器学习算法

进一步使用三种更复杂的非线性模型，其中两种基于决策树，分别为随机森林(Random Forest, RF)和梯度增强回归(Gradient Boosting Regression, GBR)。RF模型从原始训练集中提取许多不同的自举样本，通过使用预测器的随机子集为每个样本训练决策树，并对它们的预测进行平均以生成预测。GBR模型则是从一个简单的决策树回归模型开始，然后递归地增加一个新的决策树回归模型，该模型与先前模型的残差相匹配，直到满足某个停止条件，然后使用组合模型对新的观测结果进行预测。另一种非线性模型为人工神经网络(Artificial Neural Network, ANN)，神经网络由一个带有Q个神经元的隐藏层组成，隐藏层中的每个神经元接收来自上一层P个连接神经元的信号，通过一组权值参数和一个偏置项进行线性聚合，用非线性激活函数对结果值进行变换，输出一个信号作为下一层神经元的输入特征。

实证检验

将上述六种机器学习模型与基准随机游走模型(Random Walk, RW)和现有使用的五种模型进行实证分析对比，这五种模型为：自回归模型(Autoregressive Model, AR),盈余持续性(Earnings Persistence, EP)，剩余收益(Residual Income, RI)模型，以及由Hou、van Dijk和Zhang(2012)和**SO(2013)**开发的两个模型HVZ和SO。选择28个主要财务报表相关因子及其各自的一阶差异共56个预测因子作为机器学习的输入特征，根据1975年至2019年期间134,154个公司股票数据，验证机器学习模型在预测股票收益方面是否具有有效性。

从模型绝对预测误差的平均值和中位数可知（如图4所示），六种机器学习模型平均绝对误差均小于基准RW模型和现有的五种模型，其中适应非线性关系的机器学习模型进一步提高了预测精度，而RF和GBR模型的绝对预测误差平均值分别比RW模型低约8.64%和8.86%，说明非线性机器学习模型可以更好地处理高维财务因子数据并产生更准确的股票收益预测结果。

图片{w:100}

图1：模型预测精确度对比

基本面量化投资在股票长期预测中的应用

模型架构

从标普100成份股中选取70只股票1996到2017的季度财务报告数据，通过使用基本特征来比较基于基本分析的三种机器学习方法的预测性能，并根据预测的相对回报率对70只股票进行排名，然后依据排名构建投资组合，以投资组合的实际相对收益作为评价标准。使用的三种机器学习方法包括：前馈神经网络(Feed-forward Neural Network, FNN)、随机森林(Random Forest, RF)和自适应神经模糊推理系统(Adaptive Neural Fuzzy Inference System, ANFIS)。此外，模型还使用特征选择(Feature Selection, FS)和自举聚合算法(Bootstrap Aggregation)来提高上述三种算法预测的准确性和稳定性，其中特征选择通过RF算法进行，将算法应用于所有股票的训练数据，以获得每个特征的特征重要性估计，然后选择最重要的特征进行模型构建；而自举聚合用于每个算法产生的股票排名，如果大多数算法预测一只股票在下个季度的表现是所有股票中表现最好的三分之一，那么它就会被选择纳入投资组合。

前馈神经网络(FNN)

FNN是神经网络架构中最简单、最通用的形式。一个模糊神经网络至少包含三层：输入层、隐藏层和输出层。反向传播采用梯度下降的监督学习技术。在模糊神经网络的模型验证过程中，为了实现最优的模型泛化，可调的超参数有很多，包括权值初始化方法、学习率、隐含层数、每个隐含层的隐含单元数、激活函数等。

自适应神经模糊推理系统(ANFIS)

ANFIS是Takagi Sugeno-Kang(TSK)模糊推理系统更一般形式的一个实例。它用输入变量的一阶多项式方程代替隐含的模糊集。ANFIS系统由IF-THEN形式的规则组成。一般来说，ANFIS系统中有五个不同的层。第1层将每个输入值转换为其成员函数的输出：

{w:100}

第2层通过简单地乘以传入信号来计算规则的触发强度。第3层标准化发射强度：

{w:100}

第4层由自适应节点组成，其函数定义为：

{w:100}

其中 {w:100} 为前一层归一化发射强度， {w:100} 为一阶多项式，包含三个参数 {w:100} 第5层取所有传入信号的加权平均值，并提供最终输出：

{w:100}

实证检验

图2和图3比较了三种机器学习模型未改进的实验结果。从图中可知，三种机器学习方法都能够构建出表现优于市场的股票投资组合。而在三种算法中，RF算法构建的“买入”组合实现了平均季度相对回报率1.63%，而基准的平均季度相对回报率为0.0164%，说明RF模型的性能最好。

图片{w:100}

图2：“Top20购买”的未改进模型投资组合结果

图片{w:100}

图3：“Bottom20卖出”的未改进模型投资组合结果

图4和图5比较了三种机器学习模型改进后的实验结果。考虑到RF算法加入特征选择后对结果没有明显提升，因此在本模型中使用带特征选择的FNN和ANFIS模型以及不带特征选择的RF模型进行最终的聚合。在聚类中测试了两种聚合策略：“agg2”和“agg3”，其中“agg2”组合中如果一只股票要被选为“买入”投资组合，必须在3个模型中至少有2个模型将该股票排在当季的“Top20”中，而“agg3”组合中所有3个模型都必须在“Top20”中排名一只股票，以便该股票被选中。从结果来看，“agg2”投资组合的表现远优于其他单一模型，也优于“agg2”，由“agg3”构建的“买入”投资组合在18个测试季度中实现了5.11%的平均季度相对回报率、0.759的投资组合得分和137%的复合相对回报率。

图片{w:100}

图4：“Top20购买”的改进模型投资组合结果

图片{w:100}

图5：“Bottom20卖出”的改进模型投资组合结果

基本面量化投资模型在A股市场的绩效

模型架构

参考Green et al.(2017)，选取96个公司特征变量代理异象因子，并按照因子属性分为交易摩擦因子、动量因子、价值因子、成长因子、盈利因子、财务流动因子共六大类。然后采用预测组合算法(Forecast Combination, FC)、Lasso回归、岭回归(Ridge)、弹性网络回归(Elastic Net)、偏最小二乘回归(Partial Least Square, PLS)、支持向量机(Support Vector Machines, SVM)、梯度提升树(Gradient Boosting Decision Tree, GBDT)、极端梯度提升树(Extreme Gradient Boost Tree, XGBoost)、集成神经网络(Ensemble Artificial Neural Network, EN-ANN)、深度前馈网络(Deep Feedforward Neural Network, DFN)、循环神经网络(Recurrent Neural Network, RNN)和长短期记忆网络(Long Short-Term Memory, LSTM)等12种机器学习算法，以1997年1月至2018年10月中国A股市场所有上市公司为研究样本，数据为月度频率，构建股票收益预测模型及投资组合。

实证检验

在实证检验中，选取OLS线性回归模型的收益为基准，另选取单因子检验中平均收益最高的市值因子构建的组合(SIZE)和市场指数(MKT)的收益作为比较，展示了12种机器学习方法在12个月滑动窗口时多空组合、多头组合和空头组合的风险收益情形（如图4所示）。观察图6中多空组合的收益结果可知，单因子模型(SIZE)的收益超过市场指数收益(MKT)，显示了因子投资研究的有效性，而线性回归模型能够取得超越最好的单因子的绩效，显示了基本面量化投资的重要性。

图片{w:100}

图6：基本面量化投资模型在A股市场的组合投资绩效

对于线性机器学习算法来讲，FC、Ridge、Lasso、Elastic Net、PLS均能够获得较基准OLS回归更高的多空组合收益，说明机器学习算法能够更好地识别因子间的线性关系从而提升投资绩效。与此同时，非线性机器学习算法总体而言能够获得比线性算法更好的绩效，其中XGBoost、GBDT和DFN带来的投资绩效提升最为显著，与传统OLS相比可获得33.33%，35.82%和38.30%的多空组合月度收益率提升。此外，图6的结果还表明，由于我国A股市场缺乏有效的做空机制，多头组合的收益远高于空头组合的收益，说明多空组合的收益主要来源于多头头寸，其中XGBoost、LSTM和DFN构建的做多组合能够获得相对较高的投资绩效。另图7中显示所有机器学习算法模型的Newey and West(1987) t值均为1%显著，说明各种基本面量化投资策略的多头组合均能超越市场指数的平均收益和风险调节收益，显示出其在中国市场的适用性。

图片{w:100}

图7：基本面量化投资模型的Newey and West(1987) t值

总结

本文主要介绍了机器学习驱动的基本面量化投资的预测有效性、在股价长期预测中的应用、在我国A股市场的适用性分析和绩效分析。文章首先运用六种机器学习算法与基准RW模型和现有五种模型进行对比，对比结果发现机器学习模型，尤其是非线性机器学习模型具有较好对预测精确性。其次，考虑到基于基本面分析的股价预测方法可以实现对中长期股票的预测，将基本面量化投资应用于长期股票预测并研究发现机器学习算法都能够构建出表现优于市场的股票投资组合。最后，本文将基本面量化投资应用于我国A股市场进行分析，研究结果发现各种基本面量化投资策略的多头组合均能超越市场指数的平均收益和风险调节收益，展示了基本面量化投资在中国A股市场的适用性。

市场有风险，投资需谨慎。以上陈述仅作为对于历史事件的回顾，不代表对未来的观点，同时不作为任何投资建议。

参考文献

[1]Cao K, You H. Fundamental analysis via machine learning[J]. HKUST Business School Research Paper, 2020 (2020-009).

[2]Hou K, Van Dijk M A, Zhang Y. The implied cost of capital: A new approach[J]. Journal of Accounting and Economics, 2012, 53(3): 504-526.

[3]So E C. A new approach to predicting analyst forecast errors: Do investors overweight analyst forecasts?[J]. Journal of Financial Economics, 2013, 108(3): 615-640.

[4]Huang Y, Capretz L F, Ho D. Machine learning for stock prediction based on fundamental analysis[C]. IEEE Symposium Series on Computational Intelligence (SSCI), 2021: 01-10.

[5]李斌,邵新月,李玥阳.机器学习驱动的基本面量化投资研究[J].中国工业经济,2019(08):61-79.DOI:10.19581/j.cnki.ciejournal.2019.08.004.

[6]Green J, Hand J R M, Zhang X F. The characteristics that provide independent information about average US monthly stock returns[J]. The Review of Financial Studies, 2017, 30(12): 4389-4436.

机器学习驱动的基本面量化投资

引言

机器学习模型预测有效性的验证

模型架构

实证检验

基本面量化投资在股票长期预测中的应用

模型架构

实证检验

基本面量化投资模型在A股市场的绩效

模型架构

实证检验

总结

参考文献

标签