中国市场中怎样用机器学习来做股票投资

由crisvalentine创建，最终由crisvalentine更新于2022-08-31 08:45 被浏览 118 用户

摘要

文献来源：Leippold, M., Wang, Q. & Zhou, W. (2021). Machine-Learning in the Chinese Stock Market. Journal of Financial Economics.

推荐原因：随着机器学习在金融和经济领域的应用迅速兴起，越来越多的学者利用机器学习工具研究股票的截面和时间序列预测。而中国股票市场历史较短，制度依然处于不断完善的阶段，有着自身的特殊性。本文根据中国市场的特征构建了一个全面的股票收益预测因子集，并利用几大流行的机器学习算法进行实证分析。经过CSPA条件预测能力检验，作者发现神经网络在不同宏观经济条件下的表现都比较稳健，并且预测能力最强。在构建的因子集中，与市场流动性相关的因子重要性较高。考虑到中国市场的做空限制，作者分别构建了多空和多头投资组合。策略在2015年的暴跌中表现良好，并且在2020年初新冠疫情期间也没有受到严重影响。

{w:100}

简介

截至2020年10月，中国股票市场总市值已经超过67万亿人民币，一跃成为世界第二大股票交易市场，仅次于美国。不仅如此，中国股票市场具有三个关键特点：

首先，与机构投资者主导的发达市场不同，中国股市由散户投资者主导。根据上海证券交易所2019年的数据，中国总共有2.145亿投资者，其中2.138亿是个人投资者，而只有70万是机构投资者。散户投资者的投机行为和短线交易可能导致换手率增加。这种特殊性造成了中国股市高度的波动性，可能会使股价与基本经济状况脱节。

其次，从制度的角度来看，中国金融体系的一个关键特征是它是由中央控制，以银行为主导的，并且存在一种独特的关系驱动模式（Allen et al., 2005）。因此，市场的自动修正机制受到政府导向的限制和影响（Mei et al., 2009）。

第三，中国市场的卖空历史有限，在2010年以前，中国投资者受到较为严格的卖空限制。许多学者都认为，卖空有助于市场定价，并能够使市场变得更加有效（Saffi和Sigurdsson，2011）。大多数关于西方市场的因子投资研究都依赖于多空策略，但这种策略对于中国市场来说并不容易实现。

作者构建了一个独特且全面的因子集，其中共有1160个预测指标，包括90个股票特征、11个宏观经济变量，以及一组行业哑变量。首先，作者先用与研究美国市场相同的方式构建了一组因子。然后，将一些因子调整为适应中国股票市场的因子。接下来，作者还为中国市场专门引入了一组因子。例如，加入了Pan等人（2015）引入的异常周转率（ATR），这个因子旨在捕捉股市中投机性交易的影响，有助于解释中国A股的定价过高现象。

本文以Gu等人（2020）的研究结论为基础，将广泛的机器学习方法与现代资产定价实证研究相结合。通过探索不同机器学习方法的预测能力，作者发现神经网络的样本外R2明显优于其他模型。在小型企业和非国有企业的子样本分析中，样本外R2特别大。此外，将样本外R2与美国市场的研究相比较，中国市场也显示出更大的可预测性。由于样本外R2会受到模型选择的影响，本文使用Li等人（2020）开发的统计测试方法来分析模型的条件预测能力，并比较模型在不同宏观经济环境中的表现。作者发现神经网络在这种新的统计测试下依然稳健，并且在预测能力方面表现最好。

在构建的因子集中，作者发现与市场流动性相关的因子重要性较高。除流动性之外，相比基本面因子，神经网络更偏向与动量和波动率相关的因子。作者还发现，国有企业子样本的样本外R2要小于非国有企业，这可能印证了国有企业信息不透明的名声（Piotroski等，2015）。最后，考虑到中国的做空限制，作者发现多头投资组合也可以提供可观的收益，在包括交易成本之后也依然如此。而且这种策略在2015年的暴跌中也表现良好，并且在2020年初的新冠疫情影响下也没有受到严重影响。

数据和方法

本文从中国最大的金融数据提供商Wind数据库获得了所有在上海和深圳证券交易所上市的A股股票的每日和每月收益率。相应的季度财务报表数据来源于中国经济金融研究数据库（CSMAR）。数据样本涵盖了2000年1月至2020年6月期间交易的3900多只A股股票。同时，本文使用CSMAR数据库提供的中国一年期国债收益率作为无风险利率。

本文结合Green等人（2017）的因子设计，以及其他文献中针对中国市场特点设计的因子，建立了一个预测股票收益的大型因子库。库中收集了共94个特征指标，其中86个已在Green等人（2017）的文章中说明，4个是已被其他学者证实确定有效的中国特有因子，4个是表示上市企业所有权类型的二元变量，用于子样本分析。为了避免离群值的影响，本文参考Kelly等人（2019）和Gu等人（2020）的方法对所有连续的个股因子进行逐期横截面排序，并映射到 [-1, 1] 区间内。在数据频率方面，有22个因子是每月更新一次数据，51个是每季度更新一次，6个是每半年更新一次，15个是每年更新数据。此外，本文根据中国证监会2012年发布的《上市公司行业分类指引》，加入了80个行业的哑变量。

除上述特征外，根据从CSMAR数据库和国家统计局网站下载的数据，本文构建了11个宏观经济预测因子。其中8个变量是基于Welch（2008）的变量定义，包括股息价格比（dp）、派息率（de）、收益价格比（ep）、账面市值比（bm）、净股本扩张（nits）、方差（svar）、利差（tms）和通货膨胀率（inflation）。其余三个包括月度换手率（mtr）、 M2增长率（m2gr）和国际贸易额增长率（itgr），这些指标已被其他学者证实是有效的宏观经济预测指标。

{w:100} 本文总共研究了11种机器学习方法以及两个简单的线性模型，包括简单最小二乘法（OLS）回归，只使用规模、账面市值比和动量作为自变量的简单最小二乘法（OLS-3）回归，偏最小二乘法（PLS）回归，LASSO回归、Elastic Net回归，梯度提升回归树（GBRT），随机森林（RF），变量子样本聚合（VASA），以及一至五层的神经网络（NN1-NN5）。

本文使用基本的调参、模型测试和性能评估的方法。具体方法是，在保证时间顺序的前提下，将数据分为三个不相交的时期：训练集（2000-2008）、验证集（2009-2011）和测试集（2012-2020）。为保证模型的稳定性，本文在预先设定的超参的基础上，使用训练集和验证集进行调参。根据验证集中的测试结果，选择使目标损失函数最小化的超参数。测试集包含了验证集之后12个月的数据，这些数据是样本外的，不会参与调参过程，用于检验模型性能。由于机器学习模型需要的算力较大，本文借鉴了Gu等人（2020）的样本分割方案，每年而非每月进行再调参，此时训练集将增加一年的数据，而验证集维持原来的大小，并向后滚动12个月。

实证分析

首先，本文通过样本外R2来分析模型的预测性能，并讨论不同子样本的预测性。

样本外的可预测性

与Gu等人（2020）的做法相似，本文使用样本外R2与他们对美国市场的研究结果进行直接比较。对于一个给定的模型S，样本外R2定义为：

{w:100}

全样本分析

图 1 的表中第一行记录了全样本分析结果。

{w:100} 在全样本分析中，OLS模型的样本外R2为0.81%，这说明最简单的模型仍有一定的预测能力。OLS-3模型的预测能力略低于OLS模型（0.77% v.s. 0.81%），这表明仅靠三个因子（规模、账面市值比和动量）不足以发挥线性模型的所有预测能力。值得注意的是，OLS模型在中国股市的表现远优于美国股市。对这种差异的一个可能解释是，作者为Huber损失函数的超参设定了一个相对较小的值，这导致了对数据中极值的高鲁棒性。

对于包括PLS、LASSO和Enet在内的正则化模型，样本外R2直接反映了面对大量因子时降维的有效性。三种模型均将样本外R2提升到了1%以上，其中LASSO（1.43%）和Enet（1.42%）比PLS（1.28%）小有优势。这说明一些股票特征对于预测中国股市的月收益是冗余的。VASA的样本外R2与正则化模型的较为接近，这可能是因为作者使用了带有线性子模型的VASA。树模型、GBRT和随机森林以及五种神经网络模型的样本外R2进一步提高到了2%以上。这反映了机器学习方法在捕捉预测因子之间的复杂交互作用上的优越性。与美国股市不同的是，当神经网络隐藏层增加时，样本外R2会增加，尽管这种改善对于四层以上的神经网络模型来说微不足道。

根据月度的样本外R2来看，机器学习技术在中国市场的可预测性远高于美国市场，其中GBRT的样本外R2是最高的，达到2.71%，几乎是Gu等人（2020）当时得到的最高样本外R2（NN4的0.40%）的七倍。即使是样本外R2最低的OLS-3模型，也几乎是美国市场最高样本外R2的两倍。作者推测，这可能是由于两个原因：首先，中国股市的散户投资者比例大，并且他们偏好小盘股。其次，中国股市受到普遍存在的国有企业的影响，而国有企业的信息透明度比非国有企业低。

小盘股和大盘股

为了研究模型预测能力的潜在异质性，本文对小盘股（每月按流通股本排名后30%的股票）和大盘股（每月按流通股本排名前70%的股票）进行子样本分析。图1的表中第二行和第三行展示了大盘股和小盘股子样本分别的样本外R2。结果表明，所有模型对小盘股都有更好的预测性能。其中GBRT似乎特别突出，最高的样本外R2为7.27%。

虽然模型对于小盘股的预测性能改善了，但对于大盘股的预测性能却降低了。所有模型的样本外R2均降低到了1%以下。然而除了个别正则化模型之外，神经网络表现出了相对稳定的性能。

小股东和大股东

上述结果表明，机器学习方法可以有效地预测小盘股的月度收益。然而，目前还不清楚散户投资者是否对差异的产生发挥了重要作用。为了深入了解可预测性和散户投资者之间的联系，本文进一步进行了子样本分析。作者使用了CSMAR数据库中所有上市公司的流通A股的股东数量数据（这些数据是按季度报告的），以及相应的市值，然后通过计算每个股东的平均市值，即A.M.C.P.S.=总市值/股东数量，并根据70%的分界水平将所有股票分为两组。最后，通过研究这两组的样本外R2来研究模型的可预测性。

图1表中的第四行和第五行分别展示了前70%和后30%的股东平均市值的公司的样本外R2。总的来说，机器学习方法，特别是PLS、随机森林和神经网络，在小股东股票的样本中具有更好的预测性能，它们对小股东股票子样本的样本外R2明显大于大股东的样本外R2。同时， LASSO、 Enet和VASA在这两个子样本上的表现相似。OLS-3在小股东股票样本中产生的预测结果比大股东股票差得多，这意味着传统的三因子模型对中国的小股东股票可能并不奏效。简而言之，尽管缺乏数据，准确识别每只股票的散户投资者比例是难以实现的，但每个股东的平均市值仍然可能是一个有用的代理变量，这有助于揭示模型预测性和散户投资者之间的关系。

国有企业和非国有企业

本文分别研究了国有企业和非国有企业的股票收益。图1的最后两行结果显示，神经网络对这两个子样本都有较为稳健的正样本外R2。而树模型的结果是好坏参半，虽然它们在非国有企业股票中表现异常好，但在国有企业股票上的表现未能优于几类回归模型。

总的来说，国有企业和非国有企业股票的样本外R2与作者对小盘股和大盘股的分析结论相似，原因是中国的国有企业往往拥有巨大的市值，因为它们往往代表着银行、基础设施和军事等行业的龙头企业。因此，公司规模与国有企业和非国有企业股票的概念密切相关。对于国有企业来说，神经网络始终优于其他的模型。当比较可预测性的水平时，神经网络在国有企业子样本下的样本外R2更大。这一观察结果再次强调了国有企业的独特性，预测国有企业样本的股票收益似乎需要一种可以解释非线性影响的高度灵活的模型。这也许是由于中国国有企业的财务不透明性和股价信息量较低，因此预测它们的股票收益并不容易。

年度可预测性

接下来，作者研究了模型在年度层面上的预测性能。图2展示了不同模型和子样本的每年样本外预测R2。作者发现，年度样本外R2高于月度样本的结果，这表明机器学习方法可以成功地分离出较长时间内的风险溢价。有趣的是，作者发现此时模型对大盘股样本的预测性能优于对小盘股样本的性能，而大盘股可预测性的提高可能是由于国有企业的可预测性的提高。此外，同样的情况也出现在股东平均市值的两个子样本中，所有的模型都在大股东的子样本中产生了更好的预测结果。这个结果与之前的结论相反，即模型对小盘股、小股东股票和非国有企业表现出更强的可预测性。对于这个结果，作者将短期可预测性，尤其是小盘股，归因于散户投资者在中国股市中的短期突出作用。对美国股市而言，当回测从月度转为年度时，小盘股样本的可预测性似乎大于大盘股，而中国市场则恰恰相反。这些结果揭示了中国市场和美国市场之间的显著差异，作者认为这主要是由于散户投资者短期具有较大影响力，以及政府举措可能对国有企业比较有利等原因。

{w:100}

重要的预测因子

宏观经济变量

本文首先探讨了所有模型中11个宏观经济变量和94个股票特征的变量重要性。对于一个特定模型，本文在每个训练样本中将给定预测因子的所有值设置为零，计算样本外R2的减少，并将它们的均值作为每个预测因子的单一重要性度量。

图3展示了11个宏观经济变量的相对变量重要性。对于PLS来说，衡量股票发行活动水平的ntis具有最大的变量重要性。自股市开放以来，中国一直采用审批制IPO，中国证监会经常在市场下跌时暂停或减少IPO，这使ntis在预测月度收益中发挥的重要作用变得合理。值得注意的是，ntis也是GBRT最重要的宏观经济变量，以及神经网络的第二个重要变量。此外，PLS还赋予infl、m2gr和itgr较大权重，说明这些宏观经济变量也有重要影响。

图3的结果表明，包括LASSO和Enet在内的线性模型强烈倾向于账面市值比（bm），但这个因子对PLS和VASA没有那么重要。此外，infl、ntis 和m2gr等因子在LASSO和Enet中也具有很高的优先级。与其他模型不同，VASA更倾向于收益价格比（ep），以及反映市场流动性（mtr）和波动率（svar）的因子。与其他回归方法相比，树模型GBRT和RF对宏观经济变量重要性的分布相对更均匀，说明这两种方法可以捕捉宏观经济变量和股票特征之间潜在的非线性相互作用。

{w:100} 图4汇总了每个宏观经济变量的重要性。总的来说，作者发现infl和ntis是预测中国股市每月收益的两个最重要的宏观经济变量，尤其是对神经网络而言。相比之下，股息价格比（dp）、市场波动率（svar）、每股总收益（ep）、利差（tms）和市场流动性（mtr）不那么重要。

{w:100}

股票特征

关于整体变量重要性的排序，作者发现与市场流动性相关的股票特征在预测中国股市时最为重要，即流动性波动率（std_dolvol和std_turn）、零交易日（zerotrade）和非流动性指标（ill）是最显著的预测因素。其次是基本面指标和估值比率，如行业调整后的资产周转率变化（chaotia）、行业调整后的雇员变化（chempia）、总市值（mve）、近期盈利增长次数（nincr）、行业调整后的利润率变化（chpmia）和行业调整后的市净率（bm_ia）。第三组主要是风险指标，包括特异性回报波动率（idiovol）、总回报波动率（volatility）和市场β（beta）。

异常周转率（atr）最初是由Pan（2015）等人引入的中国特异性因素，用来捕捉投机交易的影响，也在机器学习模型中发挥了重要作用。此外，Liu (2020)等人引入的趋势因素（er_trend）可以解释中国股票市场上价格和成交量的持续趋势，其总体变量重要性排名第四。值得注意的是，作者最初同时引入atr和er_trend，是为了适应中国股市上大量活跃的散户投资者对资产定价的影响。先前的研究已经证明了在因子模型中包含中国特殊因子的重要性，而在这里作者提供了进一步的证据，表明这些因子在更复杂的机器学习模型中也具有相当大的解释能力。

神经网络模型（NN1-NN5）、正则化线性模型（PLS、lasso、Enet）和VASA突出了类似的预测因子的重要性。树模型GBRT和RF比其他预测模型更重视divo、rd和divi。作者推测，这种差异是由于树模型在构建决策树时随机选择了股票特征的一个子集。这样一来，像divo、rd和divi这样的预测因子在某些决策树中可能会变得相当重要，从而与整个树模型更加相关，而它们在其他模型中发挥的作用却很小。

本文对变量重要性的时间变化也很重视。作者发现，正则化线性模型，包括PLS、LASSO和Enet，共享一组相似的预测因子，其中流动性指标和基本面指标是两组重要的因子。LASSO通常选择大约20个预测因子，而Enet选择了大约35个预测因子，这表明许多特征实际上是冗余的。PLS的变量重要性只有很小的时间变化，相比之下，LASSO和Enet选择的预测因子中只有大约三分之二在不同时期具有稳定性。值得注意的是，特别是对于LASSO而言，2015年前后的变量重要性似乎存在差距，这表明股市可能发生了结构性变化。

最后，神经网络模型（NN1-NN5）偏向于流动性变量、基本面指标、估值比率和中国特有的因子，包括异常周转率(atr)、趋势因子（er_trend）和前10名股东所有权（top10holderrate）。与其他模型相比，神经网络在变量重要性上有更大的时间变化，这表明它们可以检测并解释不同预测因子预测能力的结构性缺陷。作者将这一发现归因于神经网络模型的灵活性和适应性，特别是当它们经过了充分的数据微调和训练后更为有效。

条件预测能力检验（CSPA）

使用样本外R2进行模型选择在实践中可能不是很合理，因为一些预测模型的样本外样本外R2很接近，但在实际中的表现非常不同。作为另一种模型的选择，作者首先使用了Hansen（2005）的无条件优势预测能力（USPA）检验。然而，在作者的分析中，作者注意到Hansen（2005）测试本身仍然不能区分一些预测模型的性能，Gu（2020）等人使用的Diebold和Mariano（1995）检验也是如此。为了解决这个问题，作者使用Li（2020）等人的条件优势预测能力（CSPA）检验进一步研究了模型的条件预测能力。这使作者能够比较机器学习方法在不同宏观经济环境下的性能。

图5展示了在USPA和CSPA测试下特定模型被拒绝的次数。USPA测试结果表明，简单OLS模型和改进的OLS-3模型表现较差，被拒绝总次数最多。GBRT、RF、NN3、NN4和NN5模型的无条件预测性能均优于它们的替代模型，但USPA测试未能区分它们的性能。因此，作者也比较了CSPA的测试结果。作者观察到NN1、NN4和NN5的CSPA测试拒绝总次数最小。尽管包括RF和GBRT在内的树模型也表现良好，但当以市场层面的股票方差为条件时，它们比较容易被拒绝，而NN4和NN5可以在相同的比较中通过检验。此外，NN4和NN5在大多数宏观经济条件下表现都非常良好。因此，CSPA测试使作者能够更全面地区分VASA、NN2和正则化线性模型的预测性能，提供统计证据，表明这些模型不如NN4和NN5的统计证据。

{w:100}

投资组合分析

组合类型

作者考虑了两种类型的机器学习投资组合。第一个是多空投资组合。在每个月底，每种模型都会产生样本外股票预期收益，然后作者根据预测的收益将股票分类为十分位数，并每月使用价值权重构建投资组合。虽然多空投资组合是评估机器学习方法投资组合水平性能的有用工具，但由于严格的卖空限制，它很难在中国股市中实现。因此，作者也考虑了只持有多头的投资组合，它只持有前十分之一的股票。

图6展示了价值加权的多空和多头投资组合的样本外表现。为了便于比较，作者还展示了等权投资组合的表现。在平均预期月度收益、夏普比率和其他指标方面，所有的机器学习投资组合都优于OLS-3投资组合和等权投资组合。研究结果表明，机器学习技术，特别是神经网络模型，有利于投资组合的构建。

对于多空组合，作者在中国股市获得的夏普比率明显高于Gu（2020）等人在美国市场得到的结果。由于交易限制，多空策略几乎不可行，因此作者在解释这些结果时非常谨慎。不过多头投资组合的夏普比率最高为1.76，仍高于美国市场的多空策略。

{w:100}

图7和图8展示了通过两种的方法构建的投资组合的累积收益率曲线。

{w:100} {w:100}

排除小盘股

作为稳健性检查，作者基于大盘股子样本重复了之前的投资组合分析。这样做有三个主要原因：首先，中国股市的小盘股有较高的价格波动性，这使得投资者很难找到合适的买入点。其次，如Liu（2019）等人所说的，中国规模底部30%的股票经常遭受因中国的IPO限制而产生的所谓的壳价值问题。第三，总体而言，大型股票的流动性水平较高，价格波动性较低，因此受中国10%限价水平的影响较小。

图9展示了结果。大盘股的机器学习投资组合的表现与全样本相似。然而，由于排除了小盘股，所有的投资组合都取得了较低的平均月度收益率、夏普比率、标准差和极端的负月度收益率。不过机器学习方法仍然占据主导地位，神经网络表现最好，其次是正则化的线性模型和树模型。这些结果证实了机器学习方法在中国股市上也具有出色的投资组合层面的预测能力。

{w:100}

国有企业的表现

政策可能会通过各种方式对国有企业的业绩产生促进作用，例如，更容易获得银行贷款、宽松的监管和赋税减免。然而，国有企业高度集中的国家所有权、财务不透明度和低信息量的股价，以及公司治理机制的缺乏，都可能会加剧这些公司的崩溃风险。在图9中，作者展示了多空和多头投资组合的结果。

鉴于国有企业大多是大规模公司，作者比较了图10和图9中的结果。首先，就夏普比率而言，国有企业多空策略的表现远远高于大盘股组合，尤其是基于神经网络的组合。对于NN5，作者得到的夏普比率为4.12，而大盘股组合的夏普比率为2.70。对于多头投资组合，作者注意到等权投资组合确实显示了国有企业股票的下跌风险大于大盘股（也包括国有企业）。然而，利用国有企业回报的可预测性，作者可以将多头策略的最大回撤减少到大大低于大盘股组合的水平。

{w:100}

交易成本

为了评估投资组合的实际表现，必须将交易成本纳入分析。对于中国市场，A股交易的成本主要由三个部分组成：佣金、印花税和滑点。与佣金和印花税相比，滑点需要更仔细的研究，因为由于流动性问题，在不影响市场价格的情况下，按预先规定的价格执行所有交易往往是很困难的。在中国股市，2012年机构投资者的佣金在5bps左右，之后迅速下降。近年来，散户投资者的佣金通常为2-3bps，机构投资者的佣金甚至更低。自2008年以来，印花税设定为10bps，并向卖家单方面征收。

作者考虑了两种交易方案来量化滑点的大小。第一种方案依赖于某个月第一个交易日前30分钟的时间加权平均价格（TWAP），因为本文假设订单在每分钟开始时被平均分割并实施。因此，滑点是TWAP和开盘价之间的相对差异。同样，第二个是估计了成交量加权平均价格(VWAP)，作者根据20天移动均线计算每分钟间隔的交易量，并与预测交易量成比例执行订单。此外，作者通过计算交易股票交易量的5%来提供市场容量的粗略估计。平均而言，TWAP和VWAP与开盘价格的总偏差约为10bps。在一些罕见的情况下，如2015年中国股市动荡，随着股市开盘后迅速上涨或下跌，滑点可能会相当大。然而，在这种情况下，买卖滑点可能是相同的，这可能在一定程度上减少投资者面临的实际滑点。事后计算表明，25bps可能是对正常时期中国股票市场交易成本的合理估计。然而，考虑到在某些极端情况下，滑点可能高于10bps。

限价规则

每日限价规则被广泛应用于世界各地的证券交易所，特别是在新兴市场。中国市场对在主板和二板上市的常规股票的每日定价限制为10%（自2020年8月以来在二板上市的股票为20%），对特别处理（ST）股票实行5%的价格限制，对在科创板上市的股票实行20%的价格限制。鉴于本文的预测范围是一个月的远期回报，而不是日收益，主要结果只会受到价格限制规则的轻微影响。为了探讨其对投资组合表现的影响，本文继续进行如下操作。在每个再平衡日，排除以涨停价收盘的股票，并将卖出计划推迟到价格非跌停价的日期。经过处理后，组合收益和夏普比率仍然很高。例如，对于NN4，夏普比从1.78下降到1.70。因此，总的来说，本文的结果对于价格限制规则的加入仍然是稳健的。

结论

本文研究了几类流行的机器学习方法在中国股市上的预测能力。最关键的因素是基于流动性的因子，价格动量类因子只起到了次要作用。股票市场需要多年的时间来创造鼓励基本面投资的环境。虽然中国股市正朝着这个方向发展，但目前的研究结果表明，基本面因子在这些模型中并非最重要的因子。此外，散户投资者的短期行为在较短的投资期限内有实质的可预测性，特别是对小盘股。同时，由于政策在中国市场中发挥着十分重要的作用，国有企业的可预测性在较长期内有大幅提高。本文的投资组合分析表明，短线高可预测性优势可以转化为多空投资组合的高夏普比率。在2015年中国股市大跌的时间段，神经网络和VASA仍然有强劲的表现。由于在中国市场上做空股票是难以实现的，本文也分析了多头投资组合，发现其表现仍然稳健。总的来说，本文证实了机器学习可以（甚至更加）成功地应用于与美国市场完全不同的市场。

中国市场中怎样用机器学习来做股票投资

摘要

简介

数据和方法

实证分析

样本外的可预测性

重要的预测因子

条件预测能力检验（CSPA）

投资组合分析

组合类型

排除小盘股

国有企业的表现

交易成本

限价规则

结论

标签