中国的股票回报是否可预测?机器学习方法(SSRN-3971419)
由crisvalentine创建,最终由crisvalentine 被浏览 68 用户
论文原名
《Are Stock Returns Predictable in China? A Machine Learning Approach》
论文作者
Huihang Wu, Xingkong Wei, Xiaoyan Zhang
修订时间
2021 年 10 月
关键词
回报预测、样本外预测、机器学习、金融科技
引言
股票收益的可预测性一直是研究的核心问题之一。金融。本文试图引入机器学习方法来回答股票是否在中国,回报是可以预见的。中国股市的108个特征数据来自1997 年 1 月至 2019 年 12 月,本文比较了传统计量经济学模型与 6 种主要机器学习模型,包括偏最小二乘法、主成分回归、弹性网络回归、随机森林、梯度提升回归树和神经网络
本研究的主要发现如下如下:
- 历史交易数据可以预测个股下月收益,以及机器学习算法的样本外预测优于传统算法计量经济学模型;
- 中国股市,流动性特征强预测能力强,而样本外预测的动量特征较弱;
- 机器学习算法和资产定价研究的结合可以产生显着的经济价值。
在样本外测试期间,两层神经网络等权重(value-weighted)多空策略是其中最好的所有模型,平均月收益率为 3.03% (2.94%),月波动率为4.65% (6.88%),年化夏普比率为 2.26 (1.48),显着的月度根据 FF5 因子调整 Alpha 为 3.03 (2.95)。我们提出的结果表明机器学习算法与中国的传统技术相比具有明显的优势。
简介
股票收益的可预测性一直是金融研究的重点。经典的有效市场假说认为股市无法预测公开市场信息 (Fama, 1970)。然而,越来越多的研究表明许多变量(如利率、通货膨胀、投资者情绪、方差风险溢价等)在预测未来股市回报方面可能具有重要意义(Bollerslev 等人,2014; 昂和贝卡尔特,2007 年;坎贝尔和汤普森,2008 年)。除了市场回报,有超过400个股票特征可以预测横截面的回报个股,被称为“因子动物园”(Cochrane,2011 年;Harvey 等人,2016 年;格林等人,2017 年)。这么多因素,资产收益率能达到什么程度?个股被预测?哪些股票特征提供了有效的信息样本外回报预测?这些预测结果可以用于股票资产吗分配并获得超额收益?中国资本市场已占据举足轻重的地位在世界上的地位。探索中国资本市场上述问题的答案对提高中国股市54万亿1的有效配置至关重要。汉语样本外可预测性研究存在三大难点股票回报。
一、影响股票收益的因素很多,信噪比非常大低的。在这种高维稀疏矩阵的情况下,传统的计量经济模型会适应太多的噪音,使得提取有用的信息变得非常困难。
其次,预测特征与股票收益之间的函数关系是不确定的(Campbell & Cochrane, 1999; He & Krishnamurthy, 2013)。如何捕捉非线性预测变量和回报之间的结构是另一个困难吗?
第三,时间很短中国股市成立以来。股票市场体系仍处于持续改进并有其特殊性。在中国股市,这是非常构建具有预测能力的股票特征并探索哪些特征具有挑战性个股的特点是信息含量较高。
机器学习模型在维度上的技术突破约简、惩罚项和泛函分析在解决第一个以上两个问题。
许多最近的论文探讨了不同类型的影响股票收益预测中的机器学习方法。
第一种类型是维度金融中常用的归约模型
这种模型的优点是它不仅可以将高维数据压缩成低维数据,还可以保留信息。例如,Rapach & Zhou (2018) 和 Maio & Philip (2015) 使用美国宏基于主成分分析预测股市回报的变量,以及Kelly & Pruitt (2015) 使用风格因子回报组合来预测股票市场在最小偏二乘模型上。
第二种是带有惩罚项的线性模型
优点是通过加入惩罚项,噪声信息的因子载荷为减少,从而提高预测效果。例如,Chinco 等人。(2018) 分析基于Lasso回归的一分钟频个股收益预测(套索)。
第三种是非线性模型
这种类型的优点是可以装基于历史数据的预测变量与收益之间的非线性结构信息。比如基于随机森林等人工智能算法,模糊神经网络和长短期记忆网络模型,一些学者已经测试了样本外2每日股票回报的技术和宏观预测指标预测(Fischer & Krauss, 2018; Sirignano et al., 2018; Bao et al., 2017; Butaru et al.,2016)。顾等人。(2019a; 2019b) 探讨了神经网络等深度学习模型的影响个股月收益的网络模型和自编码器,并获得样本外预测精度高。
由于这些优势,机器学习技术已成为金融应用的前沿之一,尤其是在预测方面金融市场走势,处理文本信息,改进交易策略(苏志等,2017)。中国股市仍处于不断发展和完善的阶段。不成熟的市场更容易预测吗?许多国内学者试图利用用机器学习技术解释和预测中国股票市场的预期收益。蒋福伟等。(2011) 研究了中国市场股票收益的可预测性投资组合和按公司行业、规模、账面市值比和股权集中度。陈卫华和徐国祥(2018)发现深度学习在预测沪深 300 指数方面的表现明显更好指数高于传统计量经济模型。李斌等。(2017, 2019) 实施机学习算法,例如支持向量机、神经网络和 Adaboost,分别用19个技术指标预测股价走势。他们发现机器学习算法预测构建的投资组合确实可以获得更好的投资回报。现有文献没有回答在多大程度上机器学习算法可以帮助预测中国人的横截面股票收益股票。探索这个问题有助于了解中国股市。
本文试图介绍机器学习方法来探索中国个股收益的可预测性。首先,我们构建了 108与股票异常相关的特征②预测横截面股票收益,基于1997年1月至2019年12月中国股票市场日收益交易数据。其次,我们比较了六种主流机器学习方法的性能,包括最小偏二乘回归、主成分回归、弹性网回归、随机森林、梯度提升树和神经网络模型,其中个体A股样本外可预测性的传统计量经济学模型股票。第三,我们分析了三种不同类别的股票异常的重要性:动量、流动性和波动性的横截面回报预测能力中国股票。最后,我们构建交易策略并探索机器的价值股票收益预测的学习。
本文的主要发现有以下三点
- 机器学习算法可以显着改善样本外预测结果传统的计量经济学模型。样本外预测2OLS 模型是 -0.35%,而样本外预测2在所有机器学习模型中都是正面的,并且预测效果在统计上显着优于OLS模型。最好的两个——层神经网络具有样本外预测2高达 0.76%。
- 交易机器学习算法构建的策略可以做出重大贡献经济表现。两层神经网络等权重(value-weighted)多空策略组合表现最佳。在样本外测试期间2010年1月至2019年12月,平均月收益率为3.03%(2.94%),其中每月波动。回报率为4.65%(6.88%),年化夏普比率为2.26(1.48)。经 FF5 因子模型调整后,显着的月度 Alpha 值为3.03 (2.95) 仍然可以得到。
- 中国股市的流动性指标对未来回报有最好的预测能力。其中,美元的变动交易量 (vdtv1)、股票换手率的变化 (vturn) 和换手率调整数零日交易量 (LM1) 排名前三,平均重要性为 7.00%,分别为 3.79% 和 3.30%。
本文的创新和贡献主要体现在以下几个方面三点:首先,我们构建了108个与中国股票相关的异常(因素)交易数据。
目前,已经在学术期刊上正式发表了对股票收益具有预测能力的特征数量多达 400+(Hou etal., 2019),但发现的大部分因素都基于美国股市。股票市场在中美两国在金融法上有很多共同点。然而,由于中国股市特殊的制度环境和发展阶段,必须有特殊性。因此,有必要进一步研究如何不同中国股市的因素。顾等人。(2019a) 发现与美股预测能力最强的是动量因子。在本文中,我们重构基于中国日常交易数据的美国经典文学异常.其次,我们比较了不同机器学习方法在预测中国个股的回报。研究表明,机器学习方法可以显着改善传统计量经济学的预测并获得对美国股市的股票收益问题有更好的预测。那么如何准确中国股市能否利用个股的历史数据来预测收益?能机器学习方法比传统计量经济学获得更好的样本外预测方法?哪种不同的机器学习方法表现更好?是否越多复杂模型预测更好?在这篇文章中,我们揭示了经济原则解释了机器学习方法如何改进传统的计量经济学方法。第三,我们构建交易策略,挖掘实际经济价值基于预测股票收益的机器学习方法。作为核心之一人工智能技术、机器学习技术将带来颠覆性对经济社会发展的影响。全世界都在不遗余力地大力推动人工智能技术在各行业的应用,中国政府也高度重视。
PDF原文
/wiki/static/upload/bd/bdba7108-a86f-4feb-a17b-c99f37bf11ce.pdf
\