通过机器学习的经验资产定价(NBER-25398)
由crisvalentine创建,最终由crisvalentine 被浏览 53 用户
NBER工作论文第25398号,2018年12月,2019年9月修订
Shihao Gu 芝加哥大学布斯商学院
Bryan T. Kelly
耶鲁大学; AQR资本管理有限责任公司;美国国家经济研究局 (NBER)
Dacheng Xiu 芝加哥大学布斯商学院
摘要
我们对机器学习方法的典型问题进行了比较分析经验资产定价:衡量资产风险溢价。我们展示了巨大的经济收益投资者使用机器学习预测,在某些情况下将领先的业绩翻倍文献中基于回归的策略。我们确定性能最佳的方法(树和神经网络)并追踪它们的预测增益以允许非线性预测器其他方法错过的交互。所有方法都同意同一组显性预测信号,包括动量、流动性和波动性的变化。改进通过机器学习的风险溢价测量简化了对经济的调查资产定价机制,突出机器学习在金融创新中的价值。
简介
在本文中,我们对金融机器学习方法进行了比较分析。我们的确是因此,在可能是金融领域研究最广泛的问题的背景下,衡量股权的问题风险溢价。
主要贡献
我们的主要贡献有两个方面。
首先,我们为预测提供了一组新的基准机器学习方法在衡量总体市场和指数风险溢价方面的准确性虚拟股票。这种准确性总结为两种方式。第一个是高样本外预测R 2相对于在各种机器学习规范中稳健的先前文献。其次,更重要的是,我们向使用机器的投资者展示了巨大的经济收益学习预测。用神经网络预测乘以标准普尔 500 指数的投资组合策略年化样本外夏普比率为 0.77,而买入并持有的夏普比率为 0.51投资者。以及基于股票持仓的价值加权多空十分位点差策略-水平神经网络预测的年化样本外夏普比率为 1.35,超过使文献中基于回归的领先策略的性能翻倍。回报预测具有经济意义。资产定价的基本目标是了解风险溢价的行为。1如果完全观察到预期收益,我们仍然会需要理论来解释他们的行为和实证分析来检验这些理论。但风险溢价是出了名的难以衡量——市场效率迫使回报变化由掩盖风险溢价的不可预测的消息。我们的研究突出了可以实现的收益在预测中并确定信息量最大的预测变量。这有助于解决问题风险溢价计量的 lem,然后促进对经济的更可靠的调查资产定价机制。
其次,我们将实证资产定价文献与机器学习领域相结合。相对于资产定价的传统经验方法,机器学习适应了很远更广泛的潜在预测变量列表和更丰富的函数形式规范。这是这种灵活性使我们能够推动风险溢价计量的前沿。对机器感兴趣金融学习方法在学术界和工业界都得到了极大的发展。本文提供了应用于两个典型问题的机器学习方法的比较概述经验资产定价:预测横截面和时间序列的回报。我们的观点是研究人员了解机器学习在资产定价领域的有用性的最佳方式是在熟悉的经验问题中应用和比较其每种方法的性能。
什么是机器学习
“机器学习”的定义尚不成熟,而且通常是特定于上下文的。我们用这个词来描述 (i) 用于统计预测的多种高维模型集合,并结合(ii) 用于模型选择和缓解过拟合的所谓“正则化”方法,以及 (iii) 高效用于在大量潜在模型规范中进行搜索的算法。机器学习方法的高维性质(本定义的元素 (i))增强了它们相对于更传统的计量经济学预测技术的灵活性。这种灵活性带来希望更好地逼近潜在的未知和可能复杂的数据生成过程股权风险溢价。然而,随着灵活性的增强,过拟合的倾向也会增加数据。我们机器学习定义的元素 (ii) 描述了实现中的改进强调稳定的样本外性能以明确防止过度拟合。最后,与许多预测变量,彻底遍历和比较所有模型排列变得不可行。元素 (iii) 描述了旨在逼近最佳规格的巧妙机器学习工具具有可管理的计算成本。
机器学习应用资产定价的原因
实证资产定价的许多方面使它成为一个特别有吸引力的分析领域机器学习方法。
- 两个主要的研究议程垄断了现代实证资产定价研究。这首先试图描述和理解不同资产的预期回报的差异。第二关注总体市场股权风险溢价的动态。资产风险的计量溢价本质上是一个预测问题——风险溢价是条件期望未来实现的超额收益。机器学习,其方法主要用于因此,预测任务非常适合风险溢价测量问题。
- 风险溢价的候选条件变量集合很大。行业积累了令人震惊的预测因素列表,各种研究人员认为这些预测因素具有预测能力-获得回报的权力。文献中报告的股票水平预测特征的数量数百个数字和总市场数量的宏观经济预测指标许多。2此外,预测变量通常是近亲并且高度相关。传统预测当预测值接近观察值或预测值时,方法会失效是高度相关的。强调变量选择和降维技术,通过减少自由度,机器学习非常适合解决此类具有挑战性的预测问题。dom 和压缩预测变量之间的冗余变化。
- 进一步复杂化的问题是关于功能形式的模糊性,通过这些形式高维预测器集进入风险溢价。他们应该线性进入吗?如果非线性需要,他们应该采取什么形式?我们必须考虑预测变量之间的相互作用吗?这样的问题迅速增加了潜在的模型规范集。理论文献提供几乎没有关于筛选条件变量和函数形式列表的指导。三方面机器学习的优势使其非常适合处理功能形式不明确的问题。第一个是它的多样性。作为一套不同的方法,它在其规范搜索中投入了广泛的网络。二、与方法范围从广义线性模型到回归树和神经网络,机器学习被明确设计为近似复杂的非线性关联。三、参数惩罚和保守模型选择标准补充了功能形式的广度通过这些方法跨越,以避免过度拟合偏差和错误发现。
正文
/wiki/static/upload/eb/ebc2419e-fb87-4d08-a942-a35db9e70108.pdf
\