`

Predicting the distributions of stock returns around the globe in the era of big data and learning

创建于 更新于

摘要

本报告提出了一种结合双阶段分位数神经网络与三次B样条插值的股票收益率全分布预测方法,基于194个股票特征及市场变量,突破传统模型限制,准确捕捉非高斯重尾及非线性关系,显著提升了均值与方差的预测性能。方法在美国数据训练并成功推广至国际市场,实证表明中间分位数被定价,且利用插值分布计算的均值预测带来更高的超额收益,而高阶矩在资产定价中的作用不显著,为资产定价文献的相关争议提供了新视角 [page::0][page::1][page::3][page::4][page::18][page::20][page::24][page::28]。

速读内容

  • 双阶段分位数神经网络架构 [page::8][page::9][page::11]:

- 第一阶段网络预测横截面标准化股价收益的37个分位数,输入包括176个股票特征及市场均值和波动率变量。
- 第二阶段网络利用横截面平均波动率及市场波动率子网调整并还原为原始股价收益分位数预测。

- 包含瓶颈层(4个节点)以捕捉分布超参数,采用Leaky ReLU激活,利用批量归一化、dropout和L1/L2正则化防止过拟合,训练时用分位数损失函数联合优化两个阶段输出。
  • 利用三次B样条插值估计收益率分布及其矩 [page::14][page::15]:

- 通过对37个分位数预测插值生成累积分布函数,求导获得概率密度函数。
- 解决尾部问题:用离散概率处理预测范围外的极端收益,避免高阶矩估计偏差。

  • 预测能力实证验证 [page::20][page::21][page::22]:

- 双阶段模型在所有区域和样本内均实现了显著优于GARCH及多种神经网络模型的分位数交叉样本预测损失。
- 通过数值积分得到的均值预测显著提高均值预测$R^{2}$,方差预测的MAD和RMSE指标也优于GARCH模型。
- 在较为流动的样本中,模型表现更佳且统计显著性更强。
  • 分布特征与资产定价关系 [page::23][page::24][page::25][page::26]:

- 基于预测分位数的长短头寸投资组合中,中间分位数对应的投资组合收益率及夏普率最高,尾部分位数无显著定价作用。
- 利用插值分布计算的均值构建的投资组合比直接预测均值带来更高超额收益,尤其在全样本中显著。
- 高阶矩(波动率、偏度、峰度)对应的长短头寸组合大多收益不显著,波动率与收益的负相关在流动样本中有弱证据,偏度关系非单调。
  • 量化特征与策略总结 [page::8][page::9][page::12][page::20][page::21]:

- 量化因子基于176个股票特征(含153异常指标)和18个波动率指标,结合市场层面变量,输入两阶段网络。
- 预测分位数为37个细分点,从极端尾部到中心,联合训练保证单调性且提升效率。
- 训练策略采取Adam优化器,使用分位数损失函数联合衡量标准化和原始收益回归误差,应用早停和模型集合增强鲁棒性。

深度阅读

金融研究报告详尽分析报告



报告标题:Predicting the distributions of stock returns around the globe in the era of big data and learning
作者:Jozef Baruník, Martin Hronec, Ondřej Tobek
发布机构:Charles University(查尔斯大学)、Czech Academy of Sciences(捷克科学院)、UBS Quant Hub(瑞银量化中心)
发布日期:2024年8月15日
研究主题:全球股票收益率分布预测,结合大数据和机器学习技术,涵盖美国及国际股票市场

---

1. 元数据与报告概览



本报告提出一种创新的机器学习方法,利用194个股票特征和市场变量,预测股票收益率的完整分布函数。采用双阶段分位数神经网络并结合样条插值技术,突破传统模型对收益率分布的正态性及线性假设限制,捕捉非高斯、厚尾及非线性特征。报告核心结论指出,该方法在多种区域和样本中均显示出优越的预测性能,且所得分布的统计矩——包括均值、波动率、偏度和峰度——对于资产定价和风险管理具有实际应用价值。此外,研究揭示了交叉截面股票收益与分布特征的关系,特别是中间分位数在收益定价中的重要性,而高阶矩如偏度和峰度的定价证据较弱。此研究填补了基于分布的股票收益预测模型在国际背景下的应用空白。[page::0,1,2]

---

2. 逐节深度解读



2.1 摘要和引言(Abstract & Introduction)



报告首次强调,虽然股票收益的均值和方差具有一定可预测性,但其高阶分布信息对于非传统经济主体(拥有不对称效用函数、前景理论等)至关重要。传统方法多依赖受限的分布假设和参数模型,难以充分反映厚尾、非线性及高维特征的问题。作者借助机器学习的强大能力,设计了双阶段分位数神经网络模型,捕获股票特征和市场变量的复杂非线性交互作用,实现全天候、跨市场的分布预测。模型首先预测标准化收益率的多分位点,再使用市场波动率子网调整回原尺度,实现对原始收益分布的精确拟合。[page::0,1]

2.2 研究贡献与方法论



报告贡献显著:
  • 方法创新:双阶段分位数神经网络联动样条插值,预测密集分布函数,并通过数值积分提取完整分布矩,不仅精确且富含信息;

- 跨市场验证:模型训练仅用美国数据,成功推广到国际市场,验证了其稳健性和普适性;
  • 分布特征资产定价:系统研究了各分位数及分布矩对交叉截面股票收益的解释力,发现中间分位数定价显著,高阶矩定价表现模糊,解决了前人学术争议;

- 实证案例:以苹果公司为例,展示22天收益率分布动动态演化的精准捕捉,强调模型不受参数假设约束,且能捕获极端概率(离散概率质量)如收益为-100%的概率。[page::1,2,3]

2.3 网络架构与训练策略(Section 2)


  • 两阶段架构:第一阶段预测标准化收益率的分位数,多输入特征包括176个股票异常指标+18个个股波动率估计及5个市场均值变量;第二阶段引入市场波动率网络进一步调整分位数,模型输出原始收益率的37个分位数(从极左尾0.00005至极右尾0.99995);

- 数据标准化设计:选择用横截面均值波动率来标准化个股收益,抑制噪声,避免过拟合及低频波动干扰;
  • 损失函数设计:联合考虑标准化和未标准化收益,使用多分位数损失函数(Quantile Loss),平衡各分位数和大、小股票在训练中的权重,优秀地保证了分位数的单调递增,无需额外约束;

- 训练技术细节:采用Adam优化器,批次8192,主动正则化(L1、L2惩罚)、批归一化和Dropout(0.2)防止过拟合,搭配20个模型集成进一步提升稳健性;
  • 瓶颈层设计:隐含层中加入仅4节点的瓶颈层,设计类似自编码器,压缩表示捕获分布超参数,有助于有效编码分位信息。[page::8,9,10,11,12,13]


2.4 分布函数构建与矩估计(Section 2.3)


  • 由于股票收益存在厚尾、非对称的特点,难以用简单参数分布准确建模,采用三次B样条插值对37个分位数数据点插值,生成精细的累积分布函数(CDF)和概率密度函数(PDF);

- 插值生成100个点密集网格,提高统计矩(均值、方差、偏度、峰度)估算准确度;
  • 极端分位数外部区域用离散概率处理(如收益为-100%区间),防止尾部估计缺失导致的矩估计偏差;

- 针对估计偏差,采用数值积分计算非中心矩,并用模拟的非中心t分布进行后续线性调整,提升高阶矩估计的准确度和稳定性;
  • 通过实际案例展示微软在金融危机时的厚尾特征,密度曲线明显偏离高斯分布。[page::14,15,59,60]


---

3. 图表深度解读



3.1 图1 — 苹果股票22天收益分布随着时间的动态演化(page 3)





该三维图表示苹果股票22天后的收益率的概率密度的时间序列演变,x轴为时间,y轴为收益率,z轴为概率密度。随时间推移,收益率分布呈现明显波动,风险水平和分布形状动态变化,模型捕捉厚尾和收益率为-1附近的离散概率质量,反映极端风险事件出现的概率。此图表直观说明模型能够捕获股票收益的非对称及厚尾特性,超越了传统假定(如正态分布在尾部的无能)[page::3]

3.2 图3 — 微软22天收益的累积分布函数与概率密度函数(page 15)





左图为插值获得的累积分布函数,标记点为原始37个分位数估计点。右图为对应概率密度,表现为学生t分布型,展示了厚尾特征。该图示范了用B样条插值法生成连续CDF及PDF的过程,展示了模型预测的准确性及捕捉市场异常的能力,具备灵活重构分布的能力[page::15]

3.3 图4 — 美国市场股票预测矩(均值、标准差、偏度、峰度)直方图分布(page 19)





柱状图分别展示了液态样本与全样本内股票的4个分布矩。整体均值约为0,液态样本均值略高;全样本波动率、偏度和峰度比液态样本更大,表明包含更多微型股导致分布厚尾及偏态加剧。这与金融理论一致,微型股通常风险更高,表现为更大波动率和非对称性。该图支持了模型区分不同股票特性和风险状况的能力。[page::19]

3.4 图2 — 两阶段神经网络架构示意图(page 11)





该图直观展现了两阶段网络结构:上方第一阶段为标准化分位数子网,输入176个个股特征 + 5个市场均值变量,两个128神经元隐藏层及瓶颈层;下方第二阶段市场波动率子网,输入18个横截面波动率特征,两个隐藏层,输出市场波动率缩放系数。两阶段先预测标准化分位数,再乘以股票横截面波动率和市场波动率调整,恢复至原始尺度。模型输出37个分位数,捕获不同分布区段的行为。[page::11]

3.5 图C1 — 横截面平均波动率时序演变(page 47)





显示了美国样本中股票横截面波动率的时间序列波动,重要事件期间(如2008年金融危机)波动率显著上升。该指标作为模型标准化步骤的关键缩放因子,有效剔除了市场宽积波动影响,提高分位数预测的稳定性。[page::47]

3.6 图D1 — 训练-验证-测试数据分割示意(page 55)





展示了整个数据划分过程,1973-1989年用于初次训练,给予1990-1994年用于超参数优化验证,之后1995-2018年滚动滑动重训练进行正式测试。所有模型均用美国数据训练,国际样本全为外样本。模型输出为每日/每月重叠样本,提升训练数据点数量。[page::55]

3.7 图E1 — 零收益概率质量密集密度示例(page 56)





以Idenix Pharmaceuticals为例,显示当股票进入退市临界阶段时,收益概率密度函数在0处形成巨大尖峰,即显著离散概率质量,常见于流动性极差或特殊事件驱动股票。该图反映模型通过线性B样条法自动回退策略处理异常流动性风险,提升估计稳健性。[page::56]

---

4. 估值分析



报告并无对单一公司或资产进行估值的传统内容,但从方法论角度细致介绍了:
  • 分布预测通过量化分位数抽样及样条插值,非参数灵活建模(非标准DCF、市盈率等估值方法);

- 基于预测分布计算的多阶矩,作为风险和收益估计的重要输入,潜在用于资产定价模型的因子构造和风险调整;
  • 分布预测优于传统基于均值-方差的模型,尤其在尾部风险管理如VAR、CVaR的估计上具优势。

可见其估值策略着眼于基于精确分布特征赋能资产定价而非单纯价格目标预测。[page::14,15,28]

---

5. 风险因素评估



报告识别以下关键风险及其潜在冲击:
  • 样本外推广风险:训练模型仅使用美股数据,尽管在全球市场外样本上表现良好,但部分地区和微型股数据稀缺可能导致模型泛化能力有限;

- 尾部概率估计偏差:极端分位数估计难,采用截断与离散概率处理,有潜在估计偏误,需关注高阶矩偏差调整效果;
  • 数据预处理及缺失值填充:通过市场中位数填补缺失指标,可能带来系统偏倚,尤其对低流动性股票影响更大;

- 模型更新事件依赖性:历史大事件(如次贷危机、科技泡沫)对模型权重影响较大,依赖于持续细致的模型微调;
  • 流动性与交易中断对预测的影响:如辅助图E1所示,微型股交易异常导致收益分布形成离散块,模型需备份策略抵御此类风险。

总体来看,报告强调通过宽数据覆盖和强正则化降低以上风险,但仍提示后续模型迭代需加强对极端市场环境的应对。[page::3,14,56]

---

6. 批判性视角与细微差别


  • 分布预测依赖标准化假设:模型核心以横截面均值波动率为归一化因子,忽视极端系统性波动可能破坏此假设的准确性;

- 尾部概率离散处理策略简化:采用截断与离散概率估计尾部分布,效果虽合理但欠缺理论严谨,或影响极端风险资产定价的精度;
  • 高阶矩定价结论存在争议:报告否认偏度和峰度的显著定价效应,与若干经典文献不符,或因数据覆盖、样本尺寸和估计方法差异导致,需要谨慎解读和后续验证;

- 模型架构复杂度与可解释性权衡:双阶段网络和瓶颈层结构提升性能,却降低模型可解释性,未来研究或需要加强解释工具发展;
  • 训练基于累积历史数据,时效性可能受限:模型虽采用滚动滑动窗口,但对市场结构快速变化(如疫情冲击)适应性尚待检验。


以上观点均基于报告内容及其暗示,力求客观分析而非主观批判。[page::8,9,14,27,28]

---

7. 结论性综合



本报告突破传统参数分布假设,创新地通过双阶段分位数神经网络结合B样条插值技术,准确预测股票收益的完整分布,丰富资产定价变量体系,提升了均值及波动率预测的准确性。实证分析涵盖美国及国际多市场股票,数据覆盖时间跨度长且样本丰富,证明模型具有高度泛化能力。模型能灵活应对非线性、高维数据和厚尾分布,弥补传统模型伤害。

图形展示了模型如何动态捕捉个股(如苹果、微软)薄尾或厚尾收益特征、风险变化。预测矩的统计分布呈现了微型股的特征差异,进一步验证了模型在捕获市场异质性上的有效性。量化评估表明,该模型显著优于线性及传统非线性神经网络,表现突出,尤其在平均分及方差的分布估计中。资产定价实证揭示分布中间分位数定价感应显著,且基于模型分布积分的均值得分明显优于直接均值预测,但偏度与峰度等高阶矩未表现出稳健定价效应。

综上,该研究为大数据及机器学习环境下股票分布预测开辟了新路径,不仅丰富了资产定价理论工具箱,也为投资决策、风险控制提供了强大支持。未来研究可进一步提升极端值估计、跨市场模型适应及模型解释性,以促进学术与实务界深度融合。[page::28,29]

---

总结要点


  • 创新应用双阶段量化神经网络架构,结合样条插值,提出无参数假设的股票收益率分布预测模型。

- 数据覆盖丰富且全球范围内验证,通过横截面及时间序列联合学习,实现强泛化能力。
  • 分布矩的数值积分解决长尾估计难题,经过校正提高偏度峰度等高阶统计量准确性。

- 实证显著优于线性和传统神经网络及GARCH模型,提升均值方差预测权威性。
  • 资产定价实证证实收益分布中间分位数重要性,质疑高阶矩在股票收益定价中作用。

- 方法适合风险管理、VaR等应用,对极端收益的概率分布预测提供精细量化支持。
  • 存在尾部分布估计简化假设,模型可解释性与时效性可进一步研究改进空间。


以上详尽分析,力求完整覆盖报告重点、数据与图表解释、方法论以及批判性视角,为金融学者及实务者提供专业参考依据。[page::0-60]

报告