`

Assessing Uncertainty in Stock Returns: A Gaussian Mixture Distribution-Based Method

创建于 更新于

摘要

本研究提出基于高斯混合分布的深度学习模型,通过融合Transformer变体网络结构与股票代码嵌入技术,动态预测股票收益率的潜在分布,精准捕捉波动率的复杂非线性特征和非传统分布形态。相比传统GARCH模型,新方法在波动率预测和风险评估方面表现更优,实证覆盖3226支中国A股,结合t-SNE可视化揭示股票间不确定性相似性,为投资组合管理和风险缓释提供了创新视角和工具 [page::0][page::3][page::4][page::13][page::19]。

速读内容

  • 研报核心模型设计和数据来源 [page::3][page::4]


- 面向中国A股市场(2018-2022年),涵盖3226支股票,使用10个技术指标及5分钟高频数据计算日内真实波动率(RRV)作为实际波动率代理。
- 融合Crossformer时间序列处理模块与股票代码嵌入(基于Bag-of-Words),形成统一的深度学习框架MDNe,输出9分量高斯混合分布参数:权重$wi$,均值$\mui$,方差$\sigma_i$。
  • 高斯混合分布的特点与优势 [page::6][page::7]


- 利用多分量正态分布叠加表达收益分布,实现对非对称、双峰及多峰等复杂形态的拟合,有效模拟市场波动非传统特征。
- 市场极端事件(如COVID-19疫情)期表现出明显的非单峰分布特征,传统单一分布模型难以捕捉。
  • 模型结构详述 [page::9]


- Crossformer处理时序指标,Code Embedding映射股票代码为连续向量,二者通过Fusion Net融合并由最大似然估计训练,损失函数为负对数似然。
- 深度学习能力增强非线性特征捕捉与多资产间区分能力,显著优于传统统计模型。
  • 股票代码嵌入及t-SNE可视化 [page::10][page::11][page::17]



- 采用Bag-of-Words方法对股票代码进行离散索引并嵌入高维向量,经t-SNE降维映射二维空间,呈现不同股票间的风险特征相似性聚类。
- 颜色编码显示基于60日波动率、换手率和偏离率等指标的相对排名,辅助直观理解股票群体风险属性和关联结构。
  • 模型表现及对比分析 [page::13][page::14][page::15][page::16]



| 模型 | CRPS(%) | MSE | QLIKE |
|----------|---------|--------|--------|
| MDNe | 1.4683 | 0.7233 | 1.8501 |
| MDN | 1.4701 | 0.7526 | 1.8553 |
| GARCH | 1.4856 | 0.8942 | 1.8657 |
| GJR-GARCH| 1.4862 | 0.8539 | 1.8661 |
| APARCH | 1.4881 | 1.1537 | 1.8664 |
| TARCH | 1.4865 | 0.8896 | 1.8650 |

- MDNe模型在CRPS、MSE和QLIKE三个指标均优于无代码嵌入的MDN及各类GARCH变体,在高低波动环境下均表现稳定,尤其在捕获高波动期异常值时优势显著。
- Diebold-Mariano统计检验表明MDNe对比其它模型的预测精度差异显著,模型稳定性及一致性均得以验证。
  • 鲁棒性测试 [page::18]


- 对MDN与MDNe模型重复训练30次,统计CRPS分布,MDNe模型显示更低中值和更窄的分布,表现出更强预测一致性与稳定性。
  • 量化因子构建与策略相关内容

- 本文未直接设计具体量化投资因子或生成交易策略,但通过融合股票代码嵌入与高斯混合分布预测模型,刻画了市场风险波动的潜在概率分布,为后续量化策略设计提供了更为丰富的风险度量参数和个股不确定性特征 [page::3][page::10][page::16][page::19]。

深度阅读

金融研究报告详尽分析:基于高斯混合分布的股票收益不确定性评估方法



---

一、元数据与概览


  • 报告标题:Assessing Uncertainty in Stock Returns: A Gaussian Mixture Distribution-Based Method

- 作者与机构:YANLONG WANG, JIAN XU, SHAO-LUN HUANG, XIAO-PING ZHANG(清华大学,中国),DANNY DONGNING SUN(鹏城实验室,中国)
  • 发布日期:报告内容未明确标注具体发表日期,但分析涵盖2018-2022年的股票数据,且引用文献至2024年,推断为近期研究。

- 研究主题:提出一种基于深度学习与高斯混合分布的新型方法,评估中国股市股票收益的波动率不确定性,改善市场风险预测与资产管理。

核心论断
本报告创新性地将Transformer变体(Crossformer)与高斯混合密度网络(MDN)结合,利用股票代码嵌入(Code Embedding)技术,动态预测股票收益的混合概率分布,从而更准确地刻画非传统波动特征(如偏度与厚尾)。该方法较GARCH及其衍生模型在波动估计上表现更优,能有效应对极端市场波动,增强风险测度与组合管理实用价值。[page::0]

---

二、逐节深度解读



1. 引言(第2页)


  • 关键论点

- 准确预测股票收益及其不确定性是金融风险管理和投资决策的核心难题。
- 传统方法如GARCH模型虽能有效捕捉时间序列中波动聚集现象,但基于强假设,难以处理多资产、高维及复杂非线性关系。
- 深度学习,尤其是Transformer架构,具备学习复杂非线性关系及序列数据特征的潜力,因此成为预测股票收益及不确定性的有力工具。
- 传统单一分布(正态、t分布)难以充分刻画收益的复杂动态分布,提议使用高斯混合分布突破此限制。[page::2]
  • 逻辑与证据

- 文献回顾了价格波动与信息流关系,强调信息逐步到达及市场对信息反应的复杂过程。
- 多篇模型和研究都表明混合分布假说能更好地捕获资产价格的非正态特征。
- 深度学习模型优于传统统计模型的相关实证研究被引用为支撑。

2. 数据集与方法(第4-11页)



2.1 数据来源与处理


  • 收集中国A股主板2018-2022年期间3226只符合稳定上市要求的股票数据,包含日开收高低价、成交量及多条技术指标。

- 指标详见表1,如60日收盘价排名(RANK60)、价格变化率(BETA5、BETA20)、成交量均值(VMA5)等,提取价格与交易量的交叉动态信息。
  • 波动率采用5分钟高低价计算的实现范围波动率(RRV),其统计学合理性由文献支持,作为实际波动的代理指标。

- 数据处理采取1%和99%分位数截断异常值,缺失值采用零填充或前值填充,指标进行跨截面Z-score标准化,增强横截面数据间比较性。[page::4-6]

2.2 高斯混合分布模型


  • 单一正态或t分布无法充分表达股票收益的偏度、多峰与厚尾等动态形态,采用多组分的高斯混合模型,参数包括每组分的均值$\mu{i,t}$,方差$\sigma{i,t}^2$及权重$w{i,t}$,权重和为1。

- 基于最大似然估计优化,各时间步$t$得一个混合分布函数$\mathrm{Q}
t(x_t)$,能覆盖单峰、多峰,及偏斜形态。
  • 方差计算公式揭示了混合分布波动度的统计性质,强调了该方法对非传统分布波动的刻画能力。

- 图2中展示五个混合高斯形态实例,直观表现分布形状多样性。
  • 该分布模型能够灵活刻画信息密集或市场动荡期的复杂收益分布特征,提升波动率的描述和预测能力。[page::6-7]


2.3 神经网络结构(MDNe模型)


  • 采用Crossformer架构,Transformer的变体,深度捕捉时间序列指标的时空依赖。

- 股票代码通过“Bag-of-Words”方法编码,映射到向量空间(Code Embedding),使模型区分不同资产的特征。
  • Crossformer输出与股票嵌入向量融合,经过多层全连接和规范化处理,预测高斯混合分布的参数(三组分权重、均值和标准差的向量)。

- 训练目标为最大似然估计,负对数似然损失函数保障对实际收益的预测概率最大化,参数通过梯度下降优化。
  • 代码嵌入促进模型利用个股信息,提升预测准确性,配合t-SNE降维实现资产风险特征的二维可视化。

- 模型采用9个混合分布组分,确保表达丰富的收益分布形态。[page::8-10]

2.4 评估指标


  • 使用RRV作为波动率近似标杆,同时采用MSE和QLIKE衡量预测波动与真实波动的偏差:

- MSE重视误差平方,QLIKE对偏差比例更敏感,尤其惩罚极端低估或高估。
  • CRPS指标用于整体分布预测精度评估,无需依赖真实波动代理,测量预测分布累积分布函数与实际观测间的差异,越小越优。

- CRPS计算通过蒙特卡洛采样实现,充分考虑分布不确定性。
  • 指标的选择全面覆盖预测值精确度和分布形态逼真度,具备较强实践解释力。[page::11-12]


3. 实证结果(第12-17页)



3.1 实验设置


  • 对比模型包括包含代码嵌入的MDNe,和不含代码嵌入的MDN,以及标准的GARCH、GJR-GARCH、APARCH和TARCH模型,所有GARCH模型均简化为p=q=1的单变量情形,方便对比。

- 深度学习模型采用统一网络结构,跨全样本训练,体现泛化能力;GARCH模型分股票单独训练,难以跨资产泛用。
  • 以2018-2020年训练,2021-2022年测试验证,涵盖3226股票,确保数据广度与结果稳健。

- 图5显示四股票波动率预测曲线,深度学习模型的预测曲线更贴合RRV指标,尤其在捕捉短期波动尖峰方面明显优于GARCH系列,体现其对波动的灵敏捕捉能力。[page::12-14]

3.2 预测性能对比


  • 表2详列模型在不同波动分位点(10%,20%,50%,80%,90%)的预测性能指标(CRPS,MSE,QLIKE):

- MDNe模型在所有指标和区间中表现最优,数值最低,说明其预测的整体分布和波动水平更为准确。
- MDN虽然较GARCH模型优越,尤其在低波动分位点表现突出,但总体落后于含代码嵌入的MDNe。
- GARCH系列模型表现相似,预测准确性明显低于混合密度网络,尤其在高波动期间误差显著。
  • DM检验结果(表3)表明MDNe模型在MSE和QLIKE指标上显著优于其他模型(正向t统计量均大于临界值,显著性水平1%),与MDN对比亦存在明显优势,反映代码嵌入提升了模型捕捉个股特征能力。[page::15-16]


3.3 不确定性相似性分析


  • 利用代码嵌入生成的高维股票特征向量,结合t-SNE降维方法,实现在二维空间中展示股票间的不确定性相似性。

- 图6通过不同颜色编码(如60天收益标准差、换手率、偏差率)展示股票聚类分布,结果显示相似风险属性股票在向量空间中聚合,凸显模型能识别风险共同体。
  • 此方法为资产间风险关系分析及组合优化提供新颖视角,通过映射风险特征距离辅助投资者识别风险相关性和潜在传染路径。[page::17]


4. 鲁棒性分析(第18页)


  • 对MDN与MDNe模型分别进行了30次独立训练的CRPS分布检验,剖析模型稳定性。

- MDNe的CRPS值分布更集中、中位值更低,表明其预测更稳定,一致性更佳。
  • MDN模型虽同属深度学习框架,但表现出较大波动性,暗示代码嵌入及融合模块对降低训练波动性有积极作用。

- GARCH模型未进行此项评估,因结构简洁,参数固定,预测结果波动较小。
  • 鲁棒性优异的MDNe模型在实际金融风险预测场景中具备更高适用价值。[page::18]


5. 结论(第19页)


  • 本文提出的基于深度学习与高斯混合分布的模型有效突破传统GARCH模型的限制,准确预测复杂非线性波动,尤其在波动剧烈变动期间表现优异。

- 结合代码嵌入与t-SNE可视化揭示了股票间风险相似性,对于资产组合风险识别和投资策略制定具有重要价值。
  • 未来研究可融合更多宏观经济变量,优化深度学习架构并探索更高效的训练方案,以进一步提升预测精度与模型解释力。

- 该研究方法为金融市场风险建模和资产收益不确定性评估开创新路径,具备较强的理论价值和实务指导意义。[page::19]

---

三、图表深度解读



图1 — 总体流程示意 (第3页)


  • 三大模块:数据采集和指标生成、模型设计(Crossformer处理时间序列指标,代码嵌入处理股票代码,融合网络生成高斯混合分布参数)、分析与评估(混合分布绘制,聚类分析,指标评估MSE、QLIKE、CRPS)。

- 显示整个数据流和模型设计的逻辑关系,体现多数据源融合与深度学习架构的设计思路。
  • 支撑了报告中强调的多维指标输入和多模态特征融合论点。[page::3]


---

表1 — 技术指标汇总(第5页)


  • 涵盖60日收盘价排名(RANK60)、5日及20日价格变化率(BETA5/BETA20)、涨跌天数差异(CNTD60)、5/10日最低价比近收盘价(MIN5/MIN10)、基于开盘价的波动幅度(KLEN)、5日价格标准差(STD5)、5日/10日成交量均值及波动率(VMA5/VSTD10)。

- 指标混合捕捉价格趋势、波动、成交量变化,跨时间窗口和横截面,充分反映市场信息流与价格互动。
  • 这些指标作为深度模型输入,提高模型捕捉股票特征与动态的能力。[page::5]


---

图2 — 不同高斯混合分布例示(第7页)


  • 演示正常分布、偏斜分布、双峰和多峰分布的混合高斯模型表现,边缘和单峰模型难以刻画的异态形态用混合多个正态分布解释。

- 为报告提出采用混合分布模型的合理性提供直观演示,体现该模型在描绘复杂收益分布上的优势。
  • 支持文本中关于波动异常阶段如疫情期间市场表现的非传统分布形态描述。[page::7]


---

图3 — 网络结构示意(第9页)


  • 展示Crossformer和代码嵌入模块的构成:DSW嵌入、交叉时序层、嵌入层和降维模块;并将其输出融合,预测混合分布权重、均值和标准差。

- 形象地展现了数据流转、特征融合与输出端概率分布构造流程。
  • 突出该深度学习模型的多输入协同及概率模型输出的创新点。[page::9]


---

图4 — 股票代码嵌入流程(第11页)


  • 将股票代码转换为整数索引,经嵌入层映射至连续向量空间,随后维度降至2D以便可视化。

- 明确解释了如何将股票符号化为向量,揭示模型捕捉个股特征的技术手段。
  • 支撑后续用t-SNE进行股票不确定性聚类分析的技术背景。[page::11]


---

图5 — 部分样本波动率对比(第14页)


  • 4支股票期内RRV指标(绿线)与MDNe、MDN(蓝、黄)、及4个GARCH类模型预测波动曲线比较。

- MDNe和MDN明显更贴合RRV反映的实际波动,尤其高频波动捕捉更敏感。
  • 说明深度混合密度网络对极端波动事件的适应性和精准度优于传统GARCH模型。

- 该图佐证后续表格定量评估结果的直观影响力。[page::14]

---

表2 — 模型波动率预测指标(第15页)


  • 全样本及不同波动率分位点的CRPS、MSE、QLIKE数值展示。

- MDNe均为最优,所有分位表现均超越MDN及全部GARCH类模型,尤其高波动区间优势明显。
  • 体现了代码嵌入对个股特征提取的贡献,及深度学习对多模态复杂信息的解释力。

- 体现波动剧烈时期深度模型的稳定性与准确性。[page::15]

---

表3 — Diebold-Mariano预测误差对比(第16页)


  • DM检验MSE和QLIKE损失下各模型预测准确性的统计显著性检测。

- MDNe相较MDN及所有GARCH模型均显示显著优势($p<0.01$)。
  • 说明MDNe具有在整体统计意义下预测更准确、更优越的模型稳定性和泛化能力。

- GARCH模型内部表现不一,TARCH略优于其他GARCH,但均远不及混合神经网络模型。[page::16]

---

图6 — 股票风险相似度散点图(第17页)


  • 通过t-SNE降维的代码嵌入向量空间中,股票按照60天收益波动、换手率和偏差率渲染颜色。

- 可见具有类似风险属性股票在二维空间聚类,旁证股票间潜在风险模式的共性。
  • 对实际资产管理提供辅助判别风险群组和分散投资的直观工具。

- 该图有效支持了模型风险理解和映射能力的结论。[page::17]

---

图7 — MDN与MDNe模型CRPS分布(第18页)


  • 30次训练结果的CRPS小提琴图展示MDNe分布更窄且中位数更小,预示更稳定、精准。

- 该图体现深度网络代码嵌入带来的稳定性提升,表明训练过程中的随机因素影响减弱。
  • 进一步佐证MDNe模型在现实金融应用上的健壮性与可靠性。[page::18]


---

四、估值分析



本报告未涉及传统意义上的估值分析或目标价格预测,侧重点在于股票收益不确定性与波动率的预测技术与方法论创新,焦点是波动率模型的精度提升和风险聚类。

---

五、风险因素评估



报告未特别列出风险因素列表,但部分可隐含风险包括:
  • 真实收益分布难以观测,模型基于代理指标(RRV)与蒙特卡洛模拟,可能导致近似误差。

- 深度学习模型复杂度高,训练过程受初始权重和数据波动影响大,需要鲁棒性验证。
  • 模型假设高斯混合分布适用于所有股票,特殊市场极端状态下分布可能出现偏离。

- 代码嵌入虽有效但对股票标识敏感,市场结构大变时需调整。

报告通过CRPS指标和多训练轮稳健性实验,部分缓解了以上风险。[page::11,18]

---

六、批判性视角与细微差别


  • 报告深度依赖高斯混合模型,可能在极端尾部风险捕捉方面仍有限,未完全考虑极端分布的非高斯性质。

- 训练过程统一整合所有股票,模型较少提及对行业、规模、流动性差异分层处理,潜在模型偏差风险未显著讨论。
  • GARCH模型作为对照组被简化至p=q=1,虽然方便对比,但较复杂GARCH形式可能表现更优。

- 实际应用中高斯混合分布参数数量(n=9)选取过程缺乏敏感性分析或自动调优说明。
  • 缺少对宏观经济变量引入的尝试,模型主要依赖技术指标,可能限制了对系统性风险波动的响应。

- 对于CRPS计算采用蒙特卡洛方法,虽然可行,计算成本高且可能存在数值误差,报告未详述可能影响。
  • 代码嵌入的Bag-of-Words方法对股票代码本质是符号化,未来可尝试结合基本面或行业属性优化嵌入表现。


这些细微讨论对未来改进路径提出思考。[page::10,18]

---

七、结论性综合



本报告提出了一种创新的深度学习框架MDNe,通过融合时间序列Transformer(Crossformer)和股票代码嵌入,预测股票收益基于高斯混合分布的动态风险特征,显著优于传统GARCH及其变种模型。具体结论包括:
  • 数据与模型创新:采用丰富的技术指标及实现波动率(RRV)作为训练数据与评价指标,算法通过最大似然估计精确拟合高斯混合分布,提升了对波动率和收益分布的描述能力。

- 模型表现:MDNe在CRPS、MSE、QLIKE三项关键指标均取得最低误差,特别在高波动市场阶段捕捉能力优异,且通过DM检验证实其统计学显著优势。
  • 风险识别与聚类:股票代码嵌入加上t-SNE降维可视化施工,展示了股票间基于收益不确定性的风险相似群体,为投资者提供了有效资产配置与风险分散参考。

- 鲁棒性:多次训练验证显示MDNe模型的预测准确性和一致性超越无嵌入模型(MDN),体现其训练过程稳定性。
  • 实践价值与未来方向:该方法为市场波动率预测和资产风险管理提供了先进技术路线,未来可集成宏观因素,优化网络结构,提高计算效率,实现更广泛金融市场应用。


综合来看,本报告不仅贡献了一套具有优越性能的金融风险预测模型,也为金融机器学习领域在非线性波动建模、多资产风险分析方面提供了重要参考和创新工具,具有较高的理论和实务指导意义。[page::0,3,6,9,12-19]

---

附:引用关键图片(Markdown格式)



图1 总体流程图


图2 高斯混合分布示意


图3 神经网络结构


图4 股票代码嵌入流程


图5 股票波动率预测对比


图6 股票风险相似散点图


图7 CRPS分布小提琴图


---

本分析严格根据报告原文内容展开,采用标注的引用页码附加格式,确保结论与引用溯源清晰准确。

报告