`

Quantifying neural network uncertainty under volatility clustering

创建于 更新于

摘要

本报告针对金融时间序列中广泛存在的波动聚集现象,提出一种基于尺度混合分布(SMD)的神经网络不确定性量化方法,简化了传统Normal-Inverse-Gamma(NIG)先验的复杂度和过参数化问题。通过设计各参数独立子网络结构并引入模型平均,提高了预测收益和不确定性估计的精准度。在加密货币和美国股票数据集上的实证显示,该方法能有效捕捉波动变化,优于Deep Ensemble和Deep Evidential两种代表性方法,具有良好的理论基础和应用前景 [page::0][page::5][page::16][page::30]

速读内容

  • 研究动机与问题背景 [page::0][page::1][page::2]

- 波动聚集导致时间序列预测中的不确定性变化显著,传统神经网络预测仅提供均值估计,难以有效衡量条件方差(噪声不确定性,aleatoric uncertainty)。
- 不确定性分为aleatoric(数据固有)和epistemic(模型本身)两类,后者可通过更多信息减小。
  • 方法综述:Ensemble与Evidential方法 [page::3][page::9][page::10]

- Ensemble使用多个随机初始化神经网络的输出方差估计epistemic不确定性,但计算开销较大。
- Evidential通过NIG先验建立层级贝叶斯模型,一次性估计均值和方差参数层的不确定性,代价是模型过参数化且存在标定难题。
  • 提出的方法:尺度混合分布(SMD)及其神经网络架构 [page::5][page::14][page::15][page::16][page::18][page::19]

- SMD仅对方差扩展使用Gamma先验,简化超参数,仅有三个有效参数,与学生t分布参数对应,避免NIG的估计不稳定和过参数化问题。
- 神经网络采用LSTM层处理历史收益率与对数平方收益率,后续四个独立子网络分别建模SMD参数,以增强每个参数的表达能力,软加激活函数保证参数约束。
- 引入模型平均(ensemble)提升收益预测准确度,通过计算多模型均值及其方差量化预测不确定性。
  • 实验数据与指标说明 [page::22][page::23][page::24]

- 加密货币:包含10种流动性最高非稳定币,单位为小时,输入序列长度为240小时(10天)。
- 美国股票:包含500大盘股,单位为月,输入序列长度约240个交易日(一年),预测向前20天收益。
- 评价指标包括交叉截面相关系数(CC)、均方根误差(RMSE)和负对数似然(NLL)。
  • 主要实验结果总结 [page::24][page::26][page::27][page::28]

- Combined方法在两组数据上均实现最高CC、最低RMSE和NLL,表明更优预测精准度和不确定性估计效果。
- 预测不确定性与实际波动(Bitcoin的日内标准差与Chevron的绝对月度收益)高度相关,尤其Combined能更准确捕捉波动集中特征。

- Ensemble对不确定性存在过高估计,Evidential在高波动时低估,且预测结果“块状”变化明显,Combined平滑且响应灵敏。
  • 消融实验及结构设计验证 [page::29][page::30]

- 移除模型平均显著降低相关性和NLL,但对预测不确定性影响有限,说明模型平均带来收益预测提升。
- 使用单一输出层代替独立子网络或剔除平方收益输入导致预测不确定性表现较差,无法捕捉波动的时间变异性。
  • 综合对比与非时间序列UCI数据集结果 [page::38][page::39][page::40][page::41][page::42]

- Combined相较于Ensemble和Evidential在多个非时间序列回归任务中表现相似或更优,尤其在NLL上有较多优势,验证方法的普适性。
- 单独消融验证显示独立子网络建模提升不确定性估计准确性,且SMD参数化较NIG表现更稳定。
  • 结论与未来方向 [page::30][page::31]

- SMD参数化解决了NIG先验过参数化和理论标定不足的问题,采用独立子网络及模型平均策略提升神经网络对金融时序的预测能力和不确定性量化质量。
- 可应用于波动聚集显著的金融资产,如加密货币与股票。
- 后续可探索SMD的非参数量化回归扩展、多元回归扩展及在组合优化中的应用潜力。

深度阅读

金融领域神经网络不确定性量化研究报告详尽分析



---

1. 元数据与报告概览


  • 标题:Quantifying neural network uncertainty under volatility clustering

- 作者:Steven Y. K. Wong, Jennifer S. K. Chan, Lamiae Azizi
  • 发布日期:2024年9月20日

- 主题:金融时间序列中的神经网络不确定性量化,特别关注存在波动率聚类(volatility clustering)的资产回报预测问题。
  • 核心论点

- 传统基于Normal-Inverse-Gamma(NIG)先验的Deep Evidential回归在估计模型不确定性时存在校准不足和过参数化问题,导致模型和数据不确定性的区分不准确。
- 作者提出基于Scale Mixture Distribution(SMD)的简化建模,不仅提升模型的准确性和稳定性,还引入参数分离的子网络结构,以更好捕捉预测不确定性。
- 通过加密货币和美国股票两类数据集的实验,验证所提方法在波动率聚类时间序列上的优越表现。
  • 主要结论

- 提出的方法在预测准确率和不确定性量化上均优于现有的Ensemble和Evidential两种先进方法。
- 子网络架构和引入平方收益的特征对提升金融时序不确定性量化至关重要。
- 方法同时适用于非时序数据,具备较好的通用性。

---

2. 逐节深度解读



2.1 摘要与背景


  • 摘要中指出,表现为波动率聚类的时间序列给神经网络的预测不确定性带来了特殊挑战。

- Deep Evidential回归采用NIG先验,对潜在均值和方差参数进行分层建模,会产生模型误校准和边际分布过参数化问题。
  • 作者提出的SMD 以Gamma先验作用于一个缩放因子,简化模型结构并通过分叉子网络分别训练分布参数。[page::0]


2.2 引言与研究动机


  • 波动率估计是金融风险管理的核心,尤为重要于资产定价和组合构建(如Kelly准则、Black-Litterman模型)。

- 传统神经网络回归多基于最小均方误差(MSE)仅估计均值,缺乏对条件方差$\sigma^2$(数据中的固有“噪声”即固有不确定性(aleatoric uncertainty))的估计能力。
  • 网络参数层面的不确定性来源即认知不确定性(epistemic uncertainty),与模型的正确性假设与参数估计相关,是可通过增加数据减少的。[page::1,page::2]


2.3 不确定性量化概念梳理


  • Aleatoric不确定性:由数据本身的内在随机性导致,条件方差$\sigma^2$体现。

- Epistemic不确定性:模型参数估计的误差及模型设定偏差组成,根据数据量可缩小。
  • 在实践中两者难以完全区分,比如掷骰子:理论上纯随机(aleatoric),若测量初始状态则变为确定性的(epistemic)。

- 标准贝叶斯方法通过对数据和模型参数设定先验分布,能同时捕获两者不确定性。但其计算成本高昂。
  • Bayesian神经网络(BNN)能量化模型不确定性,但受限于训练复杂度和架构。[page::2]


2.4 相关工作综述


  • Deep Ensemble 通过多个随机初始化网络估计不同均值与方差,进而获得epistemic不确定性的经验估计(无先验,成本高)。

- Deep Evidential 为网络参数引入Normal-Inverse-Gamma(NIG)先验,边缘化后得到带厚尾的Student's t分布,优于Ensemble降低计算开销且估计更有理论支持。
  • Evidential不足:

- 分层建模的隐含变量$\mu,\sigma^2$不可观测,导致模型难以校准。
- NIG先验边缘t分布参数过多,训练时存在过参数化,$\nu$参数易导致不稳定,难以准确估计。
- 网络输出层一次性预测所有超参数,策略受限,难以表达参数间复杂非线性关系。
  • 其他相关工作提及正则化策略和方法改进,但仍未根治问题。[page::3,page::4]


2.5 作者提出方法及创新点


  • 设计结合了Ensemble的模型平均和Evidential的先验思想的Combined method

- 使用SMD模型:
- 不像NIG,先验只放在缩放因子$\nu$上;
- 令数据波动性条件于缩放因子,$\nu$服从Gamma先验;
- 边缘化后观测数据分布亦为Student's t,刻画厚尾,反映波动率。
  • SMD 简化模型参数,避免了NIG的过参数化,且减少后验正则化需求。

- 神经网络架构采用四个独立子网络分别预测Student’s t参数的均值$\gamma$、方差$\sigma^2$、形状参数$\alpha$(以及$\beta$,后文建议设为$\alpha$)。
  • 网络输入包含回报序列及对数平方回报,通过对平方回报特征处理帮助捕获波动率聚类。

- 引入模型平均提高回报预测,同时对预测不确定性的估计几乎无影响。[page::5,page::6,page::18,page::20]

2.6 数学模型及训练方案


  • 设数据生成过程为时间变异正态分布 $rt \sim N(\mut, \sigmat^2)$,神经网络训练目标是预测$\hat\zetat=(\hat\mut,\hat\sigmat^2)$最可能生成数据。

- SMD模型:

\[
y|\nu \sim N(\gamma, \sigma^2 \nu^{-1}), \quad \nu \sim Gamma(\alpha, \beta)
\]
  • 边缘化$\nu$得到的边缘分布:$Student’s \; t$,核函数和负对数似然(NLL)可具体推导。

- 不确定性划分为:
- 预测值$E[y]=\gamma$;
- Aleatoric不确定性:$E[\sigma^2/\nu] \approx \frac{\sigma^2 \beta}{\alpha}$;
- 预测不确定性方差:$Var[y] = \frac{\sigma^2 \beta}{\alpha-1}$;
- Epistemic不确定性:预测不确定性减去aleatoric不确定性。
  • 设$\alpha = \beta$进一步简化模型,具有直观的概率解释和稳健性。[page::7,page::15-page::17]


2.7 网络架构设计


  • 输入包括$\{r{t-K+1}, ..., rt\}$及其平方的对数,用LSTM编码时间序列的时序特征。

- 经过LSTM层后,分别传入不同的子网络输出学生t分布的各个参数,避免单一输出层预测不同尺度参数带来的建模瓶颈。
  • 输出参数经softplus转换保证参数合法域(方差>0等)。

- 子网络结构优于单输出层,提升不确定性的预测精度,特别是在波动率聚类明显的数据上结果更为显著。
  • 采用模型平均(组合法)提升预测准确度,即对多个模型预测均值和方差进行加权平均,显著改善回报预测性能同时预测不确定性仅有小幅增加。该设计参考Ensemble方法但不以捕获Epistemic不确定性为主。[page::18-page::20]


---

3. 图表与数据深度解读



3.1 典型网络架构对比图(图1和图2)


  • 图1展示了Evidential方法的整体架构,输入经过LSTM和全连接层仅通过单一输出层预测NIG四参数($\gamma,\nu,\alpha,\beta$)。

- 图2为本文Combined方法示意,输入同样经过LSTM后拆分为四个子网络,分别输出$\gamma,\sigma^{2},\alpha,\beta$,采用softplus激活保证参数有效性。
  • 相较图1,图2增加了模型参数预测的灵活性,使不同参数拥有独立表示子空间,提升灵活性和泛化能力。[page::14,page::19]


3.2 加密货币与股票时间序列表现(表2及图3-4)


  • 表2汇总加密货币(10种热门非稳定币,加币小时级数据)和美国股票(500大盘股,日交易数据)三种方法的预测表现。

- Combined在两组数据上均表现出最高平均横截面相关系数(CC)及最低均方根误差(RMSE)和负对数似然(NLL),明显领先于Ensemble和Evidential。
- Evidential方法在加密货币数据中优于Ensemble,然而在美国股票中表现更差,提示其对成熟市场与不同频次预测存在适用差异。
  • 图3展示了比特币和雪佛龙公司在测试期内,实际波动性指标(比特币每日标准差与雪佛龙月度绝对收益)与三种方法预测的不确定性变化对比。

- Combined的预测不确定性曲线与实际预测误差波动高度吻合,能动态反映波动率沿时间的聚类特征。
- Ensemble和Evidential在高波动期表现出显著的偏差与估计不准确(Ensemble有过度估计,Evidential低估大波动,且二者均多呈块状反应,反映学习能力不足)。
  • 图4比较了三方法对比特币和雪佛龙的实际回报均值预测。Combined均值预测波动更灵活,能反映短期回报的波动性,Ensemble和Evidential则偏平缓或延迟反应。

- 充分体现了Combined通过结构和数据驱动的特征提升波动率聚类识别与预测准确性。[page::23-page::28,page::26,pages::27]

3.3 消融实验(表3与图5)


  • 测试移除模型平均、采用单输出层代替子网络、只用收益数据(无平方收益)的影响。

- 移除模型平均导致相关系数大幅下降(加密货币55%、股票25%),且NLL显著恶化,表明模型平均对回报预测性能是关键提升因子。
  • 单输出层与多子网络对比:单输出导致预测不确定性无法有效跟踪波动聚类,表现如图5中明显块状折线,影响波动反映灵敏度。

- 缺失平方收益输入的模型预测效能及不确定性建模能力均明显下降,凸显平方收益特征对捕捉时变方差的重要作用。
  • 结论:三者均为Combined获得优越性能的重要组成部分。[page::29-page::30]


3.4 UCI非时序基准数据对比(表4-7)


  • 在九个标准UCI回归数据集上,Combined方法整体在RMSE与NLL指标上多次优于或接近当前先进的Ensemble与Evidential方法。

- 消融测试显示,子网络设计、SMD简化参数化均带来了正面增益。
  • 该结果验证Combined方法不仅适用于金融波动率聚类时序,也适用更广泛的回归任务,具备较好泛化能力。

- 合理的网络拓扑调整确保了参数能力不减少、但表达能力提升。[page::38-page::41]

---

4. 估值分析



本报告中未涉及传统意义上的公司估值、财务预测或市场估值指标讨论,Estimations和预测皆偏向是在财务时间序列回报预测上的不确定性估计。报告核心是模型设计和推断框架,不涉及直接估值方法,因此本节略。

---

5. 风险因素评估


  • 报告定义的风险主要集中在不确定性模型建模的两个维度:


- 模型不确定性风险(epistemic):模型结构设定、层级先验隐变量不可观测导致的标定偏差和过参数化。
- 数据不确定性风险(aleatoric):市场自身固有波动,表现在波动率聚类带来预测困难。
  • 对Mitigation:


- 通过SMD减少过度参数化,避免模型不确定性估计中的不稳定;
- 利用子网络设计提升参数预测灵活度,增强拟合能力;
- 加入平方收益等特征辅助波动率建模;
- 引入模型平均技术降低单模型过拟合风险、提升预测鲁棒性。
  • 实证结果表明上述策略有效缓解上述风险,获得较优性能。[page::4,page::5,page::18,page::29]


---

6. 批判性视角


  • 模型简化的权衡

- SMD忽略了均值$\mu$的不确定性,假设收益均值接近零,可能在一些高偏离或趋势强烈的时间序列中表现欠佳。
- 虽然有效降低参数复杂度,但放弃层级先验可能牺牲对模型参数完全刻画的能力。
  • 数据集与应用限制

- 加密货币和美国大盘股的时序数据选择合理,但未包含更多异质金融资产以及其他波动率特征。
- 建议未来增加对比经典ARCH/GARCH模型的量化实验和多资产、多频率融合建模。
  • 网络设计和训练注意事项

- 尽管网络结构创新,训练细节如参数初始化、正则化、训练频率等均未详细披露,对模型泛化影响较大。
- 文章所述的block状预测不确定性波动较大,暗示网络训练仍有改进空间。
  • 理论解释待加强

- 虽对SMD边缘分布性质有推导,但不确定性分解的统计一致性和推断偏差仍需进一步理论验证。
  • 实证对比方法设置

- 虽包含Ensemble和Evidential方法,但缺乏其他贝叶斯或非贝叶斯主流不确定性估计基准,如MC Dropout、Variational Inference BNN等。
  • 总结建议

- 本文工作在兼顾理论简洁和实证有效性之间取得平衡,强调简化模型参数并提升模型灵活性,但方法局限和潜在假设需在后续研究中进一步检验。[page::12,page::13,page::31]

---

7. 结论性综合



本报告针对金融资产时间序列中波动率聚类特性,提出了一种基于Scale Mixture Distribution(SMD)先验的神经网络不确定性量化方法。通过精心设计的多子网络输出结构及引入加权模型平均与平方收益特征,所提Combined方法:
  • 在理论上简化了Deep Evidential回归中复杂的Normal-Inverse-Gamma分层先验结构,缓解了隐变量不可观测和参数过度问题,提升模型稳定性。

- 在架构上摈弃单输出层对全部分布参数的线性映射,采用独立子网络,更具表达能力和灵活度。
  • 在实证中(包含加密货币小时级及美国股票月度级两大金融时序数据集),Combined方法均显著优于当前业界流行的Ensemble和Evidential方法:

- 提升了回归预测准确度(横截面相关性和RMSE);
- 不确定性预测更贴合实际波动率聚类特征,在高波动事件时期表现尤为出色;
- 消融实验确认了模型平均、子网络参数划分和平方收益特征对整体效果贡献大。
  • 在非时序的UCI标准数据集测试中依然保持较优表现,验证了方法的普适性。

- 图示如图3展示了预测不确定性与真实波动率的匹配关系,图4展示了收益预测均值的拟合效果,图5清晰显示子网和特征缺失的弊端。
  • 表格2及表4均定量反映了预测精度和不确定性拟合的优势。


综上,报告展示了一种技术上创新且应用实际价值显著的神经网络不确定性量化新方案,为处理金融时序波动率聚类和可能的其他复杂时序问题提供了有力工具和研究方向,值得在金融智能投顾和风险管理领域广泛关注和尝试。

---

图表摘录:深度解读示例



图1:Evidential方法网络架构




  • 输入为返回序列及其平方对数,经过多层LSTM和全连接层。

- 末端单输出层(NormalInverseGamma层)直接输出4个参数$\gamma,\nu,\alpha,\beta$。
  • Softplus激活确保参数区间合理。

- 此架构限制了参数表达的灵活度,尤其4参数共用一组隐藏层表示有潜在风险。

图2:Combined方法架构




  • 和图1相同的输入结构。

- LSTM输出分给4个独立子网络,每个子网络深度可自定义。
  • 每个子网络独立拟合$t$分布参数$\gamma, \sigma^2, \alpha, \beta$,彼此解耦。

- Softplus等激活限制参数取值域。
  • 架构更复杂但表达灵活性和对应复杂的波动率建模提升明显。


图3:比特币及雪佛龙预测不确定性与实际波动对比




  • 蓝色曲线:实际每日历史波动(标准差或绝对收益)。

- 橙色曲线:模型预测不确定性。
  • Combined方法的橙色曲线最贴合蓝色波动,能动态响应市场波动变化。

- Ensemble表现过度估计,Evidential低估在高波动期且估计呈块状。
  • 说明Combined更好捕捉波动率聚类的时序特性。


图4:不同时序资产回报均值预测与真实对比




  • Combined对比Actual Return显示更高的变动响应,跟随市场波动。

- Evidential均值预测偏负并欠缺波动响应能力。
  • Ensemble响应滞后且幅度不足。

- 体现了Combined回报预测的更高分辨力。

图5:消融研究中预测不确定性比较




  • 梳理了剔除模型平均、单输出层、仅用收益序列三个关键要素对不确定性预测的影响。

- 剔除任一模块均导致预测信号弱化,无法良好刻画波动率聚类。
  • 强调了模型设计细节在不确定性预测中的重要性。


---

以上为报告的极为详尽和全面的解析,涵盖了理论基础、模型推导、架构创新、实证检验及潜在风险和未来研究启示,既保证了专业性,也兼顾了应用指向。全文请结合分析和原文页码同步审阅以便进一步理解和应用。

报告