Backtesting Expected Shortfall: Accounting for both duration and severity with bivariate orthogonal polynomials
创建于 更新于
摘要
本报告提出一种基于持续时间-严重度分离的双变量正交多项式方法,创新性地分解风险违规的频率与严重度,建立灵活、无模型假设的ES(Expected Shortfall)联合回测框架。该方法利用持续时间间隔和违规严重度的序列,构建正交矩条件及基于瓦尔德统计量的检验,显著提升了ES和VaR背测的效能和解释力。通过模拟和实证(CAC40及标普500数据)验证,检验方法具有良好的有限样本性质和较强的错误模型识别能力。此外,方法可推广至边际ES(MES)等系统性风险测度的回测,拓宽了金融风险管理应用的范围[page::0][page::3][page::4][page::10][page::17][page::26][page::30]。
速读内容
- 研报背景与现有方法局限 [page::2][page::3]
- Basel III引入ES取代VaR作为银行市场风险计量标准,推动ES回测需求。
- 现有ES回测方法主要有多水平VaR近似、(ES, VaR)联合回归检验、基于概率积分变换(PIT)的检验,均存在模型识别不足或功能局限。
- 创新方法:持续时间-严重度“two-part”框架 [page::4][page::10]

- 将累计违规过程拆分为违规频率序列(转化为违规间持续时间)与违规严重度序列,实现异步数据的同步分析。
- 持续时间序列假设独立同分布几何分布,严重度假设均匀分布,且两者独立。
- 持续时间视角提升检验力,克服传统简单违规指标丢失信息的问题。
- 理论支撑:基于双变量正交多项式的矩条件检验 [page::12][page::13][page::14]
- 分别采用Meixner多项式(几何分布对应)与Legendre多项式(均匀分布对应)构建一系列正交矩条件,刻画边际分布及独立性。
- 推导多种条件(单变量矩条件、序列自相关、交叉相关等),支持灵活选取检验维度。
- 利用正交性简化协方差估计,瓦尔德测试统计量服从自由度可控的卡方分布,便于检验和子检验设计。
- 数值模拟验证检验性能 [page::17][page::19][page::20][page::22]

- 两种符合原假设的数据生成机制模拟,发现拟合良好,检验大小接近标称5%,小样本中略有偏差。
- 针对多种违背持续时间或严重度分布假设的备择模型,展示检验的强大识别力,优于Du和Escanciano(2017)等现有方法。
- 规则性建议逐步调整多项式阶数(K,K'),以平衡检验功效及稳健性。
- 实证分析:CAC 40和S&P 500股指数据应用 [page::26][page::27][page::28][page::29]


- 使用$t$-AR(1)-GARCH(1,1)模型预测5%覆盖率下的VaR和ES,重点检验2020年COVID-19疫情期间的风险模型表现。
- CAC 40的全局检验显著拒绝原假设,子检验显示主要误差来源于严重度分布,VaR频率与持续时间分布表现合理。
- S&P 500未在全局检验中拒绝,但子检验提示VaR和ES模型均存在潜在误差,强调分步检验的重要性。
- 方法推广及价值 [page::5][page::24][page::25]
- 该检验框架可推广应用于边际ES(MES)、SRISK等系统性风险度量的回测。
- 相较于仅基于均值和自相关的传统检验,利用多阶矩条件增强了检测能力和诊断精度。
- 检验同时支持联合或拆分测试,便于风险管理者定位风险模型缺陷,提升风险管理合规和控制水平。
深度阅读
金融研究报告详尽解析
---
标题:Backtesting Expected Shortfall: Accounting for both duration and severity with bivariate orthogonal polynomials
作者:Sullivan Hué, Christophe Hurlin, Yang Lu
发布机构与日期:2024年5月14日
主题:针对风险管理中Expected Shortfall(ES)的回测方法创新,结合持续时间和严重程度变量,采用双变量正交多项式展开的统计检验框架。
---
1. 元数据与报告概览
本报告围绕风险管理中的Expected Shortfall(ES)回测展开,针对传统基于Probability Integral Transform (PIT)的方法存在的无法分离VaR违约频率与违约严重度的问题,提出了一种创新的“两个部分”模型:将VaR违约频率(持续时间序列)和违约严重度(严重度序列)分别建模。并基于双变量正交多项式理论,设计了一套增强的无模型Wald检验,该检验不仅囊括传统VaR和ES的无条件与条件覆盖测试,也能识别预测模型中具体的错配成分。
作者核心论点是:该方法提供了更全面的风险模型有效性检测能力,特别是在能够捕捉频率与严重性独立性和联合分布性方面,相较现有方法具备更高统计功效,并能推广应用于其他系统性风险度量,如边际预期短缺(MES)。模拟与实证测试均显示了该方法的有效性和实用性。[page::0][page::2-4]
---
2. 逐节深度解读
2.1 引言
作者介绍了巴塞尔协议III将市场风险衡量指标从VaR升级为ES的背景,强调了ES回测在监管和风险管理中的重要性。指出现存三大ES回测方法及其限制:
- 多层VaR回测转换方法,因行业未广泛实施多VaR报告且极端VaR违约稀少难度大
- 联合激励性回归和识别函数测试,单一联合测试难区分VaR与ES错配成因,且测试受限于较少的条件矩条件和线性模型假设
- 基于PIT的测试,尤以Du and Escanciano (2017)为代表,虽为主流但仍仅能覆盖无条件覆盖或简单自相关假设,无法彻底区分频率与严重度两大风险成分
报告旨在结合PIT方法,拓展并细化ES回测,改进方法学不足。[page::2-3]
2.2 两部分-频率-严重度回测思路
PIT的累计违约过程 \(Ht(\alpha)\) 包含零点(无违约)与连续正值(严重度)两部分,但现有测试仅对其均值和自相关进行检验,忽视了分布的双组分性质。作者提出分别构建:
- 违约频率序列(指示变量\(h
- 重大违约的严重度序列(违约时局部变量\(Ht(\alpha)\))
表明单一均值或自相关检验无法全面保证模型正确性,设计基于正交多项式的高阶矩条件来综合检验这一双重属性,从而提升测试识别错配模型的能力。该框架允许独立验证VaR与ES,并提升条件覆盖测试的功效。[page::3-5]
2.3 违约持续时间的引入
持续时间 \(di\) 定义为相邻违约之间的间隔,替代频率序列具有与异常严重度齐头并进的时间指标,解决严重度序列观察点稀缺导致的异步问题。
数学性质显示:i.i.d. 违约指示序列等价于i.i.d.的几何分布持续时间,并提出ES有效性的零假设囊括此几何分布和独立性尤其适用。持续时间测试在VaR领域已被证明优于传统违约率测试的功效,首次用于ES回测,形成更强测试基础。[page::10-12]
2.4-2.5 正交多项式与检验矩条件
引入Meixner多项式(对应几何分布)与Legendre多项式(对应均匀分布),构成一套基于正交多项式的高阶矩条件体系,可用于检验频率持续时间和严重度的边缘及联合分布假设,以及它们的独立性和序列相关性。
这些条件以期望为零的正交多项式为特征,允许考察更多非线性、非一阶矩性质,为测试带来强大而灵活的敏捷性。
理想的统计显著性由Wald测试框架体现,基于样本矩向量的平方和近似 \(\chi^2\) 分布,且协方差矩阵为单位矩阵,消除了高维协方差估计带来的复杂性及其对应统计缺陷。
这些多项式矩条件之间的相互正交极大提升了测试的计算效率和统计功效。
此外,报告详细阐释了不同组合子测试的含义及其与现有文献检测框架的对比,强调了该框架既支持联合也支持分解检测,便于定位模型错配成分。[page::12-16]
2.6 检验统计量和子测试设计
基于上述矩条件构造的检验统计量允许灵活选择测试矩数(参数K, K'),支持从联合全面测试到细分子测试的多层次验证。
子测试可针对无条件覆盖(UC)、独立性(IND)、条件覆盖(CC)假设及其组合灵活设计,有助于风险管理者细化错误来源分析,有效避免传统方法多重测试的复杂性和统计问题。
该方法严格涵盖了多个经典VaR和ES回测策略,是一种综合且更具诊断能力的后验检验工具。[page::16]
---
3. 图表深度解读及模拟验证
图1(page 10)—— 时序违约及持续时间示意图
- 图示一个时间轴上标明第\(i\)次和\(i+1\)次违约的位置,对应持续时间\(d
- 展示持续时间与严重度数据的同步性,强调对两序列结构化检验的直观基础。
- 该图辅助理解持续时间转换的重要性,及其在本框架中一一对应序列的核心作用。
图2(page 19)—— 严重度变量高阶正交多项式 \(Q
3(Hi), Q4(H_i)\)的直方图- 两幅图分别展示第3、4阶Legendre多项式变换后严肃度的分布形态,明显偏离正态,展现分布的长尾及偏态特征。
- 说明高阶矩条件极其重要,简单的均值和方差不足以捕获分布偏差,高阶检验提升了方法的识别力。
- 也解释了小样本中检测的尺寸偏差问题,以及为何需用蒙特卡洛等方法进行尺寸校正。[page::19]
图3(page 26)—— CAC 40和S&P 500指数的每日对数收益率
- 展示两大指数2017-2020年市场行情,重点突出2020年COVID危机期间的高度波动期,强调风险计量模型面临的挑战性时刻。
- 提供了实证分析的市场环境背景,为后续模型回测效果提供现实场景支持。[page::26]
图4(page 27)—— 两指数波动率模型估计后的VaR及ES预测及违约事件图
- 图中蓝线为实际对数收益率,红线和橙线分别为5%置信水平下的VaR和ES预测,垂直虚线指示VaR违约日。
- 视觉上显示COVID危机期间频繁宜发及严重违约,揭示模型预测及回测面临的具体压力测试。
- 该图为回测结果提供直观佐证,帮助理解后文统计检验的现实意义。[page::27]
表5.1 & 5.2(page 27-29)—— 指数统计摘要及测试结果
- 表5.1报告训练期和测试期的基本统计指标,支持对模型建构与拟合的基础认知。
- 表5.2披露各测试包括全局测试与子测试的p值,揭示了CAC 40模型在全局测试时被拒绝,主要因严重度分布违背假设,引导风险管理聚焦ES模型调整。
- S&P 500全球测试不被拒绝,却多个子测试显示潜在错配,进一步验证了子测试的诊断价值和必要性。
- 表中的p值判断为总量控制错误检验(例如5%)下的显著性水平,便于风险管理实务采取针对性措施。[page::28-29]
---
4. 估值与风险因素评估
本报告核心属于统计方法创新及模型有效性技术层面,故不直接涉及企业估值。但对金融风险的系统性参数估计及动态模型验证(即VaR及ES的动态分布参数),通过多阶矩检验与联合分布检验提高经济和统计估计的准确性,从侧面支撑估值和风险定价的稳健基础。
风险因素主要体现在模型未充分捕捉频率(持续时间)与严重度二元统计相关性时,会导致错误的资本准备水平,进而影响监管合规性及金融体系稳定。报告通过提出可分辨频率与严重度错配的测试策略,有效识别风险模型中潜在危害,并为风险缓释提供指标导向。
---
5. 批判性视角
- 尽管提供了灵活的高维矩条件测试,报告也承认较大矩条件数会导致样本需求量增加,以及小样本中检验尺寸波动。
- 统计功效的最优矩条件数依赖于具体数据分布,作者提出实用的经验规则,但缺少代价函数或自动选择算法详述。
- 研究假设PIT是完全可见且准确计量,在某些监管或市场环境下,这一假设可能不完全成立,限制了方法的直接应用范围。
- 估计误差处理作为未来方向被明确提出,目前方法尚未涵盖估计风险,可能影响实操中的置信区间准确性。
- 建议的基于正交多项式的多阶矩方法,理论上无模型依赖,但实际深度模型验证仍需结合经济逻辑进解释验证,避免纯统计虚假拒绝。
---
6. 结论性综合
本报告针对传统Expected Shortfall回测方法在分离VaR违约频率与严重度方面的不足,开创性地提出了以持续时间和严重度为关键变量的一套基于双变量正交多项式的多阶矩矩条件检验框架。
该“两个部分”的统计建模不仅使得对VaR与ES的无条件及条件覆盖假设检验得以独立进行,还通过灵活的矩条件选择极大提升了检测错配模型的能力。给出基于Wald统计量的显著性检验体系,避免高维协方差估计带来的统计复杂性。
模拟实验表明该检验在有限样本中具有良好的尺寸控制和更高的功效,特别是针对模型错配的多重复杂表现形式。
实证应用到CAC40和S&P500市场数据验证了该方法不仅能识别典型的异常违约频率,还能揭示严重度的系统性失配,为风险管理提供了具体的诊断信息。
此外,报告还指出方法具有框架兼容性强、可拓展至系统性风险估计(如MES),且能分步诊断模型错配成因的优势。
总体而言,此研究丰富了风险计量领域ES的回测工具箱,推动了市场风险监管的统计科学发展,亦为银行内控风险模型验证及监管合规提供了强有力的方法论支持。[page::30]
---
附录:
- 提供了详细的Meixner和Legendre正交多项式公式及构造方法,使得上述多阶矩条件具备明确的实际计算基础。
- 附表中包含计量模型参数估计结果和相关统计检验,佐证数据建模的合理性。
---
综上所述
该报告提出并系统阐述了一种创新的Expected Shortfall回测方法,核心贡献在于引入频率和严重度的两部分视角,辅以以双变量正交多项式为工具的多阶矩条件检验,解决了现有方法对风险分布结构捕捉不足的问题。方法论严谨、理论创新并经模拟与实证验证,具备较强的应用前景和理论价值。此框架同时兼容现有覆盖率测试,提供更细粒度风险模型诊断,是金融风险管理统计监控的重要进展。