Statistically distinguishable rating scale
创建于 更新于
摘要
本文提出了一种基于沃尔德准则的统计区分性评级尺度设计方法,通过限定评级区间的最小观察样本量以保证各评级之间的统计可区分性,有效提升了评级验证的稳健性。该方法避免了过度划分评级等级导致的验证过度失败和资本要求过高问题,并对三个风险分布进行实证测试,结果显示在企业贷款领域可显著降低校准的违约概率,从而节约资本需求,促进更有效的风险管理 [page::0][page::2][page::4][page::14][page::19][page::23].
速读内容
- 评级尺度设计的两种主流方法 [page::2][page::3]:
- 直接法基于校准模型使用概率违约(PD)映射评分,等级之间PD边界固定且不随时间变动。
- 间接法根据历史违约统计分配等级,等级划分基于信用特征,但边界不固定,PD随时间变化。
- 间接法存在的非单调性问题及现有缺陷 [page::4][page::5]:
- 基于Fitch的34年违约数据,违约率非单调分布,违约率曲线波动大。
- 常用的logit线性回归平滑模型未考虑样本量,且不能保证最低PD限制,可能产生评级操纵空间。
- 沃尔德准则和统计区分性评级尺度核心原理 [page::6][page::7][page::8]:
- 沃尔德测试用于验证各评级区间PD估计的保守性,准则基于显著性水平α进行区间划分。
- 根据等级内最小有效样本量mα,定义评级尺度各等级的PD上下界,保证等级间统计可区分性。
- 评级尺度设计的递归计算方法和风险分布建模 [page::8][page::9][page::10]:
- 介绍递归的梯度计算(升序和降序),确定各评级等级的PD界限,直至覆盖整个PD区间。
- 风险特征分布采用分段连续函数拟合实证数据,实现评级等级的合理划分。
- 实证案例和样本容量影响分析 [page::11][page::12][page::13][page::14]:
- 对Fitch和Expert-RA两大评级机构和某银行内部信用评级(21等级)进行区分性评级尺度设计。
- Fitch的评级尺度在BBB以下等级可区分,Expert-RA因样本量少,多数等级不可区分。
- 三者平滑风险曲线差异明显,且随着样本量增加,可区分等级数显著上升。


- 评级尺度等级的样本分布和集中度指标(HHI调整值)分析 [page::15][page::16][page::17]:
- 统计区分性评级尺度中低评级等级承载更多样本,呈梯度下降分布。
- 样本集中度指标HHIadj随样本量增加而降低,Fitch需要更大样本量满足集中度要求。


- 理论验证区分性尺度对验证稳健性的提升 [page::17][page::18][page::19]:
- 通过分割样本及沃尔德统计推导合并样本后校准PD可降低,提升验证考虑的小概率违约波动承受力。
- 在实际违约概率区间0~81%内均适用,理论计算得到约13.7%校准PD可调降幅度。
- 数值模拟资本需求节约效果及验证失败概率对比 [page::19][page::20][page::21][page::22]:
- 以IRB资本公式计算三类风险分布对应原始和区分性评级尺度要求资本,发现区分性评级尺度在相同验证失败概率条件下资本节约约6%。
- 节约效果在样本量大于20万时逐渐减弱,对大规模零售或小微贷款意义有限。


- 宽松验证失败标准下效应依旧显著 [page::22][page::23]:
- 当验证失败宽松标准(黄色区间,3个等级失败)启动时,区分性评级尺度可节约资本达6.5%,且超额评级尺度验证失败概率大幅提升。

- 结论摘要 [page::23][page::24]:
- 评级尺度设计需折中样本容量和等级分辨力要求,过度细分导致验证不稳健和资本支出浪费。
- 统计区分性评级尺度通过最小样本数量控制评级数量和边界,用递归方法实现,兼顾稳健性和复杂度。
- 实证和理论均表明该设计可提升验证稳定性,降低校准PD,实现企业贷款组合资本节约,适合样本数有限的企业信用评级环境。
深度阅读
金融研究报告详尽分析报告
题目:Statistically distinguishable rating scale(统计可区分的评级评分尺度)
作者与机构:
Pomazanov Mikhail,俄罗斯莫斯科国家研究大学高等经济学院(National Research University Higher School of Economics)[page::0][page::1]
---
1. 元数据与概览(引言与报告概览)
本报告由Pomazanov Mikhail撰写,发表于2024年,主题聚焦于信用风险评级尺度(Rating Scale, RШ)的设计,特别是提出一种“统计上可区分(distinguishable)”的评级尺度设计方法。其核心目标是构建一种统计上充分利用有限观测数据的非冗余评级尺度,从而提升模型的验证稳定性,并降低贷款组合的资本需求。
核心论点包括:
- 目前银行普遍采用的评级尺度通常存在“过度细分”问题,导致在有限的观测统计数据支持下验证不稳定,容易触发违背Wald检验准则的情形,从而导致保守的违约概率校准,进而增加资本占用。
- 报告提出的方法设计的评级尺度利用Wald准则判定评级区间是否可被统计区分,避免冗余等级,确保每个等级的观察样本量满足统计显著要求,从而实现更稳定的评级验证。
- 理论推导和数值计算覆盖三个评级尺度样本:Fitch和Expert-RA两大评级机构的公开数据,以及一个封闭数据组成的银行内部评级尺度。
- 方法尤其适用企业贷款组合。
结论指出,设计统计可区分评级尺度,不仅保持评级的区分度和管理实用性,还能显著改善验证稳定性,为资本节约提供理论和实证支持[page::0][page::1][page::23]。
---
2. 逐节深度解读
2.1 引言与评级尺度构建背景
报告首先区分两种评级尺度构建方法:
- 直接法(Direct method,Tasche, 2008):评级分数与违约概率(PD)保持固定映射关系,建立参数化校准函数(如Logit或Probit模型),实现PD与评级分数对应,便于基于统计模型直接计算PD,银行采用此方法为多。
- 间接法(Indirect method):评级等级由综合信用评分决定,PD通过历史违约频率非参数估计。评级等级划分不直接对应固定PD区间,违约概率随时间和总体信用状况波动,评级概率界限不固定,典型的评级机构如Fitch、Moody’s使用此法。
介绍了Moody’s汽车行业评级分类与权重示例(表1),展示评级因子权重划分体系,体现评级制度的复杂性和多维度构成[page::2][page::3][page::4]。
报告指出,间接法存在统计样本有限导致的违约率单调性缺失问题,Fitch 1990-2023年全球违约率数据显示各等级违约率非单调波动(表2),其中可能出现“AAA”违约率高于“AA+”等级等异常。此现象主要由样本波动引起,非评级模型逻辑缺陷,若银行采用间接法,则存在操纵评级以优化资本要求的潜在风险[page::4][page::5]。
针对统计波动,文献中提供各种平滑算法,包括National University of Singapore利用Logit线性回归平滑违约频率,但忽略了违约频率为零的区间及银行的PD底线限制(0.05%)。Huajian(2018)提出基于最大似然估计约束参数的平滑方法,保证单调性,并满足监管下限约束。报告后续采用此方法以确保数据的统计合理性和合规性[page::6]。
2.2 评级尺度的统计区分性与Wald检验准则
报告详细讨论监管对评级尺度构造的要求:
- 银行评级尺度需至少包含8个等级,其中7个非违约等级和1个违约等级;
- 等级划分应避免观测过度集中,在统计样本足够的前提下确保每个等级的PD估计稳定;
- 没有上限限制评级等级数量,但评级等级数量与样本容量不匹配,过多等级会严重削弱统计区分能力。
核心在于基于Wald准则的二项式检验,设置显著水平α (5%或1%),对每个等级的违约频率DR与计算PD进行对比,判定评级是否被“低估”(未覆盖实际违约率)。具体公式表达了单等级样本大小与PD偏差容忍度的平衡关系[公式2.1,2.2][page::6][page::7]。
提出统计上可区分的评级尺度定义:每个等级的样本数必须满足对应α水平的最小数量要求,确保等级间违约率具有统计显著性差异。否则,样本不足的等级则被判为“灰色”,不能有效区分,迫使减少等级数量。
内容引入统计样本容量与PD区间长度的约束公式,引入了“上下界PD比例”(λ参数)和样本容量参数N,构造出两种递归算法“上升级联”和“下降级联”用于计算各个等级的PD区间边界。该方法实质通过迭代找到既满足统计区分又与实际风险分布匹配的最佳等级划分[page::8][page::9][page::10]。
风险分布函数采用分段线性函数拟合,在用对数概率PD进行变换后构造分段函数(参考公式3.4),匹配评级区间样本浓度分布[page::13]。
3.评级尺度示例分析
报告通过Fitch和Expert-RA两家评级机构的违约数据,展示其评级尺度滑动违约频率分布及统计区分性检验:
- Fitch评级尺度超细粒度结构在大样本下仍仅对BBB及以上等级显著可区分;
- Expert-RA评级尺度数据量有限,多数等级因样本不足而缺乏显著性,这显示少样本情形下多等级设计问题明显。
作者进一步对银行内部信用评级ICR尺度进行了类似检验,该尺度等级数量达21,明显存在等级冗余,且不满足统计区分性要求。
图表(图3、4、5)显示三个评级尺度在不同样本容量下的风险分布曲线、最小可统计区分等级数、以及最高等级PD界限随着样本容量变化的关系。其中:
- 样本容量提升使评级等级设计具备更高区分能力;
- 不同风险分布特征导致最低样本容量要求及等级数量存在差异;
- 第一个等级(低违约率)对应的PD界限随样本容量上升趋近于监管下限(0.05%)[page::14][page::15]。
评级区间的权重浓度分布(图6)表明区分性设计自然聚焦于大样本区间,降低了冗余等级对样本的消耗,提高验证时的稳定性。
引入赫芬达尔-赫希曼指数(HHI)调节后的浓度指标,展示三评级尺度在不同样本容量下的等级分布集中度,发现Expert-RA与新设计的ICR具有较优的低集中度,符合监管对过度集中限制的期望,而Fitch尺度在样本容量较小范围内浓度过高,潜在风险[page::16][page::17]。
4. 统计可区分评级尺度的实证经济学效应
4.1 理论基础:
报告引入Wald检验下的违约测试失败概率分析,探讨若将多个冗余等级合并统计分析时如何不降低验证水平的情况下,允许对每个等级的校准PD略微下调以降低资本要求。
数学上,导出了校准折扣因子ε估计约13.7%,并通过样本容量和等级宽松度εR阐释了此结果的适用区间(p<81%)适用企业级贷款风险分布[页17-19]。
4.2 数值模拟及资本节约效应
采用Fitch、Expert-RA和ICR三种风险分布的真实PD和样本权重数据,将原始“冗余”评级尺度与设计的“统计可区分”评级尺度在同一总样本容量(例如N=10000)条件下进行对比:
- 通过蒙特卡洛模拟,计算两种评级尺度在Wald检验下验证失败(即“违背红区”、“黄区”标准)的频率;
- 计算基于Basel高级内部评级法(IRB)资本要求公式的资本成本指标CR,检验两种评级尺度对资本成本的影响;
- 发现“统计可区分”评级尺度轻微增加了资本集中度(CR的增幅约0.2%-0.3%),但能显著降低验证失败率,有助于资本节约;
- 资本节约效应随样本容量增加而递减,样本超过100-200k时,节约效果趋于消失,表明该方法对中大样本有所限制;
- 通过调节Wald检验颜色分类标准“红区”、“黄区”不同,均表明“统计可区分”评级尺度在资本节约及验证稳定性方面优越[page::19][page::20][page::21][page::22][page::23]。
图8、9、10分别展示不同评级尺度在不同违背等级标准下的资本节约与验证失败概率的关系,清晰呈现“统计可区分”方法优于传统评级尺度的验证表现和资本管理效果。
---
3. 图表深度解读
- 图1、图2(PIT和TTC违约率时序图)
描述了1920-2016年间Moody’s评级各等级年度及7年加权违约率波动情况。展示了违约率在危机期间的峰值及等级间违约率比例波动,反映出间接法评级中违约风险随周期变化强烈,且等级间违约率无固定界限。
该图支持间接法评级等级违约率边界不可固定的论点[page::4]。


- 表1(Moody’s汽车行业评级因子权重)
该复杂结构表展现了市场地位、杠杆率、盈利能力、现金流覆盖率等多维度因子及其权重,体现评级规则的定量化和多元化[page::3]。
- 表2(Fitch平均年度违约频率统计)
该表详细显示了1990-2023年Fitch各等级样本大小与对应违约频率,显示违约频率非单调性问题,突出间接法中统计噪声问题[page::5]。
- 表3、表4(Fitch与Expert RA评级尺度区分度统计)
表3详尽列出Fitch各等级的违约频率DR、拟合PD区间p, p 及最小观察数需满足度m5%,表明Fitch仅BBB级别及以上评级阶别具有统计区分性。
表4显示Expert RA因样本量不足,多数等级不可统计区分,确认评级等级设计需考虑样本容量限制[page::11][page::12]。
- 图3(风险分布模型累积分布函数F(PD))
三评级尺度的风险分布曲线显示Expert RA具有相对平缓PD分布,Fitch左偏分布明显,银行内评级ICR相对均匀。曲线形态是构建统计区分等级尺度的基础[page::14]。

- 图4(等级数与样本容量关系)
该图展示三风险分布在不同样本容量(1000至256000观察数)的条件下可区分等级数随样本容量增长而增多,ICR的可区分等级数略高于Expert RA和Fitch[page::14]。

- 图5(最高级别PD界限随样本容量变化)
显示三个风险分布最高级别PD上限随着样本容量增加逐步降低,趋近于监管PD下限0.05%;Fitch稳定在更低水平,体现不同风险分布对评级划分的影响[page::15]。

- 图6(ICR风险分布区分等级浓度分布)
直方图显示高等级拥有更大比例观测样本,低等级样本占比较少,形成合理分布聚焦,有助维护统计区分度[page::16]。

- 图7(等级浓度集中度HHI指数)
HHI指数随样本容量增加下降,说明等级分布趋于均匀,Expert RA & ICR在低样本量下集中度更低,较好满足监管要求[page::17]。

- 图8(ICR资本节约及验证失败率对应关系)
蓝色(统计可区分尺度)曲线显示比棕色(冗余尺度)在较低资本要求下具有更低验证失败率,体现不同尺度下验证稳定性与资本节约的权衡关系[page::21]。

- 图9(三评级尺度资本节约效果与样本容量关系)
该图展现资本节约随样本容量增大而减少(可达7%-8%资本节约),ICR表现略优,显示方法对样本量敏感[page::22]。

- 图10(黄区标准下资本节约与验证失败率)
黄区标准更宽松,统计可区分尺度展现更高资本节约潜力,冗余尺度即便无折扣也存在较高验证失败概率[page::23]。

---
4. 估值分析
本报告虽无涉及企业估值,但核心涉及对信用评级尺度设计的统计学与资本计量的理论测算,等同于评级尺度设计对资本估值模型的应用。
采用核心资本计量公式基于Basel IRB高级方法(Basel Committee on Banking Supervision, 2023b)来测算资本需求:
$$
CR(PD) = EAD \cdot \Big[\Phi\left(\frac{\Phi^{-1}(PD)+\sqrt{R} \cdot \Phi^{-1}(0.999)}{\sqrt{1-R}}\right) - PD \Big]
$$
其中:
- \(R\) 为资产相关系数(20%作为中值假设)
- \(EAD\)为敞口额度(设为1)
- \(\Phi\), \(\Phi^{-1}\)分别为正态分布函数与其逆函数。
基于此,分别计算原始冗余评级尺度与设计的统计可区分评级尺度对应的资本需求加权均值,反映资本占用水平的相对变化[page::20]。
---
5. 风险因素评估
报告揭示以下风险因素:
- 样本容量限制是制约评级等级数量的重要因素,样本不足导致无法保证各等级的统计显著性,进而影响验证稳定性;
- 评级等级过多(过细)会直接降低验证质量,增加模型失败概率,迫使银行在合规和风险资本管理之间权衡;
- 间接法评级的违约率非单调性和统计波动可能导致评级操控与资本优化,影响评级尺度完整性和监管合规;
- 风险分布特征多样化意味着评级尺度设计不能机械套用,需要根据实际风险数据分布动态调整。
报告建议通过统计可区分评级尺度设计标准,结合样本容量,监控评级等级的样本分布集中度(HHI指数)以及违约概率分布,缓解上述风险。
报告未明确提供风险缓解策略,但通过设计过程中严格满足Wald检验及样本容量下界条件,本质上是一种预防和控制风险的设计方法[page::6][page::7][page::13][page::16]。
---
6. 批判性视角与细微差别
- 模型假设的稳健性:报告基于固定显著水平和理论Wald检验构建参数,实际银行评级数据具有时间动态性、异质性,评级迁移可能削弱固定阈值的适用性,需动态校准;
- 样本容量限制权衡:报告强调减少评级等级数量以增加统计能力,可能导致评级精细度下降,从信用风险管理细节层面带来信息丢失风险;
- 风险分布函数的假设(分段线性,几何递减):可能无法充分反映市场极端事件或行业局部风险状况,存在估计偏差可能;
- 资本节约效应与验证失败概率的权衡:尽管经济模拟显示资本节约可观,但报告指出效益随样本数量增长而递减,实际应用中对大样本客户群的适用性有限;
- 多重假设的累积偏差风险:例如大量等级参数和滑动幅度的选择可能带来过拟合,降低整体模型适应性和稳健性。
整体报告基于严谨数学推导和多个实证案例,分析合理,但在实际银行风险管理流程中应用,应综合考虑动态风险特征与业务实际,避免机械套用[page::8][page::9][page::23]。
---
7. 结论性综合
本研究系统提出并验证了基于统计可区分性Wald准则的信用评级尺度设计方法,强调评级等级必须与样本容量及风险分布相匹配,避免无效、冗余等级带来的验证不稳定和资本增负。核心贡献点包括:
- 构建了评级尺度等级边界的递归算法,实现了聚焦统计区分能力的优化划分,满足监管对等级数量和风险分布的要求;
- 通过对Fitch、Expert-RA及银行内部评级数据的模拟实证,揭示当前行业评级尺度存在样本容量不匹配与等级冗余问题;
- 统计可区分评级尺度在限定样本量下显著提升评级验证的稳定性,降低违背Wald检验概率,允许校准PD较传统冗余尺度下更低,进而节约资本需求;
- 资本节约效果明显(约6%-7%),但随着样本容量的增加,该优势逐渐降低,对中小企业和企业贷款组合尤为显著,对于大样本零售业务资本节约效益有限;
- 研究强调,实施统计可区分评级尺度设计应先于评级模型首次验证,确保模型校准基于最优评级尺度。
此外,报告通过详尽数学推导与大量模拟支持,且结合监管要求完整展现了评级尺度设计所需的理论和实务框架。
最终,该方法为银行特别是企业信贷领域的信用评级体系开发提供了理论依据和实用工具,不仅能提高模型验证通过率,还能有效降低资本占用,提升资本效率,是信用风险管理领域具有重要实用价值的创新研究[page::23][page::24]。
---
参考图表索引
- 图1:Moody’s PIT年度违约率走势图[page::4]
- 图2:Moody’s TTC七年违约率走势图[page::4]
- 表1:Moody's汽车行业评级因子权重[page::3]
- 表2:Fitch 1990-2023各等级违约概率统计[page::5]
- 表3-4:Fitch及Expert-RA评级尺度统计区分性分析[page::11][page::12]
- 图3-7:评级尺度风险分布、等级数量、最大PD界限、样本浓度及HHI指标图[page::14 - page::17]
- 图8-10:经济模拟的资本节省与验证失败率关系曲线[page::21 - page::23]
---
结束语
综上所述,Pomazanov的报告提出了一个基于严格统计假设和监管检验要求、针对银行内部评级尺度过细导致验证不稳定问题的创新解决方案。通过灵活设置评级等级边界和最小样本容量阈值方法,避免评级阶梯的统计重叠,提高评级结果的稳健性,给银行信用风险管理和资本优化带来直接利好,特别适合企业信贷大额客户分级场景。
建议银行风险管理部门及评级模型开发人员充分考虑观察样本规模,合理规划评级等级数量和PD区间,实现统计意义上的“可区分”评级尺度,有助于提升评级验证通过率及资本效率。
此报告具有较高的学术和实际应用价值,为评级尺度设计与验证提供了切实可行的理论框架和工具。
参考文献
报告末尾附有详尽参考资料,涉及Basel监管文件、评级机构数据、统计方法及相关研究文献,确保研究基础扎实[page::24][page::25]。
---
本分析严格依据报告文本进行全面细致解释与评价,所有结论均附溯源页码,确保内容透明和可追溯。*