Estimation of Spectral Risk Measure for Left Truncated and Right Censored Data
创建于 更新于
摘要
本文针对保险领域中常见的左截断右删失数据,提出基于乘积极限估计量的谱风险度量非参数估计方法,并证明该估计量的渐近正态性及Edgeworth展开,利用自助法提升分布近似精度。模拟研究显示所提估计量在样本量较小和风险厌恶系数较低时优于现有参数及非参数方法,且适用独立及依赖数据情况。最后应用于挪威火险和法国海洋损失数据,验证方法优越性并分析风险特征 [page::0][page::3][page::6][page::8][page::16][page::20][page::21][page::22][page::23][page::24]
速读内容
- 研究背景与意义 [page::0][page::1][page::2][page::3]:
- 保险数据常具左截断(如免赔额)和右删失(如保单限额),影响风险估计准确性。
- 谱风险度量(SRM)是一类固有一致的风险度量,兼顾风险厌恶偏好,适合保险定价。
- 现有研究多集中于参数估计,存在模型误差风险,故采用非参数方法更具鲁棒性。
- 提出的方法与理论贡献 [page::4][page::5][page::6][page::7][page::8]:
- 利用乘积极限(PL)估计器处理LTRC数据,构建谱风险度量非参数估计量$\widehat{M}{Prod}=\int0^1 \phi(u) \hat{F}^{-1}(u) du$。
- 证明估计量渐近服从正态分布,给出准确的方差表达式。
- 推导Edgeworth展开,提高对有限样本下分布的逼近。
- 应用Efron自助法对估计量分布进行高阶逼近,实现第二阶渐近准确性。
- 模拟分析及性能比较 [page::9][page::10][page::12][page::15][page::16]:
- 仿真采用两种典型重尾分布(偏移指数分布和帕累托分布)模拟独立与依赖情形。
- 设置多种样本容量(n=30,100,500)及风险厌恶系数$k$值(1,5,10,20,100,200)。
- 参数估计方法包括最大似然(ML)和分位数匹配(PM);非参数方法包括经验法(EMP)、核估计(Kernel)和提出的PL法。
- 结果显示,$\widehat{M}_{Prod}$在小样本和小$k$时优于其他估计方法,依赖情形下表现尤为突出。


- 依赖数据模型与模拟表现 [page::15][page::16][page::24]:
- 引入带协变量和AR(1)结构的依赖模型,模拟截断和删失数据。
- 依然比较EMP、PL及核估计,对不同风险厌恶系数和样本量分别分析。
- 结果表明PL法对小$k$在各样本容量内均显著优于其他方法。

- 置信区间覆盖率及实证分析 [page::17][page::18][page::20][page::21]:
- 通过10000次模拟自助采样,评估95%置信区间的覆盖率,较小的$k$值下覆盖率接近标称水平。
- 应用于两个保险数据集:挪威火灾保险数据(1981-1992年,左截断无删失)和法国海洋损失数据(2003-2006年,LTRC)。
- 估计结果表明两数据集风险水平无明显趋势,但随着$k$增大置信区间显著变宽,反映对极端风险权重增加。
- 方法总结与结论 [page::20][page::21]:
- 非参数PL估计在LTRC数据下对谱风险度量的估计有效且稳健,尤其适合样本量及风险厌恶系数较小时。
- 提出的估计量在独立及依赖数据均表现优异,且自助法提供了较精确的分布近似和置信区间估计。
- 实证分析验证了理论结论,数据风险度量稳定且符合实际保险场景特征。
深度阅读
金融研究报告详尽分析报告
1. 元数据与概览
- 报告标题:Estimation of Spectral Risk Measure for Left Truncated and Right Censored Data
- 作者:Suparna Biswas 和 Rituparna Sen
- 发布机构:印度统计研究所,Applied Statistics Unit
- 研究主题:风险测度的统计估计,具体针对带左截断(Left Truncation)和右删失(Right Censoring)数据环境下的光谱风险度量(Spectral Risk Measure, SRM)
- 发布日期:未明示,数据从2010年代文献可推断为较新研究
- 核心论点:
- 保险和金融领域普遍遇到左截断和右删失数据(如保险中的免赔额和赔付限额所造成的数据不完整)。
- 光谱风险度量(SRM)是一类内在连贯(coherent)的风险测度,且可以体现用户的风险厌恶程度,是风险度量领域重要工具。
- 现有针对左截断-右删失数据的SRM估计方法有限,作者提出基于Product Limit(PL)估计器的非参数SRM估计方法。
- 理论证明该估计器的渐近正态性,并推导Edgeworth展开式提升近似精度。
- 采用Bootstrap方法进行分布逼近,精度达二阶(误差阶为$o(n^{-1/2})$)。
- Monte Carlo仿真验证了新估计器在不同样本量和风险厌恶系数$k$下的优越表现。
- 实证分析涵盖挪威火险索赔和法国海事损失两组实际保险数据。
作者意在传达的信息是:在保险及相关领域,当数据受到免赔额和限额影响导致截断和删失时,采用基于Product Limit估计器的非参数SRM估计方法能够更准确、稳健地进行风险度量,特别适合用户风险厌恶程度较低或样本容量较小的情境。[page::0,1,2,3]
---
2. 逐节深度解读
2.1 引言(Introduction)
本节首先定义了左截断和右删失的数据情境,这类数据常见于保险业中因免赔额和赔付限额造成的信息不完整:
- 左截断(Left Truncation):只有当损失大于某阈值$d$时,数据才被记录。例如免赔额场景。
- 右删失(Right Censoring):当损失超过某限额$u$时,将其记录为$u$,因赔付不得超出限额。
强调保险中的风险度量与定价、赔付额度设置等紧密相关,且风险度量本质上与精算中的保费原则对应。
此外,论述了保费原则的重要性和风险度量的必要性,指出实际损失分布往往未知,因此设计合理的风险度量及其估计方法成为重点。[page::1]
2.2 理论背景与光谱风险度量(Spectral Risk Measures)
本章对光谱风险度量(SRM)做详细阐释:
- SRM是风险度量函数的加权平均,权重由用户的风险厌恶函数$\phi$决定,满足一致性和连贯性。
- SRM的优势:是一类连贯的风险度量,且能反映用户主观风险偏好;同时,是可共调和法则和测度不变性的。
- 以条件尾期望(CTE)或预期短缺(ES)为典型SRM代表。
- 说明估计SRM尤为重要,因截断会造成有效样本量减少,忽视截断将导致估计严重偏误,影响保费订价。
重点突出SRM的定义:
$$
M{\phi} = \int0^1 \phi(u) FX^{-1}(u) du,
$$
其中$FX^{-1}$是损失的分位函数,$\phi$为风险厌恶函数,满足非负、归一化和非减性等条件。[page::2]
2.3 现有估计方法和本研究的创新点
- 传统的经验非参数方法受尾部观测不足影响效率较低。
- 参数法提高效率但易受模型假设错误影响,存在模型风险。
- 双方都存在不足,本研究采用基于Product Limit(PL)估计器的非参数方法,天然适合处理左截断右删失(LTRC)数据。
- 文献回顾说明PL估计器在估计分位数等方面有效,然而SRM估计尚无应用PL方法的研究。
- 研究目的:基于PL估计器定义非参数SRM估计量$\widehat{M}{Prod}$,同时证明其渐近性质、引入Edgeworth展开以提高分布近似准确度,使用Bootstrap评估分布逼近精度。
- 采用含风险厌恶系数$k$的指数型函数,系统比较各种估计器在不同样本量和$k$取值下的表现。
章节最后概述了文章框架:估计量定义、理论性质证明、Bootstrap及Edgeworth分析、模拟研究及真实数据实证。[page::3]
2.4 估计量定义及数据模型(Proposed estimator)
建立数据模型:
- $(X,T,S)$:随机向量,其中$X$为关注的损失变量,$T$为左截断变量,$S$为右删失变量。
- 假设$X,T,S$独立且分布连续。
- 观测到的数据为$Y = X \wedge S$和删失指标$\delta = I(X \leq S)$,同时只在$Y \geq T$时观察到数据。
- 定义截断-删失数据的联合分布$H^$。
- 样本实际观测数$n$随机且小于整体样本量$N$,通过强大数定律比例$\frac{n}{N} \to \alpha$。
- 关键:利用Product Limit估计器$\widehat{F}$对损失分布进行估计:
$$
\widehat{F}(x) = 1 - \prod{Yi \leq x} \left[ \frac{ n Cn(Yi) - 1 }{ n Cn(Yi) } \right]^{\deltai}
$$
其中
$$
Cn(z) = \frac{1}{n}\sum{i=1}^n I( Ti \leq z \leq Yi )
$$
- PL估计器适用于这种截断删失模型。
- 基于PL估计器,定义SRM估计为:
$$
\widehat{M}{Prod} = \int0^1 \phi(u) \widehat{F}^{-1}(u) du
$$
此估计即为本研究提出的核心非参数SRM估计器。[page::4,5]
2.5 估计器的分布理论性质
- 渐近正态性(Theorem 1):在满足截断删失支持条件及函数平滑性条件下,估计量按$\sqrt{n}$尺度趋近于均值为真SRM值、方差可解析表达的正态分布。
- 相关方差$\sigma^2$为双重积分形式,涉及风险厌恶函数$\phi$、分位密度$f$以及截断删失相关分布$W^$和$C$。
- Edgeworth展开(Theorem 4):进一步扩展渐近正态分布加二阶校正项,包括偏度校正,提高有限样本下的分布近似真实性。
- 基于$U$统计量表达(Theorem 2):证明估计量可表示为$U$统计量形式,便于理论分析与分布逼近。
- Bootstrap分布逼近(Theorem 5):采用Efron Bootstrap方法验证,Bootstrap估计分布以二阶精度逼近估计器真实分布,保证置信区间覆盖概率误差为$o(n^{-1/2})$。
该章节理论深度高,结合经典分布理论方法理论证明了新估计器的统计性质,奠定后续实证基础。[page::6,7,8,9]
2.6 模拟研究
2.6.1 独立样本情形
- 模拟设定:
- 采用两种典型重尾严重分布:
1. 移动指数分布$Exp(x0, \theta)$,位置参数$x0=1000$,尺度参数$\theta=1000$
2. Pareto I分布$PaI(x0, \alpha)$,尺度$x0=1000$,形状$\alpha=2$
- 采样后左截断阈值$d=4100$,右删失阈值$u=14000$,对应较强截断(约95%)和删失(5%左右)水平。
- 风险厌恶系数$k$取值范围广泛(1至200),控制风险权重集中度。
- 估计方法包括5类:
- 参数法最大似然估计(ML)
- 百分位匹配估计(PM)
- 经验非参数估计(EMP)
- 核密度估计(Kernel)
- 本文提出的PL基非参数估计(Prod)
- 指标为均值、标准差、均方根误差(RMSE)
- 主要模拟发现:
- 在小样本($n=30, 100$)和较小风险厌恶度($k=1,5$)时,PL估计器表现最佳,优于参数法。
- $k$过大时,经验法EMP表现较优,这与权重强集中导致估计器对极端值依赖有关。
- 样本量大($n=500$)且$k中等时,参数ML估计器表现反超。
- 图1、表1详细展现各方法RMSE比值趋势,显示PL估计优越区间明显。[page::9-14,22,23]
2.6.2 依赖样本情形
- 设计含自回归特征的依赖模型($\alpha$-mixing序列),模拟实际数据内在依赖关系。
- 只对非参数方法进行比较,排除参数法难以适用模型设定。
- 主要发现:
- 在所有样本量和较小$k$(5,10)条件下,PL估计器明显优于经验估计和核估计。
- 大样本和大$k$时核估计表现略优。
- 图3、表3支持上述结论,表明PL估计对于依赖数据仍具优势。[page::15,16,24]
2.7 置信区间覆盖概率研究
- 利用Bootstrap多次重复构造置信区间,计算覆盖概率。
- 结果显示对于小风险厌恶系数$k$,覆盖概率接近理论设定的90%置信水平;$k$增加时,覆盖度下降明显。
- 表4呈现覆盖概率低风险厌恶时较为理想,验证理论中Bootstrap误差阶数的有效性。[page::17]
2.8 实证分析
- 数据集:
- 挪威火灾索赔(1981–1992),仅覆盖大于50万NOK的损失,无右删失,左截断$d=500$。
- 法国海事损失数据(2003-2006),涵盖0.018至31904.2欧元,具备左截断和右删失。
- 分析内容:
- 估计两数据集上的指数SRM及其90%置信区间。
- 结果显示两数据集风险度量值无明显上升或下降趋势,风险程度稳定。
- CI宽度随风险厌恶系数$k$增加而扩展,符合理论:大$k$加权集中,样本等效量减少,估计不确定性加大。
- 表5、7分别呈现两个数据集基本统计特征,表6、8给出SRM点估计及置信区间。
- 研究验证模拟结论,方法适用真实保险数据环境。[page::17,18,20]
2.9 结论
总结全文并重申研究贡献:
- 保险数据广泛遭遇左截断右删失,忽略截断删失将导致风险度量误判,影响定价。
- SRM作为连贯风险度量,将风险厌恶纳入评价机制,适合保险精算。
- 本文基于PL估计器提出非参数SRM估计方法,理论上具渐近正态性与Edgeworth修正,Bootstrap估计理论精度保障。
- 模拟验证方法在小样本、小$k$及依赖数据条件下表现优于现有估计器。
- 实证分析支持方法的实际价值和稳健性。
- 未来工作可考虑拓展到更复杂依赖结构和高维风险度量。
总体上,本文通过理论与实证结合,提供了实用且数学严谨的工具,适用于保险及金融领域遇到截断删失数据时的风险测度问题。[page::20,21]
---
3. 图表深度解读
3.1 图1:$FE$分布下各SRM估计器RMSE比值对数(第22页)
- 描述:图1展示了在不同样本数($N=30, 100, 500$)条件下,不同系数$k$下所有估计方法RMSE与本文PL估计器RMSE的对数比值。
- 解读:
- 曲线低于0表示PL估计器表现更优。
- 对于小样本$N=30$,除了个别$k$值(如$k=20$)外,PL估计器RMSE显著更小。
- 样本增大,PL估计器竞争力部分被参数估计取代,特别是在大$k$时PL优势减少。
- 核估计(黄色)常表现出较高RMSE,表明在此上下文中不如其他方法稳定。
- 结论:
- PL估计器在实际小样本下对风险偏好不高情境尤为优越,验证前文理论和模拟结论。
- 图形直观展现了针对不同$k,n$适用最优估计器的区间,为实践提供指导。[page::22]
3.2 图2:$FP$分布下各估计器RMSE比值对数(第23页)
- 描述:同图1,但适用Pareto分布样本。
- 解读:
- PL估计器整体表现更佳,尤其在$N=100, 500$及小至中等$k$范围内。
- 经验估计在少数中大$k$和小样本情况下表现优异。
- 参数估计的优势更加有限,凸显PL方法的稳健性。
- 结论:
- 图2进一步支持PL估计方法在重尾分布下的实用性和优越性。
- 非参数方法对模型误差具有更强鲁棒性,适合不确定或复杂分布情形。[page::23]
3.3 图3:依赖样本条件下估计器RMSE比值对数(第24页)
- 描述:考虑数据自相关($\rho=0.1$)影响下,PL、经验和核估计RMSE的比值。
- 解读:
- 对小$k$值,PL估计器显著优于其他两个。
- 样本小($n=30$)时性能差异最明显。
- 核估计在大样本和大$k$条件稍占优。
- 结论:
- PL估计器方法对依赖数据同样适用,且优于经验法和核法,验证其广泛适用性。
- 显示PL估计对数据依赖特征的适应能力。[page::24]
3.4 表格1~3:模拟总结统计
- 表1和表2分别展示移动指数和Pareto分布下各方法均值、标准差及RMSE。
- 表3展示依赖情形下三种非参数估计器的性能数据。
- 结合均值、SD、RMSE项,PL估计器在小样本和低$k$下均显优势,尤其RMSE显著最小。
- 参数估计器在样本加大或$k$增大时部分情况下竞争力增强,经验估计器则在高$k$表现有波动。
- 这些数据详细量化比较了不同估计方法的统计性能,有助实际选择估计策略。
3.5 表4:置信区间覆盖概率
- 表4报告了基于Bootstrap构建置信区间的覆盖概率,覆盖率随着样本增大和风险厌恶系数减小而趋近理论值90%。
3.6 表5和表7:实证数据基本统计
- 列出了两实证数据集各年份的索赔严重度分布和样本量。
- 显示了这些数据集通常为重尾,且存在数据截断和删失。
3.7 表6和表8:实证SRM点估计及置信区间
- 依据本文PL估计器计算,随风险厌恶系数的升高,估计值增大且置信区间宽度增加,反映了理论预期。
综上,报告中的图表系统展示了理论方法及仿真验证,同时通过实际数据验证方法有效,堪为保险精算实践中的重要参考。[page::13,14,16,17,18,20,22,23,24]
---
4. 估值分析
本报告核心为风险度量的统计估计方法,估值部分主要涉及风险度量的定义及估计,而非传统企业价值或股票价格估值。
- 使用指数型风险厌恶函数:
$$
\phi(u) = \frac{ k e^{-k(1-u)} }{1 - e^{-k}}
$$
其中$k$为风险厌恶系数,越大则对尾部损失关注越强,类比VaR和ES的置信水平。
- SRM定义为风险分布分位数带权积分,估计器通过PL估计底层分布分位数实现。
- 刻画了偏差、方差和高阶误差,通过Edgeworth展开和Bootstrap方法精细刻画估计器定量表现。
- 估值假设包括数据独立同分布或一定混合依赖结构,偏离参数模型的假设,强调非参数方法的稳健性。
整体估值属于统计风险度量估计问题,报告详细解决了截断删失条件下的估计策略及置信水平问题。[page::2,3,4,6,8]
---
5. 风险因素评估
- 数据截断删失风险:左截断导致部分低额度损失未被记录,右删失导致超过赔付限度损失信息有限,均造成样本容量未知且偏倚。
- 模型风险:参数假设可能不符实际,导致参数估计失真,本文选择非参数PL估计避免该风险。
- 尾部数据稀缺:严重影响基于经验分布的估计精度,PL估计相对缓解该问题。
- 风险偏好表达不充分:风险厌恶函数选取不当或基于固定形状可能限制用户风险态度的表达准确性。
- 样本依赖效应:真实数据间存在时间或空间依赖,标准独立假设不成立,本文模拟涉及$\alpha$-mixing依赖序列分析,考虑实际复杂性。
- 置信度风险:高风险厌恶系数使得有效样本量缩减,置信区间宽度扩大,覆盖概率下降。
- 缓释策略:采用非参数PL估计法增加估计鲁棒性,利用Bootstrap增强分布近似,选用指数风险厌恶函数方便调控风险程度,提高实用弹性。
报告综合考虑理论及实证数据,提示使用者应关注风险厌恶参数和样本量对结果的影响,合理选择估计方法以降低风险。对可能出现的模型不匹配与依赖效应表现出谨慎态度。[page::2,3,4,6,9,16,20]
---
6. 批判性视角与细微差别
- 文章强烈推荐非参数PL估计器的适用性,但在大样本或高风险厌恶指标情况下参数方法表现不俗,报告对此已有客观披露。
- 实验中高$k$值估计的表现欠佳,置信区间覆盖下降,提示PL估计对于极端风险关注情形仍需谨慎使用。
- 依赖数据模型复杂性尚未完全覆盖,实证分析仅局限于特定$\alpha$-mixing模型,未来拓展可能提升方法的普适性。
- 文章未深入探讨风险厌恶函数$\phi$的选择对估计结果的全局影响,仅采用指数型函数,限制了风险态度表达多样性。
- 原文公式部分存在排版不清晰或符号混淆的小问题,需谨慎解读,例如部分推导中的变量符号混合。
- 模拟研究基于特定截断删失参数设定,未广泛覆盖所有可能的实际情形。
- 整体论证严谨,结论与数据强相关,体现科学态度。
---
7. 结论性综合
本文系统研究了在保险领域常见且统计挑战性大的左截断和右删失(LTRC)数据环境中光谱风险度量(SRM)的估计问题,提出基于Product Limit(PL)估计器的非参数SRM估计量$\widehat{M}{Prod}$。
- 理论贡献:
- 严格证明估计器的渐近正态性,同时通过Edgeworth展开提升有限样本的逼近精度。
- 采用Bootstrap方法,证明其分布拟合误差为二阶,进而保障置信区间覆盖率的合理性和稳定性。
- 估计性能:
- Monte Carlo仿真覆盖独立和依赖样本情形,涵盖不同样本量和风险厌恶系数$k$。
- 结果表明,$\widehat{M}{Prod}$在小样本及低风险厌恶度(小$k$)时优于现存参数和非参数估计法。
- 在依赖数据下,该估计器的优势更为明显。
- 实证分析应用于两类典型险种数据,验证方法的实用性和精确性。
- 估计器的置信区间随风险厌恶系数升高而变宽,反映风险偏好对估计不确定性的显著影响。
- 该研究对保险业中的风险测度估计,特别是在数据截断删失情形下具有显著理论与实际价值。
综上,本文填补了SRM估计在复杂截断删失数据情境下的研究空白,建议保险精算师、风险管理者在相关数据处理和风险测度中优先采纳该非参数PL估计方法,尤其适用于样本规模有限且风险厌恶度较低的场景。
---
图片展示示例:
- 图1($FE$分布下估计器RMSE比值对数):

- 图2($FP$分布下估计器RMSE比值对数):

- 图3(依赖案例下估计器RMSE比值):

---
参考文献均基于原文最后章节附录列出,确保理论依据严谨完整。[page::27,28,29]
---
(全文以上严谨引用页码于段尾,符合溯源及学术标准)