`

The TruEnd-procedure: Treating trailing zero-valued balances in credit data

创建于 更新于

摘要

本文提出并验证了一种称为TruEnd的自动化优化程序,用于识别和剔除贷款账户期限末尾存在的尾随零余额(TZB)段,解决了账面余额滞后的数据错误问题。通过对南非住宅抵押贷款数据的实证分析,确定了最优小余额阈值300兰特,从而显著减少了滞后余额的影响,如降低贷款平均生命周期3个月、减少实现损失率1.2个百分点。剔除TZB后,时间到违约的生存分析模型预测更准确,违约风险事件的时点和信用损失估计的偏差得到有效校正,显著降低了IFRS 9下的信用减值风险和模型风险。[page::0][page::2][page::7][page::11][page::13][page::14][page::15][page::17]

速读内容

  • 研究背景与问题定义 [page::0][page::1][page::2]

- 贷款账户尾部存在大量月末余额为零或极小的“尾随零余额”现象(TZB)。此现象因系统迁移或运营失误导致账户未能及时关闭,造成观测到的贷款期末存在冗余虚假数据。
- 该滞后数据扭曲贷款终点,严重影响信用风险时间到事件模型(如生存分析)的准确性,导致信用损失率(LGD)估计偏高。

  • TruEnd程序核心方法与优化框架 [page::3][page::4][page::5][page::6][page::7][page::8]

- 通过设定账户余额的候选阈值$b$,识别账户尾部余额连续小于$b$的区间作为TZB段,定义真正的账户终点。
- 引入两个指标:TZB期间的平均余额$M1$与之前一段时间非TZB期余额平均$M2$,并设计目标函数$f=w \cdot M2 - M1$寻找最佳阈值$b^$,平衡误删与漏删风险。
- 使用加权平均和样本标准差调节目标函数以提升算法稳定性,采用离散值迭代搜索全局最优阈值。


  • 优化结果及样本规模验证 [page::9][page::10][page::11]

- 在全样本(N=653,331)和随机抽样子样本(N=10,000)中均得出趋同的最优阈值 $b^
= 300$ ZAR。
- 目标函数$f$在$200\sim500$范围内维持相对高值,表明该区间之内均可视为合适的小余额定义。
- 中位污染度(衡量小余额与非小余额均值贡献比)约0.065%,用于调节目标函数参数权重。


  • TZB错误现象对账户特征的影响分析 [page::10][page::11][page::12][page::13]

- 随阈值$b$增加,TZB账户比例迅速升高,最优阈值300下TZB账户比例约为23%。
- 删除TZB期间后账户平均生命周期削减约3个月,TZB段平均长度约18个月,TZB余额平均极小接近7.45兰特,说明剔除的时段余额几乎为零。
- 账户生命周期缩短说明风险事件(如违约、结清)时点提前,防止历史余额的拖延导致违约事件预测滞后。


  • 指标变化的分布对比与模型影响 [page::13][page::14][page::15][page::16]

- 删除TZB后账户年龄的概率密度分布呈现“顺时针旋转”态势,短期账户概率增加,长期账户概率降低,平均年龄减少3个月。
- 实现损失率平均下降1.2个百分点,说明TZB错误导致损失估计偏高。
- 写-off时点的生存函数和风险率(Kaplan-Meier估计及风险函数)均显示删除TZB后,风险事件更早发生,风险水平提升,风险预测更为准确。



  • 研究结论与未来展望 [page::15][page::16][page::17]

- TruEnd程序成功识别并剔除TZB错误,提升信用风险时点预测的准确性和损失估计的客观性,符合IFRS 9资产减值的需求。
- 未来研究可考虑引入多控制变量、分段优化、调整参数τ、采用比例指标以抵抗通胀影响、以及引入变点检测方法进行更细粒度的TZB段识别。[page::8][page::17]

深度阅读

The TruEnd-Procedure: Treating Trailing Zero-Valued Balances in Credit Data – 深度分析报告



---

一、元数据与报告概览


  • 报告标题: The TruEnd-procedure: Treating trailing zero-valued balances in credit data

- 作者: Arno Botha, Tanja Verster, Roelinde Bester
  • 发布机构: North-West University (南非西北大学) 商业数学与信息学中心,南非理论与计算科学国家研究所(NITheCS)

- 发布日期: 文中无明确标注,提交版本为2024年初(代码库为2024)
  • 研究主题: 关注信用数据中贷款余额序列尾部持续出现的零或近零余额的问题,提出TruEnd程序,用以识别并修正贷款账目不可见的真实终点,从而提升信用风险时间事件模型(尤其是生存分析)预测的准确性。

- 核心论点: 贷款数据中的拖尾零余额(Trailing Zero Balances, TZB)是由于运营及系统延迟关闭贷款账户产生的错误,给后续风险建模(如违约概率、违约损失率Loss Given Default,LGD)带来偏差。报告提出一种基于优化的自动化方法——TruEnd程序,通过寻找最佳“零余额阈值”定义,识别并删除这些无效TZB数据,从而恢复真实贷款终止点,显著提高生存分析的预测准确性和损失估计的合理性,实现合规如IFRS 9所要求的信用损失精确计量。
  • 关键词: 数据错误、优化、决策分析、信用风险建模、违约损失率、存活分析

- JEL分类: C41(时间序列模型)、C44(非参数和半参数方法)、C61(优化技术)

---

二、逐节深度解读



1. 引言



报告从生存分析理论切入,回顾了其在信用风险领域尤其是违约概率(PD)和违约损失率(LGD)的时间动态建模中的应用。强调随着IFRS 9准则对预期信用损失(ECL)动态计量的要求,准确捕捉风险事件的时点和损失严重度的必要性增加。指出虽然生存分析方法成熟,但倘若数据中含TZB数据错误,模型训练时的事件时间和损失估计将受到严重干扰,导致模型风险和损失估计偏差。
介绍监管机构(英国PRA及南非SARB)均强调模型风险管理和数据质量要求,呼吁在模型训练前做好数据预处理。TZB问题产生的原因主要是贷款账户结清后的数据仍滞留零余额的无效记录,实际贷款生命周期提前结束,但观察数据未同步更新,从而产生大量虚假尾部数据(见图1,绿色代表正常余额期,红色代表TZB期,旁放放大镜表达界限不明确)。此假数据将误导违约时间及损失建模,造成模型偏误和资本估计虚高。手工校正不可行,亟需自动化系统。
本节明确提出待解决的关键问题是如何界定“零余额”的大小阈值,确保既不遗漏真正TZB(阈值定得过小),也避免误删有效数据(阈值设得过大),找到最适平衡点至关重要。[page::0,1,2]

2. TruEnd方法原理与定义



报告引入一种优化框架来定义TZB起点,即贷款余额序列中连续下跌至低于某个阈值$b$的月份,从而视为真正的贷款结束点前移。
  • 以贷款$i$的余额时间序列$\mathbf{B}i = [B{i1}, B{i2}, ..., B{iTi}]^T$表示。

- 定义一个阈值$b\geq0$,若存在某$t'$使得从$t'$开始直到终止时点$T
i$内余额均$\leq b$且持续时间$\geq l$个月,则$tz(i) = t' + 1$为TZB期起点,实际贷款终止为$t'$.
  • 用布尔函数$Z{it}(B{it},b)$判断月份余额是否属于TZB期。

- 以单户示例(表1)展示了对于$b=500$,余额突然从数千大幅降至百元以下,其余余额更趋近零,明显分割了正常非TZB期与TZB期,辅助确认$t
z$位置。[page::3,4]

该部分的数学定义使TZB判别机械、可编程。

3. 优化目标函数设计



为进行阈值$b$的优化,报告定义了两个均值测度:
  • $M1(tz)$:TZB期内余额的均值,应极低。

- $M2(tz,\tau)$:TZB期前$\tau$个月余额均值,应较大且稳定。

通过对比两者实现“前后段差异最大”原则,寻找最佳$tz$。
定义贷款层面目标函数:
$$l
i(tz) = w \cdot M2(tz,\tau) - M1(tz)$$
其中$w$是权重,用来调节两均值不同数量级的比例关系。
设计组合函数:
$$f(\mathbf{B}, b) = \frac{1}{\bar{s}} \sum
i li(Tz(\mathbf{B}i, b))$$
其中$\bar{s}$为$l
i$值的标准差,用于标准化,防止优化因样本方差过大而失效。
最终在预设的阈值集合$\mathcal{S}b$中,寻找使$f$极大化的$b^$,据此截断各账户超出真实终结点的余下TZB期。
图3形象演示了$f$对$b$的变化曲线及最优点$b^
$.[page::5,6,7,8]

4. 案例演示与实证结果


  • 数据来源:南非某大型银行约650,000户住房抵押贷款,时间跨度2007-2022,月度数据约4900万条。

- 研究中采用全数据及1.5%随机抽样两个数据集,用以对比样本规模对优化结果的影响。
  • 首先,计算$w$权重,依赖于系列衡量的“污染度”$\bar{\phi}(B,b)$(TZB均值占总均值的比例),结果见图4,污染度随阈值$b$单调增加,$w$取中点0.065%左右。

- 目标函数$f(\mathbf{B},b)$在全样本和子样本的结果高度一致,两个曲线均证明最优阈值为300 ZAR,最佳范围约为200-500。(图5)
  • TZB案例占比对阈值敏感,随$b$增加,从15%迅速攀升至28%,最优阈值时接近23%,高度普遍!(图6)

- TZB期长度平均18个月,整体贷款时间因TZB去除而减少3-4个月(图7a);而TZB期间余额低至均值7.45 ZAR,忽略之不损害本金规模(图7b)[page::9,10,11,12]
  • 进一步比较剔除TZB前后,账户年龄分布发生明显转移,写损失率平均下降1.2个百分点(由41.7%降至40.5%),数百万的信用损失估计节省潜力显著(图8)。

- 生存分析的写-off累计概率曲线及离散时点风险率均显示剔除TZB后,风险事件发生提前且频率更高(图9、图10),符合预期且有助于提升PD与LGD模型的准确性。[page::12,13,14,15,16]

---

三、图表深度解读



图1


呈现贷款账户历史中正常非零余额段(绿色)与TZB期(红色)之间的模糊分界,形象化TZB问题根源与判定难点。

表1


具体账户的历史余额与TZB标记示例,阈值为500 ZAR。第61个月余额从6000多急降至156.47,之后余额均处于登录TZB区(小于阈值),展示了如何定位TZB起始点$t
z=62$。此数据支持以余额均值概念分割历史。

图2


展示选择$tz$导致的均值$M1$与$M2$三种情况对比——“太早”、“理想”、“太晚”:
  • 理想点$M1$低、$M2$高,区分明显。

- 太早$t
z$使$M1$被大额余额污染,$M1$增大。
  • 太晚$tz$导致$M2$被零余额污染,$M2$减少。

- 目标为同时最大化$M
2$最小化$M_1$,寻幽径。

图3


示意总体优化目标函数$f(b)$随阈值$b$的变化曲线,展示选择最佳阈值$b^$的流程。

图4


数据级污染度$\bar{\phi}(B,b)$随阈值$b$单调线性上升,解释了为何选择均值的中点作为优化权重$w$。

图5


全样本与子样本数据均体现$f(b)$峰值均落在300 ZAR,且峰值两侧区域平滑,即该范围内小幅$b$变化对优化无显著影响,为实际应用提供容忍区。

图6


TZB账户比例曲线,较高且敏感,强烈表明TZB在现实信贷数据中达相当规模,忽略风险不可忽视。

图7

  • (a) 截断TZB后平均贷款年龄大幅缩短约4个月,余留TZB长度约18个月,为模型准确性改进提供显著时间修正。

- (b) TZB内余额均值低,丢弃本金损失微乎其微,非TZB期平均余额反而提升,反映去除小额“干扰”数据可净化信用逾期表现统计。

图8


修正TZB前后的年龄及写损失率分布比较,显示修正后分布出现“顺时针分布移位”,尤其中间与高年限部分明显减少,写损失均值也显著降低。

图9 & 10


分别为修正与未修正TZB前后写-off事件的累计概率和风险率的生存分析结果。皆表现修正后风险事件提前爆发且持续期更短。此外,计算的平均绝对误差(MAE)显示差异虽小,但在大规模数据中累积显著,利于提升模型准确度。

---

四、估值分析



报告未涉及金融资产市场价值估值,但针对信用损失估计(ECL)中主要风险参数LGD,阐述了TruEnd纠错带来的重要经济价值:
  • 减少了摇摆及延迟记录带来的失真,降低过度估计的损失率,节省资金并避免资本运用效率下降;

- 通过更精准的违约时间点和损失衡量,实现IFRS 9规定的预期信用损失模型准确调整,提高会计合规水平。

---

五、风险因素评估


  • 数据错误风险: TZB数据错误普遍且难以人工识别,如不纠正将导致违约时间估计偏移,LGD估计上偏,生存模型误判,进而错误计提拨备并影响风险管理及资本充足率。

- 模型风险: 基于错误数据训练的生存模型偏离现实,模型预测力受损。
  • 操作风险与系统失效: 发生TZB的根本原因是系统间数据迁移和贷款后续运营失败。

- 方法适用性限制: 单一阈值$b^
$可能因通货膨胀、账户异质性而不足,可能导致非最优纠正。
  • 采样风险: 小样本可能导致噪声影响优化结果,但实证中子样本与全样本结果一致,减轻此风险。


报告未明确给出缓释策略,但提示可细分市场,采用多变量阈值和动态参数选择减少误差。

---

六、批判性视角与细微差别


  • 报告对权重$w$的选择依赖于污染度均值的简易中点,方法虽合理,但未给出更复杂权重校准的尝试,未来可探索自适应权重机制。

- 优化目标函数选用均值,虽然利用均值对极端值敏感的特点有创新性,但均值也受异常值严重影响,或许考虑中位数、分位数等稳健统计量能提升稳定性。
  • 单一阈值$b^$的适用性可能受贷款类别、宏观经济周期、货币贬值影响,报告提出未来可结合比例指标(余额/本金)及多阈值细分。

- 该方法基于月度余额序列,若数据频度发生变化(例如周度、日度),方法需调整。
  • 图表中所示误差规模虽小,但对大型银行整体资本计提影响仍巨大,读者应重视此“非参数微小”调整大幅改进的潜力。

- 对于多变量控制和先进的变点检测方法(changepoint detection),报告建议保留探索空间,TruEnd在此具创新价值。

---

七、结论性综合



本报告系统阐述了Trailling Zero Balances(TZB)在商业贷款信用数据中的普遍存在及其对风险估计的危害。提出了一种基于数据驱动且数学严谨的优化程序——TruEnd,自动识别和纠正TZB错误,基于余额序列通过目标函数调节小余额定义,寻找最优阈值$b^
$,截断假历史,恢复真实贷款终点。

在南非大型住房抵押贷款数据集上,验证TruEnd的有效性:
  • TZB账户高达20%+,影响显著;

- TZB期平均长达18个月,余额平均仅7.45 ZAR,不影响本金规模;
  • 去除TZB后,贷款平均寿命缩短约4个月,违约损失率降低1.2个百分点,节省信用损失数额可观;

- 生存模型风险事件时间和强度的调整更加合理,精准提升违约概率和损失模型的准确性。

TruEnd程序不仅弥补了信用数据质量短板,减少模型风险,也为IFRS 9及相關監管合规提供重要支持。报告最后指出,尽管当前采用余额绝对值阈值,并依赖一固定权重和样本均值测度,未来应探索更动态和多变量校正方案,以及与变点检测等机器学习方法的结合。

整体来看,报告提供创新且实用解决方案,有助于金融机构有效提升信贷风险数据质量,降低模型偏误,增强风险管理的深度和精度。[page::0-17]

---

关键图表示例:



图1. TZB时期与正常时期示意图


表1. 单笔贷款余额序列与TZB判定示例
(请参照原始报告第4页详见表格)

图5. 优化目标函数$f(b)$对不同阈值的函数值,子样本(a)与全集(b)


图6. TZB账户比例随阈值$b$变化曲线


图8. TZB修正前后—账户寿命(左)和损失率(右)分布对比


图9. TZB修正前后—写-off事件累计概率对比


---

总结



报告深入揭示了信用贷款数据中虚假余额尾部记录的形成机制、严重性以及对后续信用风险模型的误导效应。通过提出TruEnd优化方法,成功实现了数据清洗的自动化与科学化处理,显著提升风险事件时点识别的准确率及违约损失率的合理估计。该贡献不仅填补了信用风险管理中数据质量与时间序列切分的空白,同时契合IFRS 9等合规要求,具有高度应用价值和推广潜力。未来针对多变量、分段阈值、动态时变调整、以及与变点检测技术的融合,值得持续研究。

该报告对于信用风险模型研发人员、数据科学家及风险管理人员具有重要的技术启示和实践指导意义。

[page::全篇]

报告