`

The TruEnd-procedure: Treating trailing zero-valued balances in credit data

创建于 更新于

摘要

本文提出了TruEnd-procedure,一种基于优化方法的自动化程序,用于识别和剔除信用数据中因操作或系统失误导致的“尾部零余额”(TZB)问题。其核心在于定义与寻找“余额较小”阈值$b^*$,借助多项统计平衡度量同时最大化非TZB期均值并最小化TZB期均值以确定账户真实终止点。通过两个大型南非信贷数据集的实证展示,TZB现象在信贷组合中普遍存在且对风险事件的时序预测及损失率造成显著偏差。剔除TZB历史后,账户生命周期和资金流折现期被合理缩短,模型预测的违约与清偿时间更为精准,且损失率显著降低,符合IFRS 9信贷减值计提要求,减少了模型风险并提升损失预测的准确性 [page::0][page::2][page::9][page::14][page::17].

速读内容


背景与问题定义 [page::0][page::1][page::2]

  • 信用风险模型常用生存分析预测风险事件的发生时间,但数据中常存在尾部零余额(TZB)问题,即账户结束后的月末余额为零或极低,导致账户真实终止时间被误判。

- TZB的产生主要由历史系统迁移或业务操作失误造成,导致过长虚假的账户余额序列,扭曲风险事件时机和损失率评估,增加模型风险。
  • 确定“余额较小”的阈值定义($b$)是关键难点,阈值过低或过高都会导致错误的账户生命周期划分。


TruEnd-procedure方法框架 [page::4][page::7][page::8]

  • 以账户余额时间序列为输入,定义TZB账户及起始点$tz(i)$ :账户余额连续低于某阈值$b$且长度超过最小长度$l$。

- 设计对比均值指标$M
1$(TZB期间均值),$M2$(TZB前期均值)构造目标函数$f$,目的是最大化$M2$同时最小化$M1$以精确分割TZB阶段。
  • 借助参数$w$平衡两均值量级差异。通过枚举候选阈值$b$,计算集体目标函数$f$,确定最优$ b^ = \arg\max f$。

- 对最优阈值对应账户,剔除起始于$t
z(b^
)$之后的虚假余额数据,修正账户真实终止时间。

实证结果与阈值确定 [page::9][page::10][page::11]


  • 使用南非两类大型信用数据集($65万$住房抵押贷款,$30万$信用卡账户)应用TruEnd-procedure。

- 确定最优阈值$b^*$分别为抵押贷款300ZAR,信用卡400ZAR,且最优区域呈平缓,其他邻近阈值效果接近。
  • Monte Carlo子样本稳定性检验显示该最优值具有统计稳健性,置信区间较窄。


TZB账户普遍性及影响分析 [page::12][page::13]


  • TZB账户预估占比约23%抵押贷款及27%信用卡账户,数量惊人。

- TZB段平均长度18个月,余额近乎零(均值7.45ZAR),剔除TZB段显著缩短账户历史长度约4个月。
  • TZB剔除前后平均账户生命周期和余额均显著变动,说明模型中风险事件时序修正必要且对LGD估算影响显著。


生存分析对比写-off事件及风险时序 [page::14][page::15][page::16]




  • 比较应用与不应用TruEnd后存储写-off事件的累积分布函数和风险率曲线。

- 经剔除TZB期后写-off风险在早期显著上升,说明风险事件被更准确及时捕捉。
  • 损失率平均下降1.2个百分点,实际经济意义重大,避免因历史数据过长造成风险高估。


方法总结与未来研究方向 [page::17][page::18]

  • TruEnd-procedure提供一种创新的数据质量修正手段,利用统计均值对比和优化框架识别批量账户的真实终止时间。

- 可显著降低模型风险,提高ECL估计准确度,符合IFRS 9信贷减值准则要求。
  • 未来工作包括考虑通货膨胀影响,使用多个控制变量(如余额与本金比),进行账户分群后细分优化,以及结合时间序列变点检测方法进行对比。

深度阅读

金融研究报告详尽分析 — 《The TruEnd-procedure: Treating trailing zero-valued balances in credit data》



---

1. 元数据与概览


  • 标题:The TruEnd-procedure: Treating trailing zero-valued balances in credit data

- 作者:Arno Botha、Tanja Verster、Roelinde Bester
  • 机构:Centre for Business Mathematics and Informatics, North-West University(南非西北大学);National Institute for Theoretical and Computational Sciences (NITheCS)

- 发布时间:未明确具体日期,使用最近数据和代码版本截止至2024年
  • 研究对象:信用数据中贷款账户的还款历史尾部出现的零值余额现象及其影响,聚焦于优化识别该“尾零余额”(Trailing Zero Balances, TZB)的策略与方法。

- 核心论点
- 贷款账户的还款历史常含有含误导性的“尾零余额”数据,即账户余额长时间为零或极小值,实际账户应已关闭但数据未能及时反映。
- 这些错误数据会导致对贷款终止时间(如账务结清或坏账核销)的时间预测严重偏差,进而影响基于生存分析的信用风险模型(包括违约概率PD和违约损失率LGD)的准确性。
- 报告提出一套称为TruEnd-procedure的优化框架和算法,用以客观识别并剔除这类多余的尾零余额历史,改善数据质量和模型表现。
- 利用两个大型南非信用数据库(住宅抵押贷款和信用卡)实证验证方法的有效性,明确了“合理小余额”定义的最优阈值(policy),并展示该处理对信用风险估计的实质改善。
  • 关键词:数据错误、优化、决策分析、信用风险建模、违约损失率(LGD)、生存分析。

- 研究价值:在IFRS9及相关金融会计和监管框架下,对信用损失的准确计量至关重要。该论文深刻揭示数据错误对风险计量的影响,并提出切实可行的矫正方案,具有理论和实践双重意义。[page::0]

---

2. 逐节深度解读



2.1 引言与背景(第1-3页)


  • 关键论点

- 生存分析(Survival Analysis)起源于生物统计,强于预测事件发生时间,被引入信用风险领域用于估计贷款违约概率和时间。通过时间相关协变量的纳入,模型预测精度明显优于传统逻辑回归方法。引用了众多文献说明生存分析在信用领域的应用趋势及其对IFRS9预期信用损失(ECL)的高度相关性。
- 违约损失率(LGD)建模复杂,呈现双峰和偏态分布,且受宏经济环境和地方法规影响显著,使用生存分析预测从违约到结清或核销的时间自然契合。
- IFRS9要求准确界定贷款核销时点,错误的终止时间判定会严重损害LGD估计。
- 监管机构(南非SARB、英国PRA等)高度重视模型风险管理,强调整体数据质量、真实性与完整性,这对模型训练尤为关键。
  • 问题揭示:“尾零余额”即贷款账户真实关闭日期之前的数据,因系统迁移及运营缺陷导致历史被异常延长,多月月末余额接近零甚至完全为零。此现象导致贷款终止时间模糊,引入模型风险,尤其影响生存分析的效果与LGD的偏差。

- 挑战:难以提前界定何谓"small balance",不同账户体量和区域可能截然不同,需要优化方法在大量账户中准确识别TZB期,避免过早或过晚截断。
  • 图表:Fig.1 形象展示了帐户还款历史中“健康期”与“尾零余额期”的时间跨度及潜在边界不确定性。用户无法直观看出确切切点,需要算法辅助确定。[page::1, page::2]


2.2 创新方法:TruEnd-procedure(第3-8页)


  • 方法概览

- 定义贷款账户$i$在月$t$的余额为$B{i t}$。
- 设阈值$b$定义“小余额”边界,贷款存在一个尾零余额开始时间点$t
z(i)$,满足从$tz(i)$起至终止时间$Ti$余额均$\leq b$,且该段周期长度$\geq l$个月。
- $tz(i)$即为贷款“真实终止时间”后第一个零余额起点的后一个周期。(式2, 3详细定义)
- 设计两种均值度量:
- $M
1(tz)$ :尾零余额期内余额的均值,理应接近零。
- $M
2(tz, \tau)$ :前$\tau$个月(默认6个月)正常余额均值,理应显著大于$M1$,体现真正还款历史。
- 通过比较$M1$和$M2$寻找$tz$使两者差距最大,即优化目标函数
\[
l
i(tz(i)) = w\cdot M2(tz(i), \tau) - M1(tz(i))
\]
其中$w\in[0,1]$为权重,调整两个度量数值规模弥合差异,保证优化有效。[page::4, page::5, page::6]
  • 整体目标函数

- 汇总所有贷款TZB账户的$l
i$,计算加权均值(标准差调整避免样本偏差),形成
\[
f(\pmb{B}, b) = \frac{1}{\bar{s}} \sumi li(Tz(\pmb{B}i, b))
\]
- 在定义的阈值搜索空间$sb$内遍历$b$,寻找使$f$最大化的$b^$,即最佳小余额阈值(式7至式14)。
  • 过程总结

1. 枚举阈值$b$集合。
2. 计算$f(\pmb{B},b)$并形成曲线。
3. 寻找最大值点$b^
$。
4. 依据$b^$裁剪贷款余额序列尾部,剔除TZB历史。
  • 图表解读:Fig. 2 说明在$tz$选择过早、适当、过晚情况下,$M1, M2$和目标函数$f$的表现变化,理想阶段两均值分明且$f$最大。Fig. 3 示意了$f$关于$b$的函数曲线及最优点求解,形象表现了该方法整体思路。[page::6, page::7, page::8]


2.3 实证应用及结果(第8-14页)


  • 数据说明

- 两个大型数据集来自南非某大银行:约65万条住宅抵押贷款记录(2007-2022),近30万条信用卡记录(2007-2023)。数据详尽清洗,含余额、账龄、结清和核销标记。
  • 权重$w$选择

- 采用整体数据污染比例$\bar{\phi}(B,b)$的中点作为$w$,此值在两个数据组分别为0.065%和3.916%(Fig. 4),保证数值平衡且优化结果合理。
  • 优化结果

- 目标函数$f(b)$在两数据集中均呈亦峰形态,透出明显最优区间。住宅抵押贷款最佳$b^
=300$ ZAR, 信用卡$b^=400$ ZAR(Fig. 5)。此区间附近阈值$f$值变化不大,均可作为业务实践的合理阈值。
- 利用蒙特卡洛法(100次子采样,$\approx$1.5%账号)验证了结果的稳定性和统计置信度,置信区间较窄,优化效果稳健(Fig. 6)。
  • TZB-账户普遍性

- TZB账户比例随$b$快速上涨,最佳阈值下住宅贷款占比约23%,信用卡约27%(Fig. 7),显示问题普遍且严重。
  • 剔除TZB影响

- 平均账户寿命减少约2个月,剔除TZB期长度平均约18个月(Fig. 8a)。
- TZB余额均值接近零(约7.45 ZAR),剔除对整体余额贡献极小,不影响资产总规模(Fig. 8b)。
  • 结论:该TZB问题非偶然且影响重大,修正后精准反映贷款结束时间,避免错误的过长尾部导致还款结算及违约损失的时间误判。[page::9, page::10, page::11, page::12, page::13]


2.4 修正后的生存分析模型表现对比(第14-16页)


  • 操作:仅对已终止账户(核销或结清)应用最优阈值$b^=300$裁剪TZB期,防止活跃账户历史数据被非必要剪除。已终止账户约占TZB账户83%。

- 分布变化
- 应用TZB剔除后,账户年龄分布呈现顺时针偏转:低年龄部分频率上升,高年龄段减少,平均年龄下降3个月,终止账户下降约18个月(Fig. 9a)。
- 实际损失率均值下降$1.2\%$,约从41.7%降至40.5%,金额对应减少显著(Fig. 9b)。
  • 生存曲线分析

- Kaplan-Meier估计写-off存活函数显示,经TZB剔除修正后,写-off事件累积概率在前7年内均高于未修正数据,证明修正提升了风险事件时机精度(Fig. 10)。
- 写-off风险率(条件风险)亦显著在前期提高,后期差异收敛(Fig. 11)。
  • 解读:修正后的生存模型更准确反映贷款生命周期中的风险变化,避免了滞后风险事件引致的模型风险,提升LGD模型对信用损失的估计质量。[page::14, page::15, page::16]


2.5 结论(第17-19页)


  • 总结

- TZB问题因业务系统和操作缺陷广泛存在,影响贷款真实终点时间的记录,严重扭曲违约及损失建模。
- 本研究设计TruEnd-procedure,结合统计优化理论和均值度量,有效识别并剔除尾部无效余额历史。
- 在两个实际大规模南非信用数据集上验证,该方法稳健可靠,能精准选出小余额阈值$b^$(300-400 ZAR区间)。
- 剔除TZB后,减少“虚假迟延”的贷款终止,显著降低LGD预测的偏差,风险事件预测更贴近实际。
- TZB现象普遍且数量庞大(20%以上资金账户受影响),但余额影响微小,剔除负担轻微时效大幅提高。
  • 局限与未来方向

- 目前方法以余额绝对值为控制变量,数据时长长呈现通胀影响,未来可探索余额/本金比率等相对量度。
- 拟采用多变量及账户分群策略,提升精度与适应性。
- 参数$\tau$(前期观察窗口长度)需更系统调优。
- 可结合时间序列“变化点检测”(change point detection)方法,提升尾零余额判别的技术广度。
  • 意义:该研究凸显贷款信用风险数据预处理的关键性,为合规和风险管理提供创新且落地的技术治理方案。[page::17, page::18]


---

3. 图表深度解读



3.1 Fig.1 (尾零余额概念示意)


  • 内容描述:水平时间轴上分绿色(非零余额期)和红色(零余额期)区域,中间用放大镜符号表明两期的转折点不确定。

- 意义解读:强调账户终止时间实际有二义性,纯靠余额值难以确定终点。提醒采用统计方法寻求最优断点。

3.2 Table 1 (单账户TZB期识别实例)


  • 内容描述:列示某住宅贷款账户月度余额序列及对应“是否TZB期”的二元指标,时点$t=62$起余额均不高于选定阈值500,确认TZB起点。

- 数据解读:前6个月均值6000+,待识别尾部均值约160,明显差异支持提前截断账户历史。
  • 意义:体现单账户基于阈值划分尾零余额具体示范,加深理解均值度量差异重要性。[page::5]


3.3 Fig. 2 ($M1$和$M2$在三种$tz$场景下的变化)


  • 描述:“太早”,“理想”,“太晚”三种选点对尾零余额均值$M1$(红线)和近期正常余额均值$M2$(蓝线)的影响及差值$f$。

- 趋势解读:理想点使两均值分离最明显,导致$f$值最大;太早选点使$M
1$增加,误将正常余额归入尾零区;太晚选点导致$M2$受尾零余额污染减少。
  • 联系文本:定量支撑优化目标函数结构设计,确认解决方案科学合理。[page::6]


3.4 Fig. 3 (目标函数$f$与阈值$b$的拟合曲线)


  • 描述:以虚线表示$f(b)$,顶点$b^$标明最优阈值采纳;阈值越大,尾零余额定义越松散,过大导致效益急剧下降。

- 意义:清晰展示了超参数选择的优化过程,图形验证理论假设。

3.5 Fig. 4 (组合数据集上的污染度$\bar{\phi}$随阈值$b$变化)


  • 内容:污染度$\bar{\phi}$($\bar{M}1/(\bar{M}1+\bar{M}2)$)随阈值单调递增,线性近似良好,确定权重$w$的中点约为0.065%。

- 意义:支持阈值选择机制的数值稳定性和科学性。

3.6 Fig. 5(两组数据集的目标函数$f$与阈值$b$曲线)


  • 描述:住宅贷款(a)和信用卡(b)数据均表现$f(b)$有明显峰值,分别在$b=300$、$b=400$,并且存在较宽松的“最优区间”($200-500$)。

- 趋势:左右区间$f$值快速降低,说明过小或过大阈值均不理想。
  • 解读:强调阈值选择的敏感性及TruEnd-procedure的有效性和稳定性。


3.7 Fig. 6 (蒙特卡洛模拟的均值曲线及95%置信区间)


  • 内容:100次重采样后均值$\bar{f}(b)$与之前全样本结果曲线高度吻合,置信区间细窄。

- 意义:验证方法对样本扰动的稳健性,可信赖性高。

3.8 Fig. 7 (TZB账户比例随阈值$b$变化)


  • 内容:阈值越大判定剩余历史越多,账户被划为TZB的比例上升,住宅贷款23%,信用卡27%。

- 解读:说明现象普遍且敏感,阈值选取直接决定剔除账户数量。

3.9 Fig. 8 (阈值$b$对账龄及余额均值的影响)


  • 内容(a):账龄(蓝色)随增加阈值逐步减少,TZB期长度逆向上升,从14个月增至18.5个月。

- 内容(b):TZB期余额均值保持极低,非TZB期均值仍较高,反映剔除无效余额对总体金融规模无实质影响。
  • 意义:凸显经优化阈值裁剪的合理性。


3.10 Fig. 9 (应用TruEnd前后账户寿命和实际损失率分布)


  • 内容:剔除TZB后账户寿命分布向下偏移,实际损失率平均降低1.2%。

- 解读:从概率分布层面验证数据处理改善了风险指标估计。

3.11 Fig.10 & Fig.11 (累计写-off概率和写-off风险率的对比)


  • 描述:按月份展示修正前后生存函数和风险率,修正后前期违约概率和风险率均有提升,后期收敛。

- 意义:说明校正TZB后风险事件提前,模型更加精准。

---

4. 估值分析



本报告核心是数据处理和优化,并未直接涉及传统财务估值方法,如DCF、PE等。其“估值”主要体现在优化函数$f$设计,即基于均值差异最大化原则来判定数据截断点,体现了一个统计决策框架而非财务估值。

报告在优化时考虑了权重$w$调节、样本标准差调整等参数,合理控制了评价指标的尺度和稳健性,保证了函数最大值意义的准确表达和寻找。

此外,基于优化结果,作者没有将TZB剔除视为估值调整的传统意义,而是通过时间截断实现对信用损失和风险时间的校准,从而间接影响信用风险计量模型的“预期损失估值”。

---

5. 风险因素评估


  • 模型风险:核心风险是基于错误数据训练生存模型,导致预测与实际偏离(模型风险涵义按照De Jongh et al. 2017定义),如账户闭合时间延迟会使违约事件预测滞后。

- 数据错误风险:TZB错误普遍存在,随阈值定义变化风险波动,若处理不当,建模结果严重失真。
  • 裁剪风险:过度裁剪(选择过大阈值)会丢失真实有效历史,降低模型信息质量。

- 实践风险:操作错误或不当选择阈值会削弱后续信用成本估计的准确性,影响金融机构风险管理。
  • 缓解策略:使用优化框架自动寻找最优阈值,坚持监管方数据质量原则,结合蒙特卡洛方法验证结果稳健性。


报告中风险及缓解均明确,方法设计上注意了稳健性与适应性。[page::2, page::3, page::17]

---

6. 批判性视角与细微差别


  • 优势

- 本报告从数据角度切入,解决信用风险建模的根本问题,理论和实践结合紧密。
- 采用数据驱动的优化框架,结合统计学原理设计指标,建立系统化解决策略。
- 大规模真实样本实证,含置信区间及蒙特卡洛验证,提升说服力和通用性。
- 提供公开源码,方便学术界和业界采用及检验。
  • 不足与限制

- 目前只用余额绝对值,未调整通胀或动态因素(报告第17页有具体提出)。
- 只使用单一阈值统一应用于全组合,未充分考虑不同细分群体的差异性。
- 参数$\tau$(前期窗口长短)固定为6个月,略显简化,忽略短期波动和极端案例影响。
- 对TZB裁剪主要处理已终止贷款,可能遗漏活跃账户潜在尾零问题。
- 报告未与其他变化点检测技术深入比较与融合,未来研究可拓宽空间。
  • 潜在偏见

- 权重$w$选取方案较为简单,基于污染率中点,可能忽视多重权衡复杂性。
- 该方法依赖于均值作为核心指标,对极端分布或异常波动敏感,后期优化可改进。
- 对于业务场景中账户逾期等非平稳特性的处理不足。

总体而言,研究稳健且批判性自我反省充分。

---

7. 结论性综合



本文提出的TruEnd-procedure针对零尾余额(TZB)数据错误问题,联合统计均值差异优化原则和全局阈值搜索,成功识别并剔除信用资产中虚假的账户终止尾部余额。研究基于南非两个大规模真实数据集,确定了合理的阈值区间(住宅贷款300 ZAR,信用卡400 ZAR)作为“尾零余额”定义。

经过剔除,账户剩余寿命平均减少数月,剔除部分余额对整体资产规模影响可忽略,校正后的生存分析表明风险事件提前发生,从而纠正了传统模型中因错误账户闭合时间延迟造成的预测偏差。最终实现了信贷损失预计的准确性提升,避免了因尾零余额历史人为延长导致的过高LGD及ECL估计。

报告结合丰富图表数据对优化过程、方法性能、数据特性和结果影响进行了详尽展示:
  • 图表深入解读成果

- Table 1展示单账户实例中如何通过余额分布划分泰尔零余额区间。
- Figs. 2-3用曲线和指标说明优化目标作用,确认最优阈值选择的合理性。
- Figs. 4-7通过污染度与账户比例阐述尾零余额定义阈值的敏感影响及方案的稳定,说明20%以上账户被识别受影响。
- Figs. 8-9表明即便账户剔除较长期尾零余额后余额总额影响极小,但账户寿命和损失率存在实质变化。
- Figs. 10-11通过生存和风险率曲线展现剔除TZB对贷款写-off时间预测的关键改善。
  • 总体立场

- 作者坚定认为“不纠正TZB数据错误将导致严重模型风险”,因此开发的TruEnd方案为信用风险数据准备创新、有力且实用的工具,有助于提升IFRS 9信用减值计量的准确度。
- 该研究展示了“大数据时代下数据质量治理对模型预测的基础性作用”,强调数据预处理是金融风险管理不可或缺的关键环节。
  • 引用页码:以上内容详见论文各章及图表[page::0-19][page::20]


---

总体评价



该报告系统化探讨并创新解决了信用资产还款数据的常见误差“尾零余额”?,将优化理论和生存分析完美结合,确保信用风险参数的质量与准确。其方法不仅科学合理,且实证充分,代码公开,为学术研究和金融业实践提供了极具价值的参考。未来若结合更多动态调整和多变量识别,推广至更复杂金融产品,将进一步拓展研究深远影响。

报告