`

Forecasting Credit Ratings: A Case Study where Traditional Methods Outperform Generative LLMs

创建于 更新于

摘要

本文研究了大型语言模型(LLMs)在企业信用评级预测中的表现,发现尽管LLMs在文本编码上具备优势,但传统的XGBoost模型结合基础面及宏观经济数据与高密度文本嵌入特征,在数字和多模态数据编码上表现更优,且具有更强的可解释性和稳定性,凸显了在金融多模态预测任务中传统方法的重要性和竞争力 [page::0][page::1][page::5][page::6][page::7]。

速读内容

  • XGBoost作为基线模型表现优异,融合基础面、宏观经济及高密度文本聚类(HEC)特征能显著提升信用评级变动预测准确率,最高达56%+准确率水平 [page::5][page::6]。

  • 多种文本编码方法评估:Loughran McDonald词典、LDA主题模型、HEC聚类、MP-NET句向量及情感分类模型,HEC在文本特征表现中排名靠前,且对综合模型贡献最大 [page::4][page::5][page::6]。

- 生成式LLMs(如GPT-4o)虽然在纯文本输入时表现优于其他文本编码方法,但将数值信息转换为文本后,其整体性能不及传统XGBoost模型,表明LLMs在数值信息融合方面存在局限 [page::5][page::6]。

  • 特征重要性分析显示,基础面和宏观经济数据仍是提升模型预测能力的核心,文本信息虽然有价值但单独使用效果有限,结合文本与数值数据最具预测贡献 [page::6][page::7]。

- 传统模型的优势还在于可解释性,通过偏依赖图(PDP),揭示了文本中特定主题(如“评级讨论”和“应收账款”)与信用评级变动方向的关系,有助于深入理解模型判断机制 [page::7]。
  • 神经网络复杂模型因数据规模限制未能超越XGBoost,说明本任务中简单且健壮模型在有限样本下具备更高应用价值 [page::13]。

- 本文首次系统评估了生成式LLMs在企业信用评级预测任务中的表现,提出了结合传统数值特征与基于Transformer的文本特征的最佳实践 [page::1][page::3][page::4][page::5]。
  • 研究采用平衡数据集,数据覆盖23年,量级为3441样本(Lag=1),强调任务挑战及现实应用场景中数据分布差异对模型适用性的限制 [page::8]。

深度阅读

金融研究报告详尽分析报告


报告元数据与概览


  • 报告标题:Forecasting Credit Ratings: A Case Study where Traditional Methods Outperform Generative LLMs

- 作者:Felix Drinkall、Janet B. Pierrehumbert、Stefan Zohren
  • 机构:牛津大学工程科学系,牛津大学语言学系,艾伦·图灵研究所

- 发布日期:未显式给出,结合引用2024年文献,应为2024年左右
  • 主题:本报告聚焦于企业信用评级预测任务,探索传统机器学习模型(如XGBoost)与当前主流生成式大型语言模型(Generative LLMs)在该任务上的表现差异。


核心论点


报告表明,在信用评级的预测任务中,尽管生成式大型语言模型(LLMs)在文本信息编码方面表现优秀,但在融合数字和多模态数据时,传统方法依旧竞争力强且表现更优。具体而言,结合了基础面及宏观经济数据和高密度文本嵌入特征的XGBoost模型优于当前主流生成式LLMs。作者还对文本编码方法的影响展开深入研究,并开放了数据集重构和模型代码。此研究首次将现代语言建模技术应用于信用评级预测任务,填补了该领域的空白。[page::0-2]

---

逐节深度解读



1. 引言


信用评级是衡量企业偿债能力的前瞻性指标,关系到融资成本和企业发展战略。报告明确了信用评级对投资者和管理基金的重要意义,尤其在预警信用评级下调时能给予投资者提前准备的时间。近年来文本预测领域迅速发展,金融信息尤其通过文本传播,因此自然语言处理技术尤其是大语言模型在金融预警中拥有潜力。此外,金融文本多为长篇材料(如公司年报的MD&A部分),对长文本序列的建模亟需深化研究。作者指出,信用评级预测任务不同于常用短文本,具备更高复杂性,强调长文本建模的必要性。[page::0]

2. 相关工作

  • 文本预测的主流方法:传统方法采用基于词典的情感分析(如Loughran-McDonald Lexicon)、主题模型(LDA)以外,还探索了基于Transformer的嵌入模型(如BERT、MP-NET等)。优势在于更高维度的上下文表示,但实际应用中受限于样本量及上下文窗口大小。

- 生成式模型在多模态预测的应用:GPT、Llama等生成式LLMs已被用于时间序列等多模态预测任务,通过将数字信息转化成文本形式输入,启示模型联合理解文本与数值数据的潜力,但尚缺乏与传统判别模型的系统比较。
  • 信用评级预测任务现状:大部分研究关注当期信用评级的分类,强调风险识别。预测评级未来变化(信用评级预测,CRF)更具价值,但研究较少。已有尝试将文本信息引入,但多依赖关键词、情感得分,少有使用生成式LLMs的系统研究。鉴于此,本文工作在方法论和应用数据集规模上具备创新意义。[page::1-3]


3. 数据集

  • 信用评级数据:使用Compustat Capital IQ的S&P评级,覆盖1978-2017年,重点预测长期评级变动。

- 文本数据:选取SEC EDGAR数据库中公司的10-Q,10-K季度与年度报告中的管理层讨论与分析(MD&A)章节,文本较长,平均13267个tokens。
  • 数字数据:基本面数据(Compustat季度数据)包含财务指标,以及宏观经济数据(劳动力统计、利率、外汇)选自官方数据库。

- 时间对齐及数据平衡:所有数据季度对齐,考虑1994至2017年,剔除数据不完整样本。信用评级类别极度不平衡(93.4%无变动),应用平衡策略降低数据量,以检测模型预测评级升降能力。数据按1994-2012训练,2013-2014验证,2015-2016测试。[page::3]

4. 方法论

  • 任务定义:目标预测$t$时刻的信用评级$\hat Rt$,输入包括过去$p$个季度的文本$T{t-i}$、历史评级$R{t-i}$及数字数据$N{t-i}$(包括基本面与宏观经济),测试各种组合数据输入的预测效果。

- 基线模型:采用传统的XGBoost机器学习模型,因其在中小数据集上的稳健性高于复杂神经网络(后者已测试但效果较差,容易过拟合)。
  • 文本编码方法:多种文本编码策略试验(Loughran McDonald Lexicon, LDA主题模型, 高密度句子嵌入聚类(HEC),DistilRoBERTa情绪分类,MP-NET句子嵌入),各有特点,HEC方法基于句子嵌入聚类编码文本,降低维度并突出文本主题。

- 生成式LLM框架:采用生成式LLMs进行0-shot预测,将数字信息编码成文本输入,并构造合理prompt进行推断。由于文本长度及上下文限制,未采用k-shot学习。模型采用LoRA参数高效微调方法,减少计算资源负担。[page::4-6]

5. 实验结果

  • XGBoost基线性能(表1):文本编码方法均优于随机猜测,且结合数字信息(基本面+宏观经济+历史评级)效果明显超过单独文本,HEC文本特征与数字特征结合表现最佳,平均准确率约53.9%。

- 生成式LLMs性能(表3):单独数字信息输入时表现较差,接近随机。文本资源单独输入时表现较优,不过整体仍逊色于基线XGBoost。GPT-3.5在融合多特征时表现最好,Llama-3 8B LoRA微调在纯数字信息上优于其他生成式模型。将XGBoost和GPT-4o的预测结果进行组合分析发现两者对不同信号敏感,联合预测表现超单个模型,提示未来可尝试集成方法。
  • 模型表现总结:生成式模型善于提取复杂文本语义信息,但难以有效融合结构化数字数据,且目前受限于计算与数据规模。XGBoost结合多模态数据依然是信用评级预测任务中较优选择。[page::5-6]


6. 可解释性分析

  • 生成式LLMs的黑盒性:当前对LLM内部机制的解释能力有限,虽有关注注意力权重等方法,但未形成成熟理论。

- 传统模型的优势:XGBoost基于特征 Importance可解释性强,且符合监管对AI透明度的要求。
  • 特征重要性及示例(图2):

- 评级相关文本主题增多时,评级“上调”概率降低,反映文本中提及评级风险提示负面趋势。
- 应收账款相关内容增加时,评级“下调”概率降低,反映企业收款状况良好与财务健康度正相关。
  • 这种周期性、可解释的规律,为投资者及监管部门提供实证支持。[page::6-7]


7. 结论

  • 大型语言模型表现出色的文本理解能力不够补偿它们对数字数据表示的不足,且将文字和数字多模态信息简单拼接进prompt会导致性能恶化。

- 传统机器学习方法如XGBoost结合高级文本嵌入与数字特征仍在预测准确率和可解释性方面遥遥领先。
  • 生成模型受训练数据污染即“记忆”效应影响较大,传统模型则因规模小、结构清晰较少受此影响。

- 本文提供了首个使用现代语言模型技术进行信用评级预测的基准数据集和结果,开辟了未来多模态融合研究方向。
  • 研究表明未来改进方向包括:探索有效整合长文本和数值序列的生成模型架构,以及集成传统与生成模型以提升性能。[page::7]


8. 局限性

  • 选用平衡数据集便于分析模型识别率上升或下降的能力,但不反映现实环境中信用等级大部分不变的极度不平衡实际。

- 样本有限(几千条),限制了复杂神经网络和超大模型的发展潜力。
  • 文本来源为公司自我披露,存在积极表述偏向,缺少第三方中立机构文本验证。

- 假定评级方法在训练和测试期间一致,可能存在时间演变风险,从而影响模型泛化。
  • LoRA微调虽节省计算资源,但可能未达到全部微调的最佳性能,且计算资源限制阻碍对更大更强模型的训练尝试。[page::8]


---

图表深度解读



图1 — 高密度嵌入聚类示例(page 0)

  • 图示描述了基于句子嵌入空间的聚类,点代表句子,彩色区域表示高密度聚类。相关标签如“improvepricingprofitability”、“duecostshigher”等揭示语义主题。

- 该图说明了如何通过聚类挖掘文本潜在热点领域,支持后续特征构建。
  • 体现了HEC方法能从长文本中抽取细粒度语义特征,兼顾文本丰富度和向量维度稳定性。

- 该方法为后续XGBoost文本特征提供基础,以利于在多模态融合中发挥作用。[page::0]

---

表1 — XGBoost模型不同特征组合准确率(page 5)

  • N:只使用数字(宏观+基本面+信用评级)数据。以及T:只使用文本编码数据,A表示所有数据类型合并。

- 数字数据准确率约52.8%,单纯文本最高约53.6%(HEC编码),多模态融合最高54-56%之间。
  • 表示文本信息具备辅助预测能力,但数值基础面仍为核心信号源。

- HEC特征优于传统的词典和主题模型特征(LM、LDA),展现现代句子嵌入聚类优势。
  • 某些基于情绪的文本编码效果较差(EDRoBERTa情感模型)。[page::5]


---

表2 — XGBoost和GPT-4o模型准确率及特征重要性(page 6)

  • XGBoost-AHEC模型准确率硕果仅存,最高可达约56%,GPT-4o仅用文本达到49.6%,整体低于XGBoost融合模式。

- 结合XGBoost数字估计和GPT-4o文本估计的集成估计显示,两个模型侧重点不同,集成后正确率达约69.9%,强调未来融合模型的潜力。
  • XGBoost特征重要性显示宏观经济与基本面特征贡献较大,HEC文本特征在多模态模型中贡献显著。

- GPT模型在文本表示中表现优异,但在数字集成时表现不足。[page::6]

---

表3 — 生成式模型各类别表现(page 6)

  • Llama及其LoRA微调版本,GPT-3.5,GPT-4,GPT-40均测试。

- 纯数字模式准确率低,近随机猜测(约30%-35%);纯文本输入准确率较高,GPT-4可达49.6%。
  • 多模态组合反而导致模型表现波动且下降,特别是GPT模型。

- LoRA微调提升了Llama在数字信息上的表现。
  • 显示生成式LLMs对数字数据的理解及融合能力不足,强调结构化数字数据的复杂性。[page::6]


---

图2 — PDP局部依赖图(page 7)

  • 图2a显示“ratingspratingsmoodys”主题与“评级上调(Up)”类别的负相关关系,说明当这一主题句在文本中占比增多时,评级上调概率降低。

- 图2b显示“receivables
percentownedoffs”特征与“评级下调(Down)”类别负相关,即更多提及应收账款相关内容时,评级下调概率降低。
  • PDP提高了对模型特征效果的透明度,使用户理解模型判断依据。

- 体现了传统模型的可解释性能,更利于合规及业务决策支持。[page::7]

---

估值分析



本报告非财务估值分析报告,而是技术性能对比与方法论创新研究。报告未涉及估值模型或目标价讨论,侧重于模型表现和文本/数字信息融合技术分析。

---

风险因素评估



文中分析了使用生成式LLMs面临的诸多风险与挑战:
  • 训练数据污染风险:生成式模型可能通过记忆训练集以获得指标提升,但这降低泛化能力和真实预测价值。

- 模型推理局限性:生成式LLMs对否定、逻辑推理认识不足,可能导致重要否定信息误判。
  • 文本正面偏向风险:企业自我披露文本为影响投资者的正面表述,导致模型对潜在风险识别能力受限。

- 时间稳定性假设:训练和测试期间假定信用评级标准不变,若标准变化则模型预测有效性下降。
  • 样本量与不平衡性约束:较小且平衡的数据集限制复杂模型训练,也导致现实场景预测准确度不足。

- 计算资源限制:使用LoRA高效微调虽节省资源,可能略逊全量微调,提高结果解释不确定性。

报告建议未来研究需关注这些风险,以确保模型在实际金融领域的应用安全与可靠。[page::8]

---

批判性视角与细微差别


  • 报告强调生成式LLMs在文本语义理解上的优势,但对数字融合的不足和模式推广性问题保持谨慎,避免了过度乐观的偏颇。

- 显示作者对训练数据泄露及模型记忆现象持批判态度,有效引导读者理性评估生成式模型性能。
  • 传统模型与生成模型的结合未来具备潜力,但当前组合模型表现不佳,尚无成熟技术路径。

- 对长文本建模的挑战及上下文窗口限制进行了客观陈述,体现技术约束的现实性。
  • 报告内部明确指出复杂神经网络模型因数据规模限制导致表现不佳,承认研究规模及资源限制不足,保持学术诚信。

- 测试数据自1994年至2017年,避免短期偏差,但未覆盖近期金融危机和市场转折,结果可能受限于历史环境。

---

结论性综合



这份报告深入探讨了当前生成式大型语言模型(LLMs)与传统机器学习模型(XGBoost)在长期信用评级预测任务中的性能对比。通过构建包含长文本(SEC公司MD&A章节)、基本面和宏观经济多模态数据的美国企业信用评级数据集,针对不同文本编码方式和模型结构展开系统评测。

结果显著表明:
  • 文本信息虽具预测价值,但数字基础面和宏观经济数据仍为信用评级预测核心。

- XGBoost结合高密度句子嵌入的文本特征(HEC)和数字特征融合模式,表现优于各类生成式LLMs。
  • 生成式LLMs尤其是GPT-4等在文本理解上能力卓越,但对结构化数字信息融合能力不足,导致多模态预测性能不如传统模型。

- 两类模型对不同信息源敏感性差异明显,通过智能集成可能带来未来性能提升机会。
  • 股权研究领域和金融合规日益强调模型解释性,而传统XGBoost模型在可解释性和合规性方面拥有优势。

- 数据平衡处理和数据规模限制影响模型训练与推广,且训练数据的时间跨度虽长,但文本正向偏向及评级规则一致性假设是现存隐忧。

深度分析图表进一步揭示了模型对具体文本主题与企业财务指标变化的敏感趋势,支持投资决策过程的透明化。

总之,报告对企业信用评级预测领域的技术路径具备重要指导意义,强调了传统方法在现实金融问题中的稳定性和解释优势,同时明确指出生成式LLM在文本语义表示方面的潜力与当前局限,呼吁未来开展更有效的多模态融合及模型集成研究,以推动金融风险预测技术的进步。[page::0-8]

---

附图示Markdown引用示例
  • 图1高密度聚类示例

  • 图2a:评级主题特征"PDP"

  • 图2b:应收账款特征"PDP"

报告