Temporal Relational Reasoning of Large Language Models for Detecting Stock Portfolio Crashes
创建于 更新于
摘要
本报告提出了一种名为Temporal Relational Reasoning(TRR)的算法框架,利用大规模语言模型及其零样本推理能力,对股票投资组合崩盘风险进行预测。TRR通过模拟人类认知的头脑风暴、记忆、注意力及推理四大能力,从多时点的新闻信息动态生成时间-关系图,显著提升了崩盘检测的准确率。实验证明,TRR在多个经典金融危机时期对不同组合的预测优于深度学习和其他LLM推理方法,对经济危机预警亦具良好泛化能力[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7]。
速读内容
Temporal Relational Reasoning (TRR)框架设计及核心特点 [page::1][page::2]

- TRR包含头脑风暴(动态生成影响链构建图谱)、记忆(调取历史相关影响并施加时间衰减)、注意力(基于PageRank挑选重要路径)、推理(基于图结构利用LLM推断崩盘可能性)四阶段,完美模拟了人类复杂认知。
- 与传统思维树、图搜索等LLM推理框架对比,TRR针对多路径、多实体的动态时序网络信息,能更全面捕捉市场内在风险。
数据集设置与实验设计 [page::3][page::4]
| 数据集 | 时间段 | 事件描述 | 组合崩盘率比例 |
|------------|----------------|----------------------|-------------|
| 2007年 | 2007年6-8月 | 全球金融危机 | 10.8%(国家中性)/4.6%(行业中性) |
| 2010年 | 2010年3-5月 | 希腊债务危机 | 7.8%/6.3% |
| 2020年 | 2020年1-3月 | COVID-19股市崩盘 | 16.1%/21.0% |
| 2012年 | 2012全年 | 市场平稳期 | 2.0%/0.8% |
| 2022年 | 2021年10月-2022年3月 | 后知识截止补充期 | 4.7%/9.4% |
- 数据来源为路透社金融新闻,覆盖全球及多个行业。
- 构造国家中性、行业中性两类投资组合,每组合股票各10只,覆盖主要市值公司。
TRR模型表现优越,超越各类基线方法 [page::4][page::5]
| 模型 | 2007年国家中性 | 2020年行业中性 | 2022年国家中性 |
|----------|------------|------------|------------|
| GRU+GAT | 0.458 | 0.503 | 0.495 |
| GPT+GNN | 0.514 | 0.499 | 0.539 |
| DAN+FCL | 0.607 | 0.452 | 0.523 |
| CoT | 0.480 | 0.519 | 0.504 |
| GoT | 0.500 | 0.600 | 0.512 |
| ToG | 0.502 | 0.625 | 0.579 |
| TRR (本报告) | 0.690 | 0.644 | 0.638 |
- TRR在AUROC指标上领先最强基线ToG近9个百分点。
- 深度学习模型多倾向全False预测,难以处理稀有未知崩盘事件。
- LLM思维树与图搜索方法有效提升预测能力,但TRR通过多路径及时间衰减机制实现全面信息整合。
关键模型组件及参数影响分析 [page::5]
- 关系组件、时间记忆及记忆衰减均显著提升性能,缺一不可;
- 不同主流LLM测试表明,GPT-3.5 Turbo在框架内表现最佳;
- 参数选取显示记忆衰减系数$\lambda=1$和关注路径数$q=6$效果理想。
崩盘时期生成关系图可视化及实际组合表现 [page::6]

- 2007年金融危机期间,U.S. housing market节点接收最多影响,反映房市危机核心地位;
- 2010年图中突出希腊经济及公民节点,符合债务危机;
- 2020年疫情影响扩散至出口和旅游等多行业。
| 组合指标 | 2007年国家中性(TRR) | 2010年国家中性(TRR) | 2020年国家中性(TRR) |
|--------------|-----------------|-----------------|-----------------|
| 累计收益率 | -0.0015 | -0.0375 | -0.0211 |
| 最大回撤 | 0.0733 | 0.1188 | 0.1436 |
| 夏普比率 | 0.0000 | -0.0579 | 0.0026 |
- TRR策略组合在市场下跌期中显著降低损失,避免较大回撤,提升组合防御能力。
泛化应用于宏观经济危机预警任务 [page::7]

- 将TRR中的“组合”扩展为多个区域经济体,结合TED利差指标标注经济危机;
- 与传统金融压力指标FSI、VIX及收益率曲线对比,TRR表现优异,AUROC达0.94(2007危机)、0.75(2011危机)、0.96(2020危机);
- 该框架能动态输出连续危机概率指标,为政策制定提供及时预警。
深度阅读
金融科技前沿研究报告分析:
《Temporal Relational Reasoning of Large Language Models for Detecting Stock Portfolio Crashes》
---
1. 元数据与概览
报告标题
Temporal Relational Reasoning of Large Language Models for Detecting Stock Portfolio Crashes
作者与机构
Kelvin J.L. Koa(新加坡国立大学)、Yunshan Ma(新加坡管理大学)、Yi Xu、Ritchie Ng、Huanhuan Zheng、Tat-Seng Chua等,新加坡国立大学及新加坡管理大学的研究人员。
发布时间与主题
不同时间段发表,主要聚焦于利用大语言模型(LLMs)结合时间与关系推理技术,检测股票组合的崩盘风险,属于金融科技与人工智能交叉领域。
主题概要
该报告提出了一种新颖的基于大语言模型的算法框架——时间关系推理(Temporal Relational Reasoning,TRR),致力于通过动态推断新闻信息中的复杂时间关系与实体关联,辅助识别股票组合崩盘事件。该方法突破传统基于历史统计数据的局限,实现了零样本预测,尤其适用于对稀有且前所未见的系统性金融危机事件的预警。
核心论点和结论
- 股票组合易受历史罕见事件影响,传统模型难有充足数据进行训练;
- 大语言模型具备强大的零样本归纳推理能力,能从海量语料中找出隐含模式;
- 常规模型难以处理新闻的动态更新、事件间复杂相互作用,以及时间上下文关联;
- TRR通过模拟人类认知流程中的头脑风暴、记忆、注意力与推理四大环节构建时序关系图谱,动态捕捉时间与关系依赖;
- 实验结果显示TRR在多个著名危机期间(2007全球金融危机、2010希腊债务危机、2020新冠疫情崩盘)均优于现有深度学习及LLM推理框架,表现稳定且具有实际可操作性;
- TRR框架具备良好泛化能力,能扩展至宏观经济危机监测领域。
该报告明确展示了将大语言模型与图谱结构、时间序列结合,为金融风险预警提供新思路、新方法[page::0,1,2]。
---
2. 逐节深度解读
2.1 介绍与动机(Introduction)
- 论点总结
投资者为降低风险会构建包含多样化股票的组合,跨国家、行业分散风险,但罕见且系统性的事件(如2007年金融危机、2020年新冠疫情)造成的连锁反应使得市场高度相关,组合依然面临崩盘风险。现有检测组合崩盘的文献甚少,主要因缺乏足够的历史数据。
大语言模型(LLMs)因具备大规模训练语料和零样本推理能力,有潜力辅助检测尚未出现的危机征兆。
然而,现有LLM的推理框架存在三大挑战:
1. 主要针对孤立任务,难以应对新闻动态更新带来的时序数据流;
2. 缺乏跨多个推理路径整合信息的能力,难以揭示事件与股票间复杂网络;
3. 时间依赖性不足,无法处理跨时间步长的信息关联。
- 逻辑和支撑
该节引用多个金融危机案例(2007、2020),强调瞬息万变的市场事件对组合构成威胁。指出市场“黑天鹅”事件的稀缺性令传统历史统计模型失效。LLM通用性和跨域经验为零样本推理奠定基础,但需结合更复杂的时空关系推理以增强性能[page::0]。
2.2 现有相关工作(Related Works)
- 论点总结
以往基于图谱的股票价格预测多利用静态知识库(Freebase、Wikidata),或依赖规则式三元组抽取,动态信息挖掘有限。
一些最近工作使用LLM提取新闻中的动态关系用于单只股票预测,但尚未覆盖组合层面的复杂推理。
现有LLM推理框架分为思路导向(Thought-based, Tree-of-Thoughts、Graph-of-Thoughts等)和基于图谱搜索(Think-on-Graph),各有优缺点,但难以同时解决时间动态、关系网络多路径推理的问题。
- 推理依据
基于对文献的回顾和方法归纳,明确了现有技术的不足,为提出TRR模型构建了理论基础;同时启发TRR设计结构兼具广度和深度的多路径动态推理策略[page::1,2]。
2.3 TRR架构详解(Temporal Relational Reasoning Framework)
TRR将人类认知能力映射为四个环节:
- 头脑风暴(Brainstorming)
- 输入当天检索到的新闻文章,LLM递归生成影响链(实体影响子链),构建有向图$G$,节点涵盖新闻、中间实体及组合内股票,边代表影响方向。
- 迭代扩展直到链终点为组合股票或达迭代上限。
- 通过融合重复实体提升图的紧凑与准确性。
- 记忆模块(Memory)
- 维护记忆库$\mathcal{M}$储存过去所有涉及同一实体的影响链,扩充当前图形成时序关联图$G{temporal}$。
- 引入记忆衰减机制,模拟社会科学中人类对新闻记忆随时间指数衰减的规律,用以权衡信息时效性。
- 衰减函数$R{u,v}=\exp(-\frac{t{u,v}}{\lambda})$,$\lambda$为衰减速率参数。
- 注意力机制(Attention)
- $G{temporal}$过大不可直接输入LLM,利用PageRank算法(结合记忆衰减权重)计算节点影响评分;
- 筛选出排名前$q$的实体,形成子图$G{TRR}$,供后续推理使用。
- 模拟投资者有限注意力分配,聚焦关键信息链路。
- 推理阶段(Reasoning)
- 将$G{TRR}$转换为带时间戳的三元组形式(时间,主语,动作,宾语),LLM基于这些结构信息进行零样本推断,预估次日组合是否崩盘。
- 核心数据及假设
- 投资组合由$N$只股票组成,输入是当天$J$篇新闻。模型输出二分类结果(崩盘与否)。
- 记忆模块通过积累并检索历史影响链丰富时间上下文。
- 注意力滤波调整模型关注焦点,避免信息过载。
- 采用LLM的零样本推理能力进行最终判断,实现对新生事件的响应。
- 解释与创新
TRR融合了生成图谱、动态时间记忆与信息过滤机制,为LLM提供结构清晰的多维时序关系输入,是超越传统序列化或单路径推理框架的综合升级方案[page::2,3]。
2.4 实验设计(Experiments)
- 数据集
- 新闻源使用扩展的路透社金融新闻,涵盖2007、2010、2020等历史危机期和2012等稳定期,及2021-2022后知识截止期。
- 构建两种多样化投资组合:国家中立组合(各国1只股票)、行业中立组合(各行业1只股票),均限额10只股票以应对LLM的token限制。
- 崩盘标签依据各股票每日收益数据,组合日均收益≤-2%定义为崩盘,符合极端跌幅范畴,数据严重不均衡。
- 使用AUROC作为性能指标,更合理衡量罕见事件的检测能力。
- 对照方法
- 传统深度学习模型如GRU+GAT、GPT+GNN及采用情感嵌入加焦点校准损失的DAN+FCL。
- 先进的LLM零样本推理框架:IO提示、Chain-of-Thought(CoT)、Graph-of-Thoughts(GoT)、Think-on-Graph(ToG)等。
- 识别深度学习模型倾向预测无崩盘(偏见高),LLM框架不同程度提升推断准确率。
- 参数设定
- TRR使用OpenAI GPT-3.5-turbo,温度0确保可重复性。
- 记忆衰减参数$\lambda$及注意力前$q$实体数依据数据验证调整[page::3,4]。
2.5 关键实验结果(Results)
- 性能对比(表2)
- 深度模型普遍接近0.5 AUROC,表明倾向“无崩盘”预测,应对极端事件不足;
- LLM零样本推理框架中,GoT、ToG表现优于基础方法,ToG通过路径搜索提高了信息相关筛选能力;
- TRR显著超越所有基线方法,平均提升近9个百分点(相对于最强ToG),体现综合时序关系推理优势;
- 2022后知识期实验证明性能源于推理框架非LLM预训练知识。
- 稳定期表现(表3)
- 在2012年稳定年份,TRR不会无谓触发崩盘预测,表现稳健,避免假阳性。
- 消融实验(表4,5)
- 移除关系建模(即退化至ToG)、时间记忆及记忆衰减模块都会使表现下降,说明各模块均有贡献;
- 记忆衰减尤为重要,抑制历史“旧事件”干扰,提升精度;
- 多个LLM评测显示GPT-3.5 Turbo在TRR框架中表现最佳,部分更先进模型可能忽略关系图而直接泛化新闻文本,导致误导。
- 参数调试(表6,图3)
- 衰减因子$\lambda=1$为最优,过小记忆失效,过大则失去时序辨别力;
- 注意力实体数$q=6$平衡信息丰富度和噪声,太小信息量不足,太大噪声增加不利推理。
- 图谱可视化(图4)
- 重点实体节点与实际危机核心区域高度吻合,如2007年“美国住房市场”、2010年“希腊经济与公民”,2020年“出口及旅游产业”等,验证了头脑风暴和记忆模块的合理性。
- 组合策略回测(表7,8)
- TRR预测驱动买卖策略能有效降低损失,提升累积收益与最大回撤表现,表现优于动辄持仓的基线策略和标普500指数;
- 稳定期同样表现良好,未产生多余交易成本影响收益[page::4,5,6]。
2.6 宏观经济危机预警扩展
- 任务设定
- 将经济体视为组合“股票”,追踪新闻对区域经济的影响,预测全球或区域经济危机(定义基于TED Spread>48基点)。
- 采用同样的TRR框架,输出概率形式的危机预警指标。
- 比较基线
- 传统经济指标:金融压力指数(FSI)、波动率指数(VIX)、收益率曲线(Yield Curve)。
- FSI基于关键词检索,受限于关键词更新,VIX及收益率曲线依赖市场数据。
- 结果(表9,图5)
- TRR在2007和2011年数据集上大幅优于传统新闻指标FSI及VIX,尤其是2007年AUROC达0.94;
- 2020年事件中,VIX和收益率曲线表现卓越,TRR依然接近,表现稳定,展现强大泛化潜力;
- 指标曲线峰值及时,具有实际预警意义,但连续性不足限制了实时监控能力。
- 展望
TRR为宏观经济危机预警提供了一种基于文本零样本推理的新方案,为多维度经济指标补充了有力工具[page::6,7]。
2.7 结论与未来方向
- 总结
- TRR利用LLM零样本推理优势和时序关系图对信息进行综合处理,实现了股票组合崩盘的有效检测;
- 其结构依托人类认知模型,融合头脑风暴、记忆、注意力、推理,模拟投资者动态决策;
- 通过多数据集多策略验证,TRR证明了其在前所未有和极端事件中的应对能力和稳定性;
- 框架同样扩展到宏观经济危机预警领域,展现跨金融领域应用潜力。
- 未来改进方向
- 记忆模块可结合符号数据库等高级知识库提升长期记忆管理;
- 注意力机制中PageRank算法可替换为更先进的信息检索模型;
- 可与统计经济指标联合构建集成风险预警系统,提高预测的全面性与准确性。
- 总体评判
TRR为复杂动态金融事件极端预测问题提供一套创新且实施有效的方案,填补了传统基于数据驱动的单一模型在稀有事件识别中的不足[page::7]。
---
3. 图表深度解读
图1(page 1)
描述
展示三类LLM推理框架的结构对比:
- (a) Thought-Based:将任务递归拆解为多级思路链,最终合成结果;
- (b) Search-Based:在已有静态知识图上搜索单一路径;
- (c) TRR Relational Only:动态生成多个搜索路径构建全面影响网络;
- (d) TRR Relational+Temporal:进一步结合多时间步上下文形成时序图。
解读
- 传统框架无法高效处理动态、时间连续、多个互联路径;
- TRR以多路径全视角覆盖及历史记忆扩展,提供对市场影响全景展现,为最终预测赋能。
---
图2(page 2)
描述
TRR四大组件具象化示意图:
- (1) Brainstorming:从新闻出发,递归扩展影响链,形成影响图;
- (2) Memory:检索历史记忆增强图,体现记忆衰减曲线;
- (3) Attention:运用PageRank对图节点赋权,筛选重要路径;
- (4) Reasoning:将最终影响图以时间三元组方式输入LLM,推断崩盘。
解读
此图直观体现了TRR如何模拟人类认知各环节,弥合动态信息与推理需求,闭环设计逻辑清晰有力支持文本论述。
---
表1(page 3)
描述
数据集时间段及崩盘事件比例,分国家中立和行业中立组合两类。
解读
崩盘事件占比较低,范围约0.02%-0.21%,数据极不平衡,凸显预测难度严峻。
---
表2(page 4)
描述
TRR与各类DL及LLM baseline在不同时段、组合上的AUROC均值及标准差对比。
解读
- TRR在所有关注时间和组合类型中均取得最高AUROC,最高约0.69,最低不低于0.59左右;
- 深度模型及基础LLM表现多居中偏下,标识了其应对极端事件能力不足;
- ToG次强,说明多路径图谱推理优于单路径或无路径结构。
---
表3(page 5)
描述
稳定年份2012年不同模型AUROC及具体TP、TN、FP、FN指标。
解读
TRR假阳性(FP)极少,说明在常态下能保持低误报,提升实用价值。
---
表4、5(page 5)
描述
- 表4:TRR不同组成部分消融后效果;
- 表5:不同LLM模型在TRR框架下效果。
解读
- 关系、时间模块均显著提升性能,记忆衰减亦有益;
- GPT-3.5-turbo表现最佳,其他新LLMs可能偏重文本泛化,忽略图结构,形成性能劣势。
---
表6与图3(page 5)
描述
- 表6:记忆衰减参数$\lambda$对性能影响;
- 图3:筛选多大力度切分影响实体(top-q)对性能影响。
解读
- 衰减参数功效明显,避免过早淡出或过长存留信息;
- 筛选数量$q$应取中值避免信息不足或过载,效果稳定。
---
图4(page 6)
描述
2007、2010、2020年典型生成的影响图,节点大小代表被关联次数。
解读
TRR准确识别危机核心相关实体,且节点聚合与实际危机焦点高度匹配,如美国住房市场、希腊经济等,具高度可信度。
---
表7、8(page 6)
描述
回测表现,含累积收益、最大回撤、夏普比率等指标。
解读
- TRR策略有效规避市场崩盘损失,最大回撤显著下降,夏普比率改善,体现稳健性;
- 稳定市场下依然有竞争力,避免过度交易导致成本增加。
---
表9与图5(page 7)
描述
TRR宏观经济危机检测AUROC优于传统新闻指标FSI,部分比肩市场指数指标如VIX和收益率曲线。
解读
- 传统基于关键词的FSI新闻信号在适应新型危机中性能下降,体现人工规则限制;
- TRR能自动挖掘未知事件影响,显示LLM零样本推理巨大优势;
- 指标峰值与真实危机时点匹配,具应用潜力,但连续信号平滑性不足。
---
4. 估值分析
本报告不聚焦具体企业财务估值,而是提出了新颖的市场风险识别方法论,类似于风险指标和预警系统设计。
- 估值方法本质为利用LLM结合时序关系图推断崩盘概率,本质上是零样本二分类预测。
- 利用关系网络和时间衰减作为“输入特征”,最终推理阶段由LLM执行高层的概率判断,属于基于图的知识驱动推理框架。
- 优化点为参数选择(如记忆衰减率、注意力节点数)而非财务估值模型。
该方法论为金融时序预测领域提供了新的思路,助力风险管理,而非传统估值模型的直接替代。
---
5. 风险因素评估
报告识别及应对的风险主要集中在以下几个方面:
- 数据不均衡风险:极端崩盘事件罕见性导致模型训练难度大,TRR通过零样本推理减弱此风险。
- 信息噪声风险:新闻信息海量且包含无关内容,TRR利用PageRank及注意力机制降低干扰,筛选关键影响链。
- 模型过拟合风险:深度学习模型易对历史数据过拟合,TRR利用历史记忆衰减和时序关联避免盲目记忆旧信息。
- 模型解释性限制:依赖LLM推理,可能存在某些不可预见误判,报告通过消融实验验证各部件贡献,增强透明度。
- 应用范围限制:TRR主要用于大范围宏观层面组合风险预测,对微观单股变动预测未做详细设计。
报告虽未提供具体缓解机制概率统计,但设计中多环节防范了噪声和记忆污染风险。
---
6. 审慎视角与细微差别
- 潜在偏见
- LLM的推理可信度依赖训练语料,潜存数据偏差风险;
- 对记忆衰减参数的敏感性可能导致参数调优成瓶颈;
- 高级LLM忽略图谱结构导致性能下降,说明对结构输入的依赖大,通用性尚需验证。
- 假设局限
- 记忆衰减采用指数模型,实际新闻影响可更复杂,如周期性或非常规衰减,未进一步验证;
- 组合规模限制(10只股票)源于token限制,实际投资组合多样化更复杂;
- 对于突发新闻的真实性与主观情绪未作详细考量,影响推理准确率。
- 结构矛盾
- TRR强调多路径推理优势,但消融实验中仅移除关系后的模型定义与部分baseline高度重合,存在边界模糊;
- 关注信息筛选$q$参数调优标准缺乏统一准则,报告中呈现显著方差。
整体上,报告结构严谨,论证充分,细节设计展示较强工程与理论水平,客观评估了方法性能与不足。
---
7. 结论性综合
本报告深入探讨并实践了基于大语言模型的时间关系推理框架TRR,用于股票组合崩盘风险的零样本智能预测,突破了传统方法对历史事件依赖的桎梏。其贡献体现在:
- 创新点:将人类认知过程(头脑风暴、记忆、注意力、推理)四个阶段模块化,动态生成时序关系图,增强信息上下文理解;
- 算法优势:通过记忆库提供长期影响追踪,PageRank辅助信息筛选,推理阶段高效捕捉多路径交织影响,大幅提升预测准确率;
- 实验验证:在多时段、多组合结构、多模型基线对比中均表现优异,并能稳定应对未见历史的黑天鹅事件,且不引入假阳性警报;
- 图表洞察:生成的影响图准确反映危机核心实体群,投资组合回测表明策略有效规避损失并优化风险调整收益;
- 泛化能力:成功拓展至宏观经济危机预警,结合传统市场指标竞争力突出,为金融监管和风险管理提供辅助工具;
- 未来潜力:提出改进方向(记忆增强、注意力更新、统计经济指标融合),为多模态、多源金融数据融合研究指明前路。
整体而言,该报告融合AI与金融风险领域优势,通过先进的时序图推理与大语言模型零样本能力创造了崭新的组合崩盘检测范式,具有较高的理论价值与应用前景,是金融智能投资领域的重要突破。
---
总结
本报告详实而系统地构建了利用LLM时序关系统计推理FIN风险的全新框架,基于动态新闻事件影响链,结合历史记忆和注意力机制,为极端风险事件预测提供强大工具。其框架设计科学,实验全面权威,图形与数据均展示其强大推断力。未来优化及与经济指标融合将持续提升其实战能力。此报告对金融科技领域研究者与实践者均具高参考价值。
---
引用页码标注示例:
报告中具体论据、数据与概念均以[page::X,Y]形式严谨标注,方便溯源与复核。

