`

Predictive Power of LLMs in Financial Markets

创建于 更新于

摘要

本报告探讨了使用大型语言模型(如GPT-3.5和BERT)基于美联储褐皮书数据预测股票和债券相关性的有效性。研究发现,褐皮书包含资产相关性信息,但GPT模型存在明显的未来信息泄露偏差,且未能超越传统模型表现。通过投资组合模拟,基于BERT模型生成的相关性信息能提供更优的投资组合表现,尤其是在新冠疫情前后不同市场环境中,显示其更强的泛化能力。此外,加入历史相关性数据未显著提升预测准确率。[page::0][page::1][page::2][page::4][page::5][page::6]

速读内容

  • 市场数据噪声大,预测难度高,传统统计和机器学习模型未能充分解决,LLM被提议用于经济文本数据分析以提升市场趋势预测 [page::0]

  • 使用数据来源包括1985年至2023年的股票价格,2003年至2023年的债券价格及其推断历史数据,线性回归模型对AGG指数价格预测准确,$R^{2}$达到0.9901 [page::1]


  • 利用美联储褐皮书文本,采用GPT-3.5和BERT模型预测月度股票与债券的相关性,并对比原始和分箱离散相关性三种版本,GPT模型以生成模式预测相关性,BERT作为分类模型训练,提高预测稳定性 [page::2][page::3]

- 假设检验揭示GPT模型存在显著的未来信息泄露(look-ahead bias),尤其在更细分的分箱相关性版本中表现显著;加入过去3个月历史相关性信息未显著改善预测表现 [page::4]
| n(月) | p-value (Original v3) | p-value (Bins v3) |
|-------|------------------------|-------------------|
| 1 | 0.044 | 0.001 |
| 3 | 0.059 | 0.003 |
| 6 | 0.140 | 0.011 |
| 12 | 0.138 | 0.115 |
  • GPT模型训练数据内表现稍优于BERT,测试集上BERT模型优势明显,说明BERT泛化能力更强,未见GPT显著超越BERT [page::4]

- 投资组合模拟以两个变量(股票、债券)及多变量(包含大宗商品、房地产、美元指数)为标的,比较基线策略(指数加权协方差)、BERT和GPT三种策略,结果均显示BERT模型策略Sharpe比率最高,且GPT模型有时逊于基线 [page::5]



  • 2变量组合Sharpe比率:

| 期间 | Baseline | BERT | GPT |
|------------|----------|-------|-------|
| Pre-Covid | 2.605 | 2.768 | 2.334 |
| Post-Covid | -0.904 | -0.549| -0.802|
  • 多变量组合Sharpe比率:

| 期间 | Baseline | BERT | GPT |
|------------|----------|-------|--------|
| Pre-Covid | 0.423 | 1.9208| 0.445 |
| Post-Covid | -0.145 | 0.790 | -1.009 |
  • 结论认为,BERT作为分类模型稳定性较强,GPT生成模型存在过拟合和未来信息泄露,限制了其实用性,且计算成本较高,不适合大规模资产组合相关性预测 [page::6]

- 进一步方向建议尝试其他清洗过的新闻数据和其他LLM模型如Gemini、Llama及未来GPT-4o模型进行测试 [page::6]

深度阅读

报告深度分析报告:Predictive Power of LLMs in Financial Markets



---

1. 元数据与概览


  • 报告标题:《Predictive Power of LLMs in Financial Markets》

- 作者:Jerick Shi,指导教授 Burton Hollifield
  • 发布时间/日期:未知具体日期,内容覆盖1980年至2024年数据,报告内容提及测试期至2024年6月

- 主题:探讨大型语言模型(Large Language Models, LLMs)特别是GPT-3.5与传统变换模型BERT在金融市场预测中的应用效果
  • 研究对象及数据源

- 使用美联储Beige Book(经济状况摘要)作为经济文本数据。
- 股票价格数据取自Yahoo Finance,涵盖1985年至2023年。
- 债券价格数据亦部分取自Yahoo Finance及Wharton Research Data Services、FRED。
  • 核心论点

- 查询LLM(尤其是GPT-3.5)是否能比传统模型(如BERT)更好地预测资产相关性,并改进投资策略。
- 通过使用Beige Book数据,试图发现经济信息如何影响资产相关性预测。
- 结论表明,Beige Book确实携带有资产相关性信息,但GPT模型存在严重的“前瞻性偏差”(look-ahead bias),导致其预测不够稳健,传统模型反而表现更好。
  • 评级与目标价:无明确目标价及评级,侧重模型比较与预测有效性检验。


综上,该报告主要在于评估不同类型的语言模型在金融市场预测,尤其是资产相关性预测中的实际表现及局限,明确指出GPT存在过拟合及前瞻性偏差,对多资产投资组合的优化表现不佳[page::0,1,2,6]。

---

2. 逐节深度解读



2.1 引言与挑战(引言、I.A、I.B)


  • 关键内容

- 金融市场预测充满挑战,数据高度噪声化,市场受突发事件影响显著(疫情、选举等)。
- 新闻文本数据虽丰富,但其观点偏向复杂,单一来源难以客观反映市场。
- LLM预测时面临模型不可复现(闭源)、幻觉生成(hallucination)和黑盒特性,难以判别输入信息对输出贡献。
  • 逻辑及假设

- 市场波动巨大、非线性因素多,传统模型易过拟合历史数据。
- LLM可通过自然语言理解强化对经济文本的处理,理论上能捕获更深层信息。
- 但实际应用时,GPT模型可能利用训练时获知的未来信息(look-ahead bias)导致误判。
  • 图表说明

- 图1展示了2010年至2022年股票价值的变化轨迹,突显市场的长期上升趋势与周期波动(风险与机会),说明市场噪声和波动性的存在[page::0]。

2.2 文献综述及贡献(I.C、I.D)


  • 综述强调传统新闻情感分析(Kalyani 2016)和基于LSTM的非线性模型(Ren 2022)优缺点,指出过去的embedding模型(word2vec)对长文本捕捉不足。

- Bybee(2023)使用LLM预测股市回报,但该研究侧重噪声较大的新闻数据。
  • 本报告创新点:

- 针对Beige Book这种发布更频繁、数据清洁的联储经济摘要进行分析。
- 研究相关性而非绝对回报,结合资产价格变化实现投资组合优化。
- 重点揭示GPT的look-ahead bias及BERT在实际预测中表现更优[page::1]。

2.3 数据与方法(II.A-D)


  • 关键数据

- 股票价格(标普500等)从1985至2023。
- 债券数据(AGG)2003至2023,利用多种国债和企业债指数进行线性回归补齐早期缺失数据。
- Beige Book文本爬取各州每年5个月的经济摘要。
  • 方法

- 利用线性回归优化债券指数预测(选出1年到10年国债及企业债作为最佳变量,$R^2=0.9901$)。
- 利用GPT-3.5和BERT两类模型从Beige Book文本中预测股票和债券等资产间的月度相关性。
- GPT模型输出离散相关性指标(0负相关,1无关,2正相关),同时输出对应概率,通过概率加权提高稳定性。
- 文本超长时采取分段输入,分段后取平均值作为整体相关性预测。
  • 关键假设与技巧

- 认为相关性比单纯收益更稳健,适合投资组合构建。
- 使用有限上下文并限制GPT不使用未来信息,理论上防止未来数据泄露,但后续测试发现仍存在look-ahead bias。
  • 实验设计

- GPT和BERT模型均训练至2021年9月,预测之后的测试期表现,确保模型无未来信息。
- 设计多个版本的相关性计算方法(原始0-2值和更细分的0-10分箱)。
- 利用统计假设检验和投资组合模拟评估模型预测有效性和实用性[page::1,2].

2.4 实验与假设检验(III、IV)


  • 设计四大关键问题实验:

1. GPT是否存在look-ahead bias。
2. 追加历史相关性信息是否提升预测准确度。
3. GPT与BERT对联储数据的分析能力比较。
4. GPT在投资组合构建中是否优于其他模型。
  • 使用RMSE度量预测相关性误差。

- 具体利用单边t检验比较训练集和测试集误差,检验假设:
- $H0$: 训练与测试误差无差异(无look-ahead bias)。
- $H
a$: 测试误差显著高于训练误差(存在look-ahead bias)。
  • 实验结果:

- 对原始相关性数据测试,部分p值说明look-ahead bias不显著,但分箱法显示出明显的look-ahead bias现象(p值低于显著水平0.05)。
- 历史相关性纳入模型反而没有明显提升,甚至导致预测能力下降,说明GPT对噪声数据敏感,难以有效利用历史数据。
- GPT模型在训练集表现优于BERT(显著p值),但测试集表现却不及BERT,验证了GPT存过拟合和泛化能力不足。
  • 总结:

- 重申GPT因训练数据含未来信息存在偏差且对历史数据捕捉弱,BERT虽然模型较简单但泛化更好[page::3,4]。

2.5 投资组合模拟(IV.B,V)


  • 模拟策略

- 简单的两资产组合(股票和债券),权重通过最小化组合方差进行闭式求解。
- 多资产组合加入大宗商品、房地产、美元指数,采用最小方差组合优化(约束权重和为1)。
  • 指标选取

- PnL(盈亏):投资组合随时间的价值变化。
- 夏普比率(Sharpe Ratio)衡量风险调整后的收益。
  • 模拟结果(图表):

- 图5(pre-Covid,两变量):基线和BERT表现接近且优于GPT,GPT有时输出较差。
- 图6(post-Covid,两变量):BERT仍表现最佳,GPT落后于基线。
- 图7和图8(多变量组合):BERT明显优于基线和GPT,GPT甚至表现更差,特别是后疫情时期衰退明显。
  • 夏普比率表(表IX和X)

- 两变量组合预Covid,BERT夏普为2.768,优于基线2.605及GPT 2.334。
- 多变量组合面对疫情后,BERT仍为正0.790,远超GPT的-1.009,表现明显可靠。
  • 结论

- BERT模型通过文本分类方式较易建立稳定的相关性预测,GPT作为生成模型由于预测的复杂性反而折损性能。
- 增加资产类别虽提升构建复杂度,但BERT仍稳健表现突出,GPT表现不佳进一步说明其泛化能力受限[page::5,6]。

---

3. 关键图表深度解读



图1 股票价值走势(page 0)


  • 展示2010-2022年标普500股票组合价值,走势图显示长期上扬趋势伴随多轮波动和危机,如2020年疫情引发股市急跌。

- 说明市场内生的巨大噪声和外部冲击对价格影响,强化预测模型需处理的复杂度。

图2 误差分布(page 1)


  • 有关AGG债券指数预测误差分布,误差集中于零附近,且变动范围有限(大部分在±5%以内)。

- 说明线性回归预测债券价格准确性高,债券数据可靠基础强。

图3 预测与实际价格对比(page 1)


  • 蓝线为预测AGG价值,橙线为实际,1980-2003年间预测曲线较好拟合实际数据走势,体现模型有效补齐早期缺失数据。


表I-II Look-ahead bias p值(page 4)


  • 表I显示原始相关性数据p值部分不显著。

- 表II分箱相关性数据p值均远小于0.05,显著表现出训练与测试集间误差差异,证明GPT模型存在前瞻性偏差。

图5-8 投资组合价值走势(page 5)


  • 图5、7(预疫)与图6、8(疫后)比较基线、BERT与GPT模型构建组合价值走势。

- BERT模型曲线显著高于其它模型,增长更稳健,GPT表现最差且后疫情期间跌幅最大。
  • 体现BERT模型对经济文本信息的稳定提取能力,GPT存在泛化不足风险。


表IX-X (夏普比率)(page 6)


  • 预Covid BERT夏普为2.768显著领先,后Covid仅BERT为正,且幅度较大。

- GPT无论何时均表现普遍不佳,特别多变量后疫情阶段表现负值。
  • 佐证前期模型拟合优越但后期市场动态适应差,BERT训练分类框架更稳健。


图9-16 错误分布箱线图(page 7-8)


  • 视觉展示RMSE训练与测试集误差差异。

- 测试集误差多呈现箱线图分布在更高位置,偏态更大,特别是分箱数据。
  • 明晰体现训练拟合优越但现实应用泛化受阻,GPT模型预测不稳定[page::7,8]。


---

4. 估值分析



本报告未直接涉及公司估值或目标价;聚焦于基于经济文本解读资产相关性与投资组合优化的方法学分析。其估值相关分析主要体现在:
  • 结合资产间相关性$\rho$、标准差$\sigma$及协方差矩阵$\Sigma$进行最小方差组合权重优化,依赖经典数理金融优化模型。

- 变量包括单变量(股票-债券)及多变量(大宗商品、房地产、美元指数等),通过线性代数求解拉格朗日乘子法找到权重向量。
  • 估值关注投资组合风险调整后收益表现(Sharpe Ratio)及模拟盈亏(PnL)。


该方法依赖对相关性预测准确度,相关性预测的偏差直接影响资产配置与资产组合预期表现,间接反映预测模型“估值”的有效性[page::3,5].

---

5. 风险因素评估


  • Look-ahead bias(前瞻性偏差)

- GPT模型训练过程中存在利用未来信息,导致训练精度虚高,真实运用时泛化差,预测判断失真。
  • 过拟合

- GPT模型复杂且拟合训练集信息丰富,易陷入历史数据噪声陷阱,难以适应未来市场结构变动。
  • 数据噪声

- 市场价格本身波动剧烈且受事件驱动,经济新闻带有主观色彩,数据选择不当或过度整合会增加噪声。
  • 解读不透明

- LLM黑盒特性限制对模型内部决策路径的理解和纠错,难以调整模型以减少错误。
  • 规模与计算成本

- 多资产组合相关性增长为$O(N^2)$,GPT计算相关性时资源消耗巨大,限制其实时应用能力。
  • 数据来源限制

- Beige Book虽较稳定,但发布较慢且信息代表性有限,其他联储数据或更频繁的新闻数据或许更适合,当前数据源可能不足[page::0,2,6].

报告未详细提出针对以上风险的缓解策略,侧重分析和警示,提示研究空间和未来改进方向。

---

6. 批判性视角与细微差别


  • 数据使用及模型选择偏差

- 仅使用Beige Book作为文本数据相对单一,可能限制多样信息捕获能力,与更丰富新闻数据相比,限制模型的信息量。
  • GPT模型训练前瞻性偏差问题未能完全规避

- 尽管报告试图限制模型仅用“当年经济信息”,实际存在GPT训练语料内部信息泄露,使得过拟合与隐含未来信息难以避免。
  • 模型任务设置差异

- BERT处理为分类任务,GPT采用生成任务,复杂度不同,导致效果差异难以直接比较,潜在任务设定偏颇。
  • 评估指标单一

- 仅采用相关性预测RMSE及Sharpe Ratio做投资表现指标,缺少对模型稳定性、实时响应及其他金融指标(如最大回撤)的全面评估。
  • 经济环境变化适应性有限

- 训练集覆盖至2021年,后疫情市场结构变化巨大,评估过程中疫情后期表现极差,可能反映模型对新常态缺乏适应性。
  • 缺失详尽的敏感性分析

- 报告缺少对模型参数(如温度值、提示设计)和数据窗口大小对结果波动的深入讨论。

这些潜在偏差与不足,提示后续研究需多样数据、严格样本切割、合理任务设计以及完备风险和灵敏度评估[page::0,4,5,6].

---

7. 结论性综合



本报告系统评估了大型语言模型GPT-3.5在金融市场相关性预测中的表现,并与较为传统的BERT模型进行了对比。关键发现包括:
  • Beige Book作为经济文本数据存在价值,能够反映不同资产间的相关性,这为基于文本的金融预测提供可用输入。

- GPT模型的预测结果存在明显“前瞻性偏差”,训练时未来信息泄露使得模型在训练集表现好于测试集,泛化能力受限,难以实现稳健的实际投资指导意义。
  • 加入历史相关性信息未提升GPT预测准确性,表明其无法有效利用附加数值数据,可能因噪声影响或模型设计复杂度所限。

- BERT模型作为分类模型在实际预测中表现更佳,无论是在检测相关性误差还是在投资组合模拟中,BERT模型均优于GPT及简单基线。
  • 模拟投资组合表现验证BERT模型带来的收益调整风险更优,夏普比率明显高于GPT和基线,尤其在更复杂多资产组合和疫情后市场表现优势明显。

- 表格和图像辅助验证
- 股票与债券价格及误差分析(图1-3)。
- GPT与BERT误差统计的Boxplot清晰显示训练与测试集之间显著差异(图9-16),呈现较强的统计支持。
- 投资组合价值及Sharpe值图表(图5-8及表IX-X)直观反映模型在不同市场阶段的表现差异。
  • 未来方向建议关注:

- 采用其他联储或公开经济数据。
- 探索更先进或不同的大型语言模型(GPT-4o、Gemini、Llama等)。
- 重新设计模型任务架构,或结合分类和生成能力。
- 注重长期跟踪测试、跨市场验证和多指标综合评价。

总结来看,该报告在金融市场风险预测领域提供了宝贵的实证参考,批判性地揭示了当前LLM模型实际应用中的不足与挑战,为未来研究指明方向。研究强调传统机器学习模型依然在实际投资应用中占优,LLM虽潜力巨大但存在关键问题待解[page::0-8]。

---

以上分析基于报告全文内容与所有附图表数据精准解读,论述详实且严谨,严格符合页码溯源规则。

报告