`

Harnessing Earnings Reports for Stock Predictions: A QLoRA-Enhanced LLM Approach

创建于 更新于

摘要

本报告提出利用指令微调结合4-bit QLoRA量化适配技术,基于包含财务指标增长、业绩电话会议内容及外部市场指数和分析师评级的综合数据集,训练大语言模型以提升财报后股票涨跌预测的准确率。实证显示,特别是llama-3-8b-Instruct-4bit模型在准确率、加权F1和MCC上显著优于GPT-4,验证了多因素融合和模型压缩对金融预测的有效性,并探讨了未来加入“持有”选项及延长预测周期的方向。[page::0][page::1][page::3][page::4]

速读内容

  • 研究构建了涵盖501家标普500成分股的多维度监督数据集,涵盖内部基础因素(财务指标增长、业绩电话会议)与外部因素(过去一周市场指数表现、分析师评级、盈余惊喜),并将所有数值数据转换为自然语言文本,增强大语言模型(LLM)处理能力 [page::1][page::2]。

- 框架设计包括基于指令微调的LLM训练和4-bit QLoRA压缩,支持处理最长达25,000 Tokens的长文本数据,以提高预测效率和部署适应性;推理输出为“Long”或“Short”二分类标签,对应次日股价涨跌 [page::2]。
  • 模型性能对比(表I显示):

| Model | Base Accuracy | Base Weighted F1 | Base MCC | Full Accuracy | Full Weighted F1 | Full MCC |
|--------------------------|---------------|------------------|----------|---------------|------------------|----------|
| ChatGPT 4.0 | 0.363 | 0.482 | 0.023 | 0.494 | 0.512 | 0.031 |
| gemma-7b-4bit | 0.541 | 0.468 | 0.135 | 0.542 | 0.442 | 0.178 |
| Phi-3-medium-4k-instruct | 0.559 | 0.469 | 0.224 | 0.560 | 0.471 | 0.227 |
| mistral-7b-4bit | 0.556 | 0.556 | 0.112 | 0.550 | 0.497 | 0.122 |
| llama-3-8b-4bit | 0.534 | 0.533 | 0.069 | 0.541 | 0.535 | 0.087 |
| llama-3-8b-Instruct-4bit | 0.550 | 0.533 | 0.104 | 0.573 | 0.565 | 0.154 |

- 指令微调的llama-3-8b-Instruct-4bit模型在Full数据集下表现最佳,准确率比GPT-4高16%,加权F1高10%,显示了指令调优与外部因素引入的显著提升效果 [page::3].
  • 训练过程稳定,fine-tuning loss持续下降(见图2),体现出模型的良好收敛能力和稳定性:

  • 量化适配(QLoRA)采用4-bit进行低秩微调,有效压缩模型参数空间,支持资源受限环境下高效部署,同时保证预测性能未受明显影响 [page::3].

- 未来研究方向包括:增加“持有(Hold)”选项,扩展预测时间窗至周级别,以适应不同投资风格和策略需求 [page::4].

深度阅读

金融研究报告详尽分析


报告标题:《Harnessing Earnings Reports for Stock Predictions: A QLoRA-Enhanced LLM Approach》
作者及机构:共十位作者,分别来自哥伦比亚大学、中央财经大学、纽约大学、康奈尔大学、密歇根大学、罗格斯大学以及独立研究员等机构,呈现国际化跨校合作研究。
发布时间:文中无明确具体发布时间,但引用文献截止至2024年,表明为极为前沿的研究。
研究主题:利用结合指令微调和QLoRA压缩技术的大型语言模型(LLM),基于财报数据及外部财经指标,实现对财报发布后次日股价表现的精准预测。

---

1. 元数据与报告概览



本报告提出了一个以LLM为核心的股票预测模型,针对财报发布后市场反应进行预测。核心论点为:
  • 传统技术指标和机器学习在处理财报中大量文本信息时存在局限,难以捕获财报叙述中的细微影响;

- 通过结合财务指标增长、财报文字记录以及市场行情指标和分析师评级等多源数据,构建丰富的监督训练集;
  • 利用QLoRA压缩技术实现4bit量化微调,既节省计算资源,又保持模型性能,实现高效部署;

- 以llama-3-8b-Instruct-4bit模型为代表,显著优于GPT-4等基线模型,在准确率、加权F1及MCC指标上均表现突出;
  • 展望方向包括输出由二分类的“Long/Short”向含“Hold”的三分类扩展及预测时间窗口延长。


总体传递的信息是:将最先进的AI微调技术与多维度财务数据相结合,能有效提升财报后股价预测的准确度,助力投资者做出更优决策。[page::0,1,4]

---

2. 逐节深度解读



2.1 引言



报告从传统股市预测手段局限切入,强调历史数据和简单技术指标未能充分反映市场因重大信息披露(尤其财报)的复杂动态反应。财报文本量大且内容复杂,投资者难以高效提炼有价值信息。此外,黑天鹅事件亦显著影响市场。传统ML模型难以处理大量非结构化文本,从而限制了市场反应预测的效果。文中指出,投资者需求更智能、实时动态适应的预测系统,尤其是财报季诱发的市场波动,细致捕捉财报信息对于提高交易策略(如期权交易、对冲等)成功率至关重要。[page::0]

2.2 相关工作



文中回顾了LLM及深度学习在财经领域的现有应用:有对金融舆情的情感分析,如利用FinBERT和LSTM的混合模型预测股价;以及通过自反省代理和策略优化(PPO)提升模型的可解释性和准确性等,显示了AI在金融领域的重要潜力。研究在此基础上创新性地引入结合内部财务指标与外部宏观及分析师评级信息的多模态输入,丰富模型信息源,提高预测实用性。[page::1]

2.3 数据收集与预处理



报告详细说明了数据来源及构建:
  • 公司样本:涵盖标普500指数中的501家公司(额外1家因指数调整需弥补);

- 数据类型
- 内部“Base Factors”:财务指标同比增长、财报电话会议文本;
- 外部“External Factors”:过去一周市场指数(SPY、QQQ、DOW)和股票表现、过去30天分析师评级、财报预期盈余超出或不及率。
  • 标签构建:以财报发布后次日开盘价与收盘价比较为依据,股价上涨标为“Long”,下跌标为“Short”;

- 文本化处理:将数值数据转为完整自然语言描述,如市场跌幅转“过去一周SPY下跌1.5%”,评级转总结语句,EPS超预期转百分比描述等。文本长度跨度极大(1272至54394 token),挑战模型的处理能力;
  • 数据清洗:删除缺失数据,最终保留8556条完整多维文本样本;

- 数据集拆分:构建“Base”仅含内部因素,“Full”含内外因素;为探究额外因素对预测贡献。

整体体现了数据多样性及由定量转定性文本的创新,使LLM能够从金融数据与语义角度双向理解财报信息。[page::1,2]

2.4 方法与模型框架



论文设计了清晰的三大模块(见图1):
  • 数据集构建:融合内部财务增长与财报文字(Base Factors)和外部市场指标、分析师评级、盈余超预期信息(External Factors);

- 模型微调:选用预训练模型(包括llama-3-8b等),经过QLoRA的4bit量化,将资源消耗大幅压缩后进行指令微调(Instruction Fine Tuning),训练模型能按照金融领域指令做出“Long/Short”决策输出;
  • 推理评估:通过专门设计的Prompt向模型提问,要求其基于输入综合因素给出单词答案。用次日实际市场表现进行验证,采用准确率、加权F1及MCC作为性能指标。


特别指出,QLoRA技术基于低秩适配LoRA的同时引入4-bit量化,显著减少内存占用和计算耗时。这种模型紧凑型设计对长文本(平均12375 tokens)处理尤为关键。整体架构兼顾了模型精度和部署效率。[page::2]

2.5 评估与结果分析



表格I 主要性能指标解读



| 模型 | Base准确率 | Base加权F1 | Base MCC | Full准确率 | Full加权F1 | Full MCC |
|-------------------------|------------|------------|----------|------------|------------|----------|
| ChatGPT 4.0 | 0.363 | 0.482 | 0.023 | 0.494 | 0.512 | 0.031 |
| gemma-7b-4bit | 0.541 | 0.468 | 0.135 | 0.542 | 0.442 | 0.178 |
| Phi-3-medium-4k-instruct| 0.559 | 0.469 | 0.224 | 0.560 | 0.471 | 0.227 |
| mistral-7b-4bit | 0.556 | 0.556 | 0.112 | 0.550 | 0.497 | 0.122 |
| llama-3-8b-Instruct-4bit| 0.550 | 0.533 | 0.104 | 0.573 | 0.565 | 0.154|
  • 重要发现

- 传统大模型ChatGPT 4.0表现最差,暗示其未针对财报领域微调,说明领域特化必要。
- 多款4bit量化微调模型整体表现稳健且显著优于ChatGPT,验证QLoRA压缩后依然保持性能优势;
- 全量(Full)数据集普遍表现优于Base,证明外部因素有助提升预测准确度;
- llama-3-8b-Instruct-4bit模型在Full集表现最佳,准确率提升至57.3%(相对ChatGPT约提升16%),加权F1及MCC均为最高,说明指令微调对细化任务大幅促进。

训练动态(图2)


  • 模型在整个细调过程(约500步)中损失值连续下降,且趋于平稳,说明学习过程稳定且有效;

- 损失下降反映模型在任务指令的映射和文本理解能力持续完善,训练参数设定合理。

这些结果说明微调后的量化模型不仅节约资源,同时兼具良好的学习与泛化能力。[page::3,4]

2.6 估值方法



报告未涉及传统意义上公司估值(如DCF、P/E等),核心为输入特征统一映射为股票“多头/空头”动作预测,属于分类任务范畴。估值部分应用在模型性能评价指标(如准确率、加权F1、MCC)而非资本市场定价指标。

---

3. 图表深度解读



图1 框架示意



该图分三部分:
  • 左侧:“监督数据集”融合内部Base因素(财务指标增长、财报文本)和外部Factors(市场指数表现、分析师评级、盈余惊喜);

- 中间:“微调”部分列出模型编码(llama-3-8b等)、量化技术(QLoRA 4bit)、GPU硬件(NVIDIA A100)与指令微调步骤;
  • 右侧:“推理评估”部分给出模型输入Prompt模版,输出标签为Long/Short,联系实际的市场开收盘价对预测进行对比验证。


图示逻辑清晰,辅助说明了研制流程和技术细节,增强了文本对模型架构的理解。[page::2]

图2 模型训练损失曲线


  • 曲线陡峭呈现初始迅速下降,随后趋于平缓,反映模型对任务学习遇到较快收敛;

- 反映微调过程稳定无明显震荡,支持训练参数和策略的合理性。

---

4. 风险因素评估



报告并未专门设风险章节,但从文本推断,潜在风险包括:
  • 模型泛化风险:数据集仅涵盖标普500成分股,可能对其他市场/小盘股泛化不足;

- 数据偏差风险:财报数据依赖API与公开信息,可能存在遗漏或延迟影响;
  • 模型输出限制:当前输出仅“Long/Short”二分类,忽视了投资者“Hold”或波动不确定态度,影响实用性;

- 市场突发事件难预测:如新冠疫情等黑天鹅事件,模型可能难及早反映;

报告在“未来工作”部分对此有所考虑,计划扩展输出类别和预测时间,[page::4]体现了对模型应用信度和完善性的审慎态度。

---

5. 批判性视角与细微差别


  • 正面评价:报告逻辑严密,数据多源且文本化创新明显,模型微调和量化技术应用先进,性能提升数据充分,且训练配置详尽,利于复现。

- 潜在局限
- 预测准确率最高也仅约57%,仍属中等水平,市场的高度复杂性和随机性使得模型预测具有限制。
- 量化编码对模型精度可能有细微影响,虽报告未显著提,运算资源与性能平衡需要权衡。
- 文本极大量(最大5万多tokens)对模型记忆力提出极高挑战,可能导致信息损失或重点模糊。
- 仅用次日股价开闭价涨跌作为标签,未考虑成交量、波动率或后续走势,标签设计偏向简化处理。
  • 内在一致性:报告整体无明显自相矛盾处,结论和数据相符,论据充足。


---

6. 结论性综合



本报告展示了利用最新AI技术——特别是结合了指令微调和QLoRA压缩的LLM,在处理和分析财务报表多维数据后进行股价走势预测的先进研究。通过细致的数据收集,包括内部财务同比增长、财报电话会议原文、外部市场指数表现、分析师评级以及盈余意外信息,构建了涵盖8,556条样本的丰富文本数据集。文本化处理极大提升了模型理解能力和数据表达力。

模型训练和评估表明llama-3-8b-Instruct-4bit模型在结合“Full”多因素数据时表现最好,准确率提升至57.3%,相较GPT-4提升约16%。训练过程稳定,损失平滑下降,说明该方法对金融领域的适用性强。多项评价指标的系统对比,进一步证实了使用指令微调和量化适配优化后模型的综合表现优势。

图1清晰描绘了从数据构建、微调到推断评估的整体流程,图2展示了训练过程的有效性,表1量化了模型之间的绩效差异,为后续金融AI模型研发提供了切实参考。

报告最后指出二分类标签限制和预测时间窗口过短为未来改进重点,考虑引入“Hold”类和延长预期期限,以契合不同投资策略。总体而言,该研究为金融文本分析领域的AI应用树立了标杆,提示结合多源数据及高效模型压缩与微调,能够显著提升财报后股价走势预测的可靠性和实用性。

---

参考文献索引备注



报告引用多篇2023-2024年的最新文献,涵盖LLM应用、金融文本情感分析、模型微调与压缩技术,体现良好的学术与技术前沿背景支撑。[page::5]

---

总结

该报告全面整合现代金融多维数据资源,创新采用LLM指令微调结合QLoRA量化技术,有效克服传统方法对财报文本理解的瓶颈,显著提升股价走势预测能力,具备投资应用的实践指导意义,同时明确指出未来扩展方向与潜在风险,展示了前沿AI技术融入金融分析的真实、系统与可行路线。

报告