`

Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow

创建于 更新于

摘要

本报告提出通过微调大型语言模型(LLMs)实现基于金融新闻流的股票收益预测,设计了集成文本表示与预测模块的模型框架。通过对比编码器和解码器结构的LLMs(DeBERTa、Mistral、Llama)及其表示融合方式(瓶颈与聚合),实验证明聚合表示普遍提升组合表现,并发现解码器模型在大规模投资组合下表现更优;基于LLMs的预测信号超越传统情绪指标,有效指导股票选取和投资组合构建 [page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8]

速读内容

  • 研报设计了一个由文本表示模块和预测模块组成的LLM微调模型,实现了直接从金融新闻文本到股票未来收益的映射 [page::1][page::3]。

  • 比较了编码器仅模型(DeBERTa)与解码器仅模型(Mistral、Llama)在文本表示及预测任务上的表现差异,发现两者在不同投资组合规模下效果不一 [page::1][page::3][page::4]。

- 文本表示采用两种token级别融合方法:
- 瓶颈表示:通过附加终止符token压缩序列信息为单向量输入预测模块。
- 聚合表示:对所有token向量取平均,无额外参数,避免表示坍缩问题。[page::4]
  • 实验使用2003-2019年的公司级金融新闻及北美、欧洲、新兴市场投资组合,训练-验证-测试分别覆盖不同时间跨度,使用LoRA低秩适配微调技术,最大上下文长度4k,批量大小32,训练10轮 [page::5]。

- 通过分位数(decile)指标评估预测效果,重点关注第0和第9分位的实际收益与预测准确度,分析RMSE、精确率及绝对收益三方面指标 [page::5]。
  • North America市场实验显示:

- 聚合表示模型普遍带来更高第9分位收益,聚合模型在长多和长短组合中均表现优异,Llama长多组合中瓶颈稍优。
- 高收益分位(RMSE较高)可能因高值预测误差导致,但精确率与实际收益相关联,聚合表示在精确度上优势明显。
- 长短组合中聚合表示整体提升收益率和夏普比率,尤其解码器模型表现更佳。

| 模型 | 长多年化收益(%) | 长多夏普率 | 长短年化收益(%) | 长短夏普率 |
|--------------------|----------------|------------|----------------|------------|
| Universe均等加权 | 9.76 | 0.68 | 12.26 (疑排版) | - |
| SentimentFinVader | 20.64 | 0.72 | 1.22 (不清晰) | 0.39 |
| Sentiment
FinBert | 17.47 | 0.96 | 10.83 | 0.94 |
| DeBERTaBottleneck | 25.15 | - | - | - |
| Mistral
Bottleneck | 21.27 | 1.15 | 15.08 | 1.49 |
| MistralAggregated | 25.38 | 1.12 | 18.30 | 1.26 |
| Llama
Bottleneck | 27.00 | 1.32 | 20.46 | 1.49 |
| Llama_Aggregated | 18.86 | 1.00 | 14.29 | 1.30 |
  • 投资组合累积收益表现,如图4显示聚合模型在长多与长短组合中普遍优于瓶颈表示,且均超过市场均等加权基准 [page::6]。



  • 编码器与解码器比较:在北美市场,Mistral和Llama解码器模型在长短组合表现优于DeBERTa编码器,尤其长短组合的选股能力全面,DeBERTa表现相对较弱 [page::7]。

  • 预测驱动的组合策略明显优于基于传统金融情绪指标(FinVader、FinBert)的组合,长短组合中情绪指标短仓表现差导致整体组合低迷,预测模型则表现更稳定且波动更小 [page::7][page::8]。

  • 欧洲和新兴市场实验的详细分位指标与组合累积收益图谱见附录,整体验证了北美地区的主要结论,包括聚合表示优于瓶颈表示,解码器模型表现较为稳定,预测模型显著优于基准情绪指标组合 [page::12][page::13][page::14][page::15]。

- 研报强调未来研究方向包括:探索更大规模的编码器模型,解码器内部性能差异来源,及因子解释性与组合风险控制等 [page::8]。

深度阅读

Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow — 详细分析报告



---

1. 元数据与概览


  • 报告标题:《Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow》

- 作者与机构:Tian Guo、Emmanuel Hauptmann,来自瑞士日内瓦RAM主动投资系统股票团队(RAM Active Investments, Geneva, Switzerland)
  • 时间:无明确日期标注,参考文献最新至2024年,推定近期研究

- 主题:利用财务新闻流对大规模预训练语言模型(LLMs)进行微调(fine-tuning),以直接预测股票收益率,实现定量选股和投资组合构建。

核心论点与目标:

本报告探索通过直接微调LLMs,将新闻文本表示映射到未来股票回报率预测,区别于传统多步特征提取方法,构建端到端的预测模型。对比了不同类型LLMs(编码器-encoder-only 与解码器-decoder-only)、以及两种文本表示整合方法(瓶颈表示-bottleneck、聚合表示-aggregated),针对三种主流LLMs(DeBERTa,Mistral,Llama)进行了多市场实证测试,对股票投资组合的收益表现进行了回测。作者强调:
  • LLM生成的token级嵌入聚合后作为文本表示在预测中效果显著。

- 解码器类LLM在大规模投资组合中表现更优,小范围投资组合无明显性能赢家。
  • LLM基于文本表示的预测信号优于传统情绪评分,有利于构建更强的投资组合。


最终,报告提出在财务新闻驱动的股票收益预测领域,直接微调LLMs是有效路径,并指出多项未来研究方向。

---

2. 逐节深度解读



2.1 摘要与引言


  • 摘要:介绍了研究背景,即LLMs在语言理解领域的强大能力,将其应用于股票收益预测的潜力和优势,同时创新点在于比较encoder-only模型(DeBERTa)与decoder-only模型(Mistral、Llama)的表现差异。提出采用两种token级表达整合方式,进行了实际金融新闻数据上的实证分析,通过构造长期和长短组合,验证预测信号的有效性和优势。
  • 引言:定位了研究问题在于量化投资中的核心任务——股票回报率预测。传统方法多通过财经文本提取情绪、话题等特征,构造数值指标,再建模预测,流程复杂且依赖标注数据。相比之下,将LLMs直接微调成端到端预测模型,能以文本为输入直接输出收益预测,简化流程并潜在提升预测能力。[page::0,1]


2.2 相关工作(Section 2)


  • 综述了以往用金融文本进行市场预测的研究,大多基于词级嵌入和情绪提取,缺乏上下文深层语义理解能力。

- 介绍了LLM的分类(encoder-only, decoder-only, encoder-decoder),不同结构的预训练目标(masked language modeling vs. autoregressive next-token prediction)。
  • 介绍微调策略,尤其是参数高效微调方法LoRA,降低微调计算资源及存储成本。

- 其他研究多聚焦于用LLM提取情绪特征,或用prompt在生成模型进行特征挖掘,但本论文创新地直接对LLM微调实现新闻到股价回报的映射,研究了不同模型和文本表示形式的效果。[page::1,2]

2.3 问题定义与方法论(Section 3)



3.3.1 问题定义(Section 3.1)


  • 定义投资组合包含股票集合$\mathcal{U}$,及其在时间$t$的新闻序列$\mathbf{X}{s,

- 预测目标为$n$步之后的股票回报率$r
{s,t+n}$,模型形式为:

$$
\hat{r}{s,t+\ell} = f \circ g(\mathbf{X}{s, $$

其中$g(\cdot)$为LLM编码文本得到的向量表示,$f(\cdot)$为前馈预测层。
  • 训练期间采集合内所有股票样本,测试时结合预测值构造长仓和长短组合,进行回测验证,其中投资组合构造基于预测收益的排名分位数(例:顶端10%建多头,顶底10%构建多空组合)。[page::2,3]


3.3.2 方法论(Section 3.2)


  • 编码器-Decoder模型表示差异:


- Encoder-only(如DeBERTa)采用masked language modeling,单词的向量表示融合了前后左右上下文,能从环境中推断被mask词。

- Decoder-only(如Mistral、Llama)基于自回归预测结构,token的表示只用之前已观察词的信息,表示反映输入序列历史上下文。
  • 表示整合策略:


- 瓶颈表示(Bottleneck):向文本末尾添加EOS token,利用该token最终聚合的表示向量作为整体句子的表达,符合encoder-only模型预训练mask token预测思路。在decoder-only模型中,观点认为最后token自然包含序列信息,故附加EOS多余,但为比较公平两种模型均加EOS。

- 聚合表示(Aggregated):简单均值所有token的表示向量,避免瓶颈表示在最后token可能出现的崩溃问题(representation collapse),无额外参数,公平比较表示质量。
  • 模型训练与硬件:


- 使用LoRA进行参数高效微调,利用混合精度、gradient checkpointing等技术优化训练资源。
- 具体模型包括DeBERTa、Mistral-7B、Llama3-8B,均为当前主流金融与通用文本领域先进模型。[page::3,4]

2.4 实验设计及结果(Section 4)



数据集与实验设置


  • 使用2003-2019年全公司级财务新闻,涵盖北美(North America, NA)、欧洲(Europe, EU)、新兴市场(Emerging Markets, EM)三个投资组合集合。

- 按2003-2014年训练验证,2015-2019年测试。
  • 每条训练样本由一股票时间戳对应的新闻文本拼接组成,时间窗口为1周。

- 训练参数详:batch size=32,学习率$1e^{-5}$,训练10个epoch,使用2张A100 GPU。构造的组合均等权重,长头取前10%,长短组合为前后10%。
  • 衡量指标专注于按照预测分位数分组的误差(decile RMSE)、精确度(decile precision)和实现收益(decile return),后者直相关组合表现。也包括累计收益曲线及夏普比率等财务指标。[page::4,5]


核心关键实验结果与分析



瓶颈表示 vs 聚合表示(图表详见 Fig.3,4 ; 表1)

  • 聚合表示普遍优于瓶颈表示,尤其在9th分位(顶层预测股)中,聚合表示带来更高的实际收益,符合构造长仓组合的需求,尤其对DeBERTa和Mistral表现突出,Llama存在个别差异。

- 尽管聚合表示在某些分位RMSE较高,预测误差较大,通过decile precision可解释,即高收益股被成功识别在高分位,从而收益攀升。
  • 0th分位(底层负收益)组合收益更低越好,对长短组合效果有利,聚合表示总体改进了长短组合的风险调整表现(夏普比率),尽管对9th分位外推的精度影响有限。

- Fig.4累计收益曲线显示,聚合表示模型的长/长短组合均显著超越瓶颈表示,且均高于市场基准等权收益,体现模型具有实战投资构建价值。[page::6,7]

编码器-only vs 解码器-only比较(图表见Fig.5)

  • 使用适宜表示形式后(聚合-encoder,瓶颈-decoder),解码器模型整体在长短组合表现更强,尤其其短端选股更加准确,提升组合回报和夏普比率,长组合中表现相近。

- 三模型中,Mistral(解码器)表现最稳定,DeBERTa(编码器)长短组合表现偏弱,强调有效区分卖空股票的重要性。
  • 所有预测模型组合均显著优于市场平均基准,表明LLM预测信号的实际价值。[page::7]


预测型投资组合 vs 传统情绪投资组合(图表见Fig.6,表1)

  • 预测型组合基于LLM直接预测收益排序,情绪型组合用FinBERT、FinVADER计算情绪评分排序。

- 预测型组合无论多头还是长短组合都远超情绪型组合,体现所谓的强信号问题,尤其长短组合中情绪模型短端负面拖累明显。
  • 累计收益曲线显示预测模型组合更加平稳且连贯,波动性以及风险调整后表现更好。

- 结论可见,传统情绪指标虽重要,但LLM微调直接预测收益效果更好,拥抱下游任务导向建模思路。[page::7,8]

2.5 结论(Section 5)


  • 通过全面实验,验证了采用LLMs微调实现财务新闻到股票未来收益映射的可行性和优势。

- 聚合型文本表示普遍优于瓶颈表示,体现Token嵌入的多维信息丰富性。
  • 解码器类LLM(如Mistral)在大规模投资组合中表现更强,编码器模型在不同规模市场表现不一。

- LLM直接收益预测信号明显优于传统情绪指标,对于投资组合构建具有较强的实用价值。
  • 同时指出未解决问题,如编码器模型性能不佳原因、不同市场表现差异、Llama模型稳定性待探讨,提出了未来工作方向。[page::8]


---

3. 图表深度解读



图1(页1)


  • 内容描述:展示了两种利用财务新闻数据进行选股的流程对比:

- (a) 传统多步流程:先构造特征(情绪等),再训练情绪模型,最终用统计分析或预测模型验证特征表现;流程复杂、耗时。
- (b) 本文方法:直接微调LLMs,将新闻文本映射到未来收益预测,实现端到端建模,流程简化。
  • 意义:强调本研究的创新点和优势,因LLMs自动生成高质量文本表示,省略了人工特征构造和验证步骤,理论上能捕捉更丰富语义信息。[page::1]


---

图2(页2)


  • 内容描述:示意LLM模型如何从多个股票关联新闻文本中提取序列表示,再经过预测层输出未来回报预测$\hat{r}_s$,通过排名选股构建长头或长短组合。

- 意义:可视化流程帮助理解问题定义和方法结构,强调新闻数据和收益预测间映射的核心地位,为后续模型设计及训练提供结构基础。[page::2]

---

图3(页6)


  • 内容描述:对比三种LLM(DeBERTa, Mistral, Llama)两种表达方式(瓶颈与聚合)在北美市场下分位RMSE、精度和收益:

- RMSE图(top row): 预测误差随分位波动,聚合型和瓶颈型相近差异小。
- 精度图(middle row): 9th分位聚合表现更好,反映更准确地分辨高收益股。
- 绝对收益(bottom row):明显随分位递增,顶层聚合表达明显优越。
  • 联系文本:确认聚合表示优势,尤其在顶层收益预测准确度提升,支持构建高收益长头组合。[page::6]


---

表1(页6)


  • 内容描述:北美市场投资组合统计:

- 年化收益率和Sharpe比均优于市场基准
- 使用LLM预测模型组合整体优于基于FinBERT和FinVADER情绪模型组合
- Llama、Mistral等解码器模型聚合表示在收益表现和夏普率均有突出贡献
  • 意义:实证证据支持本研究主张,用微调LLMs预测收益构建组合投资体现优秀风险调整收益能力。[page::6]


---

图4(页7)


  • 内容描述:长头和长短组合累计收益曲线,比较瓶颈与聚合表示模型及市场基准:

- 聚合表示组合回报持续高于瓶颈
- 所有模型组合均跑赢市场基准,说明预测模型有效提取信息
  • 联系文本:视觉印证数据指标的投资价值,有助投资者理解时序表现与风险控制能力。[page::7]


---

图5(页7)


  • 内容描述:比较不同LLM模型的9个分位收益及组合累计收益:

- Decoder-only模型Mistral和Llama表现更优,尤其在长短组合的区分能力上体现优势
- 编码器模型DeBERTa表现稍弱,短端选股效果不足影响长短组合表现
  • 意义:强调预训练目标和架构对下游股票收益预测影响,为模型选型提供实证依据。[page::7]


---

图6(页8)


  • 内容描述:预测及情绪模型组合的9分位收益及累计收益对比:

- 预测模型在9th分位收益上显著超过情绪模型
- 预测模型长短组合收益稳健,情绪模型短端拖累明显导致组合表现不佳
  • 意义:确认纯语义预测信号明显优于基于情绪评分的传统方案,表明端到端微调有更强语义表达能力。[page::8]


---

附录图(页12-15)


  • 内容描述:欧洲和新兴市场分别重复上述分析,展示对应的分位性能、组合收益及模型对比,均反映类似结论:

- 聚合表示优于瓶颈
- Decoder-only模型表现更今欧洲、新兴市场有所差异但趋势相似
- 预测型组合优于情绪组合
  • 意义:强化结果的跨市场和多维度适用性,展示模型方法普适性和稳健性。[page::12-15]


---

4. 估值分析



该报告不直接涵盖传统估值方法(如DCF、市盈率等),而是聚焦基于文本的回报预测模型性能指标及组合表现的实证验证。这里的“估值”可理解为模型的预测准确度及其对组合收益和风险调整效率的影响,并通过回测和财务指标(年化收益率、夏普比率)反映。模型的关键输入为新闻文本,预训练LLM生成的多维token级表示,及两种聚合策略,预测层负责映射为收益预测。训练目标为最小化均方误差。驱动因素为LLM嵌入深层语义表达及反映公司相关资讯的财务新闻数据。

---

5. 风险因素评估



报告主要涉及模型性能差异及市场表现波动,未直接列风险因素条目。但可推断主要风险包括:
  • 模型选择风险:不同LLM结构表现差异显著,某些市场组合中效果不稳定,如编码器模型在部分小型市场表现不一。

- 数据依赖风险:使用历史新闻和收益数据训练与测试,新闻覆盖度或质量不足可能影响模型表达。
  • 过拟合风险:微调过程可能过拟合训练集特定市场行情,导致未来样本泛化下降,尤其训练集时间窗较早。

- 市场环境变化:外部宏观经济或突发事件不可预测,模型可能无法及时适应。
  • 实现风险:实际投资组合实施中考虑交易成本、流动性和监管限制,报表中未涉及,实际收益可能打折。

- 模型表征偏差风险:报告中提及聚合表达易产生对序列前端的偏好,瓶颈表达易陷入崩溃,这影响建模稳定性。

报告没有详细缓解策略,但通过多市场、多模型、多表示方法的实证,部分规避了单一模型表现不稳的风险。[page::8]

---

6. 批判性视角与细微差别


  • 模型规模和预训练差异未彻底解析:为何DeBERTa在大市场表现不佳,是否与模型规模、预训练语料异质有关,仍未明确。

- 表示方法差异在Decoder-only的表现有争议:鉴于补充EOS token在Decoder-only模型中理论上是冗余的,但实验中仍统一添加,可能影响模型表现,对此后续研究需深化。
  • 基于token-level的均值聚合相对简单,未涉及更先进的表示融合方法,如attention权重加权,限制了模型潜力释放。

- 未充分讨论训练数据年限可能导致的时间效应,长期数据和未来市场变迁可能使模型泛化难度增大。
  • 投资组合构造仅基于预测排名,风险管理、仓位控制、交易成本等现实因素未纳入,限制现实应用的直接参考价值

- 跨市场表现差异大,提示模型对市场异质性敏感,未详细分析背后原因

报告客观呈现了这些点,但作为读者需理解模型适用范围和局限。

---

7. 结论性综合



本文系统研究了基于财务新闻的股票收益预测问题,将预训练LLMs通过微调的方式直接映射新闻文本至未来收益,创新性对比了编码器Only与解码器Only模型间的表现差异,以及两种基本的token级文本表示整合方法:瓶颈表示与聚合表示。

实证结果表明:
  • 聚合表示相比瓶颈表示能更好地利用LLM token层嵌入信息,尤其在顶层收益预测上带来更高准确率和投资组合收益表现,跨多个市场及投资组合均适用。

- Decoder-only LLMs(Mistral、Llama)在更大规模投资组合中构建的长短组合表现优于编码器Only模型,特别是在卖空侧选股的表现突出,提升了整体组合的风险调整后收益。
  • 基于微调LLM直接预测收益构建的投资组合在各类市场均显著优于基于传统情绪分析方法(FinBERT、FinVADER)的组合,表现出前者蕴含更强且更直接的股票未来表现信息。

- 三种主要模型中,Mistral展现了跨市场的稳定性,被视为目前研究中表现较为稳健的模型。
  • 这些结果强化了量化投资应用中,端到端的文本深度表示学习和预测模型,有望替代复杂的传统特征工程和情绪建模


图表和表格数据深刻揭示了各模型/表示方式在不同分位数的收益、预测误差和精度间的微妙关系,为金融量化领域LLM的应用提供指南。

同时,报告识别了多项未来研究难题,如更大规模/更强编码器模型的潜力、不同模型间性能差异的内在原因、细化文本表示聚合策略等,为学术与实务界进一步探索铺路。

综上,本文为LLMs在金融文本驱动的股票收益预测领域打开了新的研究与应用方向,展望其能深入支持量化选股和投资组合构造的自动化升级。[page::0-8,12-15]

---

参考文献



文中引用的多篇文献涵盖了LLM架构、微调技术、金融文本分析、预测模型以及量化投资理论,为本文的研究基础。细节见报告附录引用部分。

---

总结



本文提供了一份内容丰富、实验严谨的技术报告,围绕LLMs如何通过微调利用财经新闻预测股票收益展开,系统比较了多种模型与表示方法,实证了其优越性,并指出未来研究方向。对于量化投资参与者、金融机器学习研究者、以及自然语言处理技术实践者均具重要价值。

如需深入探讨任一章节或具体图表解读,请告知。

报告