`

NIFTY: A Financial News Headlines Dataset for Large Language Model Based Financial Market Forecasting

创建于 更新于

摘要

本报告介绍了NIFTY金融新闻标题数据集,包含两种格式分别支持大语言模型的有监督微调和强化学习对齐。数据集涵盖2010年至2023年十余年的高质量财经新闻及股市指标,适合用于股票价格走势预测和模型信息增益分析。实验表明模型规模显著影响语义嵌入的信息丰富度和聚类效果 [page::0][page::1][page::5][page::6][page::13]

速读内容

  • NIFTY数据集介绍与结构 [page::1][page::2]

- NIFTY包含NIFTY-LM(用于大语言模型的监督微调)和NIFTY-RL(用于LLM对齐训练的偏好数据)两个版本
- 数据来源涵盖2010至2023年,聚合并筛选高质量金融相关新闻标题,剔除无关标题
- 每条样本包含日期元数据,历史市场数据,过滤后的头条新闻,以及股票涨跌、中性标签与区间涨幅数值
  • 数据集筛选与标注方法 [page::3][page::4]

- 利用基于SBERT的相似度搜索过滤非金融新闻,统一长文本限制在3000词以内
- 标签基于次日收盘价涨跌幅:涨幅>0.5%为“Rise”,跌幅<-0.5%为“Fall”,其他为“Neutral”
- NIFTY-RL版本采用基于选择-拒绝结果构造偏好数据,适配强化学习中的奖励模型训练
  • 量化任务和应用场景 [page::3][page::4]

- 适用于股票价格移动方向分类,支持有监督学习和基于奖励的对齐训练(如RLHF)
- 通过RLHF流程结合NIFTY-RL数据,实现对金融领域语言模型的指令遵循与行为优化
- 数据集有助于研究金融市场的状态转移(regime switching)问题,将市场预测建模为部分可观测马尔可夫过程(POMDP)
  • 量化实验基线与模型表现 [page::5][page::6]

- 选取Llama等流行大语言模型家族进行NIFTY监督微调,作为基线测试
- 通过文本嵌入聚类分析验证“模型越大,生成的语义嵌入越丰富”的假设
- 图3展示多模型不同规模的2D t-SNE嵌入聚类图,信息增益随模型参数量显著提高

  • 量化因子与策略分析:基于LLM嵌入的信息增益分析 [page::13][page::14][page::16][page::17]

- 提出IG-CluPE方法,通过聚类LLM最后隐层的prompt嵌入计算信息增益,评估嵌入语义密度
- 实验涵盖三个任务标签:市场涨跌方向、新闻地理位置和新闻类别
- 结果表明,模型参数规模正相关信息增益和方差降低,表明大模型在聚类和信息表达上具备优势

  • LLM嵌入聚类结果可视化示例 [page::18]

- 使用GPT2-Small、Medium、Large三种规模模型对NIFTY数据进行嵌入降维和聚类展示
- 随模型增大,聚类粒度和信息区分度明显提升,支持大模型更精准捕捉市场信息

深度阅读

深度分析报告:NIFTY金融新闻头条数据集研究及其在大语言模型中的应用



---

1. 元数据与概览(引言与报告概览)


  • 报告题目:NIFTY Financial News Headlines Dataset

- 作者及机构:Raeid Saqur、Ken Kato(多伦多大学计算机系),Nicholas Vinden(圭尔夫大学计算机系),Frank Rudzicz(达尔豪斯大学计算机系)
  • 发布日期:预印本,正在审稿中(时间未明,内容引用截止至2024年初)

- 主题:金融市场预测、金融新闻数据集构建与大语言模型(LLM)微调、金融领域的机器学习应用。
  • 核心论点

- 构建并开源了一个覆盖2010至2023年的高质量、专业的金融新闻头条数据集——NIFTY,包含针对两种不同LLM训练策略设计的数据版本:NIFTY-LM(用于监督微调)和NIFTY-RL(用于基于人类反馈的强化学习)。
- 该数据集引入了完整的元数据、市场指标,进行了严格的新闻过滤和去重,适配当前主流的LLM微调和对齐方法。
- 通过实验证明,数据集能有效支持股价变动预测任务及研究模型嵌入的语义信息量。
  • 目标:推动金融领域基于LLM的研究,降低金融市场预测的门槛,并促进社区广泛参与。


---

2. 逐节深度解读



2.1 引言(Introduction)(第0-1页)


  • 总结

- 金融市场预测极为复杂,市场变量和机制往往部分不可观测(POMDP问题),使模拟生成训练路径成为难题。
- 传统机器学习模型往往只能拟合历史数据,难以适应市场变化(分布漂移、协变量偏移)。
- 新闻头条作为极其浓缩的市场信息代理,虽抽象,但提供实际操作潜力。
  • 逻辑基础

- 金融市场动态复杂且部分隐蔽,预测可视为部分可观测马尔可夫决策过程(POMDP)问题,因此训练数据的真实性和多样性受限。
- 利用新闻文本提供对市场影响因素的间接“观察”帮助克服环境不可观测性,并为LLM引入结构化输入。
  • 数据集贡献点:开源一个经过系统采集、过滤、去重且适配现代LLM输入格式的金融新闻头条数据集,覆盖近十四年历史。

- 应用场景:金融市场走势预测及LLM微调,特别是对齐强化学习。

2.2 NIFTY数据集结构与方法论(第1-3页)


  • 数据来源与处理流程

- 采集多渠道公开新闻头条,利用主题模型筛选财务相关内容,执行去重和排名。过滤掉无关新闻(例如政治事件无金融影响的标题)。
- 依据LLM最大上下文长度,对入选头条数目动态调整,去除重要性低的词汇以满足最大长度限制。
  • 数据格式描述

- NIFTY-LM:监督微调样本,包含“提示(Prompt)”和“响应(Response)”,适用于自回归语言模型训练。
- NIFTY-RL:对齐训练样本,加入“选中结果”和“拒绝结果”,适配利用奖励模型进行训练。
  • 示例说明

- 图1展示了2020年2月6日全球新冠疫情爆发初期的新闻情绪分布,负面消息明显,表明数据切片与市场实际动态的关联。
- 图2解读提示的组成,包含市场历史价格和技术指标(OHLCV价格及均线、MACD、RSI等指标)。
  • 重点数据点

- 历史涵盖2010-2023年,但非完全连续,因交易日及新闻可用性限制。
- 价格变动定义基于5年期美国国债指数($5PY)的收盘价百分比变化。
- 过滤采用SBERT相似度模型以及tf-idf剪枝确保文本质量。

2.3 NIFTY-LM具体说明(第3-4页)


  • 数据结构更详细说明

- Prompt包含三部分:任务指令、市场历史数据(约10天)和精选新闻头条。
- Response为三分类股价走势标签(Rise, Fall, Neutral),依据价格变动是否超过±0.5%确定。
- 指令变体采用self-instruct框架,基于GPT-4生成20个变体以丰富指令多样性,增强模型泛化能力。
  • 数据过滤细节

- 新闻与财务主题的相似度阈值为0.2以下即过滤,保障财经相关性。
- 文本截断确保不超过3000词,适配Llama 2及以上模型上下文需求。
  • 标签定义与计算公式详见公式2和3,明确价格变动与标签间的映射关系。


2.4 NIFTY-RL数据集(第4页)


  • 目的:供LLM对齐强化学习任务使用,利用提示生成的选中和拒绝样本训练奖励模型。

- 数据结构
- Prompt同NIFTY-LM。
- 选中结果为准确标签,拒绝结果为随机不同错误标签,包括“飘降(Surrender)”特殊标签。
  • 对齐方法示意:基于RLHF的通用流程,先监督微调,再训练奖励模型,最终用PPO方法执行强化学习微调,并引入KL惩罚约束基线策略。


3. 使用与应用(第4-5页)


  • 主要应用领域

- 股票走势分类预测任务,利用NIFTY训练和测试LLM专家模型;
- LLM对齐强化学习,提升模型指令遵循能力;
- 通过分析不同规模模型的嵌入信息增益,研究模型大小与数据理解能力的关系;
- 财务市场的“状态转换(Regime Switching)”建模,结合POMDP理论抽象市场动态。
  • 问题形式化

- 以POMDP形式描述市场观察和动作(预测)过程,信念状态包含历史信息,符合经典理论文献。
  • 研究方向:推动LLM在金融非平稳环境下预测准确性和适应性的提升。


4. 实验(第5-6页)


  • 股票走势任务基线

- 应用Llama-2及Meta-Llama-3家族的多个LoRA微调适配器版本对NIFTY进行监督微调测试。
- 同时对比了三种公认的股票走势数据集CIKM、StockNet ACL、BigData22以验证数据集的多样性与挑战度。
  • 嵌入信息增益研究

- 采用t-SNE可视化和HDBSCAN聚类方法,展示不同规模模型在新闻嵌入空间中的聚类表现。
- 定量体现为信息增益指标随模型参数规模上升而显著提高(见图3),多模型架构均呈类似趋势。
- 结论支持“模型越大,产生嵌入的语义丰富度越高”,对财务语义理解至关重要。

---

3. 图表深度解读



图1(第2页):2020-02-06新闻情绪快照


  • 描述:显示该日财经新闻的文本情绪,负面占主导(红色为负面,绿色为正面)。

- 趋势:疫情突发冲击市场情绪,负面预期明显。
  • 文本关联系:支持输入新闻反映实际市场信号,强化模型对新闻数据的信任度。


图2(第2页):Prompt 结构详解


  • 描述:划分为任务指令、市场历史数据(价格加技术指标)和新闻几个部分。

- 数据点说明:包含OHLC(开高低收价格)及多种常用技术指标(MACD、布林带、RSI、均线)。
  • 支持论点:多维度金融时间序列数据与新闻联合,便于模型捕捉复杂市场动态。


表1-3(第1-3页,未图示)


  • 推断:集中展示数据规模、日期范围、字段说明,确保数据坚实的统计基础和字段透明。


图3(第6页):模型大小对新闻嵌入聚类效果的影响


  • 描述:3组GPT2大小模型利用t-SNE和HDBSCAN聚类的2D嵌入。

- 趋势
- 嵌入向量空间内,较大模型在同一地理标签新闻聚类更明显,离群点较少。
- 信息增益(图右)随着模型参数数目增加而显著提升,说明大模型语义区分能力增强。
  • 文本关联:验证了NIFTY提供的语义丰富数据能利用大模型优势体现,进一步支持模型大小与财务预测准确性的关联。


图4、5、6(第13-18页,嵌入信息增益及聚类可视化)


  • 图4:解释了IG-CluPE方法流程,从LLM最后隐层输出生成嵌入,通过信息增益衡量聚类纯度和表达力,提升了对模型内部表征的理解。

- 图5:三任务(Market Movement, Location, Genre)中,随着参数规模增长,信息增益和方差减少趋势清晰,验证了大模型嵌入能力。
  • 图6:详细展示不同规模模型在三任务的聚类效果,较大模型展现更密集且纯净的类簇,增强判别能力。


---

4. 估值分析


  • 报告不涉及企业或资产的传统估值分析,无现金流、利润、EV/EBITDA等财务指标估值。

- 关注点主要技术层面,即大语言模型微调及对齐策略对金融预测精度的提升。

---

5. 风险因素评估


  • 数据风险:新闻数据质量直接影响模型性能,新闻过滤严格,但仍可能会有噪声或遗漏关键信息。

- 市场非平稳风险:市场状态剧烈变化可能导致过去的模型表现不再适用,POMDP和再训练机制仍在探索中。
  • 模型规模与资源风险:大规模模型虽性能优越,但计算资源消耗大,部署门槛高,可能限制普适应用。

- 对齐方法风险:强化学习微调基于人工反馈,其质量和偏差对模型结果有较大影响,潜在风险包括“模式坍缩”或偏离基准策略。
  • 报告识别风险,但未明显提出具体缓解策略,更多偏向技术科研方向的风险意识。


---

6. 批判性视角与细微差别


  • 数据集覆盖限制:仅覆盖2010-2023年且不连续交易日,部分重要市场事件可能缺失,对应建模存在限制。

- 标签阈值设定:±0.5%的阈值虽合理但略显主观,可能对某些市场低波动期适用性不佳。
  • 新闻过滤机制:依赖SBERT和TF-IDF相似度阈值,可能漏掉部分非典型财经新闻或引入偏差。

- 模型规模偏好:报告强调“大即为优”,但未充分讨论计算效率/性能权衡,或小型模型在特定细分任务中的潜力。
  • 强化学习环节技术细节缺乏:如奖励模型训练细节、PPO参数选择等方面未详细公开,限制复现和深入理解。

- 对比分析有限:指标主要依赖聚类信息增益,而非传统精度/召回/F1,未来可补充更多多维度评估体系。

---

7. 结论性综合



本报告详细介绍并公开了NIFTY金融新闻头条数据集,涵盖近十四年的高质量金融新闻及配套市场数据,是迄今覆盖最广、质量最优的金融文本预测数据集之一。数据集基于精细过滤和去重流程,适配现代大语言模型的上下文输入需求,分为两个版本:
  • NIFTY-LM:用于监督微调,提供完整的Prompt-Response样本,支持基于语言模型的股价走势分类。

- NIFTY-RL:可供基于人类反馈强化学习对齐训练,包含“选中”和“拒绝”标签集,便于奖励模型训练与策略优化。

通过实验证明,NIFTY数据集不仅适合传统的价格趋势预测任务,也使得评估嵌入语义浓度、理解不同模型架构和大小的重要性成为可能。具体地,较大型的GPT2、BERT、T5模型获得了显著更高的信息增益和聚类纯度,说明大模型能更好地捕捉和区分金融新闻在市场走势、地理区域和新闻类别方面的语义信息(详见图3、图5、图6)。这为金融领域基于LLM的预测模型设计优化提供了有力依据。

总的来看,作者团队借由详实数据管线与科学实证,提出了一套系统的金融新闻数据与大语言模型结合框架,促进金融市场预测领域的研究进步。该工作不仅提供了基础数据,还为未来细粒度金融预测和模型对齐技术的探索搭建了坚实平台。最终,报告推荐基于NIFTY数据集及大规模高质量嵌入的语言模型,是未来金融市场预测及相关NLP任务的优选方案。

---

参考



本分析报告中的内容皆引用自NIFTY数据集论文及附录,页码标注详见文中[page::<页码>]。所有图表依据文中形式重新整理说明。

报告