`

Ploutos: Towards interpretable stock movement prediction with financial large language model

创建于 更新于

摘要

本报告提出了Ploutos,一个结合多模态专家信息(包括技术分析、情感分析和人类专家)的大型金融语言模型框架,实现了股票涨跌趋势的准确预测及其决策逻辑的可解释性。通过创新性的后视镜提示和动态token权重训练机制,Ploutos显著优于传统模型和其他LLM方法,在准确率和理性可解释性评估中均表现卓越,为金融量化投资提供新的思路和工具 [page::0][page::1][page::2][page::4][page::5][page::6][page::7].

速读内容

  • Ploutos模型框架设计 [page::0][page::2]:


- 包含多个策略专家:技术分析专家(基于多种alpha因子做时间序列特征提取)、情感分析专家(综合处理新闻和推文情绪)、人类专家(基础面和宏观经济视角)。
- PloutosGPT将各专家见解融合并生成多视角、多策略的解释性涨跌预测理由。
  • 量化因子构建与提示设计 [page::2][page::3]:

- 技术专家用N2I-Align技术将多特征时间序列对齐为文本,提示LLM进行下一个token预测,促进对复杂alpha指标的理解和利用。
- 情感专家采用监督与无监督混合训练,使用金融领域多种情感数据集,结合LLaMA-2微调,生成基于历史舆情的情绪分数,映射至股票涨跌运动。
- 人类专家提供宏观和基本面领域的专业见解,增强框架的实际适用性。
  • PloutosGPT模型训练创新 [page::1][page::4]:


- 后视镜提示策略:利用GPT-4生成过去事件发生后对应的涨跌理由作为监督数据,保证合理性和可信度。
- 动态token权重机制:根据词嵌入相似度动态调整关键tokens权重,提高预测准确率及解释文本的质量。
  • 预测性能对比 [page::5]:

| 模型 | ACL18准确率 (%) | ACL18 MCC | CIKM18准确率 (%) | CIKM18 MCC |
|------------|-----------------|-----------|------------------|------------|
| ARIMA | 51.42 | -0.021 | 52.36 | -0.012 |
| Adv-LSTM | 57.24 | 0.148 | 56.48 | 0.016 |
| StockNet | 58.23 | 0.081 | 56.37 | 0.023 |
| DTML | 57.44 | 0.191 | 58.62 | 0.045 |
| GPT-4 | 53.08 | 0.023 | 57.44 | 0.034 |
| LLaMA-2-7B | 52.74 | 0.051 | 56.92 | 0.027 |
| FinMA-7B | 56.28 | 0.104 | 53.24 | -0.031 |
| Ploutos-7B | 61.21 | 0.205 | 59.89 | 0.064 |

- Ploutos显著超越传统深度学习模型和其他LLM基线,验证了该框架结合多模态专家知识及训练策略的有效性。
  • 组件贡献与消融实验 [page::6]:

| 模型 | 准确率 | MCC | F1 |
|------------|--------|-------|------|
| Ploutos-S(无情感专家) | 59.62 | 0.189 | 0.598|
| Ploutos-T(无技术专家) | 58.11 | 0.153 | 0.537|
| Ploutos-R(无后视镜与动态权重) | 60.41 | 0.191 | 0.604|
| Ploutos | 61.21 | 0.205 | 0.612|

- 证明情感、技术、后视镜动态权重等模块均对模型性能起关键作用。
  • 解释性评估与动态权重温度影响 [page::6][page::7]:

| 模型 | Faithfulness (%) | Informativeness (%) |
|--------|------------------|---------------------|
| FinMA | 59.53 | 61.32 |
| FinGPT | 72.82 | 84.76 |
| GPT-3 | 77.63 | 91.58 |
| Ploutos| 81.24 | 96.52 |



- 动态token权重温度调节表现出Faithfulness和准确率的协同提升,最佳温度为0.5,平衡了关键解释tokens和预测准确性。
  • 量化因子构建总结 [page::2][page::10]:

- 使用多种alpha因子指标,如移动平均线MV7、MV20,MACD,EMA,Bollinger带及成交量均线等,结合数值和文本说明形成时间序列特征。
- 通过Number-to-Text Alignment技术转化为文本序列,方便LLM建模。
  • 训练数据构建与提示设计 [page::12][page::13]:

- Rearview-mirror提示通过引导LLM生成基于历史数据的多视角牛熊理由,为模型提供可信监督信号。
- 结合多专家输入和价格涨跌标签,构成训练样本,用于下游模型微调。

深度阅读

Ploutos: Towards interpretable stock movement prediction with financial large language model - 详尽分析报告



---

一、元数据与概览 (引言与报告概览)


  • 报告标题:Ploutos: Towards interpretable stock movement prediction with financial large language model

- 作者及机构:Hanshuang Tong, Jun Li, Ning Wu, Ming Gong∗, Dongmei Zhang, Qi Zhang,微软,北京,中国
  • 发布日期:暂未标明具体发布日期,基于引用和技术背景推断为2023年后期

- 研究主题:基于大语言模型(LLM)的股票价格涨跌(股票走势)预测,强调模型的可解释性多模态融合能力,即结合文本信息(新闻、推文)和时间序列数值特征(价格、交易量)实现股票走势的精准预测。

核心论点
该报告提出了一套名为Ploutos的创新金融大语言模型框架,包括两个主要模块PloutosGen和PloutosGPT,旨在解决当前深度学习和LLM股票预测方法中多模态数据灵活融合不足,以及模型缺乏决策可解释性的问题。Ploutos通过多专家系统(技术分析、情绪分析、人类专家)进行多角度分析,再通过PloutosGPT整合专家观点并输出带有详尽决策逻辑的解释性推理,最终实现了在准确性和解释性方面超越现有方法的效果。

评级与目标价
文中无具体投资评级或目标价格,但强调Ploutos在二分类(涨/跌)预测任务中的性能优越性,突出其作为辅助决策工具的作用。

---

二、逐节深度解读



2.1 摘要


  • 关键点

- 当下LLMs在金融领域潜能巨大但未被充分挖掘。
- 传统深度学习模型难以灵活融合文本和数值信息且解释性差。
- Ploutos创新点在于集合多专家(文本及数值解析)来处理多模态数据,并以特有的训练策略(rearview-mirror prompting和动态token加权)提升决策生成的解释性及准确性。
- 实验证明Ploutos在预测准确率和解释性均优于现有技术。
  • 推理依据

- 深度学习方法(LSTM、Transformer等)缺乏对混合数据的灵活融合。
- LLM虽然具备强大的语言理解能力,但对股市专业数据处理不足,且较难生成高质量解释。
- 通过设计“多专家管道”,分工明确,每个专家专注于不同模态和角度,实现优势互补。
- “rearview-mirror prompting”策略借鉴经济学家巴菲特观点,先回顾过去走势解释,再用于监督finetune。
- 动态token加权确保模型对核心解释性词汇关注度提升,增强解释质量。

2.2 介绍与问题定义(Intro & Problem Formulation)


  • 股票走势预测定位为二分类问题,判断目标日相较前一交易日的调整收盘价涨跌:


$$
Y{d}=\left\{
\begin{array}{ll}
0 & p
{d}^c < p{d-1}^c \text{(下跌)} \\
1 & p
{d}^c \geq p{d-1}^c \text{(上涨)}
\end{array}
\right.
$$
  • 数据输入包括

- 历史股价序列(数值时间序列)
- 新闻、推文等文本情绪信息
  • 当前方法不足

- 传统模型黑盒、缺乏多策略灵活适配能力。
- 纯LLM方法未能完全融合且解释能力不足。

2.3 Ploutos架构设计(Methodology)



2.3.1 PloutosGen多专家管道


  • 三类专家系统

1. 技术专家(Technical Expert):利用多种Alpha因子(时间序列指标如移动平均、MACD等),将数值时间序列作为下一令牌预测任务输入,基于LLaMA-2模型,通过Number-to-Text Alignment (N2I-Align)关系描述数值指标与解释文本,增加模型可解释性。
2. 情绪专家(Sentiment Expert):基于多财务情绪数据集(FIQA-SA、NWGI、BTSA、TNFS等)训练,评估文本情感对股价趋势的影响,基于非监督、监督或联合训练方式,由LLaMA-2微调实现。
3. 人类专家(Human Expert):模拟经验丰富的人类分析师视角,整合宏观经济、基本面分析等非结构化信息,作为可选增强模块。
  • 多模态融合策略:通过上述专家各自产生判断、见解,再由PloutosGPT综合,适应不同股票场景下各专家效果的差异,实现灵活权衡。


2.3.2 PloutosGPT训练机制


  • rearview-mirror prompting(后视镜提示)

- 模仿巴菲特“后视镜总比挡风玻璃清晰”理念,利用已知股价涨跌作为“地面真实”,用GPT-4生成可信的涨跌理由(bullish/bearish rationales)。
- 生成内容包含对不同专家观点的加权,形成高质量监督数据集。
  • 动态token权重机制

- 对训练时生成的各token赋予权重,重要token权重更高,优先学习其正确生成。
- 权重计算方式为基于token隐藏层表示与标签对应的“type embedding”余弦相似度,通过温度参数调整权重集中度。

损失函数为:

$$
\mathcal{L}=\sum
{i}-\alpha{i}\log p(y{i}|\boldsymbol{x},y{1\ldots i})
$$

其中,

$$
\alpha
{i}=\frac{\exp(\cos(t{Y{d}},h{i})/\tau)}{\sum{j=1}^{m}\exp(\cos(t{Y{d}},h_{j})/\tau)}
$$
  • 目的:平衡模型生成解释性推理的准确性和关键内容的可解释能力。


---

三、图表深度解读



图1:传统方法与Ploutos方法对比示意图(第1页)


  • 描述

- 左侧为传统方法:直接将多模态数据输入单一模型,输出涨跌预测,无解释理由。
- 右侧Ploutos方法:多专家分别处理多模态数据,观点汇聚至PloutosGPT,输出清晰的看涨与看跌理由,并给出可解释的决策。
  • 解读

- 明确阐述Ploutos优于传统方法的两大优势:可解释决策流程、多样化策略融合。
- 体现Ploutos通过多策略融合及自然语言生成,强化用户信任度和实用性。

图2:Ploutos框架详细流程(第2页)


  • 描述

- 左侧为专家池输入,包括情绪分析专家、技术分析专家和基础分析专家的预测输入(如新闻内容、股票因子数据),针对特定股票进行独立分析。
- 右侧为PloutosGPT整合步骤,生成专门的多种看涨和看跌理由,并依据专家观点以及市场状况给出最终预测及涨跌幅度估计。
  • 解读

- 清晰展现多专家数据如何产生多元视角,及PloutosGPT如何进行推理与决策。
- 突出截图中不同专家观点之间的相互补充及融合重要性。

图3:PloutosGPT训练示意(第4页)


  • 描述

- 通过rearview-mirror prompting得到含多专家看涨/看跌输入的训练数据。
- 然后利用动态token加权对生成的理据和标签联合训练PloutosGPT。
  • 解读

- 训练数据通过FGPT-4生成,保证理据真实性与多样性。
- 动态token加权机制确保模型关注更关键解释信息,提高生成理据的质量和准确率。

图4:动态token加权中的温度参数对ACC与解释性指标的影响(第7页)


  • 描述

- 横坐标为温度参数,纵轴左侧为准确率(ACC),右侧为Faithfulness(事实相符度)。
- 结果显示温度0.5时,准确率和解释性达到双峰,提示最佳平衡点。
  • 解读

- 低温度时模型过度关注预测准确,反而降低理据质量、解释可信度。
- 高温度时对关键tokens关注不足,准确率下降。
- 该曲线凸显了动态token权重调节机制及温度调节的重要性。

表3:主流方法与Ploutos比较(第5页)



| 模型 | ACL18准确率 | ACL18 MCC | CIKM18准确率 | CIKM18 MCC |
|------------|-------------|-----------|--------------|------------|
| ARIMA | 51.42% | -0.021 | 52.36% | -0.012 |
| Adv-LSTM | 57.24% | 0.148 | 56.48% | 0.016 |
| StockNet | 58.23% | 0.081 | 56.37% | 0.023 |
| DTML | 57.44% | 0.191 | 58.62% | 0.045 |
| GPT-4 | 53.08% | 0.023 | 57.44% | 0.034 |
| LLaMA-2-7B | 52.74% | 0.051 | 56.92% | 0.027 |
| FinMA-7B | 56.28% | 0.104 | 53.24% | -0.031 |
| Ploutos-7B | 61.21% | 0.205 | 59.89% | 0.064 |
  • 明显提升准确度和MCC(平衡准确率指标)验证其在不同数据集上均表现优秀。


表4:Ploutos不同版本消融实验(第6页)



| 模型 | 准确率 | MCC | F1 |
|---------------|---------|-------|-------|
| Ploutos-s(无情绪) | 59.62% | 0.189 | 0.598 |
| Ploutos-t(无技术) | 58.11% | 0.153 | 0.537 |
| Ploutos-R(无rearview及权重机制) | 60.41% | 0.191 | 0.604 |
| 全Ploutos | 61.21% | 0.205 | 0.612 |
  • 结果体现各组成模块均作出贡献,完整体系性能最佳。


表5:模型解释性评价(Faithfulness与Informativeness)



| 模型 | 规模 | Faithfulness | Informativeness |
|----------|------|--------------|-----------------|
| FinMA | 7B | 59.53 | 61.32 |
| FinGPT | 7B | 72.82 | 84.76 |
| GPT-3 | 175B | 77.63 | 91.58 |
| Ploutos| 7B | 81.24 | 96.52 |
  • Ploutos在7B规模模型中显示绝对领先的解释质量指标,核心贡献在于训练数据的策略设计及动态权重机制。


---

四、估值分析



本研究并未开展传统意义上基于DCF、市盈率或EV/EBITDA的公司价值估值分析,重点在于模型设计和性能评估,因此不涉及价格估值过程。

但Ploutos内核通过:
  • 结合多角度Alpha指标、技术指标及情绪情报

- 以LLM形式执行市场脉络结合分析和推理

间接反映投资决策价值提升,提高决策辅助系统潜力。

---

五、风险因素评估



报告在限制部分提及潜在挑战:
  • 专家系统选择风险:不同专家的选取与表现极大影响预测效果,若专家存在偏差则可能放大预测误差。

- 计算资源消耗高:多专家集成与大型模型微调导致较高计算成本,影响上线部署效率。
  • 数据类型局限:当前模型聚焦文本与数值,未来若能融入视觉数据(例如卫星图像、其他非结构数据)可能进一步提升性能。


未详述具体风险缓释策略,提示后续研究需关注效率优化及专家选择优化。

---

六、批判性视角与细微差别


  • 优势判断合理

- Ploutos明确克服了传统模型难以解释和融合多模态数据的局限。
- 创新训练机制使得模型不仅预判涨跌,还能生成有意义、可信的解释文本。
  • 可能存在局限

- “后视镜”训练策略依赖历史涨跌事实,可能导致模型在真正的市场突发事件前预测能力有限(未来不可逆因果预测仍具挑战)。
- 动态token权重依赖于正确识别关键词,若文本多样性极大时权重调整可能不稳定。
- 人类专家模块未具体实现,依赖人工输入,限制了模型纯自动化应用。
- 训练及测试数据均基于历史及公开数据集,现实市场中数据多样性更强,需验证泛化能力。
  • 内部一致性

- 报告结构严谨,理论与实验对应紧密,说明研究设计及结果验证较为充分。

---

七、结论性综合



Ploutos作为一个结合了多策略、多模态数据分析能力及先进大语言模型训练方法的金融预测框架,展现了以下关键优势和发现:
  • 多专家协同提升理解多模态信息能力

技术分析专家用Alpha因子精细刻画时间序列特征,情绪专家深入挖掘文本情感影响,人类专家侧重宏观经济和基本面智慧,三者共同保障模型对股票多维信息的覆盖广度和深度。
  • 创新训练方法提升解释性和精度

通过rearview-mirror prompting利用已知历史真实结果指导理据生成,结合动态token权重提高模型对关键解释理由词的敏感性,避免模型出现无关或泛泛而谈的模糊解释。
  • 显著优于现有主流模型性能

在两个经典股票涨跌预测公开数据集上,Ploutos准确率分别达61.21%和59.89%,显著高于ARIMA、Adv-LSTM、GPT-4及FinMA等对比模型,并且以0.205和0.064的MCC指标表现出更强鲁棒性。
  • 提升模型可解释性

在Faithfulness和Informativeness两大指标上,Ploutos均得分最高,说明生成的涨跌理据不仅符合事实也内容详实,利于增强投资者和分析师信任。
  • 动态调整令模型表现更为均衡

动态token权重中的温度调节实现了预测准确性和解释性之间的最佳平衡,体现了预测准确和良好解释能力并非对立,而是相辅相成。
  • 未来潜力与改进方向

报告指出诸如专家选取偏差、计算效率与数据类型局限等短板,为进一步研究及实际应用提供参考。

整体而言,Ploutos通过打破传统深度学习模型对多模态股票数据解释性弱的问题,依托最先进的大语言模型训练策略,成功推动了金融领域股票走势理解与预测的范式升级。其提出的多专家融合和rearview-mirror提示策略代表了股市预测任务中结合AI解释性和性能的有效路径,具备较高的学术和应用价值。

---

综述图表



-

-

---

[page::0,1,2,3,4,5,6,7]

报告