Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism
创建于 更新于
摘要
本报告提出了MSGCA框架,通过融合股价指标序列、情绪新闻文本和行业关系图三种异质模态,采用门控交叉注意力机制实现稳定的多模态融合,有效处理数据稀疏与语义冲突问题,实现精细化的股票涨、跌、平趋势预测。实验证明,MSGCA在四个多模态数据集上的预测性能较现有方法最高提升31.6%,显著增强了多模态融合的稳定性与准确率 [page::0][page::1][page::2][page::4][page::6][page::9][page::11]
速读内容
- 核心框架与创新点 [page::0][page::1][page::2][page::4]:
- MSGCA设计了三模块架构:异构模态编码(价格指标序列、动态文本文档和关系图),基于门控交叉注意力机制的稳定多模态融合,及细粒度涨跌平趋势预测。
- 利用多层感知机(MLP)、预训练大语言模型(LLM)、图注意力网络(GAT)分别编码三种不同模态数据,统一为相同维度表示。
- 门控交叉注意力融合设计,主模态(指标序列)引导融合过程,有效剔除噪声,实现模态间深度交互与稳定性提升。
- 多模态编码细节 [page::4][page::5][page::6]:
- 指标序列编码:将收盘价、开盘价及最高价经线性层映射并拼接后作为特征输入。
- 动态文本编码:调用OpenAI预训练的text-embedding-ada-002模型提取文本嵌入,缺失时间步填充零向量确保时间对齐。
- 关系图编码:采用图注意力网络,通过股价指标初始化节点特征,捕获股间行业关联动态。

- 门控交叉注意力融合方法 [page::5][page::6]:
- 设计两阶段 gated cross-attention 模块,第一阶段以指标序列为查询,文本为键值,实现指标与文本的深度融合并通过门控机制过滤噪声。
- 第二阶段继承第一阶段稳定融合特征,融合行业关系图信息,同样应用门控过滤,得到最终稳定多模态特征。
- 门控通过sigmoid函数控制信息流,避免语义冲突和数据稀疏带来的不稳定问题。
- 细粒度股票趋势预测模块 [page::6]:
- 两层MLP网络压缩时间和特征维度,映射融合特征至三分类概率(上涨、平稳、下跌)。
- 采用多类交叉熵损失函数优化训练过程。
- 大规模实验设计及结果 [page::7][page::8][page::9][page::10][page::11]:
- 选用4个多模态股票数据集,包含美国高交易量股票及中国科技创新板,数据涵盖股票价格、新闻/推文文本及行业关联图构造。
| 数据集 | 股票数量 | 文档数量(新闻/推文) | 行业图边数 | 时间范围 |
|------------|---------|------------------|-----------|----------------|
| InnoStock | 新科技股 | 新闻文档 | 各行业关联 | 近期 |
| BigData22 | 高交易量 | 推文 | 相关边 | 公开数据集 |
| ACL18 | 高交易量 | 推文 | 相关边 | 公开数据集 |
| CIKM18 | 高交易量 | 推文 | 相关边 | 公开数据集 |
- 性能对比结果 [page::8]:

- MSGCA在所有数据集的ACC和MCC指标均优于六类基线(单一指标、指标+文档和指标+图模型),MCC提升最高达31.6%。
- 传统简单融合方法(如GLU、普通交叉注意力)在数据噪声和多模态不一致性中表现不佳。
- 模态贡献与消融结果 [page::9][page::10]:
- 指标序列为主导模态,移除其影响预测表现骤降。
- 动态文档和行业图均能不同程度提升预测准确度,证明多模态融合优势。

- 稳定融合效果验证 [page::10]:
- PCA降维后融合特征与价格曲线对比显示,未加门控的融合易波动,门控交叉注意力融合显著平滑,提升特征稳定性。
- 超参数及效率分析 [page::10][page::11]:
- 维度大小64,窗口长度20,学习率1e-4为最佳组合。
- 训练速度和显存占用低于主流基线,具备更优的成本效益。

- 量化策略或因子构建相关内容:
- 本报告集中在多模态深度学习融合架构设计、特征编码及预测模块设计,未构建具体交易量化因子或典型量化策略,但门控交叉注意力机制和多模态融合模块本质上相当于一种高级的特征因子融合方法,有效提升预测稳定性与准确度 [page::5][page::6][page::10]。
深度阅读
深度解析报告:《Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism》
---
一、元数据与概览
报告标题: Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism
作者: Chang Zong 和 Hang Zhou
机构: 浙江科技学院信息与电子工程学院(Chang Zong);诺丁汉大学商学院金融会计与经济系(Hang Zhou)
研究领域: 金融机器学习,股票价格趋势预测,多模态数据融合,深度学习
核心主题: 提出MSGCA框架,解决使用多模态信息(股价指标、动态文档、行业关系图)进行细粒度(涨、平、跌)股票趋势预测时的数据稀疏、语义冲突和融合不稳定问题。
摘要内容简述:
当前股价预测中,多数模型仅处理单一或双模态输入,忽略了模态间复杂的稀疏性和语义冲突,导致模型性能不稳定和应用受限。本文提出了新型 MSGCA 框架,采用三个阶段:(1)多模态编码模块分别编码股价指标、文本动态文档和行业关系图;(2)基于门控跨注意力机制的稳定多模态融合模块,分两步将三种模态依次融合,克服噪声影响;(3)运动预测模块通过时间及特征维度降维,实现细粒度三标签预测。实验证明MSGCA在四个多模态股票数据集上相较当前领先方法,分别提升8.1%、6.1%、21.7%、31.6%精度,显著增强融合稳定性。[page::0,1]
---
二、逐节深度解读
1. 引言(Introduction)
- 挑战背景:
- 股票预测涉及金融指标、文本资讯、关联关系结构等多种模态信息,传统方法往往仅聚焦单模态或双模态,模型融合简单且未充分处理模态间差异及冲突,难以准确预测。
- 现有多模态方法局限于二分类(涨跌),忽视细粒度的“平”态趋势,这在实际交易中具重大意义。
- 存在问题:
- Challenge 1: 过于简化的多模态融合(只用一两种模态,采用简单拼接或注意力机制),忽略了模态间的自适应区分,融合不充分。
- Challenge 2: 多源数据存在稀疏(缺失)和语义冲突(新闻内容与价格走势不一致)问题,传统方法处理不足,影响预测准确性。
- 现状与创新点:
- 以往研究未实现细粒度多模态融合预测。
- 本文回答问题:是否能以更稳定高效的融合策略结合多模态数据,实现细粒度股价趋势预测?
通过设计基于门控跨注意力的MSGCA模型,依次融合三模态信息,有效缓释噪声和冲突问题,实现精细预测。
- 结构安排:包括相关工作综述、任务定义、方法设计、实验及分析、结论与未来工作。[page::0,1]
---
2. 相关工作(Related Work)
- 股票趋势预测综述:
- 传统方法依赖单模态统计或简单深度学习算法,如LSTM、CNN、SVM等。
- 新兴方法尝试引入更多信息源(新闻、推文、市场关联)及更复杂结构(图神经网络、注意力机制、大型语言模型LLM)提高表现。
- 然而多数研究限制为涨跌二分类,缺乏对“平”态的考虑。
- 多模态融合研究现状:
- 早期融合方法多为特征向量拼接,缺乏对噪声生成及模态差异的刻画。
- 进阶方法采用注意力、协同注意力机制,但往往忽略模态的个性贡献及计算效率问题。
- MSGCA提出以门控跨注意力进行融合,强调以主模态引导融合过程,避免冗余和噪声干扰,提高融合稳定性。
- 注意力相关机制:
- 跨注意力机制可有效聚合多序列信息,门控机制(如GLU)解决梯度消失及提高计算效率。
- MSGCA创新结合跨注意力与门控,区别主模态与辅助模态,设计了两阶段融合模块,提升效率及性能。[page::2,3]
---
3. 任务定义与符号说明
- 多模态输入定义:
- 指标序列 \(\mathcal{T} = \{i1, ..., it\}\)(价格等数值信息,有时间戳)
- 动态文本文档 \(\mathcal{D} = \{d1, ..., dt\}\),\(dt\)为在时间戳t发布的推文或新闻篇章集合
- 行业关系图 \(\mathcal{G} = \{\mathcal{E}, \mathcal{R}, \mathcal{U}\}\),\(\mathcal{E}\)为实体,\(\mathcal{R}\)关系,\(\mathcal{U}\)三元组集合,图为静态
- 目标:根据过去1至t时刻的多模态信息,预测股票在t+1时刻的涨(up)、平(flat)、跌(down)概率分布。
- 融合过程:
\[
\mathbf{x} = \nui \circ \nud \circ \nug
\]
其中\(\nui, \nud, \nug\)是三个模态经过编码器得到的特征,融合函数\(\circ\)由门控跨注意力机制实现。
- 预测函数:
\[
Pr(y \in L | \mathbf{x}) = f(\mathbf{x}), \quad L = \{up, flat, down\}
\]
以融合特征\(\mathbf{x}\)为输入,得到三分类概率向量。[page::3]
---
4. MSGCA框架设计与细节
4.1 框架概览(图2)
- 三阶段结构:
1)多模态编码器:
- 指标序列编码用多层感知机(MLP)做线性映射合并多类指标(收盘价、开盘价、最高价),映射到统一维度。
- 动态文本利用预训练大语言模型(OpenAI的text-embedding-ada-002),输出1536维向量后线性降维。缺失日期补零保持时间序列一致。
- 行业关系图用图注意力网络(GAT)编码,通过多头注意力机制将邻居节点信息聚合,并通过初始化节点特征为指标向量实现时间轴对齐。
2)门控跨注意力融合模块:
- 先用指标序列作为query,文本作为key和value,多头跨注意力融合得到不稳定特征。
- 用门控机制引导,利用指标序列特征筛选有效信息,获得稳定融合特征。
- 类似步骤再融合图特征,用上一阶段融合后的稳定特征引导第二次跨注意力融合,实现三模态融合。
3)运动预测模块:
- 使用两级MLP先后降维时间和特征维度。
- 输入是融合特征与原始指标编码特征拼接。
- 输出三个趋势类别概率向量。
- 使用多类别交叉熵作为损失函数。
4.2 编码器具体公式
- 指标编码(式1):三类指标向量分别线性映射为\(\mathbf{v}
- 动态文档编码(式5-6):通过LLM \(\mathcal{T}(\cdot)\)得到高维表示 \(\mathbf{v}
- 关系图编码(式7-9):采用GAT多头注意力机制计算每时间戳的节点嵌入 \(\mathbf{v}
4.3 门控跨注意力融合具体公式
- 融合指标与文档时,指标作为query,文档作为key/value进行多头跨注意力得到中间融合特征(式10);
- 使用门控机制(式12-14)对不稳定特征与主模态特征进行元素级乘积,筛选稳定特征;
- 同理,将该稳定特征作为query,图特征作为key/value,进行第二阶段融合(式15-16),再使用门控操作输出最终三模态稳定特征(式17-19)。
4.4 运动预测模块
- 时间维度降维(式20-22):将融合及指标特征分别通过MLP
- 特征维度降维(式23):二次MLP_f将融合特征映射为三分类概率向量;
- 损失函数(式24):标准多类交叉熵。
4.5 训练流程
- 见算法1,依次计算三模态编码特征,融合,降维预测,损失计算并优化参数,采用Adam优化器及warmup策略训练。[page::3-6,7]
---
5. 实验设计与结果解读
5.1 数据集与评估指标
- 四个数据集:
- 公共数据集:BigData22、ACL18、CIKM18(主要为美国高交易量股票,包含推文文本)。
- 新收集数据集InnoStock(中国科创板新兴科技股票,包含新闻报道文本)。
- 每个数据集包括股票数、文档数、行业图边数、时间范围等信息详见表III。
- 标签定义根据相邻交易日调整后收盘价涨跌幅,划分为up、flat、down三类,阈值略有调整以保证平衡。
- 评价指标:
- 准确率(ACC):分类准确率常用指标。
- Matthews相关系数(MCC):综合考虑TP、TN、FP、FN,更公平评价多分类性能。
5.2 性能对比(RQ1,表IV)
- MSGCA在所有数据集上均实现最优表现,尤其在MCC指标上领先第二名明显提升,分别为8.1%、6.1%、21.7%、31.6%。
- 前沿竞品如SLOT和DTML表现较好,但均受多模态融合稳定性影响。
- 不同数据集对模态贡献不同:
- 文本模态在ACL18和InnoStock作用更明显。
- 行业关系图模态在BigData22影响更大。
- 一般简单融合导致多模态引入反而降低性能,MSGCA通过稳定融合有效缓解噪声问题。
5.3 消融实验(RQ2,图3-5)
- 融合方法替换:
- 仅用门控线性单元(GLU)融合表现欠佳,因不足以有效捕获跨模态交互。
- 纯跨注意力融合虽能聚合信息但受噪声影响性能下降。
- MSGCA的门控跨注意力有效结合两者优势,稳定提升。
- 语言模型比较:
- Word2Vec < BERT < OpenAI Ada大语言模型,性能与模型规模与能力成正比,MSGCA采用Ada表现最佳。
- 图编码对比:
- 随机游走 < GCN < GAT,GAT具备邻居重要性加权能力,表现最佳。
5.4 模态影响分析(RQ3,表V)
- 三种模式变化对结果影响显著,指标模态为核心关键模态。
- 去除图(MSGCA-ID)或去除文档(MSGCA-IG)仍优于大部分基线,体现模型融合优势。
- 去除指标模态(MSGCA-DG)后性能大幅下降,指标模态不可替代,但文本和图模态对进一步提升效果明显。
5.5 稳定融合验证(RQ4,图6)
- 以InnoStock一只代表性股票为例,用PCA降维展示融合特征随时间的演变。
- 未引导融合的跨注意力特征(黄色线)波动大,与股价趋势偏离。
- MSGCA门控跨注意力融合特征(绿色线)基本平滑且接近股价曲线,证明模型有效缓冲了多模态数据稀疏及语义冲突带来的不稳定性。
5.6 超参数影响(RQ5,图7-9)
- 隐藏维度大小:
- 增大维度提升模型能力,过大(128)则出现过拟合,64为最佳平衡点。
- 时间窗口大小:
- 窗口太小(10)导致信息不足,window=20为合理选择。
- 增大窗口缺乏有效训练样本,性能不再提升。
- 学习率:
- 过低(5e-5)训练缓慢,过高(1e-3或5e-4)导致训练不收敛,1e-4稳定且效果最佳。
5.7 计算效率分析(RQ6,图10)
- MSGCA在InnoStock实验中,展现出较优的训练速度和显存占用。
- 与多种基线(LSTM、ALSTM、ESTIMATE、DTML、SLOT)比较,MSGCA实现更高MCC,且训练更快、内存更省,显示架构效率与性能的良好平衡。
---
三、图表深度解读
图1(页1)
- 展示中国科创板多模态数据的稀疏及语义冲突实例。
- 时间线标示价格指标和对应新闻文本,红色区域体现新闻情绪与价格走势反向,突出多模态数据的矛盾性。
- 该图强调传统融合方式忽视该矛盾可能导致模型性能下降。
图2(页4)
- MSGCA框架示意图,结构清晰展示三模态编码器,门控跨注意力融合模块和预测模块的工作流程。
- 不同编码器用不同感受核处理对应模态,融合中的两个跨注意力块反馈控制噪声。
- 预测模块通过时间与特征降维生成三分类概率。
- 实现端到端训练,整体框架直观,便于理解。
图3(页8)
- 比较三种融合策略在四数据集上的MCC和ACC表现。
- MSGCA门控跨注意力显著优于纯GLU和纯跨注意力。
- 说明融合策略有效缓解噪声和提升交互信息利用。
图4(页9)
- 语言编码模型对性能影响展示。
- MSGCA采用的OpenAI Ada显著优于Word2Vec和BERT,验证大型语言模型在动态文本编码中优势。
图5(页9)
- 图编码模型性能对比。
- 以随机游走(RW)、GCN和GAT为编码器,GAT实现最高准确度,体现其加权邻居机制优势。
图6(页10)
- 关键稳定融合验证。
- 将融合特征降维为一维,横轴为时间,纵轴为embedding值。
- 绿色曲线(门控跨注意力融合)平滑且与股价走势吻合优于黄色(没有主模态引导跨注意力融合)。
- 直观证明MSGCA在稳定多模态融合上的有效性。
图7-9(页10)
- 超参数调优曲线:
- 隐藏维度、时间窗口及学习率对模型性能影响的系统实验。
- 呈现典型的“适度最佳”规律,指导实际应用参数选取。
图10(页11)
- 计算效率和性能综合比较。
- 横坐标为训练速度(秒/epoch),纵坐标为MCC性能,圈大小为显存开销。
- MSGCA能以较少训练时间和显存达到最好预测效果,体现良好效率。
---
四、估值分析
本报告属算法模型及实验评估性质,无具体财务估值内容,无现金流折现、PE倍数等估值模型涉及,不适用此部分条目。
---
五、风险因素评估
报告未明确列出风险因素章节,然而文中隐含的风险与局限主要包括:
- 多模态数据稀疏性和语义冲突风险,若未来数据噪音加剧,模型性能可能受限;
- 模型复杂度增加带来的训练资源消耗和实时性挑战;
- 不同市场或时间段数据分布差异可能影响模型泛化能力;
- 语言模型和图模型的依赖,若外部API限制或更新,将对系统造成影响。
报告对应措施为采用门控跨注意力机制缓解噪声和冲突问题,实现稳定融合,但未给出具体缓解策略概率或风险量化。
---
六、批判性视角与细微差别
- 优势与创新点:
- 首次整合指标序列、动态文本和行业关系图三模态于细粒度涨平跌分类任务。
- 门控跨注意力机制创新地引入主模态引导,解决噪声和语义冲突。
- 实验覆盖四个不同市场数据集,积极验证泛化能力。
- 深入探讨多视角消融及稳定性,展现理论和实践价值。
- 潜在不足:
- 虽提出多模态融合策略,但融合过程依旧较为线性且渐进,难以处理模态间更复杂交互;
- 动态文本数据依赖昂贵的预训练大语言模型,存在API依赖和成本风险;
- 对时序依赖建模采用简单MLP降维,尚未融合更精细时间序列模型(如Transformer/LSTM特征整合);
- 报告主要评估预测准确率,缺少对模型解释性和重要特征贡献的深入探讨;
- 风险评估不足,未充分考虑真实交易中因过拟合及数据漂移带来的潜在风险。
---
七、结论性综合
本文系统研究了多模态稳定融合的股票运动预测问题,提出并实现了创新的MSGCA框架。模型通过(1)基于MLP、预训练LLM和GAT的三模态编码,(2)以价值更高的股价指标特征为主导的两阶段门控跨注意力融合,和(3)分两步MLP降维的细粒度涨、平、跌三分类预测,有效缓解了传统多模态方法中模态间数据稀疏及语义冲突导致的融合不稳定性。
全面的实验结果显示,MSGCA在四个多模态公开及自建股票数据集上,分别提升了8.1%、6.1%、21.7%和31.6%的MCC指标,验证了其精准性和稳定性。消融实验进一步证明了门控跨注意力机制及大型语言模型和图神经网络编码在提升性能中的关键作用。计算效率分析显示MSGCA具备强大的计算性能优势,适合实际使用。
图表如框架图(图2)、稳定融合PCA对比图(图6)直观揭示模型设计合理性及实际融合效果。超参数调优实验为实施提供了参考标准。
综上,作者明确主张:MSGCA是一种融合多源复杂数据、高效稳定、支持细粒度趋势预测的股价预测新范式,填补了现有多模态融合和细粒度预测的空白,具备较强理论与实用价值。[page::0-11]
---
参考文献
文末附有详尽参考文献清单,涵盖股票预测、深度学习、图神经网络、多模态融合、预训练语言模型等领域的前沿文献,支持理论与方法创新合理性。
---
(以上分析内容均严格依据报告原文内容并标注页码,未加入任何外部主观判断。)