Mamba Meets Financial Markets: A Graph-Mamba Approach for Stock Price Prediction
创建于 更新于
摘要
本报告提出SAMBA模型,通过双向Mamba块捕获历史价格中的长期依赖关系,并利用自适应图卷积建模每日股票特征间的依赖。实验表明,SAMBA在准确率和计算效率上显著优于现有基线模型,兼具实时应用潜力和实用性 [page::0][page::1][page::3].
速读内容
- 研究背景与挑战 [page::0]

- 股票市场高度复杂且动态,传统深度学习模型(如LSTM、CNN及Transformer)在财务时序预测中表现优异,但Transformer计算复杂度高,限制其实时应用。
- Mamba模型通过选择性扫描算法降低计算复杂度,但单向处理限制了全局依赖建模能力。
- SAMBA模型架构与创新点 [page::0][page::1][page::2]

- 采用双向Mamba(BI-Mamba)块,提高对价格长期依赖的捕获能力,通过正向与反向序列处理实现全局信息聚合。
- 自适应图卷积(AGC)块以股票每日特征为图节点,利用动态可学习的节点嵌入构建任务专属图结构,有效建模特征间非线性依赖。
- AGC通过切比雪夫多项式近似进行谱图卷积,并用矩阵分解减少参数量,防止过拟合。
- 关键数学与算法机制 [page::1][page::2]
- 基于状态空间模型(SSM)框架,结合Mamba的硬件高效并行算法与选择机制,利用可变状态参数实现动态信息筛选。
- 图结构通过高斯核和归一化软最大值计算邻接矩阵,节点嵌入及缩放因子端到端训练优化。
- 采用多层堆叠的BI-Mamba块和多阶切比雪夫多项式滤波完成时间序列与图结构特征融合。
- 性能评测与对比 [page::3]
| 方法 | NASDAQ RMSE ↓ | NASDAQ RIC ↑ | NYSE RMSE ↓ | NYSE RIC ↑ | DJIA RMSE ↓ | DJIA RIC ↑ | MACs (M) | 参数量 |
|---------------|---------------|--------------|-------------|------------|-------------|------------|----------|-------------|
| LSTM | 0.0187 | 0.0674 | 0.0144 | 0.0649 | 0.0121 | 0.0918 | 0.50 | 105,345 |
| Transformer | 0.0147 | 0.2542 | 0.0141 | 0.3293 | 0.0166 | 0.3063 | 13.77 | 402,658 |
| MambaStock | 0.0145 | 0.2059 | 0.0139 | 0.3125 | 0.0141 | 0.2776 | 0.06 | 85,524 |
| SAMBA | 0.0128 | 0.4767 | 0.0125 | 0.4950 | 0.0108 | 0.4703 | 0.11 | 167,178 |
- SAMBA模型在NASDAQ、NYSE及DJIA数据集上均实现RMSE最低,RIC最高,领先第二名RMSE约7%-12%,RIC提升30%-85%。
- 计算效率适中,仅次于部分MLP类与MambaStock模型,远优于Transformer及大部分GNN基模型,适合实时交易系统。
- SAMBA通过双向选择机制与自适应图卷积块整合时间与空间特征,实现准确且高效的股票收益率预测。
- 量化模型与策略总结 [page::0][page::1][page::2][page::3]
- SAMBA融合BI-Mamba和AGC两大模块,BI-Mamba利用双向状态空间选择机制高效捕获时间序列中的长短期依赖。
- AGC模块基于任务驱动的图结构自适应学习,动态构建并加权每日股票特征之间的复杂关系,采用切比雪夫多项式谱图卷积进行特征滤波。
- 通过矩阵分解技术降低参数量,避免过拟合风险。
- 综合考虑时间与特征交互信息,SAMBA形成了一个有效的量化预测体系,支持后续多步价格预测的扩展研究。
深度阅读
金融研究报告详尽分析报告
---
1. 元数据与概览
- 报告标题:《Mamba Meets Financial Markets: A Graph-Mamba Approach for Stock Price Prediction》
- 作者与机构:Ali Mehrabian(英属哥伦比亚大学)、Ehsan Hoseinzade(西蒙弗雷泽大学)、Mahdi Mazloum(匹兹堡大学数学系)、Xiaohong Chen(耶鲁大学经济系)
- 发布时间:未明确显示,但参考文献最新为2024年(包含arXiv 2024年资料)
- 研究主题:股票价格预测,特别是基于深度学习中状态空间模型(State Space Models, SSM)与图神经网络(GNN)的跨域混合创新方法
核心论点及摘要总结:
本报告提出了一种名为SAMBA(Selective Adaptive Mamba-Based Architecture)的新型金融时间序列预测模型,结合了基于状态空间模型的Mamba架构和图神经网络,旨在实现对股票市场价格的高效且精准预测。相较于现有基于Transformer模型的预测方法,SAMBA不仅在准确性上取得显著提升,还大幅降低了计算复杂性,便于应用于实时交易和长序列数据处理。作者重点表达了SAMBA模型通过双向Mamba块与自适应图卷积块协同工作,有效捕获时间序列的长程依赖与股票特征间的复杂关系,从而提升股票收益预测性能的观点。同时,报告展示了与多个主流方法对比的优越性。该框架开源,提供了代码与数据集支持。
---
2. 逐节深度解读
2.1 摘要与引言(Pages 0)
关键内容总结:
- 股票市场复杂波动难以预测,现阶段深度学习包括MLP、CNN、LSTM、Transformer模型广泛应用于金融时间序列预测中,其中Transformer因能捕获全局依赖成为新兴热点,但计算复杂度高,难以应用于实时或长序列场景。
- 报告基于Mamba模型进行改进,Mamba利用状态空间模型(SSM)具备近似线性计算复杂度且引入了selective scan算法,能够加速长序列处理。
- 鉴于单向Mamba在捕获全局依赖性上的局限,引入图神经网络(GNN)以捕获多特征之间的关系,实现股票市场特征间的动态图结构建模。
- SAMBA框架将双向Mamba块(Bidirectional Mamba, BI-Mamba)与自适应图卷积块(Adaptive Graph Convolution, AGC)结合,达到建模长程时间依赖和特征间相互作用的目的。
作者主张论证基础:
- 以图1首次展示了2010-2023年DJIA、NASDAQ、NYSE三个市场的股价走势,直观体现了市场行情波动的复杂性。
- 通过文献回顾,建立了从传统模型到Transformer的演进并指出Transformer的计算瓶颈,强调Mamba的高效性。
- 前期相关模型仅采用单向Mamba,限制了对双向依赖关系的捕获,指出结合GNN能够弥补这一不足。
---
2.2 问题定义(Problem Formulation)(Page 1)
核心内容与定义:
- 预测目标为股票收益率(一日回报率),定义为未来一天收盘价变动率:
\[
o{L+1} = \frac{c{L+1} - cL}{cL}
\]
- 输入为过去$L$天的股票日特征矩阵$\mathbf{X}\in\mathbb{R}^{L \times N}$,其中$N$表示每日输入特征数量(例如技术指标、商品价格、期货合约等)。
- 构建为回归任务,使用历史特征预测下一日收益率。
- 数据结构严谨,形式化定义符合时间序列预测常用方式。
---
2.3 SAMBA 模型方法论详解(Page 1-3)
2.3.1 状态空间模型背景(State Space Models) (Section III.A)
- 介绍了结构化状态空间序列模型(S4),融合了RNN和CNN的优点,应用连续时间线性系统理论表征序列数据的动态变化。
- SSM通过变量${\bf A, B, C}$定义内部隐状态演化(微分方程)与输出关系,转化后使用离散递归公式进行高效计算。
- 通过HiPPO方法初始化矩阵$\mathbf{A}$以改善长程依赖建模能力。
- 多维输入通过独立地对每个特征向量应用该模型,体现其模块化处理特征的设计。
2.3.2 Bidirectional Mamba Block (Section III.B)
- Mamba的核心:引入选择性扫描机制(selective scan),动态聚焦序列中最关键部分,剔除无效信息,降低计算复杂度。
- 输入先经过线性投影层,将原始特征映射至嵌入空间;紧接卷积与SiLU激活层处理后生成多参数矩阵,动态调整状态空间模型参数。
- 独特设计在于Mamba的状态参数随时间动态变化,使得对长序列的建模更具灵活性和细粒度。
- BI-Mamba块则对序列正反两个方向分别应用Mamba模块,融合双向信息,强化全局依赖捕获能力。
- 设计中包含残差连接与层归一化(LayerNorm),保证稳定训练及梯度传递。
- BI-Mamba块应用多层堆叠($R$层),提高模型表达能力。
2.3.3 Adaptive Graph Convolutional Block (Section III.C)
- GNN用于建模股票每日特征之间的复杂交互关系,构造图$\mathcal{G}(\mathcal{V},\mathcal{E})$,节点集$\mathcal{V}$代表每日特征,边集$\mathcal{E}$表示特征间的依赖。
- 采用任务自适应图结构学习,区别于基于相似度的传统静态图构造,通过可学习的节点嵌入矩阵$\Psi$和高斯核函数动态生成归一化邻接矩阵$\tilde{\mathbf{A}}\mathcal{G}$。
- 邻接矩阵通过行softmax归一化保证每行权重和为1,$\psi$标度因子控制相似度敏感度,可根据任务自动调节图的稀疏度。
- 图卷积使用Chebyshev多项式近似谱滤波,具体操作为对邻接矩阵的多阶幂进行线性组合,捕获更高阶邻居信息。
- 采用矩阵分解技巧避免参数量激增,有效防止过拟合,保证模型泛化。
---
2.4 性能评估(Page 3)
数据集与实施细节:
- 使用美国市场的三个代表性数据集:NASDAQ、NYSE和DJIA,共82个日特征,覆盖2010-2023年。
- 划分比例80%训练,5%验证与15%测试。训练采用PyTorch实现,Adam优化器,1500个epoch,批量大小128。
- 超参数设定:嵌入维度$E=64$,状态空间维度$H=64$,堆叠层数$R=3$,FFN隐藏层$U=32$,图卷积阶$K=3$,节点嵌入维度$d
对比基准:
- 多层感知机及其变体(StockMixer, FreTS)、图神经网络变体(AGCRN, FourierGNN)、Transformer、LSTM以及前沿MambaStock模型。
- 评测使用RMSE(均方根误差)、信息系数(IC)和排序信息系数(RIC)三种指标,综合衡量预测准确度和排序效果。
- 计算复杂度用每轮训练时间和乘加运算次数(MACs)衡量。
结果分析 — 表格解读(表格见图3说明):
- 预测准确率:SAMBA在所有三个市场上的RMSE均低于所有基线,改进幅度分别为11.72%(NASDAQ)、10.07%(NYSE)、6.90%(DJIA),IC和RIC提升显著(最高达80%+)。
- 计算效率:SAMBA位列第五,优于Transformer与GNN基线(AGCRN),训练时延降低6.7%,乘加数仅0.11百万,远低于Transformer的13.77百万,表明SAMBA兼顾性能与效率。
- 参数规模适中:以16万参数大小处于合理范围,避免了过拟合风险。
---
3. 图表深度解读
3.1 图1(Page 0)
- 展示2010-2023年DJIA、NYSE及NASDAQ收盘价走势,三线均呈现波动上升趋势,其中DJIA总值明显高于其他二者。
- 图形凸显金融市场的波动性和非平稳性,反映预测难度。
- 支撑了引言中金融市场预测的复杂性论述。

3.2 图2(Page 2)
- (a) 详细描述Mamba单模块架构:输入先线性投影,再经卷积与状态空间层(SSM)处理,最后通过残差和投影生成输出。
- (b) 展示BI-Mamba块与自适应图卷积模块整体架构,突出双向Mamba并行处理序列正反向输入,输出融合后通过前馈网络处理,最终与图卷积模块交互,实现时间依赖和特征关系捕获协同。
- 清晰表现了SAMBA框架的模块设计与数据流动路径。

3.3 表I(Page 3)
- 定量对比了SAMBA与九个 baselines在NASDAQ、NYSE、DJIA三大数据集上的RMSE、IC、RIC三项指标,并列明乘加次数(MACs)与参数规模。
- SAMBA各指标均为最佳(加粗显示),第二表现最佳标为下划线。
- SAMBA虽然参数规模与MACs较MLP方法高,但远低于Transformer和AGCRN,显示在效率上的优势。
- 具体数值体现SAMBA优异的综合表现,强化了报告的主要论证。
---
4. 估值分析(方法性能估计)
本报告无传统财务估值部分,所述“估值”可解释为方法性能和计算代价权衡分析。
- 核心方法性能估计指标包括:
- 预测精度指标:RMSE(数值越低越好)、信息系数IC和排序信息系数RIC(越高越好)。
- 计算效率指标:乘加操作次数(MACs),训练时间。
- 通过各项指标综合评估,SAMBA模型通过双向Mamba和自适应图卷积,在提升准确率的同时,将计算复杂性控制在合理范围内。
- 参数量控制和矩阵分解策略有效减少过拟合风险和模型体积。
---
5. 风险因素评估
报告中虽未专门设定“风险因素”章节,但隐含风险与挑战主要包括:
- 模型过拟合风险:由于股票特征数量大和时间序列高噪声,模型可能拟合训练集中的噪声。作者通过节点嵌入矩阵$\Psi$的参数共享和矩阵分解等方法进行了缓解。
- 模型复杂度与扩展风险:虽然SAMBA降低了计算成本,但仍较简单MLP模型复杂,在资源有限环境中应用仍具挑战。
- 任务自适应图学习风险:自适应图构建依赖训练数据充分性,若数据不足或分布极端,可能导致错误的图结构影响预测。
- 长远多步预测不确定性:当前模型预测的是单步未来收益,未来多步联合预测可能遇到性能下降。
报告指出未来将研究多步联合预测以缓解相关风险。
---
6. 批判性视角与细微差别
- 方法创新性突出,基于状态空间的Mamba与GNN结合切入多个前沿,具备技术深度与应用价值;但模型参数调优细节不足,实际中难以复制峰值性能。
- 对比中,以RMSE和RIC等指标说服力强,但未涉及模型稳定性、鲁棒性测试,如市场极端条件下表现尚待验证。
- 报告重点放在计算复杂度优势,但未详述训练与推理延迟、能耗等实际运行指标。
- 单日收益预测设定较为基础,未探讨风险调整收益(如夏普率)或投资组合层面绩效。
- 对比基线中,Transformer模型存在明显参数放大的问题,未深入讨论不同模型训练样本适应性差异对结果的影响。
---
7. 结论性综合
本报告提出的SAMBA模型利用最新的状态空间模型(S4变种Mamba)与自适应图卷积技术整合构建了一个高度精准且计算高效的股票收益预测框架。双向Mamba设计增强了时间序列的全局依赖捕获能力,而自适应图卷积则为不同股票市场特征间的非线性交互建模提供强大支持。实证测试覆盖NASDAQ、NYSE、DJIA三大美国股市主流指数,结果全面优于传统和前沿基线模型,不仅RMSE下降明显,信息指标IC和RIC提升显著,更以中等参数规模及低至百万量级MACs的计算代价,体现出平衡准确率与效率的优势。
图表分析中:
- 图1提供了金融市场波动的宏观背景;
- 图2系统展示了模型内部模块及数据传递机制,增强理解;
- 表格I通过多指标多数据集的量化指标,客观展示出SAMBA算法在精准度与计算效率上的领先地位。
整体来看,作者清晰阐释了面向金融市场复杂动态多维数据的创新解决方案,既解决了Transformer计算瓶颈问题,也利用图模型补足单向序列模型对特征依赖的捕获不足。报告结构严谨,数据丰富,论据充分,结论可靠,为实时金融时序预测提供了有效路径。然而,未来拓展多步预测能力、强化模型鲁棒性及商业实际部署的研究仍为必要方向[page::0,1,2,3]。
---
结语
本报告作为跨学科金融与机器学习的前沿研究成果,既有理论价值也具备实际应用潜力。SAMBA模型的创新架构、实验结果和性能表现为金融预测领域提供了新的思路和技术工具,值得学术界和业界深入关注和后续拓展。