`

Boosting the Accuracy of Stock Market Prediction via Multi-Layer Hybrid MTL Structure

创建于 更新于

摘要

本报告提出了一种集成Transformer编码器、BiGRU和Kolmogorov-Arnold网络(KAN)的多层混合多任务学习(MTL)框架,用以解决股票市场非线性、高维和波动性强的数据特征。通过多层结构,该模型有效捕获了多维特征间复杂关系和时间序列的长短期依赖。实验证明,该方法在MAE、MAPE和R²等多项指标上显著优于主流先进模型,达到MAE为1.078,MAPE为0.012,R²高达0.98,展现出极强的预测精度和稳定性,为股票市场预测提供了有力工具和思路 [page::0][page::1][page::2][page::4][page::5][page::6][page::7].

速读内容

  • 研究提出了一种多层混合MTL结构,结合Transformer编码器捕获多源数据复杂关系、BiGRU建模时间序列双向依赖,以及KAN提升非线性函数近似能力,实现联合优化多预测任务 [page::0][page::2][page::4]。

  • Transformer模块采用4头多头自注意力机制,结合残差连接和层归一化,强化非线性特征抽取能力,提高高维金融数据处理效率 [page::3]。

  • KAN结构用边上的自适应非线性函数替代传统权重,激活函数细粒度设置,能更快收敛并且提升高维数据拟合精度,适合金融时间序列预测 [page::3][page::4]。

  • 采用双向GRU(BiGRU)可捕捉时间序列的双向依赖与多变量交互,模型输出经由全连接层映射至预测,提升序列学习能力 [page::4]。

- 在多特征(开盘价、收盘价、最高价、最低价、成交量等)和多目标预测设定下,模型相较其他方法MAE跌至18.41,RMSE降低至21.004,MAPE降至0.031,R²达到0.968,提升显著 [page::5][page::6]。

| 方法 | MAE | RMSE | MAPE | R² |
|-----------------|--------|--------|--------|---------|
| KAN | 39.278 | 49.683 | 0.056 | 0.916 |
| Transformer | 39.047 | 42.917 | 0.063 | 0.935 |
| BiGRU | 32.741 | 47.050 | 0.045 | 0.940 |
| KAN-Transformer | 29.384 | 39.693 | 0.038 | 0.953 |
| Transformer-BiGRU | 27.046 | 34.821 | 0.051 | 0.950 |
| Proposed method | 18.410 | 21.004 | 0.031 | 0.968 |
  • 与前沿对比模型(Seo et al.、Ma et al.、Gao et al.、Hemajothi et al.)比较,本模型RMSE降至39.82,R²达到0.977,精度及趋势捕捉能力更优,且推理时间最低,效率领先 [page::6][page::8]。


| 方法 | 推理时间(s) |
|----------------|-------------|
| Seo et al. [41] | 0.0284 |
| Ma et al. [42] | 0.0199 |
| Gao et al. [43] | 0.0213 |
| Hemajothi et al. [44] | 0.0263 |
| Proposed method | 0.0193 |
  • 实验曲线显示本方法预测曲线平稳且紧贴真实值,尤其能准确捕捉峰谷及噪声区间的走势,优于单一及其他组合模型,具备较强鲁棒性和泛化能力 [page::5][page::6][page::7][page::8]。


  • 本报告提出的混合多层MTL结构为复杂金融数据预测提供新范式,结合了Transformer强大的特征抽取能力,BiGRU对时序依赖的双向捕获,以及KAN对非线性建模的优势,显著提升股票价格及交易量的预测性能 [page::0][page::4][page::5][page::7]。

深度阅读

金融研究报告详尽分析


报告名称: Boosting the Accuracy of Stock Market Prediction via Multi-Layer Hybrid MTL Structure
作者及单位: Yuxi Hong,哈尔滨工业大学威海经济管理学院
发布日期: 2024年(具体日期未注明)
研究主题: 针对股市价格预测,提出一种融合Transformer、KAN和BiGRU的多层混合多任务学习(MTL)结构以提升预测准确性。

---

一、元数据与报告概览



本报告围绕“股票市场预测”的核心议题展开,重点关注如何克服金融数据的非线性、高维度和波动性特征对准确预测的挑战。作者提出了一种新颖的多层混合多任务学习结构,结合Transformer编码器、Kolmogorov-Arnold网络(KAN)与双向门控循环单元(BiGRU),以实现更精准的股市预测。

核心论点包括:
  • 传统统计与单一机器学习模型难以处理金融数据的复杂性;

- 多层混合模型能更好地捕获多维输入特征之间的耦合关系及时间序列中的长期依赖;
  • 通过多任务学习实现交易量和交易金额的同步预测,提高模型性能和泛化能力;

- 实验结果显示模型在MAE、MAPE和$R^2$指标上显著优于竞争模型,最高达到MAE=1.078,MAPE=0.012,$R^2$=0.98。

该报告呈现强烈的技术创新和严谨的实验验证,旨在推动股价预测的计算方法创新[page::0,1],[page::5,6]。

---

二、逐章节深度解读



1. 引言(Introduction)


  • 核心内容

强调股市预测的复杂性和重要性,指出传统统计模型(ARMA、ARIMA、GARCH)虽然应用广泛,但在面对非线性和非稳定性的金融数据时表现有限。随着人工智能技术发展,特别是深度学习的兴起,股票价格预测进入新的阶段,但多数现有方法多独立处理单只股票,忽略了股票间复杂的关联关系,限制了预测准确度。
  • 作者推理与证据

引用大量文献表明深度学习(CNN、RNN及其变体)在捕获非线性及多维动态关系方面优于传统方法,但仍存在对空间关联捕获不足的问题。指出Transformer模型优势在于其自注意力机制能够捕获复杂多源信息的关系,但其计算成本高且缺乏处理时间序列固有趋势和季节性的归纳偏置,存在局限性。引入KAN旨在弥补传统网络对输入高维非线性函数拟合不足的问题[page::0]。

2. 相关工作(Related Work)


  • 传统方法:包括ARIMA、GARCH和Hidden Markov模型,擅长时间序列线性建模和波动率预测,但对高度非线性、多元依赖性处理不足,且需手动调整超参数[page::1]。

  • 机器学习网络:通过神经网络尤其深度学习框架改善预测能力。多维输入增强模型对复杂市场动态的描述,单变量模型在表现上存在局限,多任务、多输入模型更有效[page::1]。
  • 混合模型:结合传统统计和深度学习优点,构建集成或混合预测架构,已被证明能显著提升预测性能和鲁棒性。引文较多,显示研究趋势明显偏向于深度混合模型[page::2]。


3. 方法介绍



3.1 问题定义



给定时间序列输入$A = \{x1, ..., xm\}$,每个样本$xm = (a{m1}, a{m2}, ..., a{mn})$,目标是学习映射函数$f(A)$预测未来多个时间步的输出$a{m n+1}, ..., a{m n+T}$,确保预测值尽可能贴近真实值[page::2]。

3.2 多层混合MTL结构概览


  • 输入特征:开盘价、收盘价、最高价、最低价、成交量、成交额等多维市场指标,提供全面市场信息。

- 架构组件
- Transformer编码器捕获不同输入特征间复杂关联。
- KAN层替代传统权重,利用边缘函数参数提升非线性拟合能力。
- BiGRU捕获长短期时间依赖并通过双向机制整合前后语境,增强时间序列动态感知。
  • 多任务学习:并行预测成交量和交易额,促进共享隐含特征学习,增强泛化[page::2,4]。


3.3 Transformer编码器


  • 详细介绍Transformer的多头自注意力机制,4个头并行处理,提升捕获多项输入特征空间的能力。

- 结合残差连接、层归一化、前馈全连接层(两层线性变换带ReLU激活)以稳定训练和增强非线性表达能力。

此设计改善了数据间关系复杂度的感知,适用于高维时序特征抽取[page::3]。

3.4 KAN层


  • 基于Kolmogorov-Arnold定理,实现边缘非线性激活函数的可学习机制,区别于MLP的节点激活。

- 适合高维复杂非线性函数的快速拟合,减少训练时间,提升预测精度。
  • 结构图显示KAN激活函数分布于各边缘,节点为函数输出参数整合,允许更精细参数调整[page::3,4]。


3.5 BiGRU层


  • 双向GRU网络同时处理序列正向和反向信息,强化时间依赖学习。

- 最终时刻隐藏状态拼接后经过全连接层输出。
  • 支持复杂序列模式捕获,增强模型对金融时间序列的适应力[page::4]。


---

三、图表深度解读



图1(Page 4)


展示整体多层混合MTL架构流程:
  • 左侧多维输入特征经过Transformer的多头注意机制及规范化处理。

- 中央为KAN结构,细粒度建模非线性转换,提升特征表达。
  • 右侧BiGRU双向捕获时序依赖,接着全连接输出交易量和交易额预测。

该结构直观呈现了信息从多维特征到最终预测的多阶段处理流程,体现了架构设计相互补充的特点。

图2(Page 4)


多头注意力机制流程图,显示输入矩阵$X$分线性变换成Query、Key、Value矩阵,再分配到多个独立头计算加权输出,结果拼接后送入线性层。突出多头机制捕获复杂多样特征的并行能力。

图3(Page 4)


MLP与KAN结构对比图:
  • MLP为节点激活,边为权重;

- KAN为边激活,节点整合输出无激活。
该差异使KAN能更灵活调整参数,提升高维非线性拟合能力,支持作者论点。

表1(Page 3)


展示模型各层输出形状及参数数量,体现该结构参数分布和复杂度,BiGRU层参数最多(16万+),为模型主力。

图4-8(Page 6-8)


多幅股价特征预测结果对比图,显示该方法(蓝色线)预测结果更贴近实际股价走势(黑色线),尤其在波峰波谷及高波动区域表现突出,明显超越KAN、Transformer、BiGRU及其组合模型,曲线平滑且能有效滤除噪声。

表2(Page 6)


比较多模型预测指标平均值:
| 方法 | MAE | RMSE | MAPE | $R^2$ |
|-----------------|--------|---------|--------|--------|
| KAN | 39.278 | 49.683 | 0.056 | 0.916 |
| Transformer | 39.047 | 42.917 | 0.063 | 0.935 |
| BiGRU | 32.741 | 47.050 | 0.045 | 0.940 |
| KAN-Transformer | 29.384 | 39.693 | 0.038 | 0.953 |
| Transformer-BiGRU| 27.046 | 34.821 | 0.051 | 0.950 |
| 本文提出方法 | 18.410 | 21.004 | 0.031 | 0.968 |

显著优于对比模型,尤其RMSE和$R^2$提升明显,表明误差控制更好、拟合效果更佳。

表3(Page 7)


与已有先进方法对比,模型在MAE、RMSE、MAPE和$R^2$均实现行业领先水平,RMSE达39.820,比最优对手减少17.2%;$R^2$达到0.977,提升4.2%及3.1%。体现卓越表现和鲁棒性。

表4(Page 8)


推理时间对比表明所提模型不仅提升预测精度,在效率上也超越主流先进方法(推理时间最短0.0193秒),展现实际应用潜力。

---

四、估值分析



本研究不涉及宏观估值或投资价值的传统财务指标估值部分,聚焦算法效能提升和预测准确性。所用的方法本质为多任务学习中误差最小化和非线性函数逼近技术,并未形成对公司或股票价格的直接估值。

---

五、风险因素评估



报告未明确列举具体风险因素和对应缓解策略,但文中隐含的挑战包括:
  • 金融数据高度非线性、噪声干扰大,导致模型训练难度大;

- Transformer计算资源较高,且对长序列处理受限;
  • 复杂混合结构可能带来模型解释性不足风险;

- 市场结构变化和黑天鹅事件可能使历史数据失效;

作者通过引入KAN和多层结构、正则化技术(Dropout, BatchNorm)寻求缓解,且多任务设计有助于提升数据利用和鲁棒性[page::3,4,5]。

---

六、批判性视角与细微差别


  • 模型复杂度:尽管性能卓越,但BiGRU等深层结构加上Transformer和KAN的多层复合,参数量大,训练和部署成本较高,可能限制实时应用和大规模推广。效率虽优化但计算仍密集[page::7,8]。

  • 数据适用性:报告侧重多个标准股市指标,未充分讨论对非标准数据(如新闻、社交媒体情绪)融合能力,对市场异常波动的应对机制不明确。
  • 多任务学习设计:报告强调多任务提升,但具体各任务间权重分配及任务间潜在冲突未详述,影响模型稳定性因素未知。
  • 实验数据完整性:虽然结果优异,报告未公开数据集详细特征和训练测试划分细节,限制对泛化能力的独立验证。
  • 模型解释性与透明度:深度神经网络架构较为“黑盒”,缺少可解释性分析,实际投资领域应用可能由于透明度不足存在障碍。


---

七、结论性综合



本报告提出了一种创新性的多层混合多任务学习框架,结合了Transformer编码器的高维特征提取能力、KAN的非线性函数高效逼近能力及BiGRU的时序双向动态捕获优势,使得模型能够有效捕捉金融市场数据的复杂非线性关系和时间依赖特征。实验证明该方法在多项主流评测指标(MAE、RMSE、MAPE及$R^2$)上均显著优于传统统计模型、单一深度学习模型及多种混合模型,最高取得$R^2$达0.98,误差率大幅降低。此外,该架构在推理效率上也表现突出,有利于实际应用。

具体来说,从图表和表格分析可以看出:
  • 输入多维特征组合更全面,Transformer编码器强化了内部关联建模;

- KAN层通过边缘激活机制提高了模型对高维非线性模式的拟合能力;
  • 双向GRU强化时间序列的动态依赖捕获,提升预测稳定性;

- 多任务学习设计提升了整体泛化能力和系统性能;
  • 预测曲线在多个关键时间段(波峰波谷、高波动期)紧贴实际,优于对手方法噪声抑制和趋势跟踪能力强。


虽然模型复杂度和数据适应性存在进一步优化空间,但该研究为股市价格预测提供了有效的新方法论和示范,具有重要理论意义和应用前景。[page::0-8]

---

综述



整体来看,该报告系统地审视了当前股票价格预测领域的挑战和技术演进,提出了多层混合MTL结构的新颖方案,兼顾了特征维度复杂性和时间序列非线性的挖掘。其多组件组合策略实现了关键突破,且在广泛对比中表现卓越。报告技术细节充分、实验严谨,是股市预测领域一篇高质量的技术探索文献。

---

参考页码溯源汇总


[page::0,1,2,3,4,5,6,7,8]

---

(全文约1600字)

报告