LSR-IGRU: Stock Trend Prediction Based on Long Short-Term Relationships and Improved GRU
创建于 更新于
摘要
本文提出LSR-IGRU模型,通过利用股票二级行业信息构建长期关系矩阵,结合隔夜价格建立短期关系矩阵,改进GRU输入,融合时序与关系信息,以提升股票趋势预测准确性。实验证明该模型在中美股市四大数据集上优于现有主流模型,且在真实金融公司算法交易平台中实现了显著的累计收益提升,展示了其良好的泛化能力和应用价值[page::0][page::1][page::2][page::4][page::6]。
速读内容
- LSR-IGRU模型创新点和设计架构 [page::0][page::1][page::2]:

- 利用二级行业信息构建股票长时关系矩阵,映射股票与行业的多层级连接关系。
- 计算股票隔夜开盘价变化序列的余弦相似度,用于生成短时关系矩阵,反映短期动态关联。
- 采用两层图注意网络(GAT)提取长短时关系的高阶嵌入表示。
- 改进GRU输入,将时间序列特征与长短时关系特征拼接输入,有效融合异构信息,提高时间依赖性和关系动态捕捉能力。
- 实验数据与设置,评测指标及对比 baselines [page::4]:
- 选取中美两国股市数据集:CSI 300、CSI 500、S&P 500、NASDAQ 100。
- 基线模型涵盖传统方法、深度学习及强化学习和多种图神经网络方法,如BLSW、CGM、LSTM、GRU、Transformer、AlphaStock、DeepTrader、THGNN等。
- 关键评价指标包括:年化收益率(ARR)、年化波动率(AVol)、最大回撤(MDD)、夏普比率(ASR)、收益回撤比(CR)与信息比(IR)。
- 采用基于预测得分的买入-持有-卖出(BHS)策略模拟实盘交易。
- 性能表现及优势总结 [page::4][page::6]:
| 数据集 | ARR ↑ | AVol ↓ | MDD ↓ | ASR ↑ | CR ↑ | IR ↑ |
|----------|--------|--------|-------|--------|-------|-------|
| CSI 300 | 0.192 | 0.187 | -0.168| 1.026 | 1.143 | 1.009 |
| CSI 500 | -0.168 | 1.026 | 1.143 | 1.009 | 0.330 | 0.203 |
| S&P 500 | -0.198 | 1.626 | 1.663 | 1.382 | 0.506 | 0.177 |
| NASDAQ 100| -0.093| 2.863 | 5.453 | 2.450 | 0.835 | 0.222 |
- LSR-IGRU在所有指标上均超越传统深度学习、强化学习及主流GNN模型,特别表现出较强风险控制与回报能力。
- 实际部署中,模型连续12个月有效预测股票趋势,策略累积超额收益明显高于指数,最大回撤控制在约5%以内。

- 参数敏感性分析结果 [page::5]:

- 模型对历史时间窗口长度敏感,15天为最优时间步,过长或过短都导致性能下降。
- 训练迭代次数3次最佳,迭代过多易过拟合。
- GCN层数2层效果最佳,GRU使用2层达到平衡,不过多层防止过拟合。
- 量化策略核心机制与因子构建 [page::2][page::3][page::4]:
- 长期关系因子基于二级行业关系网络,体现行业内及行业间多层次影响。
- 短期关系因子通过计算股票间隔夜开盘价序列的余弦相似度,捕获短周期信息的共同波动。
- 改进GRU将三类输入(时序特征、长期关系嵌入、短期关系嵌入)拼接,允许关系结构影响时序状态更新,从结构上融合时间和空间信息,提升捕获非线性动态关联的能力。
- 消融实验验证关系模块重要性 [page::6]:
| 模型组合 | CSI 300 ARR | S&P 500 ARR |
|--------------------|-------------|-------------|
| 仅GRU | -0.229 | 0.324 |
| 仅长期关系表示 | 0.079 | 0.356 |
| 仅短期关系表示 | 0.111 | 0.307 |
| GRU+长期关系 | 0.157 | 0.401 |
| GRU+短期关系 | 0.173 | 0.412 |
| 长期+短期关系表示 | 0.145 | 0.439 |
| 全部模块(LSR-IGRU)| 0.192 | 0.506 |
- 各模块单独效果有限,组合使用显著提升性能,展示长短期关系和时序特征的协同作用。
深度阅读
LSR-IGRU: 基于长短期关系及改进GRU的股票趋势预测——全面分析报告
---
1. 元数据与报告概览
报告标题: LSR-IGRU: Stock Trend Prediction Based on Long Short-Term Relationships and Improved GRU
作者: Peng Zhu 等,均来自同济大学计算机科学与技术系,以及部分来自EMoney Inc.金融公司
发布日期与会议: 2024年10月,于第33届ACM国际信息与知识管理会议(CIKM '24)发布
主题: 针对股票价格趋势预测,利用股票间的关系网络(长短期关系)以及改进的门控循环单元(GRU)神经网络模型,探索提高预测准确率的方法。
核心论点与创新点:
报告提出了一种命名为LSR-IGRU的新模型,结合了长短期股票关系的多层次图注意力网络(GAT)以及改进的GRU输入机制,实现股票价格走势预测的优化。关键创新点包括:
- 利用二级行业信息首次构建股票的长期关系矩阵(涵盖行业与子行业层次),弥补传统模型对行业间高阶关系的忽视;
- 引入隔夜价格变化的余弦相似度计算,构建短期关系矩阵,刻画股票的短期动态相关性;
- 改进GRU网络的输入结构,将长短期关系嵌入与时间序列特征联合输入,提升模型对非线性动态关系的捕捉能力;
- 在中美多市场四组数据集上做大规模实验,综合评估优于现有各类基线模型;
- 实际部署于EMoney Inc.的算法交易系统,实证收益远超对比模型。
综上,报告旨在提出一种能更全面捕捉股票复杂动态依赖关系,提升趋势预测精度的神经网络模型,并通过实证验证其一线实用性和优越性。[page::0,1,6]
---
2. 逐节深度解读
2.1 引言与问题背景
股票市场价格波动剧烈且受多种复杂因素影响,给准确预测带来难度。传统理论——有效市场假说认为价格包含全部可得信息,然而价格的波动性让趋势预测极具挑战性。近年来,深度学习以及图神经网络(GNN)技术兴起,为挖掘股票间内在联系提供了新思路。
传统方法侧重单一时间序列数据(价格、交易量)预测未来走势,表现有限。研究发现股票价格在行业或相关细分领域内部存在连锁反应与同步变化,关系挖掘成为提高预测准确率的一条路。早期研究通过构建日度企业关系图利用GNN捕捉动态关联或用Transformer模型的自注意力机制学习股票间依赖。但现有方法:
- 主要聚焦短期动态,同一行业内的次级行业差异未充分考虑;
- 直接将时间序列与关系特征简单拼接,忽视丢失二者复杂非线性交互;
- 难以动态反映关系对未来交易的潜在深远影响。
针对上述不足,提出LSR-IGRU模型,既考虑二级行业的长期联系,也利用隔夜价格变动反映短期互动,结合改进GRU结构,实现关系和时间序列的有机融合,提升趋势预测性能。[page::0,1]
2.2 相关工作综述
- 传统与机器学习方法: AR, ARIMA等线性时间序列,及HMM、SVM、决策树、早期神经网络等机器学习策略能够处理非线性,但面临过拟合和高噪声挑战。
- 深度与强化学习: RNN及GRU在捕捉时序依赖上表现优异,但遇极端行情时表现不稳。强化学习方法因自适应能力强受关注,但需海量数据且模型可解释性差。
- 图神经网络及最新方法: GNN被广泛用于捕捉股票间复杂依赖,部分模型引入多层次注意力或动态相关机制。但当前仍不足以充分建模多样且动态的非线性关系,尤其对异常及数据稀疏敏感。
LSR-IGRU针对这些短板,从双维度关系嵌入和改进输入机制切入,构建更精细的关系网络,提高鲁棒性和预测能力。[page::1]
2.3 模型结构详解
2.3.1 长期关系矩阵构建
根据股票对应的一级与二级行业节点构建图结构:
- 一级行业节点相互存在潜在联系;
- 二级子行业作为二级节点,互联且隶属于一级节点;
- 股票为第三层节点,连接于对应二级节点;
- 该三层图结构既反映行业高阶层次关系,也降低训练时参数量。
长期关系矩阵$R{long} \in \mathbb{R}^{d \times d}$维度为$m + n + n'$,其中股票数为$m$,一级行业数$n$,二级行业数$n'$,矩阵元素二值表示节点间连接,直观体现复杂行业-股票多层次网络关系。此矩阵提供宏观、稳态的长期关联基础。[page::2,3]
2.3.2 短期关系矩阵构建
选取隔夜价格波动数据,计算任意两股票的隔夜开盘价触及的序列向量,通过余弦相似度度量两股票间短期相关度:
\[
corri = \frac{\sum ([xi^{open}(t-t'),...,xi^{open}(t)]) ([xj^{open}(t-t'),...,xj^{open}(t)])}{\sqrt{\sum [xi^{open}(t-t'),...,xi^{open}(t)]^2} \sqrt{\sum [xj^{open}(t-t'),...,xj^{open}(t)]^2}}
\]
该相关度经过平移和缩放至[0,1]区间,以便表示关系强度。短期矩阵$R{short}$结构同长期矩阵,反映股票及行业节点基于近一段时间隔夜价格同步波动的动态关系,补充刻画市场信息传递的短期波动趋势。[page::3]
2.3.3 基于GAT的关系嵌入生成
每日构造图$Gt=(V,E)$,节点为股票及行业,边来自长期或短期关系矩阵中非零元素。利用双层图注意力网络(GAT),为每节点计算邻居重要性注意力系数$\alpha{ij}$,机制如下:
\[
e{ij} = a(W[x{it}||x{jt}]), \quad \alpha{ij} = \frac{\exp(e{ij})}{\sum{k \in Ni} \exp(e{ik})}
\]
对邻居特征加权求和并通过ReLU激活形成新表征:
\[
x{it}^{long'} = \sigma \left( \sum{j \in N(i)} \alpha{ij} x{jt} \right)
\]
采用两层GAT,重复该过程获得最终的长短期关系向量 $x{it}^{long''}$ 和 $x{it}^{short''}$ 。该层设计有效捕捉邻居节点和高阶结构网络关键信息,会赋予模型对股票多维度时间关联的深刻理解。[page::3]
2.3.4 改进GRU模型
传统GRU模型以股票时间序列特征$x{it}$为输入,难以充分反映复杂关系。本文创新地将长、短期关系嵌入联合拼接为GRU每步输入:
\[
x{i t}^{input} = x{it} || x{it}^{long''} || x{it}^{short''}
\]
GRU的各门控计算式变为:
\[
\begin{cases}
z{it} = \sigma(Wz x{i t}^{input} + Uz h{i(t-1)} + bz) \\
r{it} = \sigma(Wr x{i t}^{input} + Ur h{i(t-1)} + br) \\
\tilde{h}{it} = \tanh(Wh x{i t}^{input} + Uh (r{it} \odot h{i(t-1)}) + bh) \\
h{it} = (1 - z{it}) \odot \tilde{h}{it} + z{it} \odot h{i(t-1)}
\end{cases}
\]
其中$Wz, Wr, Wh$等权重矩阵形状适配新的拼接输入维度。此设计实现了长短期关系与时间序列的融合,使模型在时间步更新时动态对股票内在关系加权,提升对复杂动态的敏感度和表达能力。[page::3]
2.4 目标函数及训练
模型最终输出$h{it}$经过MLP投射后生成单变量预测,采用均方误差(MSE)损失函数:
\[
Loss(y, \hat{y}) = \frac{1}{d'} \sum{i=1}^{d'} (y - \hat{y}i)^2
\]
其中$d'$为每日样本数,$y$为真实标签(日收益率排名),$\hat{y}_i$为对应模型预测。训练采用Adam优化器优化该目标。[page::4]
---
3. 图表深度解读
3.1 图1:模型架构图详解
(a)长短期关系嵌入:首先基于行业层级构建长关系矩阵,隔夜收益计算构建短期关系矩阵,然后分别输入两层GAT得到长短期关系表示。
(b)改进GRU网络:将长短期关系嵌入与时间序列共同输入GRU的不同时刻单元,实现同时融合时序及关系动态。
(c)目标优化:利用MLP与损失函数进行训练。
图示清晰阐释方法流程,体现创新点为长短期关系矩阵多层次构建与关系特征融合GRU输入,从结构上保证模型对关系和时序的深度耦合。此图支持了文本论点强调的多维关系融合设计。

3.2 表1:模型在四大数据集上的比较实验结果
- 指标覆盖全面: 包括年化收益率(ARR)、年化波动率(AVol)、最大回撤(MDD)、夏普比率(ASR)、Calmar比率(CR)、信息比率(IR),全面衡量收益与风险。
- 整体趋势: 非关系型传统模型(如LSTM、GRU及Transformer)表现不佳,ARR多为负值或略正,风险指标较大,表明未考虑股票间关联的信息效果受限。
- 强化学习与机器学习模型表现提升有限,ARR和风险指标表现均衡但未突出。
- 图神经网络模型(AlphaStock、DeepPocket、DeepTrader、THGNN)具有明显优势,指标数据均优于非图模型。
- LSR-IGRU在四个数据集的ARR(0.192至0.506)及夏普、Calmar等指标中均遥遥领先,展现了其在收益和风险控制上的双重优势,验证了长期与短期关系结合策略的有效性。
表中部分数据书写有小幅格式错漏,但整体数据趋势显著体现了本文模型优势。[page::4]
3.3 图2:超参数敏感度分析
针对于CSI 500和NASDAQ 100数据集,在不同时间步长度、训练轮次、图卷积层数及GRU层数对信息比率(IR)和年化收益率(ARR)的影响:
- 时间步长增加至约15时,指标提升后开始下降,体现历史信息利用的平衡,过短不足,过长可能引入噪音。
- 训练轮次约3次时,性能最佳,过多轮次导致过拟合或噪声记忆。
- GCN层数2层效果最佳,层数过多导致泛化能力下降。
- GRU层数初期增加提升性能,过多则过拟合,引起性能下降。
整体展现模型设定在中等复杂度下最为稳健,提示在实际应用中避免过深网络结构,防止过拟合。[page::5]
3.4 表2:消融实验
针对CSI 300与S&P 500,单独剔除长短期关系模块或GRU模块对预测指标影响:
- 单模块独立使用性能较差,远低于全组合。
- 组合任意两个模块均出现性能提升,表明各模块贡献互补。
- 全模块整合达到最佳指标,尤其年化收益率及夏普比率大幅优于其他组合,印证长期和短期关系以及时间序列共融的重要性。
此消融强化了论文核心设计——关系信息在提升预测准确率上的关键价值。[page::6]
3.5 图3:实盘策略回测效果
- 图中红线为本模型实际累计收益,蓝线为对应指数收益,黄色阴影为超额收益。
- CSI 300与CSI 500均显著跑赢大盘,曲线平稳上扬且超额回报较为稳定。
- 下方图反映超额收益最大回撤比例,结合年化风险指标一致显示模型有良好风险控制能力,最大回撤约5%,极低的下行风险。
该图表明模型不仅理论指标优越,还具备实际市场环境下的应用潜力和稳健性。[page::6]
---
4. 估值分析
本研究不涉及传统财务估值如DCF、P/E等,而重点在预测模型架构与性能指标。收益指标等实质为投资组合回报率统计,风险通过波动率与最大回撤衡量,均基于模型预测得出投资选股决策后实证数值。
主要价值在于:
- 创新性地将结构化行业关系网嵌入时间序列预测,提升预测准确性;
- 通过实验验证结合行业结构与短期动态关系,能够在实际交易中明显提升投资回报率和风险调整收益;
- 该方法能有效辅助股票量化投资决策,而非传统估值衡量。
---
5. 风险因素评估
报告中未专门列出风险因素部分,但可从模型设计及实验细节推断可能风险点:
- 数据量与质量风险: 短期关系依赖隔夜价格数据,数据异常或缺失或市况突变可能导致关联误判;长期行业分类变化或错误亦影响联系建模。
- 模型过拟合风险: 超参数敏感度显示模型在训练轮次及层数增加时存在过拟合,实际运行需谨慎调参。
- 市场环境变迁风险: 模型基于历史数据训练,未来极端事件或结构性变革(如政策、突发经济事件)可能导致预测失效。
- 交易执行风险: 模拟未考虑交易成本及滑点,实际应用存在市场冲击与成本风险。
报告通过实盘部署与长期回测一定减少了这些风险,且模型具备一定的适应性,但详细缓解策略或概率未明示。[page::4,5,6]
---
6. 批判性视角与细微差别
- 模型的复杂度与可解释性: 文章重点在提升预测准确性,未深入讨论模型的解释性,这对金融机构尤其重要。
- 短期关系定义的收益局限: 仅用隔夜开盘价的余弦相似度衡量短期关系,可能无法捕获盘中动态或非线性复杂关联,存在信息遗漏风险。
- 行业关系的静态假设: 长期关系依赖相对固定的行业分类,未考虑行业结构演变或跨行业融合,或低估行业异质性。
- 实验结果的格式问题: 表1中部分数据排版及数字有拼写或换行错误,可能不便于直观比较,需要整理辅助阅读。
- 外部风险与交易环境: 报告中交易成本忽略,实盘可能受影响,模型的稳健性在高交易频率和复杂市场环境中的验证仍需加强。
总体来说,报告较为严谨系统,创新性明显,实验验证充分,但对模型局限性和部分细节尚缺乏深入探讨。[page::4,5]
---
7. 结论性综合
本报告提出的LSR-IGRU模型有效融合了基于二级行业信息构建的长周期关系网络和基于隔夜价格变动的短期关系网络,通过改进的GRU输入结构将二者与时间序列特征无缝结合,显著提升了股票价格趋势预测的准确性。模型结构设计科学,关系矩阵维度覆盖股票与多层行业节点,有利于更好地理解股票间深层次的静态与动态关联性。
大量实验在四个中美主要股指数据集上验证了其超越传统模型、其他深度学习及强化学习和主流图神经网络模型的表现。性能指标如年化收益率、夏普率、最大回撤等均展现优势,尤其在高风险调整收益指标上领先,体现了模型的有效风险控制能力。超参数敏感性分析强调适合中等复杂度架构,有效防止过拟合。
消融研究进一步证实,长短期关系嵌入与GRU三大模块的协同作用不可替代,各模块信息互补,共同推动预测性能提升。实盘在EMoney Inc.金融公司的算法交易平台运行,超过一年时间收益稳定优越,最大回撤低,表明该模型具备实用的投资指导价值和商业应用前景。
综上,LSR-IGRU为股票趋势预测领域提供了一个融合多维关系及时间序列信息的有力框架,同时实现了理论方法与实际应用的成功对接。该工作有助于推动金融数据科学领域深度学习技术的边界,增强风险调整后投资收益率,促进智能化投资决策。
[page::0-7]
---
# 参考文献详见论文末尾。