StockFormer: Learning Hybrid Trading Machines with Predictive Coding
创建于 更新于
摘要
本文提出了StockFormer,一种融合预测编码和强化学习的混合交易模型。该模型通过三条Transformer分支分别学习长期、短期和资产关系隐状态,并利用多头注意力机制融合这些状态实现策略优化。实验证明StockFormer在股票及加密货币市场多数据集上显著提升了投资组合收益率和夏普比率,优于现有方法 [page::0][page::1][page::4][page::5][page::6]。
速读内容
- StockFormer创新点 [page::0][page::1]:
- 融合预测编码(self-supervised学习三类隐状态:长期、短期和关系)与强化学习(软演员-评论家SAC)。
- 三条Transformer分支分别捕捉不同时间尺度的资产动态和资产间关系。
- 通过多头注意力层级融合隐状态,形成统一状态空间供策略学习。
- 体系结构和方法细节 [page::2][page::3][page::4]:


- 引入多头前馈网络改进多头注意力模块(DMH-Attn),加强在多资产序列间捕捉多样化时序模式。
- 关系推断模块通过重建被遮掩技术指标学习资产间关联。
- 短期与长期预测模块分别预测未来1天和5天的资产回报率,并加入回归与排序损失。
- 融合模块自上而下地用多头注意力将长期、短期和关系状态整合。
- 采用SAC算法联合训练策略,评论家梯度反向传播至关系推断模块,实现联合学习。
- 实验数据与对比方法 [page::5]:
| 市场 | 资产数量 | 训练天数 | 测试天数 |
|-------------|----------|----------|----------|
| CSI-300 | 88 | 1935 | 728 |
| NASDAQ-100 | 86 | 2000 | 756 |
| Cryptocurrency | 27 | 1108 | 258 |
- 对比基准包括市场指数、最小方差组合、主流股价预测模型及强化学习模型(SAC、DDPG、SARL、FinRL)。
- 性能表现总结 [page::4][page::5]:

- StockFormer在CSI-300数据集实现累计收益和夏普比率显著超越所有基线。
- 与直接用SAC相比,StockFormer在不同数据集上的年化收益率提升20%-40%,夏普比率也有较大提升。
- 在加密货币市场,StockFormer表现优于大部分股价预测模型,风险控制能力更优。
- 量化策略与因子构建亮点 [page::3][page::4][page::6]:
- 因子由三个Transformer隐状态构成:长期预测因子、短期预测因子、资产关系因子。
- 策略通过级联多头注意力融合这些因子形成统一状态表示。
- 交易动作连续,模拟真实买卖持仓操作,策略通过SAC自动学习最优化交易决策。
- 关键创新在于利用预测编码学习未来市场动态潜在状态,并允许评论家梯度反馈促进关联关系因子学习。
- 消融实验显示三分支均为提升收益和风险收益率的关键组成。
- 采用多头FFN提高Transformer并行解耦能力,进一步提升表现。
- 消融与架构优化结果 [page::6]:
| 变体 | PR | SR |
|----------------------------|-------|------|
| 去除关系状态 | 1.42 | 1.43 |
| 去除短期预测状态 | 1.53 | 1.43 |
| 去除长期预测状态 | 1.45 | 1.34 |
| StockFormer完整模型 | 2.47 | 1.73 |
- 使用多头FFN注意力块显著优于原始FFN设计。
- 多头注意力融合策略状态优于简单两层前馈网络。
- 训练阶段联合反向传播评论家梯度至关系推断模块提升显著。
深度阅读
StockFormer: Learning Hybrid Trading Machines with Predictive Coding — 深度解析报告
---
1. 元数据与概览 (引言与报告概览)
报告标题:StockFormer: Learning Hybrid Trading Machines with Predictive Coding
作者:Siyu Gao, Yunbo Wang, Xiaokang Yang
发布机构:上海交通大学人工智能学院(MoE Key Lab of Artificial Intelligence)
会议:IJCAI 2023(国际人工智能联合会议第32届)
主题:结合预测编码与强化学习的股票交易自动决策系统
核心论点与主题:本报告提出了一种名为StockFormer的混合型交易机器,创新性地将预测编码(self-supervised learning中的一种表征学习技术)与强化学习(RL)的优势结合,通过三个基于Transformer的分支分别提取长短期价格动态和资产关联的有效隐状态,进而用强化学习中的actor-critic算法来优化交易策略。
该方法显著优于当前主流的股票预测模型和RL-for-finance方案,在多个公开的股票和加密货币数据集上,在组合收益和风险调整收益(Sharpe比率)方面均取得最佳表现。作者希望传达的信息是:通过引入预测编码提取未来走势和资产关系的有效状态,结合强化学习策略优化,可以设计更加灵活和有效的财经交易策略。
---
2. 逐节深度解读
2.1 摘要与介绍部分
- 关键内容总结:传统金融领域强化学习模型通常直接操作嘈杂的原始市场数据如价格和交易量,忽略了未来趋势和资产间动态关系。StockFormer通过引入预测编码技术,以三支Transformer分支分别编码长期、短期未来走势及资产关系隐状态,融合成统一状态空间,由actor-critic RL算法决策。
- 逻辑支撑:预测编码从未标注数据中学习关键信息的能力使得模型能隔离有用的未来趋势信息,避免嘈杂市场数据的陷阱。将这种自监督学习得到的表征融合到RL中,使决策设计更加稳健和灵活。
- 技术亮点:多头前馈网络(multi-head FFNs)用于多资产时间序列中模式多样性建模,有效提升Transformer对复杂市场动态的捕捉。
- 假设点:假设预测编码能提供更加有意义、浓缩的隐状态,有利于强化学习策略优化。将股市时序波动及复杂关系通过多分支表示有效分解。
2.2 相关工作(第2页)
- StockFormer区别于以往纯股票预测和纯RL-for-finance方法(见表1)。例如,FactorVAE是纯预测模型,执行固定买卖规则;而SARL是RL-for-finance框架,状态仅包含市场观测信息和资产价格运动信号。
- StockFormer的状态空间设计基于多维预测编码表示,融合时序及关联信息,打破了传统单一观测数据状态的限制,体现出混合框架的创新。
- 相关工作中,状态定义、奖励方案及RL算法多样,StockFormer结合了预测编码和SAC这样先进的actor-critic算法,为解决高维、嘈杂市场数据带来新的解决方案。
2.3 投资组合优化视为POMDP(第3页)
- 报告对传统Markov决策过程(MDP)进行拓展,提出使用部分可观测MDP(POMDP)模型,详细使用7元组定义$(\mathcal{O},\mathcal{S},\mathcal{A},\mathcal{T},\mathcal{Z},\mathcal{R},\gamma)$,其中$\mathcal{O}$是市场观测空间,$\mathcal{S}$是真实潜在状态空间,反映市场真实隐层动态。
- 观测空间包含股票的历史开收高低价及交易量(组成三维张量$T\times N\times5$),技术指标(如MACD、RSI等),以及股票间收盘价的协方差矩阵,进一步用$O_{t}^{\mathrm{relat}}$表示指标和协方差拼接后的信息。
- 状态空间$S$由三种潜在空间和账户资产持仓组成,行动空间为连续的买卖持仓比例,奖励定义为每日组合回报。此定义较好体现金融市场信息的复杂性及投资人的部分信息观测特性。
2.4 StockFormer模型设计(第3-4页)
- StockFormer包含两阶段训练:自监督的预测编码阶段和强化学习的策略优化阶段。
- 预测编码阶段利用三支带有改进多头注意力结构(DMH-Attn)的Transformer分支,分别学习:
1. 关系推断模块:捕捉不同资产间的动态关联,通过掩码技术训练Transformer还原被屏蔽的指标。
2. 短期未来预测模块:预测一日后股票回报,强化模型捕捉短期时序动态。
3. 长期未来预测模块:预测未来5天的股票回报,增强长周期趋势捕捉能力。
- 预测编码损失利用均方误差及股票回报顺序排名损失,保证预测的准确性与相对顺序合理性。Decoder结构承担具体预测任务,而Encoder输出作为RL输入状态。
- 决策模块中,三个状态经过多层多头注意力机制级联融合,最终结合持仓信息形成完整状态向量输入actor及critic网络,方便策略与价值学习。
- RL阶段使用Soft Actor-Critic(SAC)算法,实现样本高效且策略稳定优化,Critic梯度还能回传至预测编码部分,实现端到端联合训练,强化状态表示的市场相关性挖掘。
---
3. 图表深度解读
3.1 表1(第1页)
- 内容:对比StockFormer与之前的股票预测方法和RL-for-finance方法的根本区别,涉及交易策略是否固定、自监督学习的引入以及状态空间定义差异。
- 意义:明确表明StockFormer在交易策略灵活性和状态空间设计的创新,侧重于利用自监督学习的预测编码构建更丰富的状态描述。
3.2 图1(第2页)
- 内容描述:图1左侧展示了修改后的多头注意力模块(DMH-Attn),用多头前馈网络替代单一前馈网络以增强对多资产时间序列不同模式的分离建模能力。右侧为预测编码分支的编码-解码结构,输入经过嵌入后用DMH-Attn进行特征抽取,并预测未来回报或缺失信息。
- 数据与趋势解读:这表明StockFormer创新性地改善Transformer的注意力层以适应多资产多样性,提升了模型对嘈杂金融数据中复杂关系和时序动态的表征能力。
- 文本联系:为后续RL策略提供完善且凝练的状态表征,降低策略学习的难度与提高效果。
3.3 图2(第3页)
- 内容描述:整体模型架构示意图,左侧为关系推断模块与两个未来预测模块输入,输出三个不同的状态空间通道。右侧为决策模块,包括多层多头注意力融合层及actor、critic神经网络。实线箭头显示数据流,虚线箭头展示critic梯度回传路径。
- 数据与趋势解读:清楚展示了模块间数据依赖关系及联合训练策略,强化critic对关系模块的反馈,促进关联表征提纯,达成更好交易决策。
- 文本联系:体现了报告提出的创新训练机制和模块设计思想,验证了联合优化的技术可行性。
3.4 表2(第4页)
- 内容:列出三个实验数据集的市场名称(CSI-300、NASDAQ-100、Cryptocurrency)、资产数量及训练/测试天数。
- 意义:数据组织详实,资产数量适中,时间跨度涵盖多年,保证实验结果的代表性和泛化能力。
3.5 图3(第5页)
- 内容描述:展示CSI和NASDAQ测试集上的累计组合回报曲线,StockFormer明显领先其他模型,图中红色基线为StockFormer单独未来预测模块(baseline)。
- 趋势解读:StockFormer走势稳健且显著优越,验证引入关系编码和策略优化带来实质收益提升。基线模型优于此前诸如HATR、Relational Ranking、AutoFormer等,体现Transformer架构与多头FFNs的预测能力。
- 文本联系:强调复合模型设计有效性,以及RL策略对收益提升的重要作用。
3.6 表3(第5页)
- 内容说明:详细量化各模型在组合收益(PR)、年化收益(AR)、夏普比率(SR)和最大回撤(MDD)指标的表现,三个数据集均包含。
- 关键数据解读:
- StockFormer相比基线SAC在CSI-300与NASDAQ-100的PR提高约40%,SR提升近20%;在加密货币市场表现更稳健,收益和夏普皆优。
- 传统股票预测模型多数在加密货币数据集表现为负收益,凸显动态与非平稳性影响,而RL模型能更好适应。
- 文本联系:综合体现StockFormer的强大性能优势及模型的广泛适用性。
3.7 表4—表7(第6页)
- 表4:个别Transformer支路移除带来的性能下降,验证各模块均为功不可没,三分支互补。
- 表5:使用多头FFN的注意力块带来显著性能提升,证实新架构优势。
- 表6:决策模块中采用多头注意力融合状态,较简单FC层进一步提高性能,表明设计合理。
- 表7:联合训练中只将critic梯度回传至关系模块效果显著优于不回传或回传actor梯度,反映联合训练设计的重要性。
---
4. 估值分析
该报告属于方法学研究,未包含公司或资产估值分析部分,故无估值内容。
---
5. 风险因素评估
报告未明确单独列出风险因素部分,但可从以下细节推测潜在风险:
- 模型依赖市场数据质量:尽管采用预测编码减少嘈杂影响,但数据缺失、异常波动仍可能影响预测准确性。
- 市场非平稳性挑战:如加密货币市场表现了负收益,说明高波动环境中模型仍面临挑战。
- 计算复杂度:多支Transformer模型及多头FFNs带来的训练和推理成本可能较高,限制实际部署。
- 策略通用性:尽管在三种数据集表现突出,但对于新兴市场或者极端行情的适应需进一步验证。
- 缓解策略:联合训练机制在一定程度提升了模型稳健性,训练时用掩码技术也增强泛化,但具体应对异常状况的方案未详述。
---
6. 批判性视角与细微差别
- 综合性与创新性很强,但复杂性较高:模型结构中三支Transformer分支及多层多头注意力融合设计,相较传统模型明显复杂,训练时间与超参调优难度较高。
- 回传梯度仅限关系模块:策略中只回传critic梯度到关系模块,未回传到预测模块可能存在潜在优化空间,但设计可能基于稳定性考虑。
- 假设未来趋势可稳定预测:预测模块以固定天数为预测窗口,隐含了稳定波动假设,但市场受多重黑天鹅事件影响波动巨大。
- 未对比更复杂RL方法:如分层RL、多智能体RL等相比,未明确说明其优劣。
- 加密货币市场的负收益问题:未来预测模块单独使用时表现差,说明模型在强非平稳环境的短板,联合训练才实现优势。
- 实验只用市值较大资产:使用98%上榜率筛选,可能忽略小盘股的动态,影响资产多样性展示。
---
7. 结论性综合
报告贡献总结:
- 技术创新点:StockFormer创造性融合了预测编码与强化学习,把长短期未来资产动态与资产间关联通过三个Transformer分支分解提取,进而通过多头注意力级联融合,为策略决策提供统一且丰富的隐状态表示。
- 训练策略:采用自监督预测编码阶段和强化学习阶段联合训练,critics梯度反馈提高了关系模块表征能力,二者深度绑定增强了模型稳定性和收益表现。
- 性能表现:在CSI-300、NASDAQ-100和加密货币三个多样化公开数据集上,StockFormer均显著超越传统股票预测和多种RL基准方法,表现出更高的年化收益、Sharpe比率以及更低回撤风险。
- 图表洞察:表1体现其区别于现有方法的核心设计;图1、图2展示模块细节及依赖关系;图3和表3验证了性能领先优势;表4至7的消融实验明确各组件和训练细节对整体性能的贡献和必要性,展现设计合理且科学。
整体立场:作者坚定支持StockFormer是当前RL-for-finance领域一条具有开创性的研究路径,既融合了深度时序预测的表示优势,也兼顾RL灵活、自适应的交易策略优化能力,推动了自动交易系统从理论到实操的提高。
---
综上,本报告内容系统全面,技术论证严密,实验设计合理,数据支持充分,对金融AI领域的学术研究与实际应用均具有较高的参考价值和启发意义。[page::0,1,2,3,4,5,6]