`

Quantum Reinforcement Learning Trading Agent for Sector Rotation in the Taiwan Stock Market

创建于 更新于

摘要

本报告提出了一种基于混合量子-经典强化学习框架的台湾股票市场行业轮动策略,采用PPO算法结合LSTM、Transformer等经典模型与多种量子增强模型(QNN、QRWKV、QASA)进行对比。实验结果显示,量子模型训练时获得更高奖励但实际投资表现逊于经典模型,揭示了代理奖励信号与真实投资目标之间的脱节问题,并对未来的奖励设计和正则化提出改进建议[page::0][page::4][page::5]。

速读内容


量子强化学习在台湾股市行业轮动策略中的应用框架 [page::1][page::2]


  • 采用Proximal Policy Optimization (PPO)算法,兼容LSTM、Transformer等经典构架与量子变分电路(QNN、QRWKV、QASA);

- 以行业轮动为任务环境,输入统一的技术指标特征矩阵进行投资组合调仓 。

多种模型结构与量子增强组件设计 [page::2][page::3]




  • 经典架构包括两层LSTM和Transformer,量子模型通过角度编码输入经典特征;

- 量子组件包括QNN量子神经网络、结合量子电路的RWKV递归模型、以及基于量子注意力机制(QASA)的改进Transformer;
  • 量子部分在提升表达能力与捕获复杂依赖的同时受限于NISQ硬件噪声和训练不稳定性。


统一特征工程与训练设计 [page::3][page::4]

  • 汇集技术指标如移动平均线(10/20/50日SMA)、动量(5/10日价格差)、历史波动率等构建模型输入;

- 奖励设计基于次日行业市值排名前十的正确预测,奖励1分,错误则-0.1惩罚,鼓励短期市场领导行为预测;
  • 训练采用PPO,参数设置包括折扣因子γ=0.99,剪切区间ε=0.2,10个PPO周期,分别优化策略和价值网络。


量子与经典模型表现对比与分析 [page::4][page::5]


| 模型 | 最终训练奖励 | 累计收益率 | 年化收益率 | 年化波动率 | 夏普比率 | 最大回撤 |
|-------------|---------------|------------|------------|------------|----------|------------|
| LSTM [9] | 2737.00 | 125.33% | 16.90% | 19.25% | 0.88 | -31.98% |
| Transformer [10] | 2795.30 | 124.29% | 16.80% | 19.16% | 0.88 | -35.31% |
| QNN [11] | 2847.00 | 105.93% | 14.89% | 19.18% | 0.78 | -32.26% |
| QRWKV | 2653.40 | 103.91% | 14.68% | 19.18% | 0.77 | -32.75% |
| QASA [13] | 2883.30 | 93.14% | 13.49% | 19.03% | 0.71 | -31.73% |
  • 量子增强模型训练奖励最高,但累积收益和夏普率均不及经典模型;

- QASA表现最差,可能因量子注意力机制导致的过拟合和优化不稳定;
  • 各模型夏普率和回撤差异不大,主要差距在于收益生成能力。


量子强化学习面临的挑战及未来方向 [page::5]

  • 明显的训练奖励与真实投资绩效脱节,量子模型更显著,需改进奖励函数设计以匹配长线投资目标;

- 训练不稳定、过拟合及NISQ设备限制是量子强化学习实际应用中的核心阻碍;
  • 提议未来研究聚焦于奖励整形、模型正则化及基于验证的早停机制以提升量子模型实际表现。

深度阅读

金融研究报告详尽解析


报告标题:《Quantum Reinforcement Learning Trading Agent for Sector Rotation in the Taiwan Stock Market》
作者:Chi-Sheng Chen, Xinyu Zhang, Ya-Chuan Chen
发布机构:Neuro Industry, Inc., The University of Alabama, Industrial Technology Research Institute
时间:报告页码索引0-5(具体日期未明确标注)
主题:结合量子与经典强化学习技术,针对台湾股市行业轮动策略提出的交易代理模型研究

---

1. 元数据与概览(引言与报告概览)



本报告提出了一种混合量子-经典强化学习(QRL)框架,用于台湾股票市场行业轮动的投资决策。系统基于知名强化学习算法——Proximal Policy Optimization(PPO),集成了经典深度学习模型(如LSTM和Transformer)与量子增强模型(QNN、QRWKV、QASA)作为策略和值网络。文中设计了自动化特征工程管道,用以统一提取行业级资本占比等多维金融指标,保证各种模型共享一致的输入数据。

报告核心发现之一是:虽然量子增强模型在训练阶段获得了较高的代理奖励(proxy reward),但在实际的投资绩效(累计收益率、Sharpe比率)表现上,却均不及传统经典模型。这反映了强化学习中的奖励函数设计与真实金融目标之间存在根本的失配问题,同时也揭露了NISQ(Noisy Intermediate-Scale Quantum)硬件自身噪声、训练不稳定性与量子模型表达能力等限制对实际策略泛化的影响。报告最后提出了针对奖励设计、正则化、早停等改进方向,旨在缩小该差异并提升量子强化学习在金融实战中的有效性。

---

2. 逐节深度解读



第一部分 引言与背景


  • 金融市场特点与行业轮动定义:

市场动态复杂且噪声丰富,行业轮动策略即根据经济周期的不同阶段调整资金在不同行业间配置,以实现风险管理和超额收益。
  • 强化学习优势:

RL适合处理序列决策和不确定环境,能动态调整策略以最大化长期奖励,区别于静态的规则或监督学习方法。
  • 主要贡献:

1) 建立实证QRL行业轮动基准;
2) 系统比较经典与量子模型在PPO框架下的表现;
3) 深入分析训练奖励与投资性能之间差距,提供改进建议。

第二部分 相关工作


  • 行业轮动策略:

概述传统的自上而下(宏观经济指标导向)与自下而上(公司基本面分析)的方式,及其有限的动态适应能力,强调量化与规则基模型的静态特性,以及强化学习潜力。
  • 金融领域中的强化学习使用:

覆盖资产配置、交易等,强调RL依赖于设计合理的奖励函数匹配投资目标,指出奖励设计不当易导致过拟合训练代理奖励而忽视风险调整的真实收益。
  • 量子机器学习(QML)与强化学习(QRL):

介绍结合量子计算优势(叠加、纠缠)理论上能够提供更丰富策略表达能力与优化潜力,但受限于NISQ硬件的噪音和训练困境(例如barren plateau)而尚处实验阶段。

第三部分 方法论


  • 问题建模:

将行业轮动视为基于时序金融状态向量(技术指标等)选择多行业配置动作的马尔可夫决策过程,目标最大化累积折现奖励。
  • 框架设计:

使用PPO算法,以夹紧概率比率防止策略过度更新,通过熵正则化鼓励探索。支持多种可替换策略网络,包括经典LSTM、Transformer及三种变种量子模型。
  • 策略网络细节:


经典模型

- LSTM结构: 通过遗忘门、输入门、输出门与记忆单元状态更新控制信息流,能捕获长程时序依赖。

- Transformer结构: 纯注意力机制,非递归,采用多头自注意力机制捕捉全局上下文,辅以前馈网络和残差连接。

量子增强模型

- QNN:经典特征经线性变换后以角度旋转门(Rx, Rz, Ry)编码入低维量子态,量子门阵列包含纠缠层,输出为测量结果。

- QRWKV:基于RWKV时序模型,部分前馈层被量子电路取代,量子层增强时序信息混合能力。

- QASA:基于Transformer的量子自注意力模型,将经典点积注意力替换成量子关注机制,通过量子态测量近似查询-键相似度,支持非线性和高阶相关性表达。
  • 自动化特征工程:

包括多日长度均线(10,20,50日SMA)、不同周期动量指标(5,10日)及基于对数收益的历史波动率估计,确保所有模型在同输入条件下训练。
  • 训练与奖励设计:

代理受激励预测未来一个时间点排名前N(此处N=10)行业,如果选中行业位列前N则奖励1,否则惩罚-0.1。奖励聚焦短期预测准确度,而非长期风险收益表现。PPO利用优势函数和概率比率裁剪实现稳定训练。

---

3. 图表深度解读



图1 行业轮动环境流程图 (页1)


  • 描述了RL代理与环境的交互过程:当前状态$st$输入量子策略网络以产生动作$at$,执行后获得奖励$rt$及环境新状态$s{t+1}$,价值网络估计当前值函数$V{\phi}(st)$以计算优势函数$At$用于PPO目标函数优化。
  • 支持量子Actor(策略网络)与量子Critic(价值网络)组件,展示了QRL架构核心训练机制。


图2 QNN量子电路结构(页2)


  • 基于角度编码的量子态编码方案,输入$xi$通过旋转门($Rx$, $Rz$, $Ry$)依次作用于$n$个初始化为$|0\rangle$的量子比特。比特间通过CNOT门实现纠缠。
  • 体现将经典输入映射到量子态空间的基本量子神经网络设计,是量子表达能力的核心体现。


图3 QRWKV单层网络结构(页2)


  • 展示量子增强RWKV模型内部,带时间混合模块和量子通道混合层。输入先经层归一化和时间混合,后经另一层归一化和包含量子电路的通道混合,最终输出用于预测。
  • 说明量子模块与经典结构精巧融合,保留时序递归特性同时引入量子表达能力。


图4 QASA模型架构(页3)


  • 详细流程展示:输入先经过分词与位置编码,经过若干Transformer编码层和量子编码层交替堆叠,量子编码层替代经典自注意力,最终输出预测结果。
  • 该量子注意力机制以量子电路计算查询-键相似度,具备潜在的非线性与高维拓展优势。


图5 QASA量子注意力电路示意(页3)


  • 输入查询$qi$和键$kj$编码为旋转角度,经过量子门(Rx, Rz旋转与CNOT纠缠门),以期望值测量得到注意力分数$\alpha{ij}$。
  • 反映了量子电路替代经典相似度计算部分的实现细节。


---

4. 估值分析



报告并未聚焦于传统的企业估值模型(DCF、市盈率等),而是以强化学习中的代理奖励函数(奖励设计)及其与实际投资指标间的关系为核心"估值"分析点。
  • 代理奖励基于预测未来行业排名,奖励/惩罚机制科学性仍存在限制,未直接刻画投资收益或风险调整回报。
  • PPO算法作为策略优化工具,通过最大化裁剪的优势函数稳定提升策略质量。
  • 量子模型通过变分量子电路增强策略表达能力,希望在有限量子比特和电路深度条件下逼近更优策略,但并未直接体现金融市场的估值技术。


---

5. 风险因素评估



报告在“讨论”部分分析了关键风险和挑战:
  • 代理奖励与真实投资目标不匹配的风险,导致策略过拟合训练阶段的代理奖励,无法在实际市场环境中稳定获益。
  • NISQ硬件限制带来的噪声和训练不稳定性,包括量子电路训练的barren plateau问题,放大了策略训练过程中的不确定性和过拟合倾向。
  • 量子模型的过强表达能力与泛化能力的矛盾,可能导致识别出训练数据中的噪声与短期波动作为规律,从而牺牲了长期稳健性。
  • 优化和正则化策略不足,当前未采用足够的模型约束和早停策略,提升模型泛化能力的空间仍较大。


报告未详细列出具体缓解风险的概率估计,但提及未来将探索奖励函数设计的改进、正则化策略以及基于验证集的早停等方法。

---

6. 批判性视角与细微差别


  • 报告保持较强的客观审慎,反复强调目前量子强化学习虽然在理论和训练奖励上具优势,但实际投资指标较弱,提示量子模型当前还未优于经典模型。
  • 奖励函数设计方面有明显不足,尽管虽采用简单易计算的代理奖励,但未能涵盖风险调整回报等长期指标,存在内在的设计偏差。
  • 报告揭示了量子模型训练时表现出的过拟合和不稳定性问题,但未深入探索具体量子电路设计对该问题的定量影响,留有进一步细节空间。
  • 在量子与经典模型性能对比时,强调了量子模型“表达能力过强”可能带来的负面影响,这种观点虽合理,但需更多更广泛实证验证。
  • 各模型风险指标(如最大回撤等)相对接近,暗示风险控制能力相似,多数性能差异源于收益生成效率。


---

7. 结论性综合



本报告系统构建并验证了基于PPO的混合量子-经典强化学习框架,用于台湾股票市场行业的轮动交易策略,创新点主要在于引入多种量子增强网络(QNN、QRWKV、QASA)与传统深度学习模型(LSTM、Transformer)在统一环境下进行公平比较。
  • 实验结果表明,尽管量子模型在训练阶段达到了优于经典模型的代理奖励,反映了其强大的拟合能力及表达潜力,[page::0,4,5],但在关键的实际投资指标(累计回报、年化收益率、Sharpe比率)上均未超过经典模型,且存在一定的收益效率下降,表明量子模型训练过程中更易陷入代理奖励的过拟合,未能很好泛化于真实风险调整后的投资目标,[page::4-5]。
  • 这一“奖励-回报失配”的现象揭示了当前金融RL研究中根本的挑战,那就是代理奖励函数未充分捕捉真实投资者最关心的风险和回报平衡,[page::0,4,5]。同时,NISQ软硬件环境的限制、噪声影响和量子电路训练的不稳定性也是量子模型表现受限的重要因素。
  • 报告通过详细的量子模型架构(如QNN的角度编码,QRWKV的时序混合,QASA的量子自注意力机制)图示和数学定义,展示了当前量子强化学习策略设计的前沿方法论,[page::2,3]。
  • 表1(页5)总结了所有模型最终训练奖励及实际投资绩效,清晰体现了训练奖励与投资绩效之间系统性偏差,这为未来奖励函数设计及模型正则化提供了量化证据和改进方向。


最终,报告认为要实现量子强化学习在金融实战中的有效应用,必须重新设计奖励函数以更贴合长期风险调整的收益目标,并引入有效的正则化、早停和验证机制;同时关注NISQ技术进步以提升量子模型训练稳定性和泛化能力,[page::0,4,5]。

---

附录——表格解读



表1:最终训练奖励与评估指标对比

| 模型 | 训练奖励 | 累计收益率 | 年化收益率 | 年化波动率 | Sharpe比率 | 最大回撤 |
|------------|------------|--------------|------------|------------|------------|--------------|
| LSTM | 2737.00 | 125.33% | 16.90% | 19.25% | 0.88 | -31.98% |
| Transformer| 2795.30 | 124.29% | 16.80% | 19.16% | 0.88 | -35.31% |
| QNN | 2847.00 | 105.93% | 14.89% | 19.18% | 0.78 | -32.26% |
| QRWKV | 2653.40 | 103.91% | 14.68% | 19.18% | 0.77 | -32.75% |
| QASA | 2883.30| 93.14% | 13.49% | 19.03% | 0.71 | -31.73% |
  • 量子模型QASA训练奖励最高(2883.30),但表现最差(累计收益率93.14%、Sharpe 0.71);LSTM和Transformer在投资指标中具明显优势(累计收益超125%,Sharpe 0.88上述)。
  • 年化波动率相近,表明风险控制能力差异不大,收益水平差异显著。
  • 最大回撤在30%左右,体现均有一定回撤风险,但回撤深度未与模型性能相关。


该表反映量子模型目前更倾向于"训练奖励的快速提升"而非"稳健投资绩效",[page::5]。

---

总结



整体而言,报告严谨构建了基于台湾股市数据的量子强化学习行业轮动基准,详述经典与量子模型结构及训练方法,并通过系统实验揭示了代理奖励与真实投资指标的分歧,强调实际应用的奖励设计重要性及量子模型在NISQ时代的局限。该研究为金融领域量子强化学习的实证验证提供了宝贵参考和后续研究方向。

---

参考页码溯源



本分析中的重要结论均附有对应页码标识,便于后续文本溯源:
[page::0,1,2,3,4,5]

---

如需进一步针对某个具体章节、图表或模型细节进行深入解读,欢迎继续咨询。

报告