Quantformer: from attention to profit with a quantitative transformer trading strategy
创建于 更新于
摘要
本文提出了Quantformer,一种基于改进Transformer架构的神经网络模型,用于构建投资因子以直接处理数值型时间序列数据。利用超5百万条涵盖4601只中国股票的滚动数据,结合市场情绪信息,Quantformer因子在不同交易频率下的预测准确性及回测表现显著优于传统100因子策略,表现出较高的年化收益率和风险调整能力,表明该模型对未来量化交易策略具有重要意义 [page::0][page::3][page::21][page::22][page::24]。
速读内容
Quantformer模型架构及创新设计 [page::3][page::10][page::11]
- 采用替代词嵌入的线性层,适配包括累计利润率和成交率的数值型时间序列数据输入。
- 去除传统Transformer中的位置编码和自回归解码屏蔽机制,简化结构以预测未来单点收益概率分布。
- 多头自注意力机制用于捕获不同时间步之间的信息交互,实现趋势预测。

实验数据与交易策略设置 [page::16][page::18]
- 数据涵盖2010年至2023年期间,中国沪深300指数内4601只股票的月度、周度和日度数据。
- 交易策略基于模型输出的概率排序股票,采用等权重分配,无做空,可调整选股比例。
- 采用夏普率、alpha、年化收益率、资产周转率和99% VaR等指标评估策略表现。
| 策略 | 年化收益率(AR) | 年化超额收益(AER) | 夏普率(SR) | Alpha | 99% VaR(%) |
|------------|-------------|-----------------|---------|--------|-----------|
| Month1 | 17.35% | 19.43% | 0.915 | 0.162 | 2.81 |
| Month2 | 9.91% | 13.86% | 0.289 | 0.102 | 3.61 |
| Month3 | 7.37% | 9.91% | 0.246 | 0.064 | 2.3 |
| Week3 | 12.3% | 12.73% | 0.372 | 0.116 | 3.77 |
| Day_2 | 10.23% | 10.94% | 0.279 | 0.097 | 3.91 |
| Benchmarks | 1.77% | - | -0.015 | - | 3.19 |
- Quantformer策略在所有周期均显著优于市场基准CSI 300及其他100个价格-成交量因子,最大回撤及风险指标处于领先水平。
量化策略表现及不同采样规模表现比较 [page::23][page::24][page::37]
- 不同训练集规模(如选取Top 20%、10%、5%、1%股票)均体现良好业绩,1%最优策略年化收益最高达24.71%,超额收益35.74%。
- 年化夏普率最高达0.967,Alpha为0.249,展现较强风险调整后收益能力。
- 量化策略的回测收益曲线高于基准和多数传统因子,表明Quantformer因子增强了投资信号的精准度。


Quantformer因子优势与研究意义 [page::0][page::21][page::24]
- 直接面向数值金融时序数据,克服传统Transformer处理文本序列局限。
- 结合市场情绪数据,提升市场动态捕捉与趋势预测能力。
- 实证证明在中国资本市场长期滚动数据下具备显著超额收益潜力,提示该结构在量化投资领域的广泛应用前景。
深度阅读
量化分析报告解读:《Quantformer: from attention to profit with a quantitative transformer trading strategy》
---
1. 元数据与概览
标题:Quantformer: from attention to profit with a quantitative transformer trading strategy
作者:Zhaofeng Zhang 等
出处和关联机构:多所知名高校与研究机构,包括北京师范大学—香港浸会大学珠海研究院、美国密歇根大学、新加坡国立大学等
时间:报告内容涵盖2010年至2023年的数据
主题:基于Transformer架构设计的量化交易策略“Quantformer”,用于中国资本市场股票趋势预测与投资因子构建
核心论点:
传统的量化交易面对金融市场动态复杂、变量丰富等挑战,难以精准捕捉长期依赖关系及重要信号。该报告提出了一种基于Transformer经过改良的神经网络架构,即Quantformer,通过转移学习(源自情感分析领域),有效处理数值型金融数据,提升股票趋势预测能力。Quantformer 在涵盖4601只中国股票、超过500万个滚动数据集的实证测试中,优于超100个传统价格-成交量因子,验证其预测准确性与盈利能力。
目标:构造新型因子、改进量化策略,增强交易信号准确性,推动Transformer技术在量化金融领域的应用。
[page::0,1]
---
2. 逐节深度解读
2.1. 引言与背景(第1-2页)
- 关键论点:
股票交易的核心是优化资本市场投资收益。市场复杂且波动剧烈,传统时间序列建模难以有效捕捉市场趋势。经典量化工具(如马科维茨组合理论、CAPM)偏重静态基本面分析,近年来因子模型(如Fama-French三因子和五因子模型)广泛应用,多因素组合策略引导股票选择和持仓管理。
- 交易结构:报告区分了两种基于因子的量化交易方法(见图1):
1. 基于因子值计算排序建立股票池,在固定持有期内持股,周期性调整。
2. 固定股票池,根据因子生成多空信号,动态响应市场变化。
- 机器学习的应用:
机器学习(ML)已成为量化策略核心,通过复杂数据关系抽取有效信号。对市场情绪的捕捉尤其重要,但传统NLP模型多处理文本,金融数据多为数值及分类数据,处理路径不同。此外,Transformer本质为seq2seq结构,自动回归生成任务,而股票预测为固定周期未来收益预测,需适配改造。
[page::1,2,3]
2.2. 相关研究综述(第2-8页)
- 传统ML模型:
- SVM因其对高维数据的处理能力曾用于股市趋势预测,但易过拟合,泛化性不足。
- LSTM与GRU作为循环神经网络的代表,擅长捕捉时间序列的长短期依赖,已被多篇文献及实证研究证明在金融预测中的效果优于传统模型。
- 结合注意力机制与CNN的新型网络提升了特征提取和时序建模能力。
- Transformer及其改进:
Transformer因其并行计算和长距离依赖捕捉优势,在文本处理领域取得突破。为适应金融时间序列,研究提出多种改良模型(详见表1),包括:
- 稀疏注意力机制(AST)
- 频域自相关(Autoformer)
- 分片时间序列建模(PatchTST)
- 位置编码的改进(删除或替代原始的位置信息处理,以适应时间序列固有顺序)
- 与其他模型融合(ConvLSTM、状态空间模型ProTran)
部分研究表明Transformer在股指预测、价格波动分类等任务中效果优越,但也存在缺点,如全局注意力过分关注单点相似性,忽略上下文影响。
- Quantformer创意点:
基于观察到时间序列固有顺序,取消传统位置编码模块,设计新的线性嵌入层适应数值输入,简化解码器结构以更符合未来收益概率预测任务,分别处理分类和数值型数据输入。
[page::5,6,7,8,9,10]
2.3. 方法与模型设计(第10-15页)
- 整体流程(图3简示):
1. 数据初始化:将股票时间序列数据整理为统一格式
2. 线性变换替代词嵌入,取消Transformer中的mask操作,直接输入数值向量
3. 利用多头自注意力编码器提取特征,实现股票收益预测
- 输入数据定义:
- 每只股票以20个连续时间戳(月、周、日)构成二维特征矩阵(价格收益率 + 换手率)
- 对时间点特征进行Z-score归一化,保证不同时间点数据均值为0、方差为1,强化特征间的可比性
- 输出标签为未来一个时间段收益率的分位数分类,利用分箱(one-hot编码)方式实现分类,例如三分位(top 20%、mid 20%、bottom 20%),其中中间区间可能被忽略
- Quantformer编码器细节:
- 输入先经过线性变换层替代Word Embedding,映射至隐藏空间维度d=16
- 多头注意力机制计算Query、Key、Value,使用缩放点积注意力
- 串联多头注意力输出,通过前馈层,得到最终表示
- 取消了传统Transformer的解码器mask和自回归机制,直接输出单步预测概率分布
- 损失与训练:
- 使用均方误差(MSE)作为训练损失,衡量预测概率分布与实际分类标签的差距
- 训练数据样本丰富,有效提升模型泛化能力
[page::11,12,13,14,15]
2.4. 实验设置(第16-19页)
- 数据来源及范围:
基于中国沪深两市4601只股票,时间跨度2010年-2023年,数据经复权调整以反映真实价格变动
- 多频数据处理:
- 分别构建月度、周度和日度数据序列,充分考察模型在不同时间粒度的适用性
- 针对月度标注维度分为3分类与5分类两种设计,设置null标签用于中间收益区间,部分实验排除null样本以避免噪声
- 模型训练细节:
- 采用PyTorch实现
- 超参数网格搜索确定,隐层维度16,多头注意力16头,编码层6层,训练50轮
- 使用Adam优化器,学习率0.001,批次大小64,硬件环境包含RTX 2070和A100 GPU
- 交易策略设计(算法1):
- 根据模型预测概率,股票按分位排名划分池子
- 选择指定数量的分位组内股票构建等权持仓,排除卖空(符合法规)
- 交易考虑手续费0.3%作为保守估计,以保证结果稳健
- 评价指标:
- 年化收益率(AR)、年化超额收益(AER)、胜率(WR)、夏普比率(SR)、Alpha值(风险调整超额收益)、组合换手率(TR)、99%置信VaR等
[page::16,17,18,19]
2.5. 实验结果与讨论(第21-24页)
- 整体表现:
- 月度策略中,Month 1表现最佳:AR达17.35%,AER 19.43%,SR高达0.915,VaR较低(2.81%),显示出高收益与良好风险控制能力
- 随持仓期延长,收益有所下降且波动提高,Month 3月换手率高达51.69%,风险略增
- 周、日度数据预测表现较波动,短期频率下胜率与回报均略逊色于月度数据
- 与100个传统基于价格-成交量的因子回测对比,quantformer因子优势明显:平均传统因子AR约为-3.78%,quantformer超额明显
- 模型训练规模影响:
- 训练不同规模(截取排名前10%、5%、1%等)后,QF1%策略最高AR 24.71%,AER 35.74%,但波动率也随之升高,表明风险与收益并存
- 不同训练规模表现均优于基准CSI300,表现出模型对训练数据采样比例的适应力及鲁棒性
- 图表分析(图4):
- 从回测收益曲线看,quantformer(月度第1组)持续跑赢基准及多数传统因子
- 夏普比率指标上也领先,最大回撤及VaR风险指标均处于优秀水平
- 附录:
- 详细因子对比结果展示quantformer在收益-风险权衡中表现突出
- 散点图进一步体现其Alpha异常收益显著,风险指标适中,综合投资价值优
[page::21,22,23,24,37,38]
---
3. 图表深度解读
图1:量化交易架构(第2页)
- 展示两大因子驱动交易策略路径:
1. 基于因子值构建股票池,持有至下一个窗口
2. 固定股票池,因子信号触发多空操作
- 支持定位不同交易频率策略的框架设计,强调因子对股票筛选与交易信号形成的核心作用
[page::2]

图2:股票预测示意(第3页)
- K线图例证过去趋势和未来走势的关系
- 强调预测目标是基于历史走势推断未来趋势的挑战
- 高亮模型对“未来趋势”的不确定预测任务,呼应Quantformer对长期依赖的捕获能力需求
[page::3]

图3:Quantformer整体框架(第11页)
- 展示数据流自时间序列初始化、线性变换嵌入、注意力计算到最终预测过程
- 突出词嵌入层替代为线性层,简化传统Transformer中复杂的mask操作
- 说明模型处理股票时间序列的核心机制和信息交互过程
[page::11]

图4:因子回测收益曲线(第23页)
- 多条趋势线展示Quantformer因子对比不同传统价格-成交量因子及市场指数的累积收益表现
- 量化因子表现(蓝线)明显持续高于基准CSI300(橙线),说明策略有效捕获股票潜在动能
- 传统因子大多收益波动剧烈,多数未跑赢基准
- 结合表3数值,验证Quantformer在收益与风险之间的较优均衡
[page::23]

图B.5:因子年化收益与VaR散点(第37页)
- X轴为风险指标VaR
- 点大小与颜色指示Alpha值,QF Month 1点明显处于高收益且伴有较佳Alpha,风险处于中等偏低区
- 说明Quantformer在收益-风险评估中综合优势突出,具较好实用性和风险控制能力
[page::37]

---
4. 估值分析
本报告主要聚焦策略研究与回测,没有涉及传统的公司估值模型。
但从量化交易策略的角度,估值可理解为策略的收益与风险比(如夏普率)、超额收益(Alpha)和最大回撤(Max Drawdown)等指标的综合表现。通过大样本历史数据及交叉验证,Quantformer展示了优秀的风险调整收益特性,隐含策略在实际市场中的风险收益权衡优异。
---
5. 风险因素评估
报告中论述的风险主要包括:
- 模型过拟合风险:传统ML模型(如SVM)在金融数据中易出现拟合训练集而泛化差的情况。Quantformer通过大量数据训练(4601只股票,500万数据点)及归一化处理降低此风险,且采用了合理的正则化策略。
- 市场极端事件风险:尽管未剔除收益和换手率中的极端值,模型仍试图捕捉并预测异常变动,表明策略对极端风险有一定适应性,但在黑天鹅事件中可能仍存在不可控风险。
- 策略实施风险:手续费设置保守(0.3%)考虑了实际交易成本,且禁用卖空符合中国市场规则,确保模拟尽量贴合真实环境。但仍有滑点、执行延迟等现实因素未明示。
- 样本外表现风险:测试期(2020-2023)较长,模型在多种市场环境下测试,表现稳健。但未来市场结构变动可能影响模型有效性。
总体,报告对风险识别明确,但未深入探讨缓解机制,多依赖数据驱动和模型设计抵御风险。
[page::5,10,18,21]
---
6. 批判性视角与细微差别
- 模型结构简化带来的潜在影响:删去位置编码与解码器mask操作符合数值时间序列特点,但去除位置编码是否使模型忽略微小时间差异尚需深入验证,可能影响部分高频态势判断。
- 标签设计中的“Null标签”处理:报告中对中间区间收益标签进行了忽略或包含两种处理方式,影响样本平衡和模型学习效果,建议明确比较两种标签处理对模型收益波动的影响。
- 风险收益指标的解释:某些周期或策略回测中出现负Alpha或负夏普,暗示非所有情形下模型优于基准,需重点关注策略适用范围及越界表现。
- 缺乏交易执行细节:虽介绍手续费设定,但实际交易中的滑点、成交失败等未详述,对策略实盘表现可能有影响。
- 数据集特征单一:模型仅输入价格收益与换手率两维特征,未融合更多宏观、基本面或新闻情绪等信息,影响模型预测深度和多样性。
总体而言,报告展现了方法创新及良好实验结果,但在部分关键假设和实盘环境适应方面应进一步完善说明。
[page::10,16,18,21]
---
7. 结论性综合
本报告系统详细地介绍并实现了Quantformer,一种基于Transformer改良设计的量化交易因子构建模型,专门适配数值时间序列预测未来股票收益分位。通过取消传统Transformer中的词嵌入与位置编码,改用线性层替代词嵌入,简化解码器结构以适应分类预测任务,解决了模型难以处理数值金融数据的问题。
通过覆盖4601只股、超过十年数据的丰富训练与严格的滚动回测,Quantformer因子表现超越100余个传统价格-成交量因子,在年化收益率、夏普比率、Alpha值和风险控制(VaR、回撤)等方面皆表现优异,显示出良好的投资价值和风险调整能力。其对月度数据的建模优于周度、日度,反映了不同频率对策略表现的影响。
模型在不同训练规模及分位数截断上均展示稳健性,支持Quantformer作为灵活且有效的量化工具,有助于改进因子构建和股票选取。
报告所述的架构和实证结果为机器学习尤其是Transformer结构在金融量化领域的落地应用提供了鲜活案例。虽然仍存在部分设计假设和现实交易环境限制,Quantformer为未来更深度融合异构数据、多维市场特征提供了重要基础。
总的来看,作者明确而有力地论证了Quantformer策略的创新意义与实用价值,展现了Transformer在金融时间序列预测与量化因子设计中的潜力,值得进一步推广和优化。
[page::0,21,22,23,24]
---
附:术语及关键概念简释
- Transformer:基于自注意力机制的神经网络架构,擅长捕获序列中远距离依赖关系,具备并行处理优势。
- 注意力机制(Attention):通过计算query与key的相似度为输入赋予不同权重,强化关键信息捕获能力。
- 多头注意力(Multi-head Attention):并行计算多组注意力,增强模型对不同信息子空间的感知。
- 线性嵌入(Linear Embedding):用线性变换替代文本中的词嵌入,适应数值序列输入。
- Z-score归一化:减去均值除以标准差,使数据具备零均值和单位方差,以缓解尺度差异带来的影响。
- Sharpe Ratio(夏普比率):风险调整后收益衡量指标,值越大表示单位风险承担获得的超额收益越高。
- Alpha:风格调整后的超额收益,衡量策略能力超过市场平均水平的表现。
- Value at Risk (VaR):特定置信水平下,可能发生的最大潜在损失。
---
综述
本报告充分展现了“Quantformer”模型在量化金融领域的创新性利用Transformer进行股票收益分位预测的优势。研究既结合理论模型改良,也实现了丰富的经验回测验证,展示了其高收益、高稳定性的双重价值。清晰的方法论与详实的实验数据为未来Transformer在量化交易中的深入应用奠定了坚实基础。
以上分析涵盖报告的所有关键论点、数据、实验设计、风险提示及图表,从模型创新到实证检验一应俱全,确保内容信息完整且便于理解。报告提供的开源代码进一步增强了可复制性与实践价值。相信这份研究对金融机器学习及投资策略设计领域均有较大启发意义。