`

人工智能系列之 75:patch 思想用于长时间序列量价选股模型

创建于 更新于

摘要

本报告针对传统GRU模型处理长时间序列量价数据的不足,创新性引入交易日划分的patch思想,构建PatchModel1与PatchModel2,并验证其在15分钟与30分钟频率量价数据的选股效果。研究发现,patch模型在增量信息捕捉上优于GRU,尤其15分钟频率下模型融合显著提升因子预测和年化超额收益。基于改进的全频段融合因子2.0版本,开发中证500和中证1000指数增强组合,展示良好追踪误差控制与高信息比率,彰显AI量化模型在短期选股上的有效性及应用潜力 [page::0][page::2][page::9][page::12][page::13][page::16]

速读内容


传统GRU模型局限与Patch思想引入 [page::0][page::2]

  • 传统GRU在处理长序列时出现信息遗忘、难捕捉日内与日间周期异质性问题。

- Patch思想通过将长序列按交易日划分块,局部挖掘时序规律并引入先验周期知识。
  • 相关研究(PatchTST、多尺度Transformer等)表明patch在时间序列预测表现优异。


PatchModel1与PatchModel2设计及模型结构 [page::5][page::6]

  • PatchModel1先用GRU建模日内序列,再用注意力机制捕捉日间联系。

- PatchModel2拆分日内时点为独立特征,用多个GRU针对每特征抓取日间规律,输出拼接。
  • 两模型均使用批标准化和全连接层输出最终预测。

-


15分钟频量价数据序列测试结果 [page::9]


| 模型 | RankIC均值 | TOP组合年化超额收益率 | 信息比率 | 换手率 |
|-----------------------------|------------|----------------------|----------|--------|
| GRU | 8.86% | 21.15% | 4.06 | 120.05%|
| PatchModel1 | 8.43% | 21.95% | 4.30 | 111.90%|
| PatchModel2 | 8.78% | 23.52% | 4.62 | 115.28%|
| GRU + PatchModel1 + PatchModel2 | 9.58% | 24.65% | 4.59 | 110.15%|
  • Patch模型单独表现略优于GRU,三模型融合多因子提升显著。

- 模型间预测相关性较低(0.58-0.69),保证了融合增量信息。

-

30分钟频量价特征序列测试结果 [page::10][page::11]


| 模型 | RankIC均值 | TOP组合年化超额收益率 | 信息比率 | 换手率 |
|-----------------------------|------------|----------------------|----------|--------|
| GRU | 8.27% | 20.42% | 3.86 | 106.86%|
| PatchModel1 | 7.83% | 19.72% | 3.91 | 96.42% |
| PatchModel2 | 8.03% | 18.03% | 4.56 | 119.15%|
| GRU + PatchModel1 + PatchModel2 | 8.62% | 21.64% | 4.69 | 104.95%|
  • Patch模型单独表现及收益略低于GRU基准,融合后仍实现增益。

- 模型间相关系数0.66-0.75,保证模型多样性与互补。

-

Patch模型增量信息分析与残差测试 [page::10]

  • 15分钟patch模型与日频GRU模型的相关性明显低,表明非简单加和关系。

- 使用patch模型信号对日频GRU残差回测,增量效果显著优于GRU残差。
  • 结合多模型残差优势,验证patch设计对信息捕捉的提升。

-

全频段融合因子2.0版本构建与测试 [page::12]

  • 结合15分钟、30分钟patch模型因子与高频低频深度因子,按比例合成。

- 全频段融合因子2.0在IC均值(11.33%)、年化超额收益率(34.40%)等指标显著优于1.0版本。

-

基于全频段融合因子的指数增强策略表现 [page::13][page::14][page::15]

  • 构建中证500和中证1000指数增强组合,控制周双边换手率30%、40%、50%。

- 中证500增强组合在因子2.0下,信息比率达3.27,年化超额收益18.9%以上,Calmar比率优于1.0版本。
  • 中证1000增强组合信息比率达4.35,年化超额收益30%左右,表现优于1.0版本。

-


研究结论与风险提示 [page::16]

  • patch思想有效缓解GRU在长时间序列分析中的盲点,增强选股模型的预测力。

- PatchModel1和PatchModel2提供互补增量信息,融合后性能显著优于单模型。
  • 基于改进因子构建的指数增强组合展现了优异的收益与风险控制能力。

- 风险提示:高频因子和深度学习模型历史有效性不代表未来,模型解释性有限,谨慎使用。

深度阅读

华泰研究报告《人工智能系列之75:patch思想用于长时间序列量价选股模型》详尽分析报告



---

一、元数据与报告概览


  • 报告标题:人工智能系列之75:patch思想用于长时间序列量价选股模型

- 发布机构:华泰证券股份有限公司(华泰研究)
  • 作者:林晓明、何康(PhD)、卢炯

- 发布日期:2024年3月14日
  • 研究领域:量化投资,深度学习,长时间序列数据处理,股票量价数据模型

- 报告主题:针对量化投资中长时间序列量价数据难以建模的问题,提出并验证基于“patch”思想的两个新型深度学习模型(PatchModel1和PatchModel2),并基于该模型改进全频段融合因子及构建指数增强投资组合。

核心论点与结论
随着高频数据的广泛使用和算力提升,长时间序列量价数据的建模需求日益增长。传统的GRU模型虽有应用基础,但存在梯度消失、信息遗忘及难捕捉周期性和异质性规律的“盲区”。引入“patch”思想,即将长时间序列按交易日分割为多个patch,分块建模显著提升模型表现。两个patch模型与基准GRU模型相比均有性能提升,且融合后的模型表现最佳。最终,基于这两个模型改进了先前的全频段融合因子,并在中证500和中证1000指数增强组合中取得良好回测效果。风险包括策略可能失效及深度学习模型可解释性较弱。[page::0,2,16]

---

二、逐章深度解读



2.1 研究导读与背景


  • 量化投资时间序列长度不断延长,华泰前期模型从30天日频数据到320个15分钟K线数据,时间维度不断加长。

- GRU模型优势在于门控机制抑制梯度消失,但随着序列长度增长,仍无法有效避免梯度消失、信息遗忘问题。
  • 高频量价数据呈现明显周期性(例如早盘、尾盘交易量较大),传统GRU难以捕捉该规律。

- 输入时间序列包含异质信息(如日内与隔夜信息差异),但GRU参数共享机制对所有时间点一视同仁,难以区分差异。
  • “Patch”思想能够将长序列划分为多个较短序列,有效结合局部和全局信息,缓解上述难题。[page::2]


2.2 Patch思想介绍


  • Patch的处理方式是对时间序列分块,当作整体输入模型,保留局部的时间上下文信息。

- 优点包括提升模型对长时间窗口信息的捕捉能力,减少计算资源占用,并通过减少时间序列冗余信息影响改善效果。
  • 相关研究包括时间序列Transformer(PatchTST)和计算机视觉中视觉Transformer(ViT),以及最新视频模型Sora,均展示patch方法能提升模型表现和效率。[page::3,4]


2.3 实验设计与模型构建


  • 按交易日划分patch:每个patch代表单个交易日内的所有时点量价数据,通过这种划分引入以日为周期的先验知识,有效区分日内和日间信息。

- 模型一:PatchModel1
- 使用GRU建模每个patch(交易日)内的时序数据,输出最后时间步隐状态。
- 跨patch日间信息通过注意力机制加权构建,捕捉不同交易日间的关系。
- 注意力权重基于隐含层输出线性变换并归一化计算。
- 输入示例:320个时间点(20天 x 16个15分钟区间),6个特征;reshape成20 x 16 x 6输入GRU处理。
  • 模型二:PatchModel2

- 采用通道独立设计,针对每个特征对应一条GRU序列,时间步为patch数(天数),特征数为一天内时间序列点数(或分拆成特征维度)。
- 不同特征使用独立参数的GRU,提取跨日时序规律,最后将不同特征隐含层向量拼接并线性映射输出。
  • 实验数据场景

- 15分钟频量价数据序列(20天 × 16时间段 × 6特征)
- 30分钟频量价特征序列(40天 × 8特征)
  • 模型训练细节包括批量大小5000,Adam优化器,学习率0.005,训练早停策略,半年度重新训练策略。[page::5,6,7,8]


2.4 结果分析



15分钟频量价数据序列


  • Patch模型融入日内与日间建模思想,整体性能优于传统GRU。PatchModel2在INFO比率及年化超额收益率上表现最佳,PatchModel1略好于GRU。

- 模型输出存在较低相关,0.58~0.69,三模型融合后表现最佳,TOP组合年化超额收益率提升至24.65%。
  • 复合模型的RankIC均值和累积IC表现均优于单模型,说明模型在信息捕获上互补。

- 残差分析显示,Patch模型残差因子的IC等关键指标高于GRU残差,表明patch模型捕捉了传统GRU模型未能全面挖掘的信息。
  • Patch模型与基于日频的GRU相关性较低,证明Patch网络设计在融合日内和日间信息方面更具优势,而非简单拼接多频模型结果。[page::9,10]


30分钟频量价特征序列


  • Patch模型整体稍逊于GRU单体,但与GRU预测值相关性较低(0.66~0.75),融合后模型表现提升,组合年化超额收益率达到21.64%。

- 即使在不同频率和特征构建框架下,patch思想依旧具有一定增量信息,模型融合依旧优于单一基准。[page::10,11]

2.5 融合因子改进与指数增强策略构建


  • 基于15分钟和30分钟频patch模型融合因子,联合以往高频深度学习因子及低频多任务因子,结合比例1:1:1:3构建全频段融合因子2.0版本,升级了因子表现。

- 2.0版本在RankIC均值(从10.42%提升至11.33%)、年化超额收益率(从32.61%提升至34.40%)及其他多项绩效指标上均优于1.0版本。
  • 使用全频段融合因子构建指数增强投资组合(中证500和中证1000),对调仓频率、股票权重、行业暴露及换手率进行了约束。

- 回测数据显示,2.0版本相较1.0版本不仅在收益率上保持提升,更降低了最大回撤及跟踪误差,显著提升信息比率和Calmar比率。
  • 中证500增强组合换手率分别控制在30%、40%、50%时,年化超额收益率保持接近19%,信息比率均超过3,表现稳健。

- 中证1000增强组合表现更优,超额收益率接近30%,信息比率更高于4以上,显示模型对中小盘市场有效。[page::12,13,14,15]

---

三、重要图表深度解读



图表1-4:15分钟和30分钟模型IC值和分层回测汇总及净值曲线


  • 显示GRU、PatchModel1、PatchModel2单独和融合后的RankIC均值、标准差、信息比率、年化超额收益及换手率等指标。

- 15分钟场景下,模型融合后有明显提升,超过单独所有模型,表明不同模型捕捉了不同的信息规律,具有良好互补性。
  • 净值曲线图显示,融合模型净值增长最快,且回撤较小,说明稳健性较好。

- 30分钟场景下,patch模型表现略弱于GRU,但融合模型依旧实现性能提升,体现patch设计具备一定通用性。

图表9-10:PatchModel1和PatchModel2的网络结构示意图


  • 图表9(PatchModel1):展示将长序列拆分为每日patch,每个patch内的时间序列通过共享参数GRU处理,最后用注意力机制聚合不同patch的隐状态。

- 图表10(PatchModel2):展示针对每个特征独立使用GRU沿时间(日)建模,在特征维度拼接隐状态做预测。此设计避免不同通道时序混淆,体现通道独立思想。

图表15-18、21-24:单因子IC值分析、回测结果及预测值相关性表


  • 表格细致列出RankIC均值、标准差、信息比率、正相关占比(IC>0占比)、年化超额收益率、信息比率及换手率,全面展现模型表现。

- 15分钟场景PatchModel2在IC_IR和收益率方面表现最佳,融合三模型后表现进一步提升。
  • 预测值相关性表显示模型间存在适中相关,支持模型融合设计。


图表25-28:全频段融合因子构建示意与性能对比


  • 结构图明确显示4部分因子的权重分配及组合方式。

- 绩效表格及净值曲线清晰展现2.0版本全面优于1.0版本,收益率和信息比率表现突出。

图表29-35:中证500和中证1000增强组合回测效果


  • 多换手率约束条件下,2.0版本增强组合最大回撤下降、信息比率提升,换手率控制良好。

- 各年度收益率数据波动适度,2020-2021年表现突出,2022年市场回调影响明显,但组合仍表现优异,抗风险能力较强。
  • 净值累计收益曲线与回撤条形图显示策略稳健性良好。


---

四、估值分析



本报告为量价因子及选股模型的研究与策略回测分析,未涉及传统意义的企业估值模型(如DCF、市盈率倍数等)。因此无专门估值部分,但通过IC、信息比率、超额收益率等指标对模型及因子的预测有效性进行了定量评价。

---

五、风险因素评估


  • 高频因子与AI策略基于历史数据归纳,可能出现模型失效。市场结构变化、突发事件、宏观经济波动等均可能导致策略表现不佳。

- 深度学习模型普遍可解释性较低,导致策略黑箱化,投资者难以完全理解模型背后机理及信号来源。需谨慎使用并配合其他风控措施。
  • 换手率控制与交易成本存在实际影响,策略表现回测结果未计交易费用可能略显理想。

- 数据完整性、质量风险,尤其是高频数据中异常值或缺失可能对系统稳定产生影响。
  • 模型融合产生的复杂性提升可能导致过拟合,需注意模型的泛化能力。


报告对风险提醒明确且细致,提出了模型的历史经验局限性及可解释性不足的警示,并建议谨慎使用。[page::0,16]

---

六、批判性视角与细微差别


  • 偏见与假设:报告聚焦于patch思想带来的性能提升,可能对patch设计的优越性强调较多,缺少对可能欠缺(如计算复杂度增加、超参数调节难度等)的深入讨论。

- 模型融合权重:融合因子按固定权重合成,未展现动态权重调整或更复杂模型集成策略,可能存在提升空间。
  • 泛化能力:虽然测试了不同频率数据,仍缺少对模型在不同市场环境(如剧烈波动时期或极端行情)的表现验证。

- 解释性不足:深度学习黑箱属性在金融领域尤为重要,报告指出但未提出具体可解释性解决方案,仍是策略实盘应用风险点。
  • 交易成本考虑:报告多数指标未扣除交易成本,尤其是高频量价模型换手率较高,真实收益可能受挤压。

- 内生因素未充分探讨:如因子共线性、特征工程细节对模型表现的影响未详述。
  • 样本外测试不足:报告时间序列覆盖广泛,但未明确是否有独立样本外测试,降低推广可信度。


---

七、结论性综合



本报告系统梳理了使用“patch”思想改进长时间序列量价数据建模的理论基础及实践方案。传统GRU模型虽有广泛应用,但已显现处理超长、异质时序信息的不足。通过将序列按交易日划分patch,结合PatchModel1和PatchModel2的不同网络架构,实现对日内与日间信息的差异化捕捉,有效缓解梯度消失和信息遗忘问题。

实验结果充分验证,patch模型在15分钟频量价数据场景中不仅超越基准GRU,且模型间互补,融合效果尤佳,实现了年化超额收益的显著提升;30分钟特征序列下虽单模型表现略逊于GRU,但融合后依旧可获得增量信息。残差回测及相关性分析表明,patch模型并非简单的加权叠加,而是捕获了传统模型难以挖掘的隐含规律。

基于该研究成果,报告将新模型因子与既有低频、多频深度学习因子按加权比例整合,形成全频段融合因子2.0版本,验证其在指标与回测策略中的优越性能,特别是构建的中证500和中证1000增强组合表现稳健,年化超额收益高于前期版本,信息比率及风控指标改善明显。

该研究意义在于突破了传统GRU模型处理长时间序列的瓶颈,提供了可扩展且兼具局部与全局信息的时间序列深度学习建模思路,对高频量价数据的因子挖掘及智能选股策略构建具备重要参考价值,推动了量化投资的技术进步。尽管存在可解释性弱、交易成本隐含风险及有限的样本外验证,但整体框架具备良好理论与实证基础,值得关注及进一步完善。[page::0-16]

---

八、报告重要图表Markdown展示示例


  • 图表3:15分钟频量价模型相对净值曲线(分10层TOP组合)



  • 图表16:15分钟频量价模型相对净值(分10层TOP组合)



  • 图表27:全频段融合因子相对净值



  • 图表30:中证500增强组合累计超额收益(换手率30%)




---

总结:



报告采用系统、严谨的方法论,在理论基础、模型设计、实验验证及实盘策略构建多层面进行了详尽论证,清晰传达了利用patch思想解决长序列股价量价数据神经网络建模痛点的创新方案及其实际有效性,展示了深度学习与量化投资结合的前沿进展。该研究不仅具有较强的创新性和应用价值,也为未来时间序列模型的进一步优化指明方向,值得量化研究和投资实践者重点关注且积极跟进。

[page::0,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]

报告