`

华泰金工 | 基于全频段量价特征的选股模型

创建于 更新于

摘要

本报告围绕高频和低频量价数据挖掘,以分钟频、逐笔成交与逐笔委托数据构建27个高频因子,利用GRU深度学习模型合成高频因子,并运用硬参数共享的多任务学习模型合成低频量价因子。最终通过全频段融合因子增强选股能力,实现中证500和中证1000指数的高效增强策略,体现了多因子融合与多频率深度学习应用的有效性和优越性 [page::0][page::1][page::2][page::10][page::12][page::13][page::15][page::16][page::18]

速读内容

  • 高频因子构建与测试 [page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10]

- 构建27个高频因子,涵盖15个分钟频因子、8个逐笔成交因子和4个逐笔委托因子。
- 关键高频因子包括尾盘收益率偏度、下行收益率波动占比、成交量与成交笔数相关性、大单推动涨幅等。
- 高频因子单项回测显示多因子在分层回测中表现单调性良好,多个因子拥有稳定的正向选股信号。
- 高频因子间相关系数均低于0.6,保证因子间多样性。
  • 高频深度学习因子合成与效果 [page::0][page::10][page::11][page::12]

- 利用GRU深度学习架构,对27个高频因子时序数据进行预处理和建模,输出未来10个交易日收益预测。
- 模型训练采用全A股样本,2017-2023年回测,周度RankIC均值达到9.10%,TOP组合年化超额收益率26.20%(不计成本)。
- 深度学习合成因子在RankIC均值、IC_IR、TOP组合信息比率等指标上显著优于单因子和传统加权方法。

  • 低频多任务学习模型构建及回测 [page::0][page::12][page::13][page::14]

- 引入日、周、月K线三种低频数据,使用硬参数共享的多任务GRU模型进行联合学习。
- 设计优化目标以提升子任务预测IC、控制预测之间的相关性,权重超参数设为0.01。
- 多任务学习模型在回测中表现出更优的年化超额收益率(31.05%)、信息比率和稳定性,消融实验验证了共享参数设计的有效性。

  • 全频段融合因子表现及指数增强应用 [page::1][page::14][page::15][page::16][page::17]

- 以1:3比例将高频深度学习因子与低频多任务因子合成全频段因子,2017-2023年回测周度RankIC均值提升至11.47%,TOP组合年化超额收益达32.25%。
- 全频因子优于任一单频因子,是因子多样性与信息整合的体现。
- 基于全频因子构建中证500和中证1000指数增强组合,控制周换手率在30%-50%区间,分别实现17.68%-19.46%和28.97%-30.14%的年化超额收益,信息比率显著。



  • 因子相关性分析

- 高频因子、低频多任务因子及全频段融合因子与常见量价指标相关性较低,因子具备独立有效信息。
- 高频深度学习因子与低频多任务因子相关性仅为0.28,支持二者合成提升稳定性与表现。
  • 风险提示

- 投资策略基于历史数据,存在未来失效的可能。
- 深度学习模型的可解释性较弱,策略应用需谨慎。[page::18]

深度阅读

华泰金工 | 基于全频段量价特征的选股模型 — 详尽分析解读报告



---

一、元数据与概览


  • 报告标题:基于全频段量价特征的选股模型

- 作者:林晓明、何康、卢炯
  • 发布机构:华泰证券金融工程

- 发布日期:2023年12月09日 09:00 上海
  • 主题:量价数据特征挖掘,应用于中国A股市场的选股模型构建

- 报告目标:提出基于全频段(高频与低频)量价数据的量化选股模型,通过多种深度学习模型(包括GRU和多任务学习)融合高频分钟及逐笔数据和低频日、周、月K线数据,合成强选股信号,应用于中证500和中证1000指数增强组合。
  • 核心论点

- 高频因子(基于分钟、逐笔成交、逐笔委托数据)构建与深度学习因子合成表现优秀。
- 低频量价数据通过多任务学习模型进行联合训练,提升选股效果。
- 全频段融合高频深度学习因子与低频多任务因子,获得更优的Alpha表现。
  • 主要结论

- 全频段融合因子在RankIC和超额收益率指标上显著优于单一高频或低频因子。
- 指数增强组合基于该因子构建实施,超过主流指数表现良好。
- 风险提示:模型基于历史数据,深度学习模型的可解释性较低,存在失效风险。[page::0,1,18]

---

二、逐节深度解读



1. 研究导读与背景介绍


  • 报告首先区分了低频与高频量价数据:

- 低频数据:日K线、周K线、月K线。
- 高频数据:分钟K线、逐笔成交、逐笔委托、Tick。
  • 低频数据在因子构造上既可人工设计,也可基于深度学习实现端到端因子挖掘;高频数据往往先降频后基于人工构造信号。

- 研究在前期基础上,进一步构造了27个表现良好的高频因子,并结合多任务多频率深度学习模型,最终实现全频段因子融合。

图表1呈现了各类量价数据的分类,图表2则直观说明了报告研究内容的整体框架,包括高频因子构建、多因子合成、低频多任务学习模型,以及全频段因子融合。[page::1,2]

---

2. 高频因子构建与测试(章节01)



高频因子构建


  • 高频数据包括分钟频、逐笔成交、逐笔委托三类数据。

- 分钟频因子示例:
- 价格类:尾盘收益率偏度、下行收益波动占比(衡量收益分布的偏斜及极端下跌风险)。
- 成交量类:成交量占比、成交量与成交笔数的相关性。
- 价量关联类:早盘成交量与收益率相关性、大单推动涨幅。
  • 逐笔成交因子示例:

- 大单成交金额占比、早盘大单买入占比。
- 开盘主动买入占比、净主动买入与收益率相关性。
- 买卖单集中度(买卖单成交金额平方和比值差异)描述市场买卖力量对比。
  • 逐笔委托因子主要基于统计量构造,包括买卖单委托量峰度之差、买单委托量与委托价格相关性。


测试方法


  • 测试股票池为全A股,去除ST、停牌及涨停股票。

- 数据区间涵盖2013年至2023年。
  • 调仓周期为周度,不计交易费用。

- 因子数据进行了去极值、行业市值中性化和标准化处理。
  • 主要评估指标为IC(信息系数)及因子分层回测的多头收益。


关键表现


  • 多个高频因子表现显著:如下行收益率波动占比、成交量与成交笔数相关性、下行单笔成交金额占比、大单推动涨幅等。

- 图表显示这些因子的分层净值随时间明显分化,第1层(表现最好)净值显著优于其他层,表明因子具有稳健的选股能力。
  • 因子相关性控制良好,分钟数据因子间相关系数低于0.6,逐笔成交因子低于0.5,逐笔委托因子低于0.4,有利于后续合成模型减少多重共线性风险。[page::3~10]


---

3. 高频因子深度学习合成


  • 构建基于GRU的深度学习模型,对27个高频因子序列进行联合建模(输入尺寸为27×n的时间序列因子)。

- 预处理步骤包括去极值、中性化,标准化等。
  • 输出为未来10个交易日收益率的预测,延长预测周期以降低换手率。

- 测试显示:
- 高频深度学习因子RankIC均值达到9.10%;
- 10层TOP组合年化超额收益率为26.20%,显著优于单因子和传统线性加权(等权、ICIR)组合;
- 深度学习能捕捉因子时序和非线性特征。
  • 高频深度学习因子与常见量价因子相关性一般较低(与换手率成交额稍高)表明因子风格差异。[page::10~12]


---

4. 低频量价数据多任务学习模型


  • 本文设计了硬参数共享的多任务学习模型,将日频、周频、月频量价数据作为三条任务输入,用共享GRU模块提取时序特征,以实现知识共享。

- 各任务的子预测输出通过等权合成,最后形成低频多任务融合因子。
  • 损失函数设计非常关键,结合最大化每个子任务的IC和最小化三子任务预测间的相关性(以0.01的权重控制相关度)。

- 消融实验证明:
- 多任务学习 + 硬参数共享显著优于单纯日频因子;
- 简单等权合成或独立GRU结构表现均不理想;
- 模型对因子收益稳定性和换手率方面均有改善。
  • 低频多任务因子RankIC均值达10.44%,TOP组合年化超额收益率31.05%,略优于高频深度学习因子。

- 与高频深度学习因子相关性较低(仅为0.28),说明因子间包含互补信息。[page::12~14]

---

5. 全频段融合因子构建与测试


  • 将高频深度学习因子与低频多任务因子以1:3比例简单线性合成,得到全频段融合因子。

- 全频段融合因子:
- RankIC均值上升至11.47%;
- 10层TOP组合年化超额收益提升至32.25%;
- 表现优于单独低频或高频因子;
- TOP组合换手率、信息比率、胜率均保持较好表现。
  • 尝试将高频因子直接放入多任务学习联合训练效果不佳,原因在于:

- 高频和低频数据粒度差异导致GRU共享困难;
- 高频因子和低频量价相关性低,相关性约束效果有限;
- 高频数据起始时间较晚,影响历史训练样本的充分利用。
  • 全频段融合因子与其他常见量价指标相关性普遍较低,显示模型捕捉到了较为独立的Alpha信号。[page::14~16]


---

6. 指数增强组合构建及回测表现


  • 基于全频段融合因子构建中证500和中证1000增强组合,控制周双边换手率分别为30%、40%、50%。

- 中证500组合:
- 2017年至2023年回测期内,年化超额收益分别为19.46%、18.44%、17.68%;
- 信息比率在2.97~3.31之间,表现稳健。
  • 中证1000组合:

- 年化超额收益更高,分别为29.48%、30.14%、28.97%;
- 信息比率在4.05~4.33,表现优于中证500,显示较强的Alpha捕获能力。
  • 回测中累积超额收益和逐年收益波动率表现均良好,超额收益稳定,波动率可控。

- 组合策略充分利用了全频段因子综合优势,实现了指数增强效应。[page::16~17]

---

7. 总结与风险提示



主要贡献


  • 构建和测试了27个多样化的高频因子组合,涵盖价格、成交量、大单买卖等不同维度。

- 设计GRU深度学习模型实现高频因子多因子融合,提升因子效能。
  • 设计硬参数共享多任务学习模型,整合日、周、月低频数据,实现端到端因子挖掘。

- 通过高频深度学习因子与低频多任务因子1:3加权合成,获得全频段优异表现。
  • 以该融合因子为核心,构建中证500和1000指数增强组合,取得显著超额收益和高信息比率。


风险提示


  • 研究基于历史数据,选股策略存在失效风险。

- 深度学习模型可解释性较弱,模型表现与训练数据及参数设定紧密相关,使用时需谨慎。
  • 模型的实际应用需结合交易成本及市场冲击,报告中的收益为不计交易成本收益。[page::18]


---

三、图表深度解读



1. 量价数据概览图(图表1)


  • 清晰划分低频(日、周、月K线)和高频(分钟、逐笔成交、逐笔委托、tick)数据类型。

- 说明研究覆盖的全数据维度,奠定后续多频融合的基础。[page::1]

2. 研究内容流程图(图表2)


  • 以流程图形式展示研究路径:高频因子构建→基于GRU合成→低频多任务模型→全频段融合。

- 明确了研究思路和框架,便于理解后续章节内容结构。[page::2]

3. 全频段融合因子1C值及分层组合净值(图表3、4、5)


  • 图表4显示第1层组合净值远高于其他层,净值呈持续增长趋势,收益显著。

- 图表5的累积RankIC曲线平滑向上,表明该因子稳定有效。
  • 支撑全频段融合因子的选股有效性。[page::2]


4. 高频分钟频因子表现示例(图表8-22)


  • 以某些代表因子(如lateskewret,downvolperc)为例,分层净值曲线明显分层,第1层回报强劲。

- 说明这类因子自身具备良好选股能力。
  • IC值和分层回测结合验证了因子的单调性和稳定性。[page::4~6]


5. 高频逐笔成交、逐笔委托因子表现(图表27-41)


  • 代表大单买入占比、净主动买入、买卖委托峰度差等因子的分层组合净值图,均显示较好收益分层及长期增值。

- 相关性矩阵显示各因子间相关性较低,利于后续合成。
  • 通过实证展示多维度高频因子的选股价值。[page::8~10]


6. 基于GRU的高频深度学习因子回测表现(图表46-48)


  • 高频深度学习因子分层组合净值远超传统等权和ICIR加权组合。

- 累积RankIC水平和信息比率指标优异,体现深度学习模型捕捉非线性时序规律的优势。
  • 与常见量价因子相关性较低,突出模型特征的独特性。[page::12]


7. 低频多任务学习因子表现(图表52-55)


  • 多任务因子净值增长迅速,稳健优于单纯日频因子及等权合成版本。

- 消融实验支撑硬参共享设计有效,确保了模型性能优势。
  • RankIC水平稳定并优于基准,说明多频融合优势明显。[page::14]


8. 全频段融合因子表现(图表57-60)


  • 综合因子在回测期内表现更优,净值曲线领先独立高频或低频因子表现。

- 持续累积的RankIC表明因子长期有效。
  • 相关性分析显示融合因子保持了较低关联性,能提高组合多元化和稳定性。[page::15,16]


9. 组合回测实例(图表63-68)


  • 中证500和中证1000指数增强组合均表现出稳健的累积超额收益。

- 不同换手率控制下收益均良好,信息比率维持在较高水平。
  • 年度收益率图展现了组合收益的持续性和风险控制情况。

- 全面验证了模型在实盘策略中的应用潜力。[page::16,17]

---

四、估值分析



本报告不涉及传统意义上的企业估值,但使用IC(信息系数)、年化超额收益率、信息比率、分层组合净值等量化指标作为因子有效性和策略价值的“估值”标准。深度学习模型的超参数设置、预测周期设计(未来10日收益预测)及模型权重核算相当于内部估值与风险控制机制,确保了选股信号的强韧性和稳定贡献。

---

五、风险因素评估


  • 遗留的历史回测风险:模型主要基于历史数据和特定时间段的训练回测,面对市场结构、制度变化可能导致效能下降。

- 深度学习模型可解释性不足,投资者难以辨别信号背后因果关系,增加模型盲目使用风险。
  • 高频数据对基础数据质量、时序一致性和冲击成本敏感,实际执行需考虑成本因素。

- 融合模型依赖多频数据同步性,对数据缺失、噪声较敏感。
  • 报告未明确针对风险控制给出缓解策略,强调使用需谨慎并结合专业判断。[page::18]


---

六、批判性视角与细微差别


  • 虽然深度学习因子合成展现强性能,模型的“黑箱”本质和多任务损失函数设计在实际应用中仍存在一定“假设风险”。

- 高频与低频数据融合的权重设定(1:3比例)为人工经验调节,未来有空间引入自动调节机制。
  • 高频因子早期数据较短(始自2013年),限制模型训练历史窗口,可能影响模型泛化能力。

- 复杂模型易受过拟合影响,报告中未详细提及交叉验证或控制过拟合措施。
  • 报告系华泰证券内部研发,虽数据充分,但存在机构视角固有偏向,使用时需结合外部多策略验证。

- 图表多采用分层回测和IC分析,反映短期信号有效性;但对长期稳健性和极端风险未做充分讨论。
  • 报告未详细说明交易成本和滑点对策略收益的影响,实际收益可能有所折减。

- 消融实验充分体现了多任务设计优势,显示模型设计具备科学严谨性。[page::0~18]

---

七、结论性综合



华泰证券金融工程团队基于丰富的A股市场高频和低频量价数据,创新性地构建了27个表现优异且相关性较低的高频因子,通过GRU深度学习模型实现了优异的多因子合成。此外,引入日、周、月多频率数据,搭建硬参数共享的多任务学习模型挖掘低频因子,显著提升因子选股稳定性和收益表现。最终将高频深度学习因子与低频多任务学习因子以经验比例融合,产生全频段融合因子,进一步提高Alpha信号的强度和一致性。

图表分析显示:
  • 高频因子与低频因子均表现出强烈的分层净值差异和稳健的RankIC积累。

- 深度学习因子整合显著优于传统等权及线性加权逻辑,表明捕捉了复合的非线性时序特征。
  • 多任务学习领域创新设计了损失函数权衡预测准确率与因子独立性,成功缓解了因子冗余问题。

- 全频段融合因子回测绩效领先所有单频因子,并在中证500和中证1000增强策略中实现年化超额收益19%-30%以上,信息比率维持在3-4区间,体现较优风险调整收益。

风险提示中,报告指出深度学习模型可解释性弱和历史回测局限性提醒,提示用户审慎使用。

综上,报告展现出量价数据全频段高维度、深层次挖掘的良好前景,量化选股模型设计科学严谨,业绩表现突出,具备较强实际应用和推广潜力。[page::0~18]

---

附:部分关键图表展示



高频因子构建示例(分钟频因子部分)





高频深度学习因子分层组合净值





低频多任务因子分层组合净值





全频段融合因子分层组合净值





指数增强策略回测(中证500超额收益)





---

以上为华泰证券金融工程团队发布的《基于全频段量价特征的选股模型》报告的详尽分析解读。报告以数据驱动、模型创新为核心,全面展示了高频与低频量价特征挖掘及应用的最新前沿成果,对量化投资领域具有较强的学术和实务参考价值。[page::0~19]

报告