`

选股因子系列研究(八十六)——深度学习高频因子的特征工程

创建于 更新于

摘要

本报告围绕深度学习高频因子的特征工程展开,系统讨论了特征构建、处理(偏度调整、极值处理、标准化)、归因(积分梯度法),及动态特征筛选方法。实证检验表明,特征筛选能显著提升高频因子的选股表现,并将其应用于中证500和中证1000指数增强策略中,获得年化超额收益率最高超17%和24%,且风险指标良好,为指数增强策略提供了有效支持 [page::0][page::4][page::6][page::10][page::13][page::15][page::17]

速读内容


深度学习高频因子特征构建方案 [page::4][page::5]

  • 高频数据分逐笔、快照、分钟K线不同频率,建议统一降频至分钟级以提高计算效率。

- 通过“原始数据-分钟级基础指标-目标频率衍生指标”方式,生成176个30分钟级高频特征集合。
  • 176特征集合周均IC达到0.072,周度胜率90%,多头组合年化超额收益近29%。


高频因子特征处理方法及效果对比 [page::6][page::7][page::8][page::9]




  • 偏度调整显著改善特征分布对模型训练的影响,提升多头超额收益。

- 极值处理(N倍标准差截断)进一步提升因子稳定性和收益表现。
  • 标准化方式对模型性能影响不大,单一截面标准化和跨截面标准化均可选。


特征归因方法及贡献度分析 [page::9][page::10][page::11]




| 特征编号 | 平均贡献度 |
|---------|------------|
| 1 | 0.0413 |
| 87 | 0.0467 |
| 159 | 0.0472 |
| 81 | 0.0406 |
| 19 | 0.0402 |
| … | … |
| 143 | 0.0179 |
| 119 | 0.0182 |
  • 采用积分梯度法完整归因所有特征,贡献度差异显著,有助于识别关键特征。

- 归因结果为后期特征筛选提供重要依据。

特征筛选效果:静态和动态精选对比 [page::11][page::12][page::13]



  • 静态筛选根据全周期贡献度降维至64特征,整体因子表现优于全176特征集合。

- 动态筛选结合归因模型每期精选128/64/32特征,64及128特征组合IC和收益优于全量集合。
  • 过度降维至32特征导致性能下降,表明需要平衡模型容量与复杂度。


深度学习高频因子在指数增强组合中的应用表现 [page::14][page::15][page::16]


| 组合类型 | 年化超额收益率 | 最大回撤 | 跟踪误差 | 月度胜率 | 信息比率 | 收益回撤比 |
|----------|----------------|----------|----------|----------|----------|------------|
| 中证500 | 17.8% | 5.8% | 5.2% | 86% | 3.43 | 3.07 |
| 中证1000 | 24.3% | 4.0% | 4.9% | 88% | 4.97 | 6.16 |
  • 深度学习高频因子加入后,指数增强组合超额收益显著提升,风险控制良好。

- 不同特征处理和筛选方式均展现优良鲁棒性,动态特征精选策略有助进一步提升组合表现。

深度阅读

报告元数据与概览



报告标题: 选股因子系列研究(八十六)——深度学习高频因子的特征工程
作者: 冯佳睿、袁林青
发布机构: 海通证券研究所
发布日期: 2020年1月至2021年期间后续更新,最终文档发表于2021年以后
主题: 研究深度学习方法在高频选股因子构建中的特征工程,包括特征构建、处理、归因和筛选,以及深度学习高频因子的实际应用效果。

核心论点与目标:
  • 高频数据是量化策略的重要Alpha来源,深度学习为构建高频因子提供了有效方法。

- 对初涉深度学习的投资者来说,关于高频因子特征工程的研究需求突出,本文系统地展开特征工程的四个关键步骤研究,并通过大量实验数据验证各种处理方式对模型性能的影响。
  • 分布调整、极值处理、不同标准化方式对模型性能有显著影响。

- 积分梯度法被用于特征归因,帮助识别关键特征,支持特征筛选。
  • 合理的特征筛选(在64~128个之间)可提升模型表现,过度削减(如32个特征)则会损失有效信息。

- 深度学习高频因子加入中证500和中证1000指数增强策略均能显著提升超额收益。
  • 风险提示覆盖市场系统性风险、流动性风险、政策风险与因子失效风险,保持谨慎态度。


以上总结明确传达了作者旨在通过实证方法和系统研究,帮助投资者掌握深度学习高频因子的特征工程关键技术,优化因子构建流程以提升选股能力的主旨。[page::0,4,17]

---

逐节深度解读



1. 引言



报告首先回顾了此前的高频因子研究,强调深度学习方法已经表现出稳定且强的周度选股能力。指出投资者在初学深度学习时遇到的四大难题:不同频率数据的特征生成,分布调整与标准化的影响,特征贡献度归因,及特征的定量筛选。基于这四点,报告划分出特征工程的四个步骤展开探讨,奠定了研究框架。[page::4]

2. 高频因子特征构建


  • 高频数据频率层次众多(0.01秒逐笔成交,3秒盘口快照,分钟K线等),数据处理难度大。

- 两种方案:单用最高频逐笔数据(信息完整但数据处理量大),或将所有数据降至分钟级(高效且信息损失有限,适合周度收益预测)。
  • 本文采用“原始数据-分钟级基础指标-目标频率衍生指标”三阶段构建法:

1. 基于逐笔成交等原始数据,生成分钟级基础指标(比如分钟级买卖金额序列)。
2. 确定算子(可基于人工逻辑经验总结),固定算子不断变输入,生成多种特征。
3. 得到176个30分钟高频特征集合。
  • 176特征集合作为输入训练得到的因子具备良好周度选股能力,周均IC0.072、90%胜率、Top 10%组合年化多头超额收益达29.2%。各年均能保持10%以上的超额收益。[page::5-6]


3. 高频因子的特征处理



针对特征输入模型前的处理分为三部分:

3.1 特征分布调整


  • 高频数据特征如波动率、成交金额等通常偏态明显,极端值突出,直接送入模型影响训练效果。

- 采用对数变换等方式调整偏度,使分布更接近对称,极端值影响减弱。
  • 2015年市场异常波动导致调整效果显著提升因子表现,整体周均IC和收益指标均有提升。

- 结论是,分布调整是提升模型稳定性的必要步骤,尤其有偏特征较多或特征数量减少时更为重要。[page::6-7]

3.2 特征极值处理


  • 极值通过N倍标准差截断进行处理,方法与传统因子类似。

- 在偏度调整基础上进行去极值,进一步提升模型ICIR、月度胜率和多头超额收益。
  • 多年分年度收益表现更加稳定,仅2018、2019年略低于无处理情形。

- 去极值是必要的补充手段,避免极端点过度影响模型训练。[page::7-8]

3.3 特征标准化


  • 高频特征多种量纲差异大,采用标准化缩小量级差异,减轻模型偏重某些特征的问题。

- 对比单一截面标准化与跨截面标准化:
- 单一截面标准化在每时点对截面内数据做均值标准差处理,易于理解。
- 跨截面标准化在多个截面数据共同计算均值和标准差,期望能保留更多时间序列信息。
  • 实证显示初期无极值处理时跨截面标准化略好,但极值处理后单一截面标准化效果更优。

- 建议根据实际需求选择两者;跨截面标准化未能显著提升表现。[page::8-9]

4. 高频因子的特征归因


  • 冗余特征大增参数风险,需量化特征贡献度。

- 归因方法分梯度法(反向传播)和扰动法(前向传播)两大类,梯度法包括Saliency、Gradient\*Input、DeepLift、SHAP、Integrated Gradient(积分梯度)。扰动法基于特征删除、排序、Shapley值采样。
  • 本文选用积分梯度法,其优势包含完整性,即归因贡献累加等于模型输出与基线输出的差值,易于理解且效果优良。

- 应用显示积分梯度法对具体预测样本的归因效果极佳,残余项趋近于0。
  • 归因结果揭示关键特征(如特征1、96、172)贡献远超其他特征,支撑后续筛选。

- 全区间平均贡献度排序明显,基础上可导出静态筛选优先级。[page::9-11]

5. 高频因子的特征筛选



5.1 静态特征精选


  • 基于表5贡献度排行,176特征缩减至64个效果优异。

- 表6和表7显示在相同预处理方式下,64特征集合训练得到因子在IC和年化多头超额收益普遍优于176特征集合(最高提升约3%-4%),且大多数年份表现更稳定。
  • 说明适度剔除冗余特征,提升了模型表现和计算效率。[page::11-12]


5.2 动态特征筛选


  • 静态筛选引入未来信息,不适合实际。动态筛选流程:

1. 先用176特征训练模型;
2. 用积分梯度法计算贡献度;
3. 选贡献最高的128/64/32特征重新训练,得到最终模型。
  • 表8数据显示,128和64特征集合相对176特征无论IC还是年化多头超额收益均有所提升。

- 32特征集合出现性能下降,表明过度精简损失有效信号。
  • 图10和图11的分年度分布表现也体现出绝大多数年份中,64和128特征集合优于原始176特征。

- 表9同样显示动态64特征集合业绩稳定且优于176特征集合。[page::12-14]

6. 高频因子在指数增强中的应用



6.1 中证500增强组合


  • 将训练所得深度学习高频因子加入中证500指数增强组合,配合多项风险控制约束(个股偏离0.5%-2%、因子敞口中低频±0.5,高频±2,行业严格中性或2%偏离,换手率30%限制)。

- 表10反映,偏度调整和去极值显著提升年化超额收益,64或128特征筛选普遍改善表现,32特征组合表现欠佳。
  • 不同标准化方式表现差异小。

- 表11与图12所示,动态64特征组合策略2016-2022年年化超额收益达17.8%,2022年10.5%,月度胜率86%,信息比和收益回撤比均优良,稳定表现突出。[page::14-16]

6.2 中证1000增强组合


  • 类似中证500组合实验,深度学习高频因子带来明显超额收益提升。

- 同样强调偏度调整、去极值和合理特征筛选的重要性。
  • 表12与表13显示,年化超额收益24.3%,2022年14.2%,月度胜率88%,信息比接近5,收益回撤比超过6,表现优异。

- 图13显示策略相对基准的强势累积上涨趋势。[page::16-17]

7. 总结


  • 特征工程涵盖构建、处理、归因、筛选,是深度学习高频因子训练的核心。

- 特征处理中的分布调整对模型表现影响显著;拣选关键特征提升性能且提高模型简洁性。
  • 积分梯度法因其完整性和易用性,是非常合适的特征归因方法。

- 适当的特征筛选有效剔除冗余,提升计算效率和选股能力。
  • 多场景测试包括单因子表现和加入指数增强策略验证结论,效果显著且稳定。

- 该系列成果为高频深度学习因子构建提供技术路径及实证依据。[page::17]

8. 风险提示


  • 强调市场系统性风险、资产流动性风险、政策变动风险与因子失效风险,提示投资者合理控制风险。[page::18]


---

重要图表深度解读



图1 176特征集合深度学习高频因子分年度多头超额收益(page 6)


  • 描述:展示2014-2022年间,各年深度学习高频因子组合的年化多头超额收益。

- 解读:2015年收益峰值约85%,2014年及2016年以后各年保持10-40%区间多头超额收益,显示因子稳定的长期有效性。
  • 支撑文本论点:验证176特征集合生成的深度学习因子具有持续稳定的选股能力,支持其作为模型输入的价值。


图2-3 收益波动率分布变换(page 6)


  • 描述:图2显示原始收益波动率截面分布明显右偏;图3为对数变换后的分布,趋近正态。

- 解读:对数变换减轻了偏度和极端值现象,有利于模型训练的稳定性和泛化性能。
  • 关联文本:对应章节特征分布调整部分,说明了预处置对模型表现的物理意义和实证价值。


图4 176特征集合偏度调整后分年度多头超额收益(page 7)


  • 描述:对比无处理与偏度调整处理后不同年份的多头超额收益。

- 解读:特别是2015年,偏度调整带来显著提升,其他年份差异小但整体向好。
  • 体现了分布调整对极端市场环境下模型鲁棒性提升的贡献。


图5 176特征集合偏度调整与去极值处理后分年度多头超额收益(page 8)


  • 描述:展示三种处理(无处理、偏度调整、偏度调整+去极值)下收益变化。

- 解读:整体上偏度调整和去极值带来较为平稳的且普遍提升的表现,说明极值处理作为补充效果显著。

图6-7 不同标准化方式下的分年度多头超额收益(page 9)


  • 两幅图分别展示偏度调整和偏度调整+去极值后的不同标准化方法(单一截面 vs 跨截面)下表现。

- 发现跨截面标准化虽有时优势但无显著稳定性,且在极值处理后单一截面标准化更优。
  • 说明,该环节的具体选择可依据实际场景和要求灵活调整。


图8-9 积分梯度法归因示意与贡献度排序(page 10)


  • 图8:归因项与残余项图表说明归因方法的准确性。残余项接近0表明归因几乎完全覆盖输出差异。

- 图9:条形图显示特征1、96、172贡献度最高,19、44等特征接近0,有助筛选冗余影响因素。

表1-5 各环节核心数据总结(page 6,8,11)


  • 表1-3从基础到偏度调整、极值处理,依次显示因子关键指标IC、ICIR、年化收益的提升。

- 表4标准化方式比较,指标差异细微但有实际参考价值。
  • 表5贡献度详列,支持后续静态筛选。


表6-9 特征筛选前后因子表现对比(page 11-14)


  • 静态64特征集合较176特征有更好表现,且分年度多头收益提升明显。

- 动态特征筛选方法使滚动期选择特征更科学,128/64特征筛选后性能未降甚至大幅提升,32特征整合有所下滑。

表10-13 中证500/1000增强策略年化超额收益与风险指标(page 14-17)


  • 增强组合受益于预处理和合理筛选,年化超额收益在10%-20%(500)和20%-25%(1000)之间,月度胜率高,信息比和收益回撤比稳定良好。

- 不同个股及行业偏离约束条件下表现均得到验证,说明结果较为稳健。

图12-13 增强组合相对基准强弱走势(page 16-17)


  • 曲线显示增强组合净值持续超越基准,尤其1000指数增强组合表现更为强劲,体现因子改造策略实用价值。


---

估值分析



本报告重点聚焦因子构建和选股模型层面,并未直接涉及具体估值方法(如DCF、PE、EV/EBITDA等)和目标价设定。通过深度学习模型挖掘高频Alpha,结合经典基础因子做收益预测与策略优化,估值分析超出本文范围。[page::全面阅读]

---

风险因素评估


  • 市场系统性风险:市场整体风险导致模型失效。

- 资产流动性风险:高频交易受限于市场流动性,流动性下降可能影响模型效果。
  • 政策变动风险:监管或政策突变,可能使部分高频因子失效。

- 因子失效风险:市场结构变化、新规则或投资者行为变化可能导致因子失效。
  • 报告未细化缓解策略及风险概率,但提醒投资者把握风险和动态跟踪因子有效性为必要。[page::0,18]


---

批判性视角与细微差别


  • 本报告为系列研究的延续,基于作者团队丰富经验与长期数据积累,结论具较高可靠性。

- 特征筛选部分静态精选引入未来信息,动态精选尽量规避该问题,展现方法的改进。
  • 跨截面标准化方法未表现出预期的优势,可能暗示高频数据的时间序列结构复杂,仍需更多研究。

- 因子筛选的阈值(如32、64、128)选择虽然进行了经验验证,但缺少更细致参数敏感性分析。
  • 高频数据处理对计算需求高,设备和开发门槛较大,实际应用难度不容忽视。


该报告虽性能优良,但模型复杂度与解释性权衡,终需结合实际投资策略及风控体系。以上均基于报告内容进行理性审视,未发现明显逻辑漏洞。[page::全文贯穿]

---

结论性综合



本文系统梳理了高频深度学习因子的特征工程流程,包括高效构建176个分钟级与30分钟级高频特征,进行分布调整(如对数变换)、去极值(N倍标准差截断)及标准化(单截面和跨截面两种选择),后利用积分梯度法进行准确的特征归因,揭示特征间的贡献差异。基于归因结果,采用静态及动态特征筛选,将特征数量精简至64或128能稳定提升因子IC与超额收益,32个特征精简过度影响表现。

实证结果丰富,包含2014-2022年跨多个年度的分析和分解,显示深度学习高频因子在中证500和中证1000指数增强策略中均显著提升年化超额收益达到10%-25%,并保持较高月度胜率(86%以上),信息比和收益回撤比均好于传统组合,策略相对强弱曲线稳步上扬,验证了因子及其特征工程的有效性和实用性。

风险提醒覆盖系统性风险、流动性风险、政策风险及因子失效风险,提示投资者在部署此类高频深度学习因子策略时注意规避潜在风险。

总体而言,报告详尽论证了深度学习高频因子特征工程的每个关键环节对因子质量的影响,提供了详实的算法应用指导、实证数据支撑及策略应用示范。尤其积分梯度法归因和动态筛选方案为高维特征处理提供切实有效的方法论,具有较强的行业参考价值和实践指导意义。[page::全文整合]

---

附:关键图表示例展示



图1 176特征集合深度学习高频因子分年度多头超额收益


图2-3 收益波动率分布(原始与偏度调整后)



图4 偏度调整后分年度收益对比


图8-9 积分梯度归因结果展示



图10 动态特征筛选后多头超额收益(单一截面标准化)


图12 中证500相对基准强弱走势


图13 中证1000相对基准强弱走势


---

综上,报告对深度学习高频因子的特征工程提出了系统且实用的全流程方案,结合丰富实证为量化研究人员和实务投资者提供了重要的参考框架。

报告