选股因子系列研究(八十六)——深度学习高频因子的特征工程
创建于 更新于
摘要
本报告系统探讨了深度学习高频因子的特征工程流程,包括特征构建、处理、归因及筛选。基于176个分钟级特征构建的深度学习模型展现了稳定的多头选股能力,通过分布调整、去极值和标准化等处理显著提升因子表现。利用积分梯度法进行特征归因,指导特征筛选,动态精选128或64个关键特征进一步提升投资组合表现。因子在中证500和中证1000指数增强组合中实现年化超额收益最高达24.3%,展现了深度学习高频因子的强大应用价值[pidx::0][pidx::4][pidx::6][pidx::10][pidx::13][pidx::16][pidx::17]。
速读内容
- 高频数据特征构建采用“原始数据-分钟级基础指标-目标频率衍生指标”流程,生成176个30分钟级别特征,基于逐笔成交与盘口快照等多层级数据融合,高频因子周均IC0.072,TOP10%多头组合年化超额收益达到29.2% [pidx::4][pidx::5][pidx::6]

- 特征处理阶段重点解决特征分布偏度大和极值问题。通过自然对数变换对波动率等特征进行偏度调整,显著改善分布对称性,提升因子的多头超额收益表现,尤其对异常波动的2015年影响显著;再结合N倍标准差截断去极值,进一步稳定因子表现并推动超额收益增长 [pidx::6][pidx::7][pidx::8]




- 标准化处理对模型影响有限。单一截面标准化在去极值后表现优于跨截面标准化,投资者可根据实际偏好选择使用 [pidx::8][pidx::9]


- 特征归因采用积分梯度法(Integrated Gradients),既具备完整性,归因贡献度和模型输出差值吻合,又易于理解和应用。归因结果显示部分特征贡献明显高于其他,指导后续特征筛选,有效剔除冗余变量 [pidx::9][pidx::10]


- 特征筛选分静态和动态两种策略。静态基于全区间平均贡献,动态依赖逐期动态计算贡献度筛选。动态筛选128/64个特征均显著提升IC和多头收益,32个特征过度精简导致表现下降,表明需在简约与信息保留间平衡 [pidx::11][pidx::12][pidx::13]


- 深度学习高频因子加入中证500和中证1000指数增强组合后,年化超额收益分别达到17.8%和24.3%,月度胜率均在86%以上,信息比和收益回撤比表现优异,有效提升组合的风险收益特征 [pidx::14][pidx::15][pidx::16][pidx::17]


- 报告强调特征工程是深度学习高频因子研发中的关键环节。通过合理的特征处理、归因与精选,不仅提升模型表现,还能降低过拟合风险,实现资源优化。积分梯度法在特征归因中表现优异,推荐实务中应用。风险提示涵盖市场系统性、流动性、政策变动及因子失效风险 [pidx::17][pidx::18]
深度阅读
金融研究报告详尽分析报告
报告题目: 选股因子系列研究(八十六)——深度学习高频因子的特征工程
分析师: 冯佳睿、袁林青
发布机构: 海通证券研究所
发布日期: 2021年1月18日后期
研究主题: 深度学习在高频因子构建中的特征工程应用,涵盖特征构建、处理、归因、筛选,以及其在指数增强组合中的实证应用。
---
一、元数据与报告概览
本报告隶属于海通证券“选股因子系列研究”,作者为资深金融工程研究团队成员冯佳睿、袁林青。核心主题聚焦于深度学习高频因子的特征工程,具体探讨如何从高频数据源构建适用于深度学习模型的特征集合,并针对特征处理(偏度调整、极值截断、标准化)、归因(基于积分梯度法)与筛选等问题进行系统化实验和测试。最终,报告将训练得到的模型因子引入中证500和中证1000指数增强策略,验证实证效果。
主要投资观点包括:
- 高频数据及其衍生特征为量化选股提供重要Alpha来源。
- 深度学习可有效挖掘高频因子,利用不同频率数据构建的特征集合,增强模型选股能力。
- 特征处理,特别是偏度调整和极值截断,是保障模型稳定性和提升收益的重要步骤。
- 基于积分梯度的归因法为特征贡献度定量评估提供了准确工具,促进特征筛选。
- 合理且动态的特征筛选既能去除冗余、节约计算资源,也能提升因子表现,但过度筛选可能导致表现下降。
- 应用到指数增强组合后,深度学习高频因子显著提升超额收益和风险调整指标。
- 风险因素包括市场系统性风险、资产流动性风险、政策变动以及因子失效风险。
整个报告结构严谨清晰,分八个大章,全面覆盖了特征工程的各主要环节以及策略实证,具有较强的实践指导意义。
---
二、逐节深度解析
1. 引言
报告回顾前期研究成果,确认利用30分钟级别高频特征以及深度学习模型,构建的高频因子具备稳定的选股能力。[pidx::4][pidx::5]
投资者对深度学习高频因子的最大疑问集中于四大方面:如何高效构建特征?如何处理特征(调整分布、极值、标准化)?如何归因量化特征贡献?如何筛选有效特征?报告明确将特征工程拆分为构建、处理、归因、筛选四步,依次展开系统讨论。[pidx::4]
2. 深度学习高频因子的特征构建
高频数据涵盖分钟级K线,3秒盘口快照,乃至0.01秒逐笔交易数据。两种处理方案对比:
- 仅依赖逐笔订单数据构建特征,理论完整保存信息,但计算资源要求高,实践中难度大。
- 高频数据降频到分钟级别,统一频率以简化处理,尤其适合收益预测周期较长场景。
报告采用“原始数据 → 分钟级基础指标 → 衍生指标”的三级结构。基础指标简单易计算,例如主买卖金额序列。算子固定,通过不同基础指标输入,生成多达176个30分钟级别特征集合。此176特征集合在2014-2022年训练出的因子周度IC均值0.072,周度胜率超过90%,年化多头超额收益高达29.2%,显示特征信息丰富,因子性能强劲。[pidx::5][pidx::6][表1]
3. 特征处理
特征带有严重偏度、极值和量纲差异,未经处理将影响深度学习模型训练。
- 3.1 分布调整:
使用收益波动率为例,原始分布右偏严重(图2),经过自然对数变换分布趋于对称(图3)。2015年市场异常波动引入极值,偏度调整消解显著,提升了该年因子表现,也改善整体稳定性(表2及图4)。调整偏度作为首步处理非常必要,尤其针对高偏度特征。
- 3.2 极值处理:
采用倍数标准差截断处理极端值。基于已偏度调整的数据进一步去极值,因子IC、IR和超额收益均有正向提升,表现更稳定。2018年和2019年偶有表现微弱回落(表3,图5),但总体增益明显。
- 3.3 标准化:
高频指标量纲差异大,需标准化缓解量纲影响。报告对比单一截面标准化与跨截面标准化(跨多个时间截面联合计算均值和标准差),发现跨截面方法理论上保留更多时间序列信息,但实际效果未必优于单一截面,去极值后单一截面标准化表现更佳(表4,图6-7)。实际应用可根据需求选择。
综上,特征处理显著提升模型稳定性与选股表现,偏度调整和去极值处理尤其关键。[pidx::6][pidx::7][pidx::8][pidx::9]
4. 特征归因
面对176维庞大特征空间,确定每个特征贡献尤为重要。
常见归因方法分为基于梯度的反向传播法(Saliency、Gradient*Input、DeepLift、SHAP、Integrated Gradients)和基于扰动的前向传播法(特征删除、排序、Shapely Value Sampling)。报告选择积分梯度法(IG),因具备归因完整性(所有特征贡献和等于模型输出与基线差值),且具备敏感性、实现不变性等优点。
图8显示IG对模型输出的完美分解,残余接近0,归因准确。图9和表5展示具体特征贡献度排名,某些特征(如特征1,96,172)显著贡献,而部分特征贡献极低。报告建议基于此贡献评估展开后续特征筛选。[pidx::9][pidx::10][表5]
5. 特征筛选
5.1 静态筛选
基于全区间平均贡献度构建静态64特征集合,训练深度学习因子表现明显优于原始176特征,表6及表7显示IC和年化多头超额收益均提升,说明剔除低贡献冗余特征有助模型表现。
5.2 动态筛选
实际应用中动态筛选更合理:
- 先用176特征训练模型,计算每次预测时的特征贡献;
- 选出贡献度最高的128、64、32特征重新训练生成因子。
测试表8及图10、图11揭示:
- 精简至128或64特征不会降低IC,反而提升年化多头收益;
- 进一步精简至32特征时,因子表现可能下降,反而丧失有效信息。
动态64与176集合相比,绝大多数年份表现更优,特征筛选能明显减少计算压力并提升表现,但需避免过度筛选。[pidx::11][pidx::12][pidx::13][表6-9]
6. 高频因子在指数增强组合中的应用
为了实盘可行性考察,报告将深度学习高频因子加入中证500和中证1000指数增强策略,测算因子能带来的实际组合超额收益和风险指标。
组合优化考虑包括个股最大偏离、因子敞口、中性约束、行业偏离及换手率限制,目标为最大化预期超额收益,假设次日均价成交,扣除交易成本3‰。
6.1 中证500增强组合(表10-11,图12)
- 176特征集合加偏度调整+去极值提升超额收益显著;
- 适度筛选到64或128特征表现一般优于176特征;
- 过度筛选32特征表现不佳;
- 单一截面与跨截面标准化差异不大;
- 2016-2022年策略年化超额收益约17.8%,月度胜率86%,信息比和收益回撤比均超过3,表现稳健强劲。
6.2 中证1000增强组合(表12-13,图13)
- 处理流程效果与中证500相似,偏度调整与去极值必不可少,合理筛选提升绩效;
- 2016-2022年策略年化超额收益约24.3%,月度胜率88%,信息比接近5,收益回撤比大于6,表明策略在中小盘股票中效果更突出。
整体来看,深度学习高频因子引入指数增强可显著提升组合风险调整后收益及稳定性,验证了前期特征工程环节的有效性。[pidx::14][pidx::15][pidx::16][pidx::17]
7. 总结
报告全面论述了深度学习高频因子特征工程四个关键步骤:构建、处理、归因、筛选。通过详实测试,确认了特征处理(尤其是分布调整和极值截断)对因子质量提升的重要性;归因方法尤其是积分梯度法,为特征筛选提供了强有力依据;合理筛选可剔除噪音信息,节省资源,同时提升模型性能。周期覆盖2014-2022的多个实证检验及在指数增强组合中的落地应用充分验证了方案的有效性。最后,报告重申风险提示,保持审慎。[pidx::17]
8. 风险提示
- 市场系统性风险:市场整体波动导致因子失效风险。
- 资产流动性风险:高频因子依赖流动性市场,流动性不足可能冲击模型表现。
- 政策变动风险:监管和宏观政策调整可能影响市场因子有效性。
- 因子失效风险:长期因子有效性会因市场变化减弱。
---
三、图表深度解读
图1:176特征集合深度学习因子分年度多头超额收益柱状图
显示2014-2022年范围内多头超额收益趋势,2015年高达85%,极端年份贡献突出。全区间表现波动,整体正收益说明因子长期有效。[图6]
图2-3:收益波动率原始与经偏度调整后的截面分布
图2展示原始分布强右偏,尾部长,极端值多。图3经自然对数调整后分布明显对称,峰态集中。此调整消除了样本极端偏置,有利于模型训练稳定性。[图2][图3]
图4:偏度调整对176特征集合分年度多头超额收益的提升
对比无处理和偏度调整,2015年因子收益显著提升,其他年份变化有限。表明偏度调整对异常市场环境有较大缓冲作用。[图4]
图5:偏度调整和去极值协同作用下的多头超额收益
将极值处理加入后,整体表现更稳健,多个年份保持或提升超额收益,说明极值截断是有效补充手段。[图5]
图6-7:不同标准化方式(单一截面 vs 跨截面)影响(偏度调整与偏度+去极值)
图6未去极值情况下,跨截面标准化表现略好;图7去极值后,单一截面标准化反而表现更佳,表现效果依场景而异。[图6][图7]
图8:积分梯度法对模型输出的归因分解
展示模型输出、基线输出、归因项及残余项,残余项几乎为零,表明归因方法解释充分。[图8]
图9:某股票各特征的绝对贡献度分布
特征贡献度分布明确区别重要与无效特征,为后续筛选提供数据支持,利于剔除低贡献噪声。[图9]
图10-11:动态特征筛选(128/64/32)对多头超额收益的影响
大多数年份128或64特征集合超越无筛选176特征,但32特征集合表现波动,印证筛选“适度原则”。[图10][图11]
图12-13:中证500和中证1000增强组合相对基准强弱走势曲线
两图均显示提升且平稳上升趋势,尤其中证1000策略涨幅较大,表明深度学习高频因子对指数增强策略贡献显著且稳健。[图12][图13]
---
四、估值分析
本报告无传统意义上的企业估值分析,而是通过深度学习模型训练因子并内嵌到指数增强组合中进行风险收益评估。估值隐含于模型目标函数和风险约束中,特别关注超额收益率、信息比率、回撤比率等指标展示模型价值。
---
五、风险因素评估
报告末明确列举市场风险、流动性风险、政策风险及因子失效风险,均为高频和深度学习策略面临的典型风险因素。该提示有助投资者理性判断及风险管理。
---
六、批判性视角与细节
- 报告在特征筛选中同时给出静态和动态选特方案,静态方案存在未来信息泄露风险,动态方案才是合理实践。
- 跨截面标准化预期改善时间序列信息但实际提升有限,显示方法选择对模型实际影响需审慎验证。
- 深度学习模型影响因素复杂,虽然报告数据充分,但仍需关注模型稳定性、过拟合等潜在风险未充分量化。
- 高频因子极端市场环境(如2015年)表现显著波动,需额外关注模型在非典型市场行情下的鲁棒性。
---
七、结论性综合
海通证券研究所的本次报告以深度学习视角,系统阐述了高频因子构建过程的特征工程全流程,重点围绕176维收益相关特征,从构建原理到偏度、极值及标准化处理,再到积分梯度归因及动态筛选,层层深入,经多维度实证验证。最终结果表明:
- 深度学习高频因子构建兼顾信息丰富度与计算效率,176特征集合表现稳定且优异。
- 特征分布调整及极值截断显著提升模型表现,保证选股因子稳定性和有效性。
- 积分梯度法作为归因工具,精准识别贡献高低,支撑有效特征筛选。
- 动态筛选在128及64特征维度得到最佳平衡点,避免过度简化信息损失。
- 实证融合指数增强策略后,年化超额收益率达15–25%,月度胜率逾85%,信息比和回撤比均表优,体现出模型落地强劲的实用价值。
- 风险依然存在,需警惕系统风险、流动性风险等对因子稳定性的影响。
整体来看,报告对深度学习高频因子的特征工程提供了详尽且具有实际指导意义的探索框架和操作路径,为量化投资中的高频因子开发及优化提供了宝贵范例和经验,同时也为投资者理解和应用相关深度学习技术提供了坚实的理论与实证基础。[pidx::0][pidx::4-18]
---
附:主要图表Markdown格式示例













---
综上,深度学习高频因子的特征工程方法论与实证展现了显著的选股能力及策略增厚效果。报告结构缜密,数据详实,结论合理,为行业提供了高质量研究范本和应用示范。建议投资者在实际应用时注意风险因素,并合理设计特征工程流程。
【全文完】