`

【广发金融工程】精选量化研究系列之八:深度学习框架下高频数据因子挖掘

创建于 更新于

摘要

本报告基于高频价量数据,采用深度学习模型提取日频化因子特征,并通过截面回归进行特征组合选股测试。实证显示,深度学习因子及其组合具备较高的IC值,特征组合模型在中证500及中证1000成分股中均取得显著超额收益,年化超额收益率分别达到26.0%和42.4%,夏普比率分别为2.99和3.37,验证了深度学习在高频因子挖掘中的有效性与优势[page::0][page::4][page::9][page::13][page::14][page::16]

速读内容

  • 高频因子的优势与挑战 [page::0][page::1]

- 高频价量数据维度大、噪声高,但信息量丰富且因子拥挤度较低。
- 高频因子具有更多独立样本,增强因子有效性检验。
- 传统因子因公开程度高,收益空间有限;高频数据挖掘因子具备更大收益潜力。
  • 自动化特征工程和深度学习模型结构 [page::1][page::2][page::3][page::4]





- 借鉴GBDT与深度学习自动提取多层次特征,深层全连接神经网络用于日频化因子特征提取。
- 模型输入包括73个高频低频化因子及3个风格因子(市值、5日换手率均值、5日收益率)。
- 网络结构为7层神经网络,输入层76个节点,输出层3个节点(三分类:涨、盘、跌)。
  • 深度学习因子组合选股方法 [page::4][page::5]


- 对机器学习生成的因子采用截面回归,实时更新回归系数,构建相对收益预测模型。
- 滚动平均回归系数用于预测当期相对收益,进而筛选股票组合。
  • 高频因子构建与表现 [page::5][page::6][page::9]

- 构建包括日内价格、成交量、盘前价量、资金流向及时段重点因子等共计76个候选因子。
- 5日IC绝对值超过5%的因子共13个,超过3%的因子有28个。
- 深度学习模型顶层特征表现优异,样本外特征平均IC绝对值约为7.7%。
  • 典型因子hf3分析与回测表现 [page::10][page::11][page::12]







- hf3因子呈非负,波动范围0~3,多头净值累计超额收益约50%。
- hf3因子表现出较强反转特征,其样本内外IC稳定。
  • 特征组合模型整体表现及分档收益 [page::13][page::14]




- 模型IC均值7.6%,标准差7.8%,多空组合表现稳定,分档收益单调。
  • 中证500与中证1000成分股多头组合回测表现 [page::14][page::15]



| 换手率约束 | 年化超额收益率(中证500) | 夏普比率(中证500) | 年化超额收益率(中证1000) | 夏普比率(中证1000) |
|------------|--------------------------|-------------------|---------------------------|--------------------|
| 20% | 26.0% | 2.99 | 42.4% | 3.37 |
- 换手率不同约束下均保持较高超额收益及夏普比,且换手率提升策略表现增强。
  • 策略风险提示及展望 [page::0][page::16]

- 策略不保证长期有效,市场结构及交易行为变化可能导致失效。
- 后续可尝试卷积神经网络(CNN)及循环神经网络(RNN)等方法深化高频时间序列建模,挖掘更多特征。

深度阅读

【广发金融工程】精选量化研究系列之八:深度学习框架下高频数据因子挖掘 —— 详尽分析报告



---

1. 元数据与报告概览


  • 报告标题:《精选量化研究系列之八:深度学习框架下高频数据因子挖掘》

- 作者/发布机构:广发证券,广发金融工程研究团队
  • 发布日期:2021年9月8日

- 研究主题:这是针对中国A股市场高频价量数据的深度学习因子挖掘方法研究,聚焦于利用高频数据构建股市多因子选股模型,探索深度神经网络在量化因子开发及更新中的应用。
  • 核心论点

- 高频数据因其体量大、数据维度高且噪声多,在多因子模型中存在天然优势。
- 机器学习尤其深度学习模型具备提取高阶特征的能力,有效挖掘高频因子。
- 利用深层全连接神经网络对低频化的日频因子进一步提取特征,再通过基于截面回归的组合方法验证选股能力,实现高频因子的更新迭代。
  • 评级及目标价:报告属于研究专题,未直接赋予具体股票评级及目标价,而是对量化策略方法论进行验证与展示。

- 主要信息传达:深度学习模型下,高频数据挖掘的因子普遍表现出较高的IC(信息系数),在样本外测试阶段能带来显著的超额收益,尤其在中证500及中证1000成分股内的多头策略表现优异,表明深度学习与高频因子结合的投资策略具有较强的市场适应能力和收益潜力。

---

2. 逐节深度解读



2.1 引言与机器学习高频因子挖掘优势


  • 报告强调了因子开发与迭代更新的重要性,指出因子拥挤导致传统低频因子预期收益下降。

- 高频价量数据量远大于低频数据(如分钟、快照或Level 2行情),信息密度高,且当前因子拥挤度低,有较大因子挖掘空间。
  • 高频数据挖掘难点主要是数据维度大、噪声多,影响有效信号获取。

- 机器学习方法擅长从复杂数据中提取关键特征,提供强有力的因子挖掘工具。
  • 报告着重将高频时序数据低频化(日频因子)后,结合深度学习模型进行特征提取,缓解高频数据噪声与高维度困境,并利用截面回归实现实时特征组合更新[page::0,1]。


2.2 自动化特征工程及机器学习特征构建


  • 特征工程是数据驱动模型的关键,正确特征设计能显著提升预测效果。

- 机器学习特征生成如主成分分析(PCA)、梯度提升树(GBDT)、深度学习各有特点:
- PCA为线性投影,受限于线性空间,无法产生复杂非线性特征。
- GBDT借助树模型进行分段处理,提取特征后输入逻辑回归,用于非线性特征生成,结合了强大的自动化特征学习能力,已广泛应用于CTR预测等领域(图1说明了通过遍历决策树叶子节点编码获得特征的过程)。
- 深度学习模型如多层全连接神经网络结构,能进行多层非线性抽象,捕获丰富的高阶特征表达(图2、图3展示了深度学习和全连接神经网络的特征学习示意图)。
  • 选择全连接网络适合处理截面特征,不考虑时序关系;循环神经网络(RNN)、卷积神经网络(CNN)更适合时间序列及空间结构数据,后续可做延伸优化。

- 报告采用日频化因子作为全连接神经网络输入,利用76个变量(含73个高频低频化特征和3个低频风格因子,如市值、换手率、收益率),对未来5日收益率进行三类走势(三分类)预测,用交叉熵损失函数训练[page::1,2,3,4]。

2.3 深度学习选股模型结构创新与特征组合机制


  • 深层神经网络结构包含7层:输入层(76个节点)、5个隐藏层、输出层(3个节点,代表未来5日股票上涨、平盘、下跌),用one-hot编码表达目标标签。

- 样本筛选严格:剔除新股、ST股、停牌及涨跌停股票,确保训练质量。
  • 神经网络完成特征提取后,采用基于回归的特征组合方法验证特征的选股能力。

- 组合策略基于滚动回归技术实现对因子收益解释能力的动态均值估计(期望系数),并用于预测股票相对收益率,从而筛选多头股票(图5流程)。
  • 该方法每日更新回归系数,实时捕获市场特征,兼顾动态适应性与稳定性[page::4,5]。


2.4 高频信息的低频化因子设计


  • 报告针对日内价格、成交量、盘前价量、资金流向等模块设计多维度因子(详见表2-7)。

- 价格因子涵盖日内累积收益、高阶统计量、趋势强度等9个指标。
  • 成交量因子从成交量分布和价量关系两方面解析市场行为。

- 盘前因子反映隔夜收益及9:15-9:25集合竞价的动态资金行为,强化多空博弈信息提取。
  • 资金流向因子基于Level 2数据,结合不同单笔交易金额区间判定散户至机构行为,构建主动买卖力量指标,对资金结构变化敏感,有助捕捉操盘行为。

- 同时结合开盘和收盘半小时区域的交易活跃期构建衍生因子,增加信息维度[page::6,7,8]。

2.5 实证分析:人工因子与深度学习特征比较


  • 从2016年至2021年初,考察人工设计76个因子IC。

- 5日IC表现最优为换手率因子(-7.76%),3个资金流向因子IC绝对值超过7%。
  • 共有13个因子的5日IC绝对值超过5%,28个因子超过3%,显示基础人工因子选股有效性处于中等水平。

- 反观深度学习模型提取的H5层(最顶层)32个特征,样本内平均IC约8.6%,样本外为7.7%,高于人工因子整体表现且稳定性强。
  • IC均值低于5%的特征占16%不到,表明大多数机器生成特征选股能力良好。

- 以范例hf3因子分析,因子值非负(ReLU激活效果),大部分集中于0附近且最大不超过3(图7、图8展示分布与直方图)。
  • 单只股票hf3走势显示2017年中后期特征值显著提高且分布稳定,IC走势显示其为反转因子,样本内外表现一致(图9、图10)。

- 按hf3构建多空组合,采用5日换仓,取因子值最低10%作为多头,最高10%为空头,多空策略累计超额收益稳定,2019-2020年多头组合超额收益约50%,说明反转alpha明显[page::9,10,11,12]。

2.6 特征组合模型回测及换手率限制影响


  • 利用2016-18年训练的模型生成特征,结合逐期回归更新系数,形成特征组合模型。

- 样本外2019年以来IC均值7.6%,标准差7.8%,体现模型稳定选股能力(图12)。
  • 多空收益显著,组合分档收益单调递增反映选股效力(图13、14)。

- 于中证500成分股中测试,换手率约束为20%,多头组合累计收益129.6%,同期中证500涨幅58.8%,净超26.0%,夏普比率2.99,年换手率48.6次。
  • 换手率约束放宽至多档,超额收益维持21%以上,夏普比率均高于2.4,显示策略鲁棒性(表9)。

- 中证1000成分股内选股表现更优,累计收益180.6%,净超56.4%,超额年化收益42.4%,夏普3.37,年换手率同48.6次。
  • 换手率提高同时,策略年化收益及夏普比率显著提升(表10),说明高频因子策略与换手操作弹性协同增强收益空间[page::13,14,15]。


2.7 总结与展望、风险提示


  • 报告总结深度学习在日频化高频数据因子开发中的成功应用,证实其提取的高阶特征具有稳定选股能力和较好的实盘超额收益潜力。

- 特征组合方法可实现因子持续更新,实时响应市场变化。
  • 策略年化超额收益率达到26%-42%,夏普率在3左右,显示高因子质量和适当风险控制效果。

- 后续研究建议探讨卷积神经网络、循环神经网络等结构直接处理高频时间序列,期待获得更丰富更具多样性的因子。
  • 风险提示强调市场结构变化、交易行为变化及因子拥挤度提升可能导致策略失效,未必长期稳定有效[page::16].


---

3. 图表深度解读



3.1 图1 梯度提升树特征提取示意图


  • 该图形象展示GBDT与逻辑回归结合的特征工程自动化过程,输入特征x经过多棵树的分裂,样本落到叶子节点形成编码,为逻辑回归提供新维度特征。

- 图中两棵树分别有3个和2个叶节点,最终特征为5维,其中每维为0/1指示变量。
  • 该方法对结构化数据特征扩展有显著提升,支持报告中机器学习特征生成背景理解[page::2]。


3.2 图2 深度学习特征提取示意图


  • 体现深度学习模型中低阶特征向高阶特征的递进学习结构,从输入信号到低阶特征、再到高阶特征,最后输入分类器产生预测结果。

- 展示模型在海量数据下逐步抽象信息的层级优势,适合高维、高噪声高频数据建模[page::2]。

3.3 图3 全连接神经网络结构示意图


  • 描述输入、两层隐藏节点、输出的结构,节点间全连接便于捕捉高阶交互作用。

- 三层结构强调了深度学习通过多层变换挖掘隐藏特征的能力,适合日频低频因子截面数据。
  • 这一结构是报告建模核心,76维输入构成基础[page::3]。


3.4 图4 循环神经网络结构示意图


  • 体现时间序列模型特点,连续时间点上的特征节点通过隐层连接顺序传递,适合模型有时间依赖的数据。

- 报告提出其为潜在未来方向,当前采用全连接网络处理日频截面特征。
  • 体现技术选型的合理性与后续拓展空间[page::3]。


3.5 图5 深度学习高频因子挖掘流程图


  • 清晰展示因子挖掘全流程:从高频价量数据→人工因子构建→深度学习建模→机器学习因子产生→组合选股。

- 强调特征生成与回归分析的双重体系,保障因子既含丰富信息又具选股解释力。
  • 流程设计合理,有力支撑报告技术框架[page::5]。


3.6 图6 机器学习特征样本内外IC情况对比图


  • 柱状图分别展示32个H5特征在样本内(蓝色)和样本外(橙色)的IC值。

- 多数特征样本内外IC较接近,少部分呈负值,证明模型提取特征的泛化能力较好。
  • 高IC绝对值特征数较多,说明特征具有稳定的预测信号[page::10]。


3.7 图7、图8 特征hf3因子值及频率分布图


  • 图7显示样本日的因子hf3在全市场股票分布,数值大多集中在0-1之间,显示因子平稳性好。

- 图8显示hf3因子值的频率直方图,集中程度高,易于后续模型利用和因子分层。
  • 数据非负主要由于采用ReLU激活函数。

- 反映模型生成特征具体数值表现和分布模式[page::10,11]。

3.8 图9 某股票特征hf3走势


  • 显示单个股票自2016年以来hf3因子的时间演变,2017年中以后取值明显上升且趋势稳定。

- 说明深度学习特征能捕捉个股不同阶段表现,有利于动态选股。
  • 时序稳定性提高模型预测置信度[page::11]。


3.9 图10 特征hf3的IC走势


  • 蓝色曲线为每日IC,橙色为20日移动平均IC,灰色为累计IC(右轴)。

- IC走势波动但大部分时间为正,累计IC持续下降表明负相关特征,具反转选股能力。
  • 样本内外表现一致确认模型泛化有效性。

- 该因子具备较强的市场预测力[page::12]。

3.10 图11 hf3多空组合收益表现


  • 多头净值持续超越中证500,空头净值显著跑输基准,显示因子有效选股能力。

- 多空净值差即超额收益稳定增加,支持因子投资价值。
  • 累计超额收益50%体现较高额外收益潜力[page::12]。


3.11 图12 特征组合模型IC走势


  • 展示模型自2019年以来每日IC波动及其移动平均与累计值。

- 整体保持正IC,尽管近期有小幅波动,但充足表明选股信号仍在持续发挥。
  • 模型稳定选股效果明显[page::13]。


3.12 图13、14 特征组合模型多空收益及分档收益


  • 图13揭示多空组合净值显著上涨,持续跑赢中证500指数。

- 图14多档分组收益呈显著单调递增,因子分层能力强,风险分散效果良好。
  • 体现组合方法的稳健性和对市场的适应性[page::13,14]。


3.13 图15 中证500成分股选股表现


  • 多头组合净值远超中证500指数,累计收益129.6% vs. 58.8%。

- 超额年化收益26.0%,夏普2.99,结合换手率数据表明策略具备较好风险调整后收益。
  • 强调行业及规模中性处理确保因子alpha独立性[page::14]。


3.14 表9 不同换手率约束下中证500表现


  • 表示不同换手率阈值下,策略收益与夏普均较稳定,换手率限制灵活,策略依然有效。

- 反映交易成本和操作频率对策略的实际影响[page::14]。

3.15 图16 中证1000成分股选股表现


  • 多头收益远超指数,累计收益180.6%,超额年化42.4%,夏普3.37,显示规模较小股票中策略有更优表现。

- 说明高频因子对中小盘股的挖掘能力强[page::15]。

3.16 表10 不同换手率约束下中证1000表现


  • 随换手率放宽,年化收益率与夏普显著提升,表明策略的灵活调仓能力和高信息效用。

- 提示交易策略可根据实际需求调整,权衡收益与交易成本[page::15]。

3.17 图16(第16页)二维码


  • 报告末提供扫码获取前期相关研究报告,方便深度学习因子挖掘持续研究。

- 符合现代研究传播数字化趋势[page::16]。

---

4. 估值分析



本报告属于量化策略方法论研究,不涉及单个股票估值或公司层面估值方法,也无DCF、市盈率、市净率等估值模型。其价值主要体现在量化多因子选股策略的构建与验证,估值视角更多关注因子质量(IC与收益率)与风险调整收益(夏普率)。回测报告通过换手率约束、IC指标作为内生评价体系,体现策略盈利能力及稳定性。

---

5. 风险因素评估


  • 主要风险为策略模型非百分百有效,市场结构改变、交易行为变化以及策略参与者增多(因子拥挤)均可能导致策略失效。

- 高频因子尤其敏感于市场微观结构变化,数据质量及手续费费用也可能影响实盘执行效果。
  • 报告未重点展开缓解措施,但建议通过持续模型训练、动态因子组合与严格交易成本控制来适应市场演变。

- 网络黑盒风险与过拟合风险虽然未显著强调,但因模型复杂度高同时存在,应警惕训练数据与实际运行环境差异及模型鲁棒性不足。

---

6. 审慎视角与细微差别


  • 报告虽强调深度学习模型优势,但基于已低频化的因子输入,全连接网络无法利用时间序列依赖,存在信息损失,后续引入RNN或CNN等时序模型将更加合理。

- 部分特征IC虽整体较高,但波动明显,且反转型因子(如hf3)负IC累积,应用时需注意持仓配置的风险管理。
  • 报告所给换手率指标高达约48.6倍/年,实际交易时费用及滑点影响可能较大,回测能否完全反映实盘收益值得商榷。

- 没有披露因子选择标准和潜在共线性处理,模型稳定性及泛化判断需更多细节验证。
  • 图表对部分高维数据经过简化呈现,实际因子定义缺乏足够细节,外部复现存在门槛。

- 风险提示较为简略,缺乏细化风险发生概率及缓释策略描述。

总体讲,报告技术路线逻辑严谨,回测结果令人鼓舞,但在实盘应用和模型内部机制解析上可更丰富,需在未来研究中加以完善。

---

7. 结论性综合



本报告系统探讨了深度学习框架下对中国A股高频价量数据因子挖掘的创新方法。其核心贡献是:
  • 因子开发维度升级:从传统低频因子向高频数据挖掘转变,通过对海量多维度高频时序信息的汇总低频化,使神经网络更容易捕获高阶抽象特征。
  • 深度学习模型创新利用:构建7层深层全连接神经网络,输入76个涵盖高频低频化因子的特征,采用三类目标输出,合理标注股票未来5日走势。
  • 基于回归的特征组合验证机制:通过滚动截面回归显著提升因子的解释能力响应速度,动态跟踪市场特征,形成实时更新的因子组合策略。
  • 实证检验显示特征及组合模型均表现优越

- 样本内外平均绝对IC分别为8.6%与7.7%,相比人工因子明显提升。
- 样本外2019年起特征组合模型IC均值7.6%,标准差7.8%。
- 中证500成分股中,20%换手率限制下,多头组合年化超额收益26%,夏普2.99。
- 中证1000成分股表现更佳,年化超额收益42.4%,夏普3.37。
- 模型稳定性良好,换手率调整灵活,保持持续超额收益。
  • 图表解读深化理解

- 梯度提升树与深度学习特征提取图表说明了机器学习特征自动生成的技术背景。
- 高频因子分布及历史走势展示因子非负且稳定。
- 特征hf3作为典型因子,走势、IC及收益表现突出,是反转因子中的典范。
- 多空组合净值表现图和分档收益表现进一步强化了选股的可操作性和实用意义。
  • 风险意识

- 报告明确指出策略并非绝对有效,市场和参与者变化带来的风险不可忽视。
- 推荐未来引入更加灵活的卷积、循环神经网络处理高频时序数据,拓展因子空间。

总体来看,广发证券的本报告通过实证研究验证了深度学习对高频金融数据挖掘的先进性和实际投资价值,是中国量化领域融合机器学习与高频金融数据的有益示范,对投资策略与量化研究具有重要启示价值[page::0-16]。

---

附:部分关键图表展示


  • 图1:GBDT特征提取示意图


  • 图3:全连接神经网络示意图


  • 图6:机器学习特征样本内外IC情况


  • 图10:特征hf3的IC走势


  • 图15:中证500选股表现


  • 图16:中证1000选股表现



---

以上为对《精选量化研究系列之八:深度学习框架下高频数据因子挖掘》报告的详尽剖析。报告全面展示了深度学习技术在金融高频数据因子挖掘中的前沿应用及其有效性验证,为机构量化投资提供了重要参考。

报告