`

深度学习框架下高频数据因子挖掘

创建于 更新于

摘要

本报告基于高频价量数据预处理成日频因子,通过深层全连接神经网络提取选股因子,并采用基于截面回归的特征组合方法进行选股测试。样本外实证显示,深度学习提取特征的平均IC约7.7%,组合模型年化超额收益率在中证500和1000成分股中分别达到26%和42.4%,超额收益夏普比均超过2.9,表明模型具备显著的选股能力且适合实时动态调整[page::0][page::6][page::14][page::19][page::20]

速读内容


高频数据与因子挖掘背景 [page::3][page::9]

  • 高频价量数据维度大、噪声多,但信息含量丰富,因而具有潜在的超额收益空间。

- 高频数据因子须通过特征工程及机器学习等技术提取;机器学习尤其适用于高维复杂数据的特征发掘。
  • 高频因子相比低频因子具有更多独立样本,利于因子有效性的检验。

- 特征工程涵盖人工特征构建、遗传规划优化、主成分分析、梯度提升树和深度学习等自动化特征提取方法。

深度学习因子挖掘模型与结构 [page::5][page::7][page::8]


深度学习高频因子挖掘流程
  • 网络架构采用7层深层全连接神经网络,输入76个日频因子(73个高频低频化因子+3个低频风格因子)。

- 输出层3节点代表未来5日收益率分类(上涨、平盘、下跌)构建分类模型。
  • 激活函数为ReLU (隐含层) 与 Softmax (输出层),交叉熵为损失函数。

- 基于神经网络提取的特征采用逐期滚动截面回归动态计算回归系数,实时跟踪市场特征,完成因子组合预测。

高频因子构建 [page::9][page::10][page::11][page::12]


| 因子类别 | 具体因子数量 | 代表因子示例 | 描述 |
|------------|--------------|----------------------------|------------------------------------|
| 价格相关因子 | 9 | retintraday、realvar | 反映日内收益率、方差、偏度、趋势等日内信息 |
| 成交量因子 | 12 | ratiovolumeH1、corrVP | 反映不同时段成交量占比及量价相关性 |
| 盘前价量因子 | 7 | retovernight、divergeA2 | 体现开盘集合竞价及隔夜收益情况 |
| 资金流向因子 | 21 | amountbuyexlarge、moneyflowdiff | 按交易单金额及买卖主动性区分资金流状况 |
| 开盘/收盘时段因子 | 16 | retH1、realkurtosisH8 | 反映开盘后与收盘前关键半小时的价量特征 |
| 大成交量因子 | 8 | realvarlarge、corrVRlaglarge | 大量成交时刻对应的价格及成交特征 |
  • 资金流向因子等多因子整体表现较好,多因子5日IC 绝对值超过5%因子13个,超过3%因子28个。[page::9][page::10][page::13]


神经网络特征与回测表现 [page::14][page::15][page::16][page::17]


机器学习特征样本内外IC情况
  • 神经网络顶层隐含层32个特征中,样本外平均IC绝对值为7.7%,表现稳定且高于传统低频因子水平。

- 以hf3特征为例,因子非负,多空组合年化超额收益约50%,呈现明显反转特征。
特征hf3的多空收益

特征组合模型选股表现与风控 [page::17][page::18][page::19][page::20]


特征组合模型的IC走势
  • 建立逐期回归特征组合模型,2019年以来IC均值7.6%,标准差7.8%,选股能力显著。

特征组合模型的多空收益
特征组合模型的分档收益

| 换手率上限 | 多头收益率(中证500,年化) | 超额收益率(年化) | 超额夏普比率 | 年化换手率(倍) |
|------------|----------------------------|--------------------|--------------|------------------|
| 10% | 47.54% | 21.54% | 2.88 | 24.39 |
| 20% | 51.53% | 25.53% | 2.99 | 48.59 |
| 30% | 49.64% | 23.64% | 2.59 | 72.89 |
| 40% | 48.21% | 22.21% | 2.44 | 97.19 |

| 换手率上限 | 多头收益率(中证1000,年化) | 超额收益率(年化) | 超额夏普比率 | 年化换手率(倍) |
|------------|-----------------------------|--------------------|--------------|------------------|
| 10% | 62.88% | 37.81% | 3.07 | 24.39 |
| 20% | 67.50% | 42.43% | 3.37 | 48.59 |
| 30% | 77.74% | 52.67% | 3.97 | 72.89 |
| 40% | 81.41% | 56.34% | 4.02 | 97.19 |
  • 回测均以行业、规模、流动性中性为基础,考虑千分之三的交易成本,调仓频率为每日。

- 多空组合均表现稳定,显著跑赢对应基准指数,超额收益与夏普比良好。[page::18][page::19][page::20]

研究总结与展望 [page::20][page::21]

  • 神经网络结合高频数据构建有效因子,利用深度学习强大特征表达能力获得稳定的选股因子。

- 基于动态回归的特征组合实现实盘适应性和超额收益,提升量化投资的动态响应能力。
  • 后续可尝试卷积神经网络和循环神经网络结构直接处理高频时间序列,挖掘更多样特征。

- 策略风险包括市场结构变化与因子拥挤带来的模型失效可能[page::21].

深度阅读

深度学习框架下高频数据因子挖掘报告详尽分析



---

1. 元数据与报告概览


  • 报告标题:《深度学习框架下高频数据因子挖掘》

- 报告系列:深度学习研究报告之七
  • 作者及机构:广发证券发展研究中心;主要分析师包括罗军、安宁宁、文巧钧等

- 发布时间:报告页未具体标明,但数据时间覆盖至2020年底,推测为2021年初发布
  • 研究主题:基于深度学习技术,从高频数据中挖掘股票选股因子,构建多因子选股模型,验证模型选股有效性

- 核心论点:
- 高频数据因子挖掘相较传统低频因子有更大潜力带来超额收益,因其信息量大且低频因子拥挤。
- 机器学习,尤其是深度学习,是提取高频数据中有效特征的有力工具。
- 利用深层全连接神经网络,对日频化的高频因子进行特征提取和组合,模型表现优异,具备良好选股能力。
  • 主要结论及评级:

- 通过深度学习模型提取的特征,样本外IC均值稳定在7.6%-7.7%,表现优于多数传统因子。
- 选股策略年化超额收益率达26%(中证500成分股)至42.4%(中证1000成分股),夏普比率分别达到2.99和3.37。
- 报告未明确给出具体买卖评级,但提供了策略明晰的实证回测结果与风险提示,表明作者对所提模型持积极肯定态度。[page::0,1]

---

2. 逐节深度解读



2.1 高频因子思考



(一)从低频信息到高频信息


  • 关键论点

- 低频因子在市场中已被广泛知晓,因子收益逐渐被挤压,表现出因子拥挤现象。
- 高频价量数据体量巨大,且包含更多潜在信息,更新换代快,因而是挖掘股票超额收益空间的重要源泉。
- 高频数据的时序性质和多维特征形成挑战:噪声高,数据维度大,且原始高频数据需通过变换转化为可用因子。
- 高频因子调仓频率高,样本独立性强,有助于提升因子有效性检验的准确度。
  • 支撑逻辑

- 高频数据在分钟及更细粒度层面比日频数据含更多信息,策略更新快适合应对市场变化。
- 传统低频因子由于可复制性强,已被各类市场参与者广泛采用,导致超额收益率下降。
  • 关键数据/解释

- 高频行情如3秒快照数据量庞大(2020年市场分钟行情约12GB),需先进计算能力。
  • 推断

- 高频因子挖掘不仅技术含量高,且极具前瞻价值,注重技术与金融结合,机器学习派上用场。

(二)自动化特征工程


  • 关键论点

- 多因子体系中,特征工程即“正确的特征”,是模型预测能力的关键。
- 特征设计重要性体现在把原始无序数据转为更具经济意义的组合变量,例如BMI指数例子。
- 高频因子挖掘的难点在于数据高维、噪声大,传统专家知识不能完全应对,机器学习优势凸显。
- 主成分分析(PCA)虽常用但线性限制明显,梯度提升树(GBDT)与深度学习(DL)能自动生成丰富非线性特征。
  • 支撑逻辑

- 引用Facebook经典CTR模型中用GBDT构造特征,逻辑回归预测,开创自动化特征工程新时代,示意图说明特征编码逻辑。
- 深度学习能自动从大量数据中学习多层次特征,有利于发现复杂因子信号。
  • 技术细节

- GBDT示意图演示叶子节点向量化过程(每个样本位置为1或0),深度学习示意图体现多层特征逐层抽象。
- 不同类型神经网络适用场景:全连接处理截面数据,循环神经网络(RNN)和卷积神经网络(CNN)擅长时序与结构化数据。
  • 结论

- 本报告选用全连接深层神经网络对日频转换后的高频因子进行建模,平衡计算复杂度与性能。

2.2 深度学习因子挖掘模型



(一)模型架构与训练


  • 关键结构

- 输入:76维因子向量(73个高频低频化特征+3个低频风格因子)
- 网络层级:输入层(76节点)→5个隐含层(128、128、64、64、32节点)→输出层(3节点表示未来5日涨、平、跌三个概率)
  • 技术细节

- 激活函数:隐含层ReLU,输出层softmax进行三分类预测。
- 损失函数:交叉熵损失,采用误差反向传播优化。
- 样本定义:股票未来5日收益率排名,前10%标为上涨,中间10%为平盘,末尾10%为下跌,剔除新股、ST、停牌涨跌停等特殊样本。
- 预测范围:未来五个交易日收益率,调仓假设使用第T+1日开盘价为调仓价格。
  • 模型目标

- 通过深层神经网络拟合多维因子与未来走势间复杂非线性关系。

(二)特征组合模型设计


  • 方法论

- 训练好的深度网络隐含层输出视为若干机器学习因子(n维向量)作为新的选股信号。
- 通过线性截面回归:未来收益率对这些机器生成的因子做滚动回归,计算因子贡献系数$\betak$。
- 采用过去一年回归系数的滚动均值$E^s[\beta
k]$作为权重,对新期交易日的特征进行线性组合预测收益,构造股票排名。
  • 优势

- 实时更新回归系数保证模型适应市场特征变化。
- 回归模型易于解释,保留模型透明度。
  • 总结

- 该方法结合深度学习非线性特征提取与传统线性因子组合的优势,有效提高选股准确率。[page::3,4,5,6,7,8,9]

2.3 高频因子低频化及因子构建


  • 因子类别及构建思路

- 日内价格相关因子(9个因子):基本基于收盘价和开盘价计算收益率、收益波动、偏度峰度等指标,捕捉日内价格结构信息。
- 成交量相关因子(多项):分时段成交量比例、成交量与价格/收益率相关系数等,反映交易活跃度和价格流动性关系。
- 盘前价量因子:隔夜收益率,集合竞价阶段价格波动幅度,展现金融发盘的资金态度。
- 资金流向因子:根据资金规模划分散户到机构各级主动买卖金额、净买卖额、资金流入率等,揭示资金主动进出行为。
- 其他因子:短时段内价格量信息(开盘和收盘半小时)、大成交量时段衍生指标。
  • 核心数据来源及计算

- 主要依据天软科技提供的高频行情数据及Wind资金流向数据。
- 因子涵盖较宽泛市场行为信号,结合时序空间差异化计算因子。
  • 意义

- 高频因子通过低频化处理(如累积收益率、统计量)形成统一粒度,便于深度学习网络处理。
- 多角度捕获市场异质性行为,提升因子多样性和识别能力。[page::9,10,11,12]

2.4 实证分析



(一)人工因子表现统计


  • 期间:2016年至2021年1月

- IC分布:
- 76个因子中,13个因子5日IC绝对值超过5%,28个超过3%。
- 资金流因子表现活跃,如散户及中户买卖金额因子5日IC均在约-7%~-8%区间。
- 同时,5日换手率(低频因子)IC最高(绝对值7.76%)。
- 多数因子IC为负,可能反映因子与未来收益率负相关,表明选择方向需要调整。
  • 解析:

- 单因子IC表明这些人工构建的高频低频化因子具备一定预测能力,为深度模型输入提供基础。
  • 表8详列因子IC值与类别,支撑后续模型构建选择。[page::13]


(二)深度学习特征概况


  • 时间划分:2016-2018年样本内训练,2019-2020年样本外测试。

- 从模型顶层的32个特征(hf0-hf31)中:
- 12个特征IC均为正,20个IC均为负。
- 平均绝对IC全样本8.6%,样本外7.7%,表明模型具备稳定预测性但存在部分特征表现波动。
- IC小于5%的特征占比约16%。
  • 以hf3特征为例:

- 其分布均为非负,典型特点源于ReLU激活。
- 该特征在样本内外均表现良好,IC呈现反转预测特性,负相关于未来收益率。
- 多空组合回测显示,组合同期表现出显著且稳定的超额多空收益,多头超额收益较中证500指数相对较低,而空头端超额亏损较显著,整体多空超额显著。
  • 图示(图6-11)详解特征分布、走向、IC走势及多空收益,直观展示深度学习衍生特征对市场的解释力。[page::14,15,16,17]


(三)特征组合模型表现


  • 利用深度学习顶层提取的机器因子,通过动态回归组合,构建综合选股模型。

- 表现概要:
- 样本外期(2019年以来),IC均值达7.6%,标准差7.8%,较为理想。
- 回测过程中,策略多空超额收益稳定且分档收益递增,显示组合模型的预测能力强。
  • 回测覆盖中证500和中证1000成分股:

- 中证500成分股:
- 换手率限制20%,年化超额收益率26%,超额夏普比率2.99,换手率48.6倍
- 换手率限制不同(10%-40%),年化超额收益均保持21%以上,夏普比率均在2.4以上,表现稳健。
- 中证1000成分股:
- 换手率限制20%,年化超额收益率42.4%,超额夏普比率3.37,换手率同为48.6倍
- 换手率不同情况下年化超额收益37%-56%,且夏普比率保持3以上,且调仓频率提高对收益有明显正贡献。
  • 图示(图12-16)全面说明IC走势、分档收益、多空收益及净值表现,反映模型强劲的实战应用能力。

- 报告中假设交易成本千分之三,且调仓基于T+1日开盘价,实际操作需注意滑点及成本风险。[page::17,18,19,20]

---

3. 图表深度解读



3.1 高频因子低频化相关表格


  • 表2-7分别列出了各种高频因子构建的具体指标名称与定义,从价格、成交量、盘前竞价、资金流向等多维度覆盖。


例如:
  • 表2日内价格相关因子包括收益率、方差、偏度等,体现日内价格波动特征;

- 表3成交量因子涵盖分时段成交比重及成交量与价格/收益率相关性,反映交易活跃度和量价关系;
  • 表5资金流向因子细分规模和买卖方向,挖掘资金动向信息。


每份表格列出详细定义,方便因子复制和理解。

3.2 深度学习模型结构(表1与图3)


  • 表1详细列出模型7层网络结构及各层节点个数,体现模型层次深度;

- 图3直观展示全连接网络各层之间节点的连接关系,强调模型对截面数据处理的适用性。

3.3 机器学习特征提取示意图(图1和图2)


  • 图1阐述GBDT模型如何生成叶子节点特征向量,是自动化特征工程的基础;

- 图2简化表达深度学习多层次特征抽象流程,从输入信号到高阶特征再到预测。

3.4 高频数据因子实证图表解读(图6-16)


  • 图6显示深度学习模型32个顶层因子IC的样本内外表现,呈现整体稳定的预测能力;

- 图7-8示例某交易日hf3特征值及分布,体现特征非负且峰值受ReLU影响;
  • 图9展示了某股票多年内hf3特征变化,波动反映其历史状态变迁;

- 图10描绘hf3特征的IC变化及其累计走势,验证预测能力及稳定性;
  • 图11给出hf3多头空头组合净值走势,显示明显的多空收益差异和超额收益;

- 图12描述特征组合模型的滚动IC,虽然存在波动,但总体向好;
  • 图13-14为组合策略多空收益及分档收益柱状图,突出策略预测的单调有效性和收益稳健;

- 图15-16详细展现中证500与中证1000成分股内策略多头净值和超额收益累计曲线,验证策略优越性。

---

4. 估值分析


  • 报告中无具体估值公司或工具,仅对策略的预测性能和回测收益进行实证分析。

- 估值层面主要体现在策略的IC及超额收益表现,用以衡量深度学习提取高频因子的投资价值。
  • 本报告更强调模型构建与因子选股框架,非公司财务估值分析。[page::0-21]


---

5. 风险因素评估


  • 主要风险提示:

- 策略模型并非始终有效,市场结构与交易行为变化可能导致策略失效。
- 高频数据因子由于高维和噪声多,也存在过拟合风险或特征稳定性不足。
- 因子被广泛采用后,相关收益率可能被快速套利消失(因子拥挤风险)。
- 交易成本、滑点及流动性约束可能影响策略实际收益。
  • 缓解策略:

- 模型每天更新回归权重,紧跟市场动态,提高适应性。
- 回测中设置不同换手率限额,兼顾收益和交易成本。
  • 风险发生概率:

- 难以量化,需持续监测市场环境变化及模型性能。
  • 总结:

- 报告在结尾具体披露并强调风险事项,提醒投资者理性审视策略。[page::0,21]

---

6. 批判性视角与细微差别


  • 报告作者对深度学习因子挖掘持肯定态度,核心推荐基于实证结果,但存在以下潜在问题:

- 深度学习模型的复杂度较高,模型透明度和解读性有限,对经济意义的解释相对弱。
- IC虽然表现较好,但部分因子IC为负值,部分特征稳定性不足,整体因子池仍需择优。
- 回测采用T+1日开盘价调仓,假设理想,实际可能面临更多交易摩擦。
- 高频因子数据的成本、存储和处理要求较高,极大依赖技术能力,普适性受限。
- 报告中对风险描述相对简略,缺乏对策略在市场剧烈波动期表现的详细剖析。
  • 另外,文中提及的全连接网络虽适用于截面数据,报告亦声明未来考虑RNN或CNN等时序模型,当前方法仍有提升空间。

- 研究团队成员众多,但不可忽视部分分析师未注册香港证监会持牌人身份,香港地区推广有限制。

综上,尽管公共数据量充足,报告基于深度学习选股因子挖掘充分展示其可行性与潜力,但在实际部署前应充分考虑模型风险和市场环境动态变化。[page::22,23]

---

7. 结论性综合



本报告系统阐述了基于深度学习技术对高频交易数据进行因子挖掘的方法、模型设计及实证验证。以下是核心总结点:
  • 背景与挑战:随着低频因子效率降低,因子拥挤,利用高频价量数据挖掘选股因子成为新方向。但高频数据噪声大、维度高,需先进机器学习技术支持。
  • 模型方法

- 设计了包含73个高频低频化因子及3个传统风格因子的76维输入,构建7层深度全连接神经网络模型。
- 采用多类分类预测方式,目标为未来5交易日内股票的涨、平、跌三种状态。
- 结合动态滚动回归对神经网络顶层特征进行线性组合,实现特征组合因子预测股票相对收益。
  • 因子构建覆盖全面:日内价格、成交量、盘前竞价与资金流向等多维信息被量化为可输入的日频因子,确保信息充分。
  • 实证结果亮眼

- 模型顶层特征平均IC样本外达7.7%,表明预测能力稳定。
- 特征组合模型年化超额收益率:中证500 26.0%,中证1000 42.4%,夏普比分别为2.99和3.37,体现了良好的风险调整收益。
- 换手率控制和交易成本考量使得策略实现稳健回测。
  • 图表验证

- 多幅图表系统分析因子分布、IC表现、多空收益及净值增长,证实选股模型的有效性。
- 尤其是中证500和中证1000成分股选股模型的净值曲线清晰优于基准,体现实用价值。
  • 风险与展望

- 策略存在市场适应性风险及交易执行风险。
- 后续可结合RNN、CNN等时序模型进一步挖掘高频时间序列数据,以获得更丰富多样的特征。
- 投资者需警惕因子拥挤及市场结构变化对算法有效性的影响。

综上,报告系统深入地探讨了深度学习与高频因子挖掘结合的技术路径及其在A股市场的实证表现,提供了令人信服的投资策略框架和实操价值,为未来量化投资者开拓高频因子研究提供了有价值的参考。

---

重要图表一览(Markdown展示)


  • 图1:梯度提升树特征提取示意图


  • 图2:深度学习特征提取示意图


  • 图3:全连接神经网络特征学习示意图


  • 图6:机器学习特征样本内外IC情况


  • 图11:特征hf3的多空收益


  • 图12:特征组合模型的IC走势


  • 图15:中证500成分股内选股表现


  • 图16:中证1000成分股内选股表现



---

以上为对《深度学习框架下高频数据因子挖掘》报告的详尽分析,涵盖报告的论点、数据、模型、实证及风险,展示了高频因子结合深度学习模型的强大潜力和应用价值。[page::全篇]

报告