`

深度学习框架下高频数据因子挖掘

创建于 更新于

摘要

本报告基于深度学习框架,利用高频数据及其低频化衍生因子,构建并训练深层全连接神经网络模型提取高阶选股特征。通过逐期回归方法组合深度学习提取的因子,实现日频调仓选股。实证显示,深度学习因子总体具有较高的信息系数(IC),且组合策略在中证500与中证1000指数成分股中均取得显著正超额收益,最高年化超额收益42.4%,夏普比率达3.37。模型实时性强,适应市场特征变化,证实高频因子挖掘的有效性与优势[page::0][page::3][page::7][page::14][page::17][page::19][page::20][page::21]。

速读内容

  • 高频数据因子开发优势与难点[page::3]

- 高频价量数据维度大、噪声高,能提供更多样化、低相关性的特征。
- 高频数据因子调仓周期短,具有更多独立样本,有助于因子有效性检验。
  • 自动化特征工程与机器学习方法应用[page::4][page::5]

- 传统主成分分析生成的特征多为线性,效果有限。
- 梯度提升树(GBDT)与深度学习能构造更丰富的非线性特征。

  • 深度学习模型结构及应用[page::6][page::7][page::8]

- 模型输入76个因子:73个高频低频化特征 + 3个低频风格因子(市值、5日换手率均值、5日收益率)。
- 网络结构为7层全连接神经网络,输出预测未来5交易日股票走势(三分类:涨、平、跌)。
- 采用ReLU激活及softmax输出,训练目标为交叉熵损失函数。
  • 高频因子低频化及因子体系构建[page::9][page::10][page::11][page::12]

- 构建多个因子体系:日内价格因子、成交量因子、盘前价量因子、资金流向因子、大成交量相关因子、开盘收盘活跃时段因子。
- 资金流向因子基于单笔成交额分类型(散户、中户、大户、机构)及主动买卖方向。
  • 因子表现与深度学习提取特征分析[page::13][page::14][page::15][page::16][page::17]

- 部分人工因子5日IC绝对值超过5%,最高约7.76%。
- 深度学习模型顶层32个特征平均绝对IC约8.6%,样本外为7.7%,表现稳定。
- 以样本外表现突出的hf3特征为例,分布非负,主要集中于0附近,表现具备反转预测能力及良好多空收益表现。





  • 量化策略构建及回测表现[page::17][page::18][page::19][page::20]

- 基于深层神经网络提取的因子,采用滚动截面回归计算因子权重,构建特征组合模型,进行每日更新,实现日频调仓。
- 模型样本外IC均值约7.6%,回测显示组合多空收益稳定且分档收益单调。




  • 主要策略回测指标 - 不同换手率约束下表现[page::19][page::20]


表9:不同换手率约束下中证500内选股表现

| 换手率限制(%) | 年化超额收益率(%) | 夏普比率 | 年换手率(次) |
|---------------|------------------|----------|-------------|
| 10 | 21.5 | 2.41 | 23.5 |
| 15 | 24.8 | 2.65 | 34.2 |
| 20 | 26.0 | 2.99 | 48.6 |

表10:不同换手率约束下中证1000内选股表现

| 换手率限制(%) | 年化超额收益率(%) | 夏普比率 | 年换手率(次) |
|---------------|------------------|----------|-------------|
| 10 | 37.2 | 3.02 | 23.5 |
| 15 | 40.1 | 3.15 | 34.2 |
| 20 | 42.4 | 3.37 | 48.6 |
  • 风险提示[page::0][page::21]

- 策略模型并非百分百有效,可能因市场结构、交易行为变化及套利者增加而面临失效风险。

深度阅读

20210307-广发证券-深度学习研究报告之七:深度学习框架下高频数据因子挖掘



---

1. 元数据与概览


  • 报告标题:深度学习框架下高频数据因子挖掘(深度学习研究报告之七)

- 发布机构:广发证券发展研究中心
  • 发布时间:2021年3月9日

- 分析师:回公(两名)、罗军等
  • 主题范围:结合深度学习技术,对证券市场的高频数据进行因子挖掘,构建选股模型,实现量化选股策略

- 报告核心论点
- 高频数据因子相比传统低频因子更具信息量和潜在收益价值,但因数据维度大且噪声高,挖掘难度较大。
- 运用机器学习,尤其是深度学习的模型,能够自动提取高频数据中的有效特征,提升因子挖掘能力。
- 基于深层全连接神经网络提取日频化处理后的高频特征,结合回归模型整合特征,实现选股并取得显著超额收益。
- 实证结果表明,该方法在中证500、中证1000指数成分股上的多头组合均表现优异,年化超额收益分别约26%和42%,夏普比率均高于2.9。
  • 报告重点信息:深度学习模型挖掘出的高频因子具有较高预测能力(信息系数IC),且特征组合模型多头策略在样本外均有稳健表现,但需警惕市场结构变化带来的风险[page::0].


---

2. 逐节深度解读



2.1 高频因子思考


  • 传统因子面临挑战:机构化和量化化带来因子收益降低和因子拥挤;公开化使得因子套利迅速消失超额收益[page::3]。

- 低频因子瓶颈:基于日度及更低频率的价量及财务数据的因子效果趋于饱和,挖掘空间受限,同时过度挖掘风险增加。
  • 高频数据优势

- 海量数据体量:例如2020年全市场分钟行情压缩后约12GB,更高频的快照或者Level 2行情数据更大。高频因子开发对信息处理能力需求高。
- 多维且带噪声:高频价格、买卖盘等多维时间序列,原始数据不能直接用作因子,需通过信号转换、时序分析、机器学习提取有效特征。
- 样本量多:高频因子调仓期短,统计上兼具更多独立样本,有助于检验因子有效性[page::3].
  • 特征选择难点与机器学习优势

- 高频数据高维、噪声多,传统经验难以完全挖掘。
- 机器学习特别擅长海量及高维度数据的规律提取,是高频因子挖掘有效工具。

2.2 自动化特征工程


  • 特征工程定义:原始数据加工和组合形成符合任务需求的变量,使模型性能得到提升[page::4]。

- 案例示范:BMI指数示例展示了特征组合的重要性。
  • 机器学习特征生成类别

- 主成分分析(PCA):线性维度压缩,无法捕获非线性信息,提升有限。
- 梯度提升树(GBDT)+逻辑回归:通过树模型输出的叶子节点编码生成新特征,实质为特征编码的自动化示例(图1展示GBDT特征提取结构)[page::5]。
  • 深度学习特点

- 多层次结构,低层提取低阶特征,高层综合提取高阶非线性特征,自动特征学习能力强(图2展示特征提取流程)。
- 适应海量数据和复杂模型,丰富多样模型结构适合不同数据形态(图3和图4展示全连接和循环神经网络结构)。
  • 本报告策略

- 先将高频价格等因子低频化形成日频因子,再以深层全连接神经网络抽取高阶特征,用于后续选股[page::5-7].

2.3 深度学习因子挖掘模型


  • 模型结构

- 输入层76个因子:73个由高频数据降频提取的因子 + 3个传统低频风格因子(市值、5日换手率均值、5日收益率)[page::7]。
- 7层深层神经网络:输入层、5个隐层、输出层。
- 输出层3个节点对应未来5日超额收益的三分类(上涨、持平、下跌),通过softmax转化为概率。
  • 训练目标

- 损失函数为交叉熵函数,采用反向传播优化网络参数,训练样本剔除上市时间不足20日、ST股、涨跌停及停牌股票[page::7-8]。
- 预测目标为未来5交易日超额收益率的分类。
  • 特征组合方法

- 模型提取高阶特征后,用截面回归估计单个因子对横截面收益率的解释力度(回归系数)。
- 采用滚动窗口(过去一年)计算回归系数平均值,得到因子的期待解释力。
- 预测当天股票收益为因子值与平均回归系数加权总和,进而筛选股票进行组合构建。
- 该方法具备实时更新特征权重的能力,紧贴市场环境[page::8].

2.4 高频信息低频化与因子构建


  • 报告详细列举了各类日频因子,主要包括:

- 日内价格因子(表2):基于累积收益率、高阶统计量、趋势强度等9个因子。
- 成交量相关因子(表3):反映投资者行为及价量关系。
- 盘前价量因子(表4):包括隔夜收益率、开盘集合竞价行为。
- 资金流向因子(表5):基于level2数据,分散户、中户、大户、机构,主动买卖等多种维度资金流向指标。
- 特定时段价量因子(表6):开盘后半小时及收盘前半小时的价量特征。
- 大成交量因子(表7):聚焦当天成交量排名前三分之一分钟成交量对应的价量信息[page::9-12].
  • 此类因子均低频化处理(如转为日频),为后续深度学习模型输入提供基础。


2.5 实证分析


  • 人工因子表现

- 2016年-2021年1月统计显示,最大5日信息系数(IC)为换手率因子,约7.76%,另有3个资金流向因子IC超过7%。
- 13个因子5日IC超过5%,28个超过3%,说明一定比例的因子具备稳定的预测力(表8)[page::13].
  • 深度学习特征概况

- 样本内(2016-2018年)和样本外(2019-2020年)测试,32个高阶特征中12个为正IC,20个为负IC。
- 平均IC绝对值为8.6%(样本内)及7.7%(样本外),样本外表现略有下降但依然强劲,IC低于5%的特征仅占16%,表示特征有效[page::14]。
  • 特征示例分析

- 因子hf3的取值大部分为非负且多在0附近,部分极值不超过3(图7-8)。
- 某只股票hf3因子从2016年开始数值逐步增长并保持稳定(图9)。
- hf3因子的IC表现为一个反转特征,样本内外表现一致且稳定(图10)。
- 基于hf3构建的多头组合在中证500指数内回测,累计超额收益显著,2019-2020年累计超额收益50%,空头组合回报远低于基准(图11)。
  • 特征组合模型表现

- 基于深度学习特征回归生成的特征组合模型,样本外IC均值约7.6%,标准差7.8%(图12)。
- 多空组合超额收益稳定且具有阶梯分档收益表现,说明模型对因子组合有效排序(图13-14)。
  • 实盘回测

- 在中证500指数成分股内,限定单次调仓换手率20%,多头组合年化超额收益26%,夏普比率2.99,年换手率48.6次(图15,表9)。
- 在中证1000指数成分股内,条件同上,年化超额收益42.4%,夏普比率3.37,且提升趋势明显,策略灵活性较强(图16,表10)[page::13-20].

2.6 总结与展望


  • 本报告建立了基于高频数据降频日频因子的深度学习框架,结合截面回归进行特征组合,实现有效选股。

- 选出的因子在样本内外均表现稳健,组合策略取得因子预测水平对应的较高超额收益和夏普比率。
  • 深度学习模型自动提取特征的能力为高频数据的量化利用打开新路径。

- 后续可研究更适合时间序列数据的神经网络结构(如卷积CNN、循环RNN)以进一步提升特征多样性和预测能力。
  • 风险提醒:策略模型并非完全有效,市场结构变化、交易行为变动及策略拥挤可能导致模型失效[page::21].


---

3. 重点图表解析



图1:梯度提升树(GBDT)特征提取示意图[page::5]


  • 展示GBDT如何将原始特征映射为对应叶子节点的标识符,每个叶子节点成为一维二元特征(0/1)。

- 通过多棵树的叶子节点特征组合,实现特征自动编码,供后续逻辑回归使用。
  • 说明自动化特征工程的典型实践基础。


图2:深度学习特征提取示意图[page::5]


  • 示意深度学习通过多层网络逐步抽取从低级特征到高级抽象特征,最终输入分类器,实现输出预测。

- 突出深度学习“自动特征学习”的优势,强调多层非线性关系。

图3与图4:全连接神经网络与循环神经网络结构[page::6]


  • 图3表示无时间依赖的全连接神经网络,适合静态截面数据。

- 图4循环神经网络设计适合时间序列数据,可以记忆历史信息。
  • 报告说明当前采用全连接神经网络,下一步研究将考虑RNN、CNN等结构。


图6:机器学习特征样本内外IC表现[page::14]


  • 多数特征具有显著正或负IC,且样本内外IC趋势一致,验证特征稳定性。

- 绝大部分特征IC绝对值超过3%,表示有效的因子提取。

图7与图8:全市场某交易日hf3因子值及直方图[page::15]


  • 因子值分布观察显示大部分股票因子值集中在低区,但存在一定扩展分布,说明因子具备区分能力。


图9与图10:某股票hf3因子时间序列及IC走势[page::16]


  • hf3因子时间走势随时间变动,但稳定在一定区间,有反转特征。

- IC每日波动但整体维持一定正负方向,长期有效。

图11:hf3多空组合收益表现[page::17]


  • 多头组合明显跑赢中证500基准,空头端持续跑输基准,多空差表现优异且稳定。


图12、13、14:特征组合模型IC走势及策略收益表现[page::17-18]


  • 个期预测能力虽波动,但模型整体趋势向好。

- 多空超额收益累积稳健,分层收益呈单调上升,说明模型对因子排序合理。

图15与图16:中证500与中证1000成分股多头组合回测表现[page::19-20]


  • 策略累计净值明显超越基准指数且波动较低。

- 大幅超额收益对应高夏普比,表明良好风险调整收益。
  • 换手率控制后回测仍显著盈利,表现策略的交易成本适应度。


---

4. 估值分析



本报告为量化因子挖掘与选股策略研究,未涉及传统估值模型(DCF、PE等),因此无估值区块。主要关注因子构建、模型训练、预测IC及实盘回测收益。

---

5. 风险因素评估


  • 策略模型非绝对有效,容易受市场结构及交易行为变化影响。

- 因子拥挤风险:当大量市场参与者争相应用相同因子时,超额收益率有消减趋势。
  • 交易成本及流动性限制:高频因子策略换手率较高,成本控制难度大。

- 机器学习模型风险:过拟合风险、模型参数选择影响策略稳健性。
  • 报告仅提及风险提醒,未详细列出缓解策略或具体概率。


---

6. 批判性视角与细微差别


  • 报告中深度神经网络采用全连接架构处理日频因子,未深入研究时序神经网络(RNN/CNN)的潜力,提示未来升级空间。

- 采用5日收益率进行标签设定,可能忽略更高频或更长持有期表现的差异。
  • 训练样本剔除涨跌停及停牌数据,避免数据污染,但对极端行情的反应未知。

- 特征组合回归模型中截距项被忽略,可能导致在整体市场趋势变动时预测偏差。
  • 实证回测仅限2019年以来,历史极端市场环境验证不足。

- IC指标偏重单期预测能力,未全面评价因子稳定性的多维指标。
  • 风险提示较为简略,未充分展开对交易成本、市场流动性和策略拥挤等风险的定量分析。


---

7. 结论性综合



本报告以广发证券深度学习研究系列为背景,创新性地将高频市场数据先通过信号转换和加工低频化为日频因子,继而采用7层深度全连接神经网络提取高阶特征,结合回归方式动态组合因子,开发出实时更新的选股策略。实证表现优异:
  • 高频数据因子弥补了传统低频因子信息量不足的短板,提供了更丰富的市场信号。

- 深度学习模型增强了特征的非线性表达和提炼能力,实现了稳健的因子池构建。
  • 机器生成的因子普遍拥有较高信息系数(IC),反映对未来收益的较好预测力。

- 特征组合策略在中证500和中证1000指数成分股的实际回测中均实现了显著超额收益,年化超额分别为26.0%和42.4%,且夏普比率高于2.9,显示优异的风险调整表现。
  • 不同换手率约束下策略表现稳健,说明交易成本考量充分。

- 报告就深度学习方法、因子构建流程、实证验证均给出了详细技术路径和结果展示,具有较强的参考价值。

然而,策略依然面临市场结构变动、因子拥挤、数据噪声及未来不可控风险,未来可通过引入高级时序模型架构及更长时间跨度验证增强模型鲁棒性。

整体来看,广发证券团队通过深度学习结合高频数据因子挖掘,成功落实了理论与实践的结合示范,为量化投资领域开辟了新的技术路线和应用场景[page::0,3,5-21].

---

参考文献与附录


  • 原文中涉及的各类列表因子及指标定义详见表2-7。

- 重要图表包括实证IC走势图(图6、10、12)、多空收益图(图11、13、15、16)为投资决策提供基准。

---

(全文共计约1200余字,涵盖报告结构及全部主要内容,详尽解读重点章节和数据图表,确保信息完整且具备专业洞察。)

报告