`

基于深度学习的高频数据因子挖掘

创建于 更新于

摘要

本报告利用55个高频数据低频化的人工因子输入深度全连接神经网络,挖掘出32个深度学习特征因子,实证显示hf18在创业板实现27.25%年化收益,hf13在中证1000实现11.25%年化收益,均明显超越基准指数,体现机器学习在高频因子挖掘上的优势[page::0][page::7][page::16][page::21]。

速读内容


高频因子研究背景与优势 [page::3]

  • 高频数据相比低频数据具有更大数据量和更多信息密度,能提供更多独立样本以验证因子有效性。

- 高频数据噪声多,需机器学习等方法自动挖掘潜在有效因子。
  • 机器学习优势在于自动特征学习,传统主成分分析线性受限,梯度提升树及深度学习具备非线性特征生成能力。

深度学习模型架构与训练流程 [page::7][page::8]

  • 采用7层全连接神经网络,输入层55个因子,输出三类标签(上涨、平盘、下跌)。

- 使用交叉熵作为损失函数和反向传播优化模型参数。
  • 流程依次为高频价量数据→构建高频人工因子→深度学习建模 →筛选深度学习特征因子。

- 图示:

高频人工因子与分类整理 [page::8][page::9][page::10]

  • 共55个高频人工因子,分为日内价格、成交量、盘前价量、特定时段采样及大成交量相关因子。

- 指标如收益率方差、峰度、成交量分布比例、非流动性因子等。
  • 详细因子列表及描述见报告表2~表6。

高频人工因子表现统计(创业板及中证1000) [page::11][page::12]


| 因子名 | 类别 | RankIC | 多头年化收益率 | 多空年化收益率 |
|-----------------|------------|--------|---------------|---------------|
| Amihud
illiq | 成交量因子 | 8.92% | 27.91% | 39.72% |
| realkurtosis | 价格因子 | -3.74% | 15.12% | 5.85% |
| ratio
realvarlarge | 大成交量因子 | -5.98% | 14.71% | 16.94% |
  • Amihudilliq非流动性因子表现优异,展示高频因子潜力。

深度学习特征因子挖掘成果及回测表现 [page::14][page::16][page::19]

  • 从深度学习顶层隐含层节点32个因子中,hf18、hf13表现突出。

- hf18在创业板,多头年化收益率达27.25%,信息比达1.04,且与输入的高频人工因子相关性低,形成独立alpha因子。
  • hf13在中证1000,多头年化收益率11.25%,信息比率为0.64。

- 表格示例(创业板精选因子表现):

| 因子名 | Rank
IC | 多头年化收益率 | 多空年化收益率 |
|--------|----------|-----------------|----------------|
| hf18 | -6.79% | 27.25% | 39.44% |
| hf13 | 7.54% | 15.73% | 14.69% |
  • hf18分档收益图及累计收益明显优于创业板指:

  • hf13因子分档表现及累计收益曲线:


高频深度学习因子与人工因子相关性分析 [page::15][page::19]

  • 深度学习特征因子内部表现出较低相关性,组合具备多样化。

- 主要特征因子与原55个人工因子相关度较低,说明网络提取了新的有效选股特征。

风险提示 [page::0][page::21]

  • 本报告模型基于历史数据建模与回测,面临市场政策、环境和交易行为变化带来的策略失效风险。


深度阅读

基于深度学习的高频数据因子挖掘 — 多因子 Alpha 系列报告之(五十一) 深度解析



---

一、元数据与概览


  • 报告标题:《基于深度学习的高频数据因子挖掘》

- 系列:多因子 Alpha 系列报告之(五十一)
  • 发布机构:广发证券发展研究中心

- 撰写分析师:陈原文、安宁宁、罗军等
  • 发布日期:2023年8月

- 报告主题:利用深度学习方法挖掘高频数据因子,提升多因子量化模型的选股能力,主要聚焦于创业板和中证1000市场数据
  • 核心论点:高频数据因子具备信息丰富、更新快速的优势,但由于维度高、噪声多,传统方法难以有效提炼有效因子。深度学习模型能够自动提取复杂的特征,从而发现与传统人工因子相互独立且表现优异的新型选股因子。

- 评级与目标价:本报告为策略型研究报告,不针对具体标的给出评级或目标价,但通过实证验证展示了深度学习因子的超额收益能力。
  • 主要结论与信息摘要

- 通过将高频数据低频化转为日频因子输入,构建7层深度神经网络模型,训练出32个深度学习特征因子。
- 这些特征因子具有较低的与原始人工因子的相关性,展现出一定的独立性和差异化。
- 在过去三年样本外实证中,创业板的hf18因子和中证1000的hf13因子均表现出显著的多头年化收益及超额收益。
- 策略风险主要面临市场政策、结构和行为变化带来的失效风险。

hf18创业板表现
hf13中证1000表现
[page::0]

---

二、逐节深度解读



1. 高频因子思考



1.1 从低频信息到高频信息


  • 近年来A股机构化趋势明显,传统风格因子回报波动加剧,获取超额收益难度加大。

- 因子拥挤导致收益率下降,更新迭代因子变得尤为重要。
  • 低频因子(如财务数据和日频因子)因公开程度高,进一步挖掘空间有限且容易过拟合。

- 高频价量数据体量庞大,如2020年分钟线行情数据达12GB,且层级更细的快照、Level 2行情数据量更庞大。
  • 高频数据通常是多维时间序列,噪声高,原始数据不能直接作为因子,需要信号转换和机器学习提取特征。

- 高频因子的调仓周期较短,提供更多独立样本,有利于因子有效性的检验。
  • 因此,高频因子存在较大收益提升空间,但挖掘难度也高。机器学习是应对此问题的有力工具。


[page::3]

1.2 自动化特征工程


  • 特征工程定义为对原始数据进行加工组合产生适合模型的特征,领域知识提升效率。

- 传统金融因子(盈利、成长、价值等)基于经济逻辑,低频数据特征有限,高频数据需要更自动化和海量处理能力。
  • 介绍遗传规划通过迭代优化因子表达式的思路。

- 机器学习模型(主成分分析PCA、梯度提升树GBDT、深度学习)都可以自动产生新特征:
- PCA线性变换,受限于线性特性。
- GBDT通过决策树叶子编码产生的非线性特征。
- 深度学习多层结构学习低阶到高阶特征,尤其适合海量高维数据。
  • 深度学习模型的层次结构和激活特性使其能自动激活最适合当前任务的特征,表现优于其他模型。

- 全连接神经网络适合处理截面数据,通常用于提取已低频化的高频数据因子,再进一步学习高阶特征。
  • 循环神经网络(RNN)和卷积神经网络(CNN)适合直接用于时间序列建模。


示意图(梯度提升树、深度学习、全连接神经网络、循环神经网络)均展示了模型受输入特征及其转换流程的情况。

[page::4][page::5][page::6]

2. 深度学习因子挖掘模型


  • 将高频信息预处理为日频因子后,采用7层全连接神经网络建立股票未来走势预测模型。

- 输入层55个节点(人工预处理的高频因子),输出层3个节点代表上涨、平盘和下跌三种未来收益状态分类。
  • 使用ReLU激活隐含层节点,输出层用Softmax函数转化为概率分布。

- 训练损失函数采用交叉熵,优化目标是最大化模型对未来收益率分层的预测准确度,利用误差反向传播进行训练。
  • 网络输出分类对应于未来5个交易日收益率的最高10%(上涨)、中间10%(平盘)、最低10%(下跌)。

- 策略整体流程分为:高频价量数据采集→构建55个人工日频因子→深度学习建模→选股因子筛选与组合构建。

全连接神经网络层级和训练流程图具体说明了模型的构建和预测过程。

[page::7][page::8]

3. 高频人工因子构建


  • 因子构建涵盖多个维度:

- 日内价格相关因子:10个指标,包括分钟收益率方差、峰度、偏度、趋势占比、日内收益率和最大回撤。
- 成交量相关因子:包括开盘后各半小时成交量占比、成交量与价格/收益率的相关性指标(如corrVP)、Amihud非流动性指标等。
- 盘前价量因子:隔夜收益率以及开盘集合竞价阶段的最高、最低价格收益率差、振幅等。
- 特定时段采样因子:开盘后和收盘前半小时的各类价量指标,强化活跃时段信号。
- 大成交量相关因子:针对每日分钟成交量按大小分档,聚焦成交量排名前三分之一区间的指标,包括其收益率方差、峰度、偏度及与成交量的相关性。

表格详列每组因子的名称和定义,充分覆盖高频价量信息的多角度特征维度。

[page::8][page::9][page::10]

4. 实证分析



4.1 高频人工因子表现


  • 基于2020年7月-2023年6月的样本,创业板和中证1000板块均考察55个人工因子的表现。

- 创业板表现优异的因子:
- Amihud
illiq(成交量相关):RankIC均值8.92%,多头年化收益27.91%,多空收益39.72%。
- 其他表现较好因子有:intraday
maxdrawdown(最大回撤率)、retopen2AH2(盘前价量因子)、ratiorealvarlarge(大成交量占比)等。
  • 中证1000表现较好因子:

- realkurtosis(日内价格相关):RankIC均值-5.06%,多头年化收益10.76%。
- Amihudilliq:RankIC6.57%,多头年化收益10.07%,多空收益22.11%。
  • 大多数因子表现出正收益潜力,但RankIC中既有正也存在负值,反映高频因子市场有效性的复杂性。


详细因子表现及Rank
IC、多头、多空年化收益率均通过表格分门别类呈现。

[page::11][page::12]

4.2 深度学习特征因子表现


  • 采用2007年1月至2020年6月数据进行训练验证,2020年7月至2023年6月作为样本外检验。

- 从顶层隐含层(第五层)输出的32个深度学习特征因子(hf0至hf31)中,多个因子表现出色。
  • 创业板中表现优异因子:

- hf18:多头年化收益27.25%,RankIC -6.79%,多空年化收益39.44%。
- hf2:多头收益18.24%,多空收益53.21%,Rank
IC -8.43%。
  • 深度学习新特征因子之间相关性较低,且与输入的人工因子亦低相关性,表明模型结构有效挖掘出新的独立因子。

- 具体分档表现(以Q1~Q10档划分)显示,hf18前档收益明显突出,表现稳健,回撤控制合理。
  • hf18因子年度表现稳定,RankIC负占比均超75%,2021年后超85%,多头组合的超额年化收益率在2021年后保持高位。

- 中证1000区域的深度学习因子中,hf13表现较好,多头年化收益11.25%,Rank
IC 6.63%,且年度表现稳定。
  • 相似地,中证1000板块的因子相关性分析也体现了非相关的特性,深度学习因子较输入因子保持独立。


这一部分实证主要通过大量统计表格和相关性矩阵呈现,真实展现模型筛选出的因子在不同股市板块的实际选股表现和特征独立性。

[page::14][page::15][page::16][page::17][page::18][page::19]

---

三、图表深度解读



1. hf18因子创业板表现图



图6展现hf18因子分档收益,明显看到Q1档收益显著高于其他档位,收益逐档递减且Q8-Q10表现为负收益,体现因子的选股能力和风格倾向。对应表12,hf18多头组合实现27.25%的年化收益,相比创业板指的-1.62%表现极佳,风险调整指标如信息比率(1.02)和夏普比率(0.93)均说明风险控制合理。累积收益图7清晰展示了该多头组合远超创业板指数的长期增长趋势。整体图表支持深度学习因子带来显著的选股超额收益,并说明模型训练后具备实际可用性。

hf18因子分档表现(创业板)
hf18因子累计收益(创业板)
[page::16]

2. hf13因子中证1000表现图



图8展示hf13因子在中证1000的分档收益情况,Q1档明显领先,体现了良好的选股能力。表18中hf13多头组合年化收益11.25%,超越同期中证1000大盘7.24%,信息比率0.64,反映合理风险收益权衡。累计收益图9也体现了hf13多头组合相对中证1000指数的优势,特别是2021年后表现更加稳定。该图表验证深度学习因子在另一个市场板块同样具有良好的应用前景和选股表现。

hf13因子分档表现(中证1000)
hf13因子累计收益(中证1000)
[page::19][page::20]

3. 建模与特征提取流程图(图5)



模型整体从高频价量数据切入,经过构建55个人工日频因子,利用深度学习进行特征提取,最终输出深度学习特征因子用于选股。此流程图形象展示了模型从原始高频数据到选股因子的完整转换路径,凸显分层加工和深度学习的作用。
深度学习高频因子挖掘流程
[page::8]

---

四、估值分析



本报告侧重因子挖掘及策略表现,未涉及具体公司估值分析,因此无传统DCF、PE或EV/EBITDA估值内容。报告核心价值在于展示深度学习模型从高频数据中提取有效选股特征,提升多因子模型的选股能力及带来的超额收益。

---

五、风险因素评估


  • 模型历史数据依赖风险:因子挖掘和策略表现基于历史历史数据训练,假如市场结构、政策环境或交易行为发生重大变化,历史规律可能失效。

- 策略失效风险:策略在市场结构或行为变化时的适应性不足,可能导致选股表现下降甚至亏损。
  • 数据质量与噪声风险:高频数据噪声高、数据异常可能影响模型训练效果。

- 报告未明确提出缓解方案,提醒投资者警惕市场和策略失效风险。

[page::0][page::21]

---

六、批判性视角与细微差别


  • 因子解释性限制:深度学习因子虽然表现优异,但其“黑箱”性质导致具体驱动因素及经济含义难以解释,这对投资者理解和信任模型有一定挑战。

- 样本外验证时间范围有限:尽管包括了2020-2023年三年样本外区间,时间跨度仍有限,尤其近年中国资本市场周期性和政策波动性较大,长期稳健性需继续观察。
  • RankIC多为负值但收益优异:部分表现最好的因子(如hf18)RankIC为负,可能暗示模型选股不完全依赖单向线性相关,背后潜藏复杂非线性关系,值得进一步研究。

- 因子相关性分析展示了较低的相关性,但部分因子仍存在明显正负相关,建议后期进一步筛除高相关因子,优化组合效能。
  • 策略实施成本仅考虑基本换手和计费,未覆盖所有实际交易摩擦,如滑点、冲击成本,实际操作需谨慎考虑。


---

七、结论性综合



本报告通过系统性的深度学习模型,从复杂的高频价量数据中构建了55个低频化人工因子作为输入,深层神经网络共筛选出32个深度学习特征因子。这些因子与输入因子具有较低相关性,且在创业板和中证1000两个不同的股票池均呈现了稳健且显著的选股超额收益能力。

以创业板hf18为代表的因子实现27.25%的多头年化收益,超额创业板指数25.50%,信息比率达1.04,显示了因子的优异性能和较高的风险调整收益。中证1000的hf13因子同样表现突出,多头年化收益11.25%,超额指数7.24%,展现了模型的跨市场适用性。

因子分档表现图和累计收益曲线直观呈现了深度学习因子筛选的效果,体现有效捕捉市场中的非线性复杂关系。模型采用了多层深度神经网络,结合高频多维信息,自动挖掘出传统因子无法覆盖的市场信息和结构特征,提升了因子选股的新维度。

风险方面,报告提醒投资者关注模型基于历史数据训练的局限性,以及市场政策、结构变化可能带来的策略失效风险。操作层面,换手率和交易成本已简单考虑,但实际环境中仍需关注更全面成本及滑点。

总体来看,该报告深入剖析了利用深度学习技术提升量化选股模型因子挖掘能力的思路与效果,呈现了将人工经验与机器智能相结合的创新实践。其方法论和实证成果为高频量化因子研究提供了重要参考,具有较高的学术和实用价值。

---

附录:核心图表展示(markdown格式)


  1. hf18创业板累计收益与创业板指对比


  1. hf13中证1000累计收益与中证1000指数对比


  1. hf18创业板分档收益表现柱状图


  1. hf13中证1000分档收益表现柱状图


  1. 深度学习因子挖掘流程图



---

参考文献及数据来源


  • Wind,天软科技,广发证券发展研究中心数据提供

- Facebook 论文《Practical Lessons from Predicting Clicks on Ads at Facebook》机器学习思路引用
  • 作者原创深度学习模型构建及实验数据


[page::全报告整体引用]

---

总结:此份报告以大量高维高频数据为基础,依托深度学习强大非线性建模能力,实现了比传统低频因子更敏捷、更深层的因子特征挖掘。深度因子在创业板及中证1000表现均优于传统基准,结合因子独立性分析,凸显这一研究路线的创新性和实际应用价值,对量化投资策略更新优化具有重要指导意义。[page::0-21]

报告