基于深度学习的高频数据因子挖掘
创建于 更新于
摘要
本报告利用深度学习方法在高频数据低频化的55个人工因子基础上提取特征,挖掘出32个深度学习因子,在创业板和中证1000两大股票池均表现优异。以周度换仓为基础,hf18因子在创业板多头年化收益率达27.25%,超越创业板指数25.50%,信息比率达到1.04,显示其选股能力和独立性突出。报告详细阐述了高频因子的构建思路、深度神经网络模型框架及量化实证分析 [page::0][page::1][page::2][page::5][page::6][page::7][page::8]
速读内容
- 高频数据因子优势与挑战 [page::0][page::1]:
- 高频数据体量庞大且维度高,信息密度低且噪声含量大,需经过信号变换与机器学习提取特征。
- 高频因子因其调仓频率短,拥有更多独立样本,能更有效检验因子稳定性和效能。
- 自动化特征工程及机器学习应用 [page::1][page::2]:
- 采用自动化特征工程思想,从高频价格、成交量、盘前价量等多维数据构建55个日频化人工因子。
- 深度学习模型采用7层全连接神经网络,以55个人工因子作为输入,实现深层特征提取。
- 深度学习模型结构与因子挖掘 [page::2]:
| 层名称 | 节点数 |
|------|------|
| 输入层X | 55 |
| 隐含层H1 | (未公布具体数量) |
| 隐含层H2 | (未公布具体数量) |
| 隐含层H3 | (未公布具体数量) |
| 隐含层H4 | (未公布具体数量) |
| 隐含层H5 | (未公布具体数量) |
| 输出层Y | 研究机构信息 |
- 深度网络挖掘出32个新的特征因子,作为新的量化选股信号。
- 高频人工因子体系详解 [page::3][page::4][page::5]:
- 因子涵盖日内价格波动统计、成交量分布、盘前价量特征、开盘及收盘时段的价量行为及大成交量相关因子。
- 高频深度学习因子表现评价(以创业板为例) [page::6][page::7]:
- 32个深度学习因子中,14个多头年化收益率超过10%,hf18因子表现尤为突出,年化收益率27.25%,多空年化收益达39.44%。
- 因子间相关性较低,且与原始高频人工因子相关性较弱,显示因子独立性和多样性。
- hf18因子详细表现及风险指标 [page::7][page::8]:

- 多头年化收益率27.25%,最大回撤31%,信息比率1.02,夏普比率0.93,持仓换手率高达68.43%。

- 累计收益曲线优于创业板指数,表明稳定且显著的超额收益。
- 高频因子年度稳定性与收益追踪 [page::8]:
| 年份 | 多头年化收益率 | 创业板指收益率 | 超额收益率 | 最大回撤率 | 信息比率 | 夏普比率 |
|------|--------------|------------|-----------|--------|-------|-------|
| 2020 | 42.26% | 36.40% | 2.17% | 17.64% | 0.1 | -0.02 |
| 2021 | 69.84% | 22.51% | 29.82% | 21.91% | 0.86 | 0.79 |
| 2022 | -7.46% | -29.38% | 29.70% | 6.90% | 1.63 | 1.49 |
| 2023H1| 24.42% | -11.77% | 39.40% | 4.77% | 2.77 | 2.59 |
- hf18因子负IC占比超75%,表明强烈的稳定负相关性表现。
- 量化因子构建总结 [page::0][page::5][page::6][page::7][page::8]:
- 报告创新结合高频人工因子和深度学习模型提取的新特征,突破因子拥挤问题,实现因子组合多样化和超额收益。
- 高频因子采用周度换仓,考虑交易成本后依旧保持较好收益和风险调整指标。
深度阅读
【广发金融工程】基于深度学习的高频数据因子挖掘——深度详析
---
一、元数据与报告概览
标题:《基于深度学习的高频数据因子挖掘》
作者:陈原、文安宁宁、罗军
发布机构:广发证券金融工程研究中心
发布日期:2023年09月02日 10:12
研究主题:利用深度学习技术从高频市场数据中挖掘股票因子,提升多因子选股模型的收益表现
报告核心论点:
- 高频数据因子相较于低频因子更具优势,因高频数据包含更丰富的信息量。
- 高频数据挖掘难点在于维度大、噪声高,深度学习是提取有效特征的利器。
- 采用深层全连接神经网络模型,从55个人工设计的高频因子输入,生成32个深度学习衍生因子,这些因子相对独立且具有良好的选股能力。
- 实证结果显示,hf18因子在创业板股票池上取得27.25%的年化多头收益率,较创业板指数超额25.50%。
- 报告特别提示风险:模型结果基于历史数据,市场政策、结构变化可能导致策略失效。
总体来看,报告重点阐述了基于深度学习方法提升高频数据选股因子开发的过程及其优越的投资绩效表现,强调了对数据特征设计和模型构建的创新,体现出量化选股因子领域的新技术应用趋势。[page::0][page::1][page::5][page::8]
---
二、 deep dive:逐章解读
1. 高频因子思考(第0-1页)
关键论点:
- 机构化的发展和因子拥挤导致传统低频因子收益率递减,因子开发与更新迭代迫在眉睫。
- 高频数据量远大于低频数据,体现在分钟、秒级甚至更细粒度的行情数据。
- 高频数据包含更多信息,因子拥挤程度较低,提高选股能力的潜力更大。
- 高频信号噪声高,原始高频数据不能直接用作因子,需通过信号变换、机器学习等方法提取有效特征。
- 高频因子调仓频率高,增加了独立样本数量,有利于有效性检测。
- 自动化特征工程(feature engineering)结合行业知识和机器学习,是提升高频因子发掘效率的关键。
- 机器学习、遗传规划、主成分分析、梯度提升树(GBDT)、深度学习等技术是构建和提取高频因子的有效工具。
支撑逻辑说明:
- 报告提供了数据量的具体参考,例如2020年全市场分钟行情数据约12GB,以及秒级快照数据更大,展示了高频数据的海量和复杂性。
- 高频数据直接使用存在高噪声,机器学习技术优势是自动识别复杂的非线性模式及特征,适合此场景。
- 高频因子因调仓频率高,影响因素可分解为更多的测试样本,提高因子统计显著性验证的能力。
[page::0][page::1][page::2]
2. 深度学习因子挖掘模型(第2页)
关键论点:
- 将高频数据低频化处理成55个人工因子作为模型输入。
- 采用7层深层全连接神经网络(具体层结构表中未完全展示节点数,仅知输入层55个节点)来提取深层股票特征。
- 神经网络模型设计为对因子和未来收益率建立映射关系,输出深度学习衍生因子。
数据点与逻辑分析:
- 输入55个人工因子是模型基础,这些因子是通过信号处理与领域设计预先选取。
- 深层结构意图捕捉非线性复杂交互作用,多层隐藏层代表神经网络能力丰富,适合深度特征抽象。
- 由于56个节点(输出层节点数未明确),具体隐层节点数不详,但整体结构显示全连接结构。
- 利用Wind数据及样本选取保证数据覆盖性。
[page::2]
3. 高频人工因子设计(第3-5页)
涵盖类别及关键内容:
- 日内价格相关因子:包括分钟收益率的方差、峰度、偏度,上行/下行收益率方差,趋势强度,日内最大回撤等10个因子。
- 成交量相关因子:细分为不同时间段成交量占比、成交量与价格及收益率的相关性指标,如Amihud非流动性因子等。
- 盘前价量因子:主考察隔夜收益率、开盘集合竞价阶段的价格波动特征,反映资金多空意向。
- 特定时段采样因子:针对开盘及收盘关键半小时的价量走势构造因子,包括收益率、相关性及波动特征。
- 大成交量相关因子:选取每日成交排名前1/3的“大成交量”时点价格收益分布特征,相关相关性的衍生因子。
解读说明:
- 多层次、多时间点的因子构建体现对市场微结构及投资者行为特征的深刻挖掘和把握。
- 在高频环境下,结合价格波动及成交量行为进一步丰富因子维度,覆盖收益、波动、流动性多个维度。
- 结合领域知识和市场行为特征确保因子有经济含义和稳定性基础。
- 数据来源均有明确标注,保证数据可靠性。
[page::3][page::4][page::5]
4. 实证分析(第5-7页)
关键论点:
- 训练样本涵盖2007-2017年,验证样本2018-2020年,回测样本2020-2023年,保障样本外验证的严谨性。
- 高频因子采用周度调仓,交易成本考虑双边千三费率及剔除特殊股,仿真更真实。
- 深度学习模型输出32个特征因子(hf0~hf31),在创业板中的多头年化收益最高达27.25%,部分因子多空收益率超过50%。
- 32因子之间相关性整体不高,显示深度学习因子构建了相对独立的多样化标的组合。
- 深度学习因子与输入的55个人工因子相关性低,突出模型提炼出的新信息。
数据重点摘录:
- hf18因子RankIC = -6.79%,多头年化收益率27.25%,多空年化收益率39.44%,信息比率1.04,显著优于创业板指数。
- hf2因子多空年化收益率高达53.21%,但其RankIC也较低(负向),显示复杂的因子表现特征。
- 高频因子表现稳定,多头收益长期跑赢市场,负RankIC占比超过75%。
[page::5][page::6][page::7]
5. hf18因子深度表现解读(第7-8页)
关键内容:
- hf18因子分档收益展示,前10%(Q1)收益最优,多头年化收益27.25%。
- hf18因子年化波动率26.67%,最大回撤31%,夏普比率0.93,表现稳健。
- 与创业板指数对比,超额收益稳定,且信息比率显著,显示高频因子表现非偶然。
- 2021年之后,hf18因子超额年化收益超过29%,2023年前半年高达39.4%。
[page::7][page::8]
6. 总结与风险提示(第8页)
总结要点:
- 高频数据因子从人工设计到深度学习提炼,成功形成32个高质量选股因子。
- 高频因子充分体现了低相关性特征,提升组合多样化与收益稳健性。
- 实证验证显示,基于深度学习的hf18因子在样本外表现优异,值得关注。
- 策略以周度换仓为基础,考虑了实际交易成本。
风险提示:
- 所有结论基于历史统计规律,未来市场环境、政策法规变化可能导致策略失效。
- 市场结构和交易行为的改变可能触发算法失效风险。
[page::8]
---
三、图表深度解析
1. 神经网络结构表(表1,页2)
- 描述:展示所用7层神经网络的基础结构,输入层为55个节点,隐含层H1到H5未给出节点数,输出层结点数未明确。
- 解读:反映深度学习模型复杂性,预示模型有足够容量捕获高维复杂非线性关系。
- 评论:隐含层节点缺失信息限制对模型复杂度的完全理解。
2. 高频人工因子列表(表2至表6,页3-5)
- 描述:涵盖日内价格因子、成交量因子、盘前价量因子、特定时段因子及大成交量因子,共计多达50余个因子。
- 解读:几乎覆盖监测市场微观波动所有关键视角,为后续深度学习输入奠定基础。
- 联系文本:为神经网络输入提供原始素材,结合特征工程理念。
- 限制:未明确具体计算方法,部分因子描述存在拼写和排版错误,影响直观理解。
3. 深层特征因子统计(表9,页6)
- 描述:列示32个深度学习因子在创业板的RankIC、多头年化收益、多空年化收益。
- 解读:多头收益部分因子超过20%,展现良好的盈利能力。而RankIC多为负值,反映了因子指标复杂性。
- 说明:RankIC为因子有效性的测度,负令一些需要进一步研究;多头收益作为实证回测指标更具实用价值。
- 联系文本:支持深度学习因子具有强投资价值的核心结论。
4. 因子相关性矩阵(表10和表11,页6-7)
- 描述:展示最佳10和5个深度学习因子间的相关性,及深度学习因子与人工因子间相关性。
- 解读:深度学习因子之间存在适度相关性,但整体较低,显示模型提取了独立信息。深度学习因子与人工因子相关性低,意味着神经网络不仅是简单变换,更创造出新的有效因子。
- 联系文本:强调深度学习在因子创新上的突破作用。
5. hf18因子分档收益条形图(图6,页7)
- 描述:展示hf18因子从Q1(最好档)到Q10(最差档)对应的表现差异。
- 解读:最佳档收益显著为正,末档明显负,显示因子具有强区分能力和预测价值。
- 联系文本:强调hf18为最优因子,多头组合可获得明显超额收益。

6. hf18因子累计收益曲线(图7,页7)
- 描述:蓝色线为hf18多头组合累计收益,橙色线为创业板指数累计收益。
- 解读:hf18因子组合收益随时间持续跑赢基准,且超额收益长期保持。
- 联系文本:支持报告关于长期稳定超额收益的实证结论。

---
四、估值分析
报告主要聚焦于高频数据因子的开发和选股策略,没有涉及到具体的企业估值方法或股票目标价格的设定。因此,未见DCF、P/E、市净率、EV/EBITDA等估值指标的应用讨论。
---
五、风险因素评估
报告明确指出的风险包括:
- 历史数据依赖风险:模型策略依赖历史市场数据统计特征,无法完全保证未来市场形态不发生变化导致规则失效。
- 政策及市场环境变化:政策调控、宏观经济变动可能引起市场微结构调整,对策略表现产生影响。
- 策略本身失效风险:交易行为、市场结构变迁可能使得已识别的异象消失,导致因子失去有效性。
报告虽未具体描述风险缓解措施,但基于模型的持续训练、验证和周频调仓频率可视为部分动态应对措施,有助于一定程度上适应市场变化。
---
六、批判性视角与细微差别
- 因子负RankIC的现象:部分表现优秀的因子(如hf18、hf2)均显示负面RankIC,暗示模型提取的因子表现可能存在一定的复杂性和非线性,说明Rank_IC作为因子有效性的唯一统计量可能不足,需要结合实际回测收益及信息比率综合判断。
- 隐含的过拟合风险:虽然报告区分了训练、验证和样本外测试期,但深度学习模型的复杂性极易导致过拟合,尤其高频因子涉及大量噪声和数据维度,需警惕未来表现是否稳定。
- 数据处理和模型说明不够详尽:报告省略了输入因子的具体计算形式,神经网络层结构节点数缺失等细节,限制了完全复现和深入理解模型逻辑。
- 部分表格和文本中的排版及内容错误:如“广发金融工程研究”无意义插入、节点数缺失、拼写错误“撤亡发”等,显示报告校对尚有不足,可能影响信息的准确传达。
- 模型解释性:深层神经网络提取的因子难以直观解释其经济含义,模型透明度有限,投资者可能对策略的信心受到影响。
---
七、结论性综合
本报告通过对高频价量数据的全面挖掘,结合领域经济学知识和深度学习模型,实现了分层次、结构化丰富特征的提取。基于55个人工构建的高频低频化因子输入,构建7层全连接神经网络,输出32个深度学习衍生因子。这些因子在创业板和中证1000等股票池表现出色,尤其是hf18因子:
- 在2018年至2023年样本外期间,hf18因子在创业板多头年化收益27.25%,超越创业板指数25.50%,显示强劲的选股能力和较优的风险调整表现(信息比率1.04,夏普比率0.93)。
- 深度学习因子与传统高频因子保持低相关性,显示模型创造了新颖且独立的选股信号组,为量化投资提供了多样化投资因子。
- 高频因子由于调仓频率高,样本充足,有利于其统计显著性验证和稳定性检测,报告充分利用了这一特点。
- 报告同时诚实披露策略基于过往统计规律,面临市场环境和政策变化风险,提醒投资者理性对待。
综上,报告不仅体现了高频数据在因子开发上的潜力,也展示了深度学习技术在量化选股领域的应用价值和创新前景。报告的实证数据和丰富的因子定义为投资经理和量化研究人员提供了有力的参考和借鉴。[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8]
---
附注:
- 图表内容均取自报告原文,详见文内对应页码及图片链接。
- 本分析严格基于报告内容,遵守报告溯源标注规则。
---
如果需要对某一章节或图表进行更细致的解读,欢迎继续指示。