DFQ-HIST:添加图信息的选股因子挖掘系统
创建于 更新于
摘要
本报告介绍了DFQ-HIST模型,一种基于图神经网络并融合预定义及隐藏概念信息的股票趋势预测框架。该模型结合多输入、多标签及时序编码,采用双重残差学习结构有效捕捉股票联动及个体信息,显著提升因子选股表现。模型在中证全指及沪深300等多个股票池测试期内表现优异,年化超额收益可达25%以上,跟踪误差低且回撤控制良好。特别地,模型通过动态调整概念权重及融合图信息,显著增强多头组合表现和稳健性 [page::0][page::5][page::8][page::17][page::18]
速读内容
HIST模型框架与核心特点 [page::5][page::8]
- HIST模型利用图神经网络挖掘股票间基于预定义及隐藏概念的共享信息。
- 采用双重残差学习结构分离处理预定义概念、隐藏概念和个股信息,融合后求和预测股票收益率。
- 结合GRU为时序特征编码模块,提升序列数据处置效果。
- 预定义概念输入动态修正,减少信息缺失与过剩,增强模型泛化能力。
模型关键改进与多维输入设计 [page::10][page::11]
| 输入类型 | IC | RankIC | RankICIR | 多头超额年化收益 | 换手率 |
|------------------|-------|---------|----------|------------------|--------|
| 基础特征(60个) | 12.00%| 16.75% | 1.20 | 28.04% | 74.18% |
| 遗传规划因子(100) | 9.37% | 14.68% | 1.08 | 20.75% | 73.79% |
| 强化学习因子(200) | 10.13%| 14.64% | 1.28 | 16.57% | 77.04% |
| 多输入结合 | 12.11%| 17.24% | 1.31 | 28.23% | 71.54% |
- 多输入多标签融合显著提升因子质量和组合表现。
- 多标签(5、10、20日收益率)结合训练,考虑未来收益概率分布,提升预测稳定性 [page::11][page::12].
图信息融合与隐藏概念挖掘提升效果明显 [page::12][page::13]

- 加入图信息后,模型在motion、rankic等评价指标上的表现显著优于单纯GRU。
- 隐藏概念模块挖掘出人工预定义概念之外的重要股票关联,发现智能电网、绿色电力等主题 [page::13].

模型效果对比与残差结构作用 [page::9][page::14]
- HIST模型相较GAT、MTMD、HISTGAT在精度和显存占用间达到最佳均衡。
- 移除预定义概念、隐藏概念或个股信息模块,或取消残差结构均导致性能下降,强调三部分协同作用与残差机制重要性。

因子绩效在总市场及各大指数均表现优异 [page::17-21]
| 股票池 | RankIC | 年化超额收益 | 最大回撤 | 换手率 |
|--------------|---------|--------------|-----------|---------|
| 中证全指 | 17.0% | 29.31% | 2.87% | 73% |
| 沪深300 | 11.41% | 11.47% | 7.16% | 50.57% |
| 中证500 | 12.16% | 16.11% | 5.29% | 53.74% |
| 中证1000 | 15.05% | 25.03% | 2.59% | 68.45% |
- 分组单调性良好,模型分年表现略有波动,整体拟合和预测稳健。
- 因子中性化后,rankic略降但稳定性与夏普明显提升 [page::22].
指数增强组合实盘回测说明及表现 [page::23-26]
- 采用月频调仓、行业和风格因子约束,交易成本模拟,最大回撤及跟踪误差控制合理。
- 沪深300增强组合年化信息比达2.27,对冲收益11.55%,年化跟踪误差4.87%。
- 中证500增强组合表现更优,年化收益超13%,单边年换手9.67倍。
- 中证1000组合最优,信息比高达3.6,年化对冲收益25.55%,最大回撤低至4.55%。




模型稳定性及相关性分析 [page::22]
- 多个随机种子训练模型因子得分相关系数均超90%,随机性影响有限。
- HIST因子与985rl相关性最高,说明部分因子特征类同;与scores_v0相关较低,模型特征有差异 [page::22].
深度阅读
DFQ-HIST:添加图信息的选股因子挖掘系统——全面分析报告
---
一、元数据与报告概览
报告标题:DFQ-HIST:添加图信息的选股因子挖掘系统
报告系列:因子选股系列之一百
发布机构:东方证券研究所
发布日期:2024年2月7日
撰写分析师:杨怡玲(执业证书编号:S0860523040002)、刘静涵(执业证书编号:S0860520080003)
报告主题:开发和完善基于图神经网络的股票趋势预测模型HIST,优化为DFQ-HIST,通过挖掘股票的预定义概念及隐藏概念动态共享信息实现因子选股,提升量化因子表现及多指数增强组合业绩。
核心论点:
DFQ-HIST模型为HIST模型的进一步优化版本,创新地结合了股票联动现象的捕捉、多标签未来多时段收益率训练、时序特征编码及双重残差学习结构等多重机制,实现对股票间复杂关系的动态建模。相比其他图模型,DFQ-HIST在因子有效性、预定义与隐藏概念的深度挖掘、模型稳健性及多指数增强策略的风险收益表现上均表现领先。报告强调该模型在2020-2023年测试期间表现稳定,信息比、超额收益和回撤指标均优于对比模型,推荐关注该模型框架及其在多市场环境下的应用潜力。
---
二、逐节深度解读
1、模型概述与背景(第5-9页)
- 股票联动现象(1.1节):模型设计基于股票价格非独立假设,强调股票间通过行业、业务、概念等关联体现出的联动性,捕捉共涨共跌的市场信息。利用图神经网络以概念共享为纽带构建邻接关系,弥补单股票特征模型信息不足。
- 预定义概念的不完备及动态变化(1.2节):传统预定义概念虽然反映股票集合关系,但信息存在覆盖不足与噪声,并且股票与概念关系随时间变化。DFQ-HIST引入动态修正,基于股票与概念向量余弦相似度进行加权修正,增强概念信息的代表性,减少误导。
- 隐藏概念模块(1.3节):模型突破单纯依赖人工定义概念限制,自动挖掘隐藏的股票关联概念。通过向量余弦相似度筛选,与隐藏概念建立权重连接,捕获市场中未显现的复杂关系,实现对新兴主题的快速响应。
- 信息融合机制(1.4节):设计注意力机制以赋予不同概念不同权重,动态学习概念对单个股票的重要性。通过权重加权概念向量再融入股票特征,实现因子表达增强。
- 时序信息结合(1.5节):引入两层GRU单元对股票多维时间序列特征编码,将时序信息综合纳入模型,使预测不仅基于静态特征,同时考虑历史动态表现。
- 双重残差学习结构(1.6-1.7节):利用残差连接缓解梯度消失,促进训练稳定性。同时设计三个子模块(预定义概念、隐藏概念、个股信息)信号分别提取,最后相加融合实现多角度信息捕获。对比GAT、MTMD、HISTGAT等图模型,DFQ-HIST显著提升预测能力和显存效率,有效融合概念信息并结构合理。
2、模型核心要点解析(第10-14页)
- 多输入设计(2.1节):使用基础特征(行情、分钟线特征、Level2特征共60个)、alpha因子(遗传规划及强化学习模型-derived共300个因子)及风险因子。多输入融合、分别编码效果更佳,组合使用rankIC提升至17.24%,月度多头组收益显著。
- 多标签训练(2.2节):对未来5、10、20日收益率分别训练,多标签等权融合后模型更全面捕获市场未来走势,提高组合年化超额收益至约30%。
- 时序特征提取方式比较(2.3节):全面比较FC、GRU、LSTM及其注意力变体以及Transformer,GRU在稳定性和效果上均优,充分说明其适合该任务的循环特性。
- 图信息融合价值(2.4节):添加图结构信息后的模型对多头策略的效果提升显著,验证图神经网络对股票关联信息捕捉的必要性。
- 预定义概念来源与修正(2.5, 2.6节):采用Tushare行业及业务构成数据,更新频率为半年(5.1与9.1日后)。对预定义概念进行了动态修正,剔除无效连接、补备缺失关联,提升模型性能(图17对比说明预定义概念修正对效果的积极贡献)。
- 隐藏概念挖掘(2.7节):基于从中证全指股票池挖掘出的4611个隐藏概念,典型例子揭示隐藏主题(智能电网、绿色电力、国企改革等)对股票联动模型意义。此模块拓展模型认知边界,捕获人脑难以直接识别的关联信息。
- 双重残差结构价值(2.8节):通过剖析残差架构中各模块的移除影响,确认预定义概念、隐藏概念及个股信息模块皆不可或缺,残差连接对提升训练稳定性及模型效果关键(图20数据详证)。
3、模型说明及技术细节(第15-16页)
- 数据划分与预处理:训练集(2014-2018)、验证集(2019)、测试集(2020-2023)。输入特征截面异常值处理、标准化及缺失值填充为0;标签采用收益率排名分位数加z-score标准化而非原始收益率,提高预测稳定性。中性化标签反而削弱效果。
- 防止过拟合技术:包括参数平均策略、早停机制、GRU中的Dropout以及梯度优化中的权重衰减,有效提升泛化能力。
- 代码改进点:脱离原Qlib依赖,自定义pickle格式数据读取和预处理,动态概念更新,预定义概念修正基于余弦相似度,显存优化(pin_memory关闭),增加权重衰减。
4、模型结果与实证分析(第17-22页)
- 训练表现:基础特征输入训练约40 epoch耗时1.5h,显存占用约8GB;alpha因子输入更快,约10 epoch,显存约10GB。
- 因子绩效:
- 中证全指股票池:DFQ-HIST得分领先各类对比模型,rankIC达17%,rankICIR1.34,年化超额收益29.31%,最大回撤2.87%,换手率73%。多头单调性佳,体现强因子稳定性。
- 沪深300股票池:表现稍逊于神经网络因子,rankIC11.41%,年化超额收益11.47%,换手50%。多头表现不够稳定。
- 中证500和1000股票池:DFQ-HIST表现优异,中证500 rankIC达12%,年化超额约16%;中证1000 rankIC达15%,超额收益25%。两者超额收益波动较小但均呈现渐弱趋势。
- 因子中性化:DFQ-HIST因子中性化后rankIC仍高达14.41%,rankICIR反而更优,且最大回撤明显降低,表明模型能有效降低行业及市值风格影响,增强策略稳健性。
- 随机种子影响:5组样本测试显示因子相关系数稳定在90%以上,表明模型训练结果稳健,随机因素影响有限。
- 与其他量价模型相关性:DFQ-HIST合成因子与985rl相关度最高,表明部分特征捕获相似,但整体保有差异化,具备一定互补性与独立判断信息。
5、指数增强组合实证(第23-26页)
- 组合构建:
- 时间段:2020年1月至2023年12月,月频调仓,采取vwap撮合价格交易。
- 约束条件:行业、风格、成分股持仓占比限制,跟踪误差控制,以及个股权重上限。
- 交易成本假设:双边千分之三手续费,停牌限制严格。
- 沪深300增强组合:
- 信息比2.27,年化对冲收益11.55%,跟踪误差4.87%,换手7.45倍。
- 回撤控制良好,最大回撤约3%。
- 2023年实现14%超额收益。
- 放宽约束可提升收益最高至33%,但伴随跟踪误差和最大回撤的显著上升。
- 中证500增强组合:
- 信息比2.09,对冲收益13.13%,跟踪误差6%,换手率9.67倍。
- 回撤峰值控制在5%以内,2023年收益达7.51%。
- 放宽成分股及风格约束提升收益至30%,但波动风险显著增加。
- 中证1000增强组合:
- 该模型表现最为突出,信息比3.6,对冲收益25.55%,跟踪误差6.39%,换手率10.06倍。
- 超额收益曲线平滑,最大回撤仅4.55%且恢复迅速。
- 2023年对冲收益稳定在20%左右。
- 放宽各项约束收益提升至30%,但回撤有所增加。
- 个股权重收紧导致收益下降,显示一定的灵活调配需求。
---
三、图表深度解读
图1(修正预定义概念示意图,page 6)
左图(a)展示了初始的股票与概念关系,以及对应的权重矩阵$\alpha^{t,0}$。右图(b)显示经过余弦相似度加权和softmax归一化后,调整后的股票-概念权重$\alpha^{t,1}$,实现修正。例如,某股票未被原始预定义概念覆盖但实际相似度高则加权引入,过滤掉弱相关连接。此步骤动态赋予模型更合理的概念覆盖,纠正信息丢失和误判。
图2和图3(隐藏概念示意,page 6)
图2列举“苹果(Apple)”、“微软(Microsoft)”等股票的预定义概念与隐藏概念映射,展示隐藏概念作为补充,捕获未被人工划分的关联主题。
图3形象展示隐藏概念权重调整过程:通过权重矩阵$\gamma^{t,0}$,选择与股票最相关的K个隐藏概念,消除无效连接,强化隐藏关联表达。
图4(个股与概念融合,page 7)
该图依次示意个股向量、修正后概念向量,以及两者通过注意力权重$\beta^t$加权聚合后的融合过程,明确说明个股与概念信息的整合路径。加强模型对不同概念重要性的动态感知。
图5(HIST模型整体框架,page 8)
流程图清晰体现了三个主要模块之间的信息依赖与残差交互。股票时序特征编码产生初始向量($X^{t,0}$),依次通过预定义概念、隐藏概念及个股信息模块,利用残差结构确保信息拆解与有效融合,最后输出整体股票收益率预测。右侧的概念股票网络图表明预定义和隐藏概念的多维交叉状态。
图6(不同图模型对比,page 10)
通过细致的财务指标(IC、rankIC、ICIR、rankICIR、多头收益、夏普、回撤、换手率)对比,展示HIST模型在显存占用低(8G)基础上实现较优IC特征,尤其是rank IC指标高达16.75%。其他模型(MTMD、GAT、HISTGAT)成绩差异及显存占用提升说明DFQ-HIST在效率和效果方面优势明显。
图9-14(核心步骤性能测试,pages 11-13)
通过多输入、多标签、时序特征提取方式、图信息引入等模块的消融和对比实验,量化评估各设计要素对IC、rankIC等指标和组合表现的贡献,明确了GRU、图信息、多标签融合的显著正向影响。
图15-17(预定义概念统计与校正效果,pages 12)
图15展示行业和概念的股票覆盖分布,其稳定性反映概念更新的时效性。图16对比不同数据源预定义概念效果,确认半年报+年报数据为最佳。图17预定义概念调整后模型提升绩效,验证模型设计合理。
图18-19(隐藏概念数量及关联示例,page 13)
数量持续增加表现模型对于市场动态的适应能力;股票与隐藏概念的关联示意图清楚标出隐藏重点行业或主题,有助于理解隐藏概念的重要性。
图20(双重残差结构价值对比,page 15)
表格列示不同模块裁剪或取消残差结构后模型性能下降,凸显三个模块协同及残差输入对提升模型表现的必要性。
图22-23(模型训练中IC走势,page 17)
训练、验证、测试三阶段IC及rankIC走势图显示模型训练过程中学习和泛化效果的稳健性及边际效益。
图24-35(因子绩效与分年、分组收益表现,pages 17-21)
多张表格和柱状图直观展示DFQ-HIST因子优于或匹敌同类模型在各个主要股票市场指数的IC、rankIC及超额收益,分年数据揭示近年来因子表现波动及稳定程度。
图36(因子中性化表现,page 23)
中性化后因子仍保有强劲表现,更高的rankICIR反映因子更加稳定,降低市场风格与行业暴露的系统性风险。
图37-40(随机种子和因子相关性,page 23)
随机种子间的相关性超90%,表明训练结果稳定;与其它量价模型因子值及rankIC较强相关,也验证了DFQ-HIST与现有方法的合理关联和差异化。
图41-46(指数增强组合绩效与回撤曲线,pages 24-26)
图示股票池沪深300、中证500和1000组合调仓后的超额净值增长与回撤曲线,结合年化信息比、对冲收益、跟踪误差、换手率等指标,旧显示DFQ-HIST组合在收益与风险控制方面的良好表现,且灵活调节约束达到不同风险偏好需求。
---
四、估值分析
报告未明确涉及传统金融资产估值方法(如DCF、PE等),其核心评价标准为模型性能指标(IC、rankIC、信息比、超额收益、夏普率等)和组合实盘表现,属于量化模型性能评估范畴。该类研究更重视因子预测性能和组合风险收益权衡评价,而非直接估值。
---
五、风险因素评估
报告识别主要风险包括:
- 量化模型失效风险:模型训练基于历史数据,未来市场结构、规律变化可能导致模型性能下降。
- 极端市场环境风险:市场极端波动或系统性危机可能冲击模型表现,导致预测失真和交易亏损。
具体风险缓解措施体现在模型的动态概念修正、多模块结构和稳健训练策略(参数平均、早停、正则化等),提升模型的适应性和泛化性。然而,报告中未详细量化概率和精确定义缓解手段。
---
六、批判性视角与细微差别
- 模型复杂度与解释性:DFQ-HIST引入多模块、多残差结构和隐藏概念,模型结构复杂且高度依赖众多超参数及动态权重调整,模型训练和调优门槛较高,潜在解释性和透明度较传统因子模型低。
- 数据滞后与实时性:预定义概念采用半年至一年更新一次,可能滞后对市场新动态的反应,模型依赖的隐藏概念虽缓解该问题但实操中隐藏概念的透明度和稳定性尚未完全验证。
- 风险控制权衡:组合放宽约束能大幅提升收益,但同时显著增加跟踪误差和回撤,报告未针对投资者不同风险承受度推荐最优约束组合配置。
- 绩效年度波动:部分年份尤其2022-2023年模型多头收益略显衰退,反映模型面对不同市场环境的适应性仍有提升空间。
- 缺少宏观因素纳入说明:当前模型重点基于技术指标和价格行为,未纳入宏观经济变量及外部信息的影响,可能限制其对市场大事件反应的灵敏度。
---
七、结论性综合
DFQ-HIST模型是基于图神经网络的新一代股票趋势预测因子挖掘系统。通过系统地捕捉预定义概念与隐藏概念所承载的股票动态共享信息,结合GRU时序编码、多标签训练及双重残差模块,显著提升因子预测能力和多指数增强组合的风险调整后收益。详尽的多维度实证测试证明,该模型在多个主要A股指数(中证全指、沪深300、中证500、中证1000)均取得行业领先的IC及超额收益水平,且具备良好的稳定性和风险控制能力。
图表丰富且数据详实(如图6、图24-35、图41-46)支持模型设计的科学性:
- 修正预定义概念机制验证了动态关系捕获的必要性(图1、图17);
- 隐藏概念模块辅助发掘市场新关联(图18-19);
- 双重残差学习结构有效整合多层信息(图20);
- 模型在多输入多标签设置下效果最优(图9-12);
- GRU为最佳时序特征提取工具(图13);
- 图信息融合显著增强模型表现(图14);
- 因子在进行中性化后依然保持强劲表现(图36);
- 训练过程收敛稳定,随机种子影响轻微(图22、23、37、38);
- 增强组合实盘表现优良,年化information ratio和对冲收益均优,目前仅次于更激进或不受限的策略(图41-46)。
综上,报告严谨且实证充分地支持DFQ-HIST模型构建逻辑及其效果,建议关注基于图神经结构的动态共享信息挖掘在量化因子开发中的应用前景。
---
溯源标注
本分析所有结论均基于东方证券研究所2024年2月7日发布《DFQ-HIST:添加图信息的选股因子挖掘系统》报告内容,报告页码标注详见对应内容段落内引用页码,格式为 [page::x] 。如涉及多页,格式为 [page::x,y],确保内容可追溯。
---
备注
本报告仅对东方证券研究报告提供的DFQ-HIST模型进行客观详细解读与结构化分析,未涉及模型自身代码或外部数据验证,亦不构成投资建议。投资者需结合实际情况审慎使用并关注风险。