融合基本面信息的 ASTGNN 因子挖掘模型
创建于 更新于
摘要
本报告提出基于融合基本面信息的 ASTGNN 模型,通过引入长周期量价及基本面因子优化图模型邻接矩阵,提升因子选股效果。实测发现,加入基本面长周期数据集显著提高 RankIC 和 ICIR 指标,降低换手率,有效增强模型稳定性和超额收益能力。该因子在沪深300、中证500、中证1000等多宽基指数上的增强策略表现优异,年化超额收益分别达到16.98%、19.96%和31.63%,显示了良好的应用潜力和实际投资价值 [page::0][page::3][page::10][page::18][page::19]。
速读内容
融合基本面信息改进ASTGNN模型 [page::0][page::4]
- 采用 RNN+GAT 网络优化图模型属性特征向量,通过新的损失函数设计(包括属性特征与未来收益R-square及正交惩罚项)促进生成更精准的邻接矩阵。
- 融入十类基本面和量价风险因子作为输入,显著提高股票相似度刻画的准确性和模型鲁棒性。
- 风险因子自相关系数高达90%以上,表明因子具备稳定的时序依赖性。
长周期基本面数据集性能对比与因子表现 [page::7][page::8][page::9]

| 数据集 | RankIC | ICIR | RankIC>0占比 | 周均换手率 | Top组年化超额收益 | 最大回撤 | Bottom组年化超额 |
|--------------|---------|------|--------------|------------|------------------|----------|-----------------|
| week | 13.55% | 1.28 | 89.94% | 58.22% | 34.29% | -10.80% | -56.86% |
| day | 14.10% | 1.43 | 92.31% | 69.27% | 33.52% | -5.72% | -62.53% |
| ms | 14.13% | 1.32 | 89.94% | 60.20% | 34.26% | -6.69% | -60.69% |
| l2 | 12.06% | 1.32 | 91.07% | 61.18% | 22.94% | -7.46% | -55.86% |
| lfqdaily | 14.48% | 1.34 | 89.35% | 53.84% | 36.43% | -7.67% | -60.81% |
| lfqmonthly | 10.09% | 0.74 | 81.25% | 42.19% | 23.21% | -11.36% | -37.98% |
- 基本面长周期数据添加带来信息增量,特别是 lfq_daily 表现优异,换手率和回撤均较低。
- 长周期数据集与短期量价数据相关性低,具备良好互补性。
- week 数据集对综合打分贡献最高,l2 数据集贡献最低但仍具改善潜力。
两种改进方案提升综合因子表现 [page::12][page::13]
| 指标 | 原始模型 | 加入lfq | 加法模型 | 减法模型 |
|--------------|---------|---------|---------|---------|
| RankIC | 16.00% | 16.36% | 16.46% | 16.61% |
| ICIR | 1.52 | 1.56 | 1.56 | 1.57 |
| 周均换手率 | 62.57% | 60.23% | 58.92% | 58.22% |
| 最大回撤 | -4.72% | -5.31% | -4.91% | -4.64% |
- 加入长周期数据集后因子RankIC和ICIR显著提升,多头组合换手率下降,选股效果加强。
- 使用机器学习风险因子改进邻接矩阵后因子表现进一步优化,换手率进一步降低。
- 合成因子月频表现优异,2018年和2020年以来月频RankIC分别达19.16%和17.53%,ICIR超2。
宽基指数上因子选股能力验证 [page::14]
| 指数 | RankIC原始 | RankIC加lfq | RankIC减法 |
|------------|------------|-------------|------------|
| 沪深300 | 10.50% | 10.65% | 10.70% |
| 中证500 | 12.30% | 12.89% | 13.05% |
| 中证1000 | 15.27% | 15.87% | 16.09% |
- 三大宽基指数上均显著提升选股效果,显示模型具有稳健的跨市场适用性。
- 因子市值偏向较低,选股能力覆盖范围广泛。
指数增强应用表现总结 [page::15][page::16][page::17]
- 在沪深300、中证500、中证1000指数增强策略下,模型生成因子实现显著的超额回报。
- 约束条件限制下调仓换手率,组合风险控制良好,年化超额收益率分别达到16.98%、19.96%和31.63%。
- 收益稳定且最大回撤大幅优于基准指数,均衡了收益和风险。



风险提示 [page::0][page::19]
- 量化模型可能存在失效风险,投资者应密切关注市场环境及模型表现。
- 极端市场波动可能导致模型收益大幅波动或亏损。
深度阅读
融合基本面信息的 ASTGNN 因子挖掘模型 详尽分析报告
---
1. 元数据与概览
报告标题: 融合基本面信息的 ASTGNN 因子挖掘模型
作者: 杨怡玲、陶文启
发布机构: 东方证券研究所
发布日期: 2024年5月27日
主题: 本报告聚焦于金融因子挖掘,特别是通过融合基本面信息改进自适应时空图神经网络(ASTGNN)模型,实现更具选股能力的风险因子生成。研究涵盖因子构造、模型改进、不同数据集因子表现、合成因子效果,以及在沪深300、中证500和中证1000指数上的增强策略应用。
核心论点与结论:
- 通过引入基本面数据(包括长周期量价与低频基本面因子)来扩充传统高频量价因子,实现信息增量并显著提升模型的选股能力。
- 利用创新的 $RNN+GAT$(门控循环单元+图注意力机制)网络结构,优化风险因子的生成与股票相似度的刻画,提高因子稳定性和准确度,降低换手率。
- 多数据集(周度、日度、分钟线、Level-2及基本面长周期数据)融合策略,通过非线性加权方法实现综合评分,提升因子排名相关系数(RankIC)、信息比率(ICIR)和超额收益。
- 新模型在中证全指及主流宽基指数上的回测显示,2018年以来,RankIC均值提升至16.61%,Top组年化超额收益率达50%以上,指数增强策略年化超额收益在沪深300、中证500和中证1000分别达到16.98%、19.96%和31.63%。
[page::0,1,3,18,19]
---
2. 逐节深度解读
2.1 引言与模型架构概述
报告回顾了东方证券研究所此前基于循环神经网络(RNN)、残差网络(ResNet)、自适应图神经网络(ASTGCN)及决策树构建的端到端量价模型框架。框架输入为多频率的基础K线数据(如开高低收、换手率等),输出为具有选股能力的Alpha因子。数据采集涵盖周度、日度、分钟级及Level-2数据,结合深度学习模型提取时间序列及截面特征,最终通过决策树实现因子动态非线性加权。框架重点在于利用图模型将个股交易日截面关联性纳入因子提取,增强alpha因子的交互信息。
图1详示端到端量价模型整体流程:数据预处理(去极值、标准化、缺失值补充)、因子单元提取(RNN+图模型)及因子加权。
[page::3]
---
2.2 图模型邻接矩阵改进与ASTGNN融入基本面策略(章节1.1与1.2)
背景: 传统自适应图神经网络采用两支GRU分别提取股票“属性”和Alpha因子特征,构建邻接矩阵反映股票相似度;但未约束的次GRU可能提取特征重叠大,导致邻接矩阵相似度描述不精准且变化剧烈,增加换手率和过拟合风险。
改进方案:
- 引入$RNN+GAT$结构(图2所示),用图注意力机制刻画动态邻接权重,通过残差连接和全连接层加Batch-norm提升训练稳定性。
- 设计损失函数,主要由两部分组成:
1. 强化属性向量与未来t期标准化截面收益率的拟合优度(R-square),并加权衰减远期收益的影响,保证相似股票表现一致性。
2. 加入属性向量各分量相关系数矩阵的范数正交惩罚,降低信息冗余,确保属性向量各维度独立。
损失函数形式为:
$$
\sum{t=1}^T \omega^{t-1} R\text{-square}(F,yt) + \lambda || \text{corr}(F,F) ||^2
$$
实现属性特征的时序稳定和表征精细。
输入数据及因子类别(图3)涵盖十类长周期风险因子,如市值(Size)、流动性(Liquidity)、估值(Value)、成长性(Growth)等。
稳定性验证(图4)显示因子分量除f9外均具备高于91%的五日自相关系数,证明模型生成属性特征在周频层面变化平稳,降低策略换手率。
因子单元提取模型结构(图5)结合序列和关系嵌入层,利用训练好的风险因子矩阵构造图卷积结构,有加法与减法两种模式分别代表加强和中性化同类型股票间的影响,体现动量和去极端效应。
---
融入基本面数据集
针对长周期量价和基本面因子的特性,构建lfqdaily(日度采样)和lfqmonthly(月度采样)两类基本面数据集,包含估值(EP、DP)、成长(净利润增速、ROE)、超预期(SUE)、确定性(公募基金持仓、分析师覆盖)等因子。采用针对基本面数据的去极值处理及回归修正,保障数据质量。
数据两种采样模式的表现对比如图6至图9:
- 日度采样生成的因子选股能力整体优于月度采样(RankIC:14.48%对10.09%,ICIR:1.34对0.74),但换手率较高(53.84%对42.19%)。
- 两者相关性偏低(约47%),风格暴露相似,均偏重波动性和估值。
- 月度采样换手率较低且表现周期特征明显,偶数年表现优于奇数年。
- 截至2024年4月,月度采样在沪深300、中证500、中证1000均具有较好的RankIC和超额收益表现,并维持较低回撤。
结论:两采样方式可互补,平均抵消过度换手风险,基本面信息带来显著信息增量。
[page::4,5,6,7,8,9]
---
2.3 各数据集单因子分析(章节2.2-2.4)
六个数据集(week、day、ms、l2、lfqdaily、lfqmonthly)在中证全指股票池上的表现如下:
- 选股指标对比(图10)
- RankIC从最高日度采样14.48%到最低月度采样10.09%。
- ICIR介于0.74至1.43,显示均具稳健预测能力。
- 换手率方面,基本面长周期数据集(lfq系列)明显较低,体现因子稳定性更优。
- 超额收益率均正,lfqdaily优越,最高达36.43%。
- l2数据集表现相对较低,且贡献度最低(图13),但信息含量丰富,未来存在较大提升空间。
- 因子相关性(图12)
- 长周期数据集(lfqmonthly)与其他数据集相关性均低于0.5,表明基本面引入带来信息增量。
- 各数据集相关系数均低于0.8,支持多数据集融合能实现信息互补。
- 特征贡献度(图13)
- week数据集贡献始终最高,约占30%。
- day数据集贡献2020年以来下降,或因拥挤度高、alpha衰减加速。
- 基本面数据(lfq)贡献份额逐渐增长。
整体说明,结合基本面数据优化后,模型多数据集融合策略效果提升明显,且选股能力稳定。
[page::10,11]
---
2.4 合成因子非线性加权结果(章节3)
中证全指表现(图14-16)
- 引入基本面因子(lfq)后,RankIC由16.00%提升至16.36%,进一步通过加法、减法邻接矩阵融合后提升至16.61%。
- ICIR由1.52增长至1.57,换手率由62.57%降至58.22%。
- Top组(因子最大值组)年化超额收益从46.11%提升至50.41%。
- 分年度来看,绝大多数年份多头组合超额收益明显优于基准,模型稳定提升选股效果的能力得到验证。
宽基指数表现(图17)
- 在沪深300、中证500和中证1000指数上,改进模型的RankIC和ICIR均显著高于原始版本,具体如沪深300 RankIC从10.50%提升至10.70%,中证1000从15.27%提升至16.09%。
- 最大回撤、换手率均有所下降,表明风险控制得到优化。
综合而言,两种改进方案(融入基本面因子和构建机器学习风险因子为邻接矩阵基础)对选股效果显著提升,多维度指标均显示改进模型优于基准,且换手率更低,有利于降低交易成本。
[page::12,13,14]
---
2.5 合成因子指数增强组合表现(章节4)
组合构建说明
- 三大宽基指数(沪深300、中证500、中证1000)指数增强策略,采用周频调仓,根据因子得分调整持仓,成分股占比和换手率受约束。
- 风险因子暴露控制严格,组合成本按千分之一买入、千分之二卖出计。
沪深300增强表现(图18-20)
- 年化超额收益在严格换手率(周单边20%)及成分股100%占比限制下,均超过16%以上,最高达约18.24%。
- 且约束越严格,组合表现越优,风险和最大回撤均得到有效控制。
- 净值曲线长期稳步攀升,显著跑赢沪深300指数。
中证500增强表现(图21-23)
- 年化超额收益最高可达近30%,较一般组合提升明显,但成分股占比放宽时收益提升更明显。
- 波动率与回撤均保持稳定,组合持股数相对沪深300较多,显示其风格偏多元化。
中证1000增强表现(图24-26)
- 年化超额收益最高超过32%,表现最为优异,对于中小盘股票池展现较强Alpha捕捉能力。
- 在不同换手和成分股约束下均保持高收益和较低风险,净值曲线表现稳健。
整体,改进模型生成的因子能稳定应用于指数增强,获得显著超额收益且风险控制良好,适应多种交易约束。
[page::14,15,16,17]
---
2.6 结论章节总结
报告总结了基于多数据源的深度学习模型发展进程,指出当前模型潜在的邻接矩阵构建缺陷及换手率风险,阐明基本面信息引入和机器学习风险因子构造的必要性及有效性。
通过丰富的数据集,特别是加入长周期基本面数据集,提升了模型最终因子的选股能力和稳定性,具体体现在如下几点:
- 各数据集中week和lfqmonthly表现最佳,超额均超20%,且最大回撤较往年显著降低。
- lfqmonthly与其他数据集相关性较低,带来显著信息增量。
- l2数据集贡献度最低但仍具提升潜力。
- 加入基本面数据使得RankIC、ICIR持续提升,多头组合换手率显著下降。
- 引入机器学习风险因子构建邻接矩阵进一步提升选股能力和因子稳定性。
- 综合非线性加权后,2018年以来中证全指周频RankIC均值16.61%,Top组年化超额回报50.41%。
- 模型在沪深300、中证500、中证1000三个主要指数的增强组合表现均优秀,年化超额收益分别达16.98%、19.96%和31.63%。
风险提示明确指出量化模型基于历史数据,存在未来失效的风险,且极端市场状况可能引发亏损。
[page::18,19]
---
3. 图表深度解读
图1:端到端AI量价模型框架(page 3)
说明了数据预处理、因子单元提取、多数据集动态加权的整体流程。视觉上清晰呈现各数据输入层级、因子单元形成过程及最终动态加权得分输出,框架结构逻辑清晰。
图2:RNN+GAT网络结构(page 5)
详示GRU单元与图注意力机制结合的网络构成,GAT机制通过权重矩阵动态调整邻接节点影响,增强因子特征灵活刻画能力。残差连接及全连接层联合优化,保证信息多层传递稳定。
图3:风险因子构成(page 6)
揭示基本面长周期风险因子共有十类,涵盖规模、波动性、行业特定指标、国有股比例、确定性指标等多维信息,数据覆盖时间为243天或3年加权统计,显示其深度与广度。
图4:因子滞后五天自相关系数(page 6)
表格显示绝大多数因子自相关系数90%以上,表明因子的时序稳定性强,有助于降低换手率,提高模型实际操作性。
图5:因子单元提取网络结构(page 7)
展示因子单元提取关键网络结构,含有序列嵌入层(多支GRU处理股票数据)、关系嵌入层(TGC图卷积层处理多头间关联)及全连接层,体现因子的时序与交互信息整合过程。
图6-9:长周期基本面因子表现与风格暴露(page 8-9)
多表格和柱状图对比日度与月度采样基本面数据集的表现与因子暴露:日度采样表现更好,但换手率高;月度采样波动较小,收益平稳。风格暴露反映出对波动和估值较大依赖,说明两种采样提供信息互补。
图10-11:各数据集因子汇总表现与多头净值走势(page 10)
表格列示多数据集在中证全指股票池上的RankIC、ICIR、换手率、超额收益、最大回撤等核心指标,折线图直观展现各因子今年以来净值增长情况,凸显lfq_daily及week数据集表现领先。
图12-13:生成因子相关性矩阵及特征贡献度(page 11)
相关矩阵确认了长周期基本面数据较低相关性,特征贡献度图柱状分块显示week贡献最大,l2最低但潜力大,验证多数据集融合合理性。
图14-16:中证全指合成因子表现(page12-13)
美观的条形图和表格汇总显示基准与加lfq、加法、减法模型各项指标的提升,因子分组超额收益呈现清晰分层,多头组合年度收益稳步增长。
图17:各指数选股表现(page 14)
多幅表格数据说明模型在各宽基指数选股能力,改进版表现强化,换手率合理控制。
图18-26:指数增强组合表现(page 15-17)
各指数不同成分股比例和换手限制下组合年度超额收益及资金净值曲线,有力支撑模型实际交易应用,显示超额收益、风险控制和净值增长的良好平衡。
---
4. 估值分析
本报告属于量化因子挖掘及策略表现研究,未涉及直接的企业估值分析,因此无传统DCF或市盈率估值部分。其主要关注因子构建质量、选股能力及策略回测表现。模型估值隐含于因子有效性指标(RankIC、ICIR)和选股/增强组合的超额收益表现中,体现因子对股票未来回报的预测能力。
---
5. 风险因素评估
报告提出两大风险提示:
- 量化模型风险: 任何基于历史数据的量化因子模型均存在失效风险,基于历史态势的规律可能未来不复存在。
- 极端市场风险: 在股市极端波动态势或重大事件冲击下,模型可能遭受异常亏损,风险控制存在不确定性。
报告未具体给出缓释策略,但通过模型损失函数设计(稳定邻接矩阵、控制换手率)、多因子组合及风险因子暴露限制,已在一定程度上降低风险。建议投资者持续监控模型表现,灵活调整风险参数。
[page::0,19]
---
6. 批判性视角与细微差别
- 优点:
- 多频率、多维度数据集融合,充分利用基础量价与基本面信息。
- 创新的RNN+GAT结合图神经网络设计增强股票相关性刻画,降低换手率。
- 严格的模型损失设计促进因子稳定性和特征正交性,避免特征冗余。
- 实证回测涵盖时间充足,指标多维度,涵盖大小盘主流指数,结果丰富可信。
- 潜在局限:
- 虽强调基本面数据重要性,但长期基本面因子采样的周期选择还较为经验性,短期意义上的高频预测能力或有限。
- 报告未详细披露超参数选择敏感性,$\lambda$、$\omega$等权重如何具体设定缺少透明度。
- 换手率尽管降低但仍较高,实盘交易成本及市场冲击成本的实际影响尚未量化。
- 对极端市场风险提示笼统,缺乏具体的应对措施和模型稳健性验证。
- l2数据集贡献最低且说明信息含量丰富,存在何种未被充分提取的潜力未具体展开。
整体,报告总体科学严谨,仍需进一步实盘验证及灵活模型调整能力。
---
7. 结论性综合
本文报告系统展示了一种基于深度学习的量价基本面融合碳体验选择模型——融合基本面信息的ASTGNN因子挖掘模型。其核心创新点在于引入$RNN+GAT$结构生成高质量风险因子,通过设计针对性的正交化及动态相似度保持损失函数,确保邻接矩阵稳定且能有效刻画个股间相似度。同时,融入多层次基本面数据集,加入长周期估值和成长因子,带来显著的信息增量。
单数据集测试确认以week及基本面月度采样因子表现最好,多数据集组合加权表现更优,其中基本面数据贡献逐年提升。合成因子在主流宽基指数选股表现稳健,RankIC最高达16.61%,超额收益显著增长。
指数增强策略应用表明,在控制成分股占比及换手率约束下,新模型生成因子可实现沪深300年化超额16.98%,中证500为19.96%,中证1000高达31.63%,显著超越基准指数,体现模型实际交易潜力。
图表数据清晰支持以上结论,特别是各指数增强策略年度超额收益及净值稳健上升曲线(图18-26)充分说明模型通用性及风险收益平衡。
该因子挖掘框架在当前金融量化领域提供了有效延展,未来有望进一步优化基本面数据处理,降低换手率,并强化极端市场适应性。
综合来看,报告提供了理论创新与实证验证兼备的高质量量化投资框架,对专业量化团队及行业研究具有较大借鉴意义。
---
参考图像
图1:端到端 AI 量价模型框架

图2:RNN+GAT 网络结构

图3:风险因子提取模型的输入

图5:因子单元提取网络结构

图9:长周期数据集生成因子暴露情况

图10:各数据集因子汇总表现

图13:各数据集特征重要性分析

图14:中证全指选股汇总表现

图20:沪深300指数增强组合净值走势

图23:中证500指数增强组合净值走势

图26:中证1000指数增强组合净值走势

---
(全文完)