`

选股因子系列研究(九十七)——使用图神经网络融合量价信息与基本面信息

创建于 更新于

摘要

本报告基于深度学习模型,探讨量价信息与基本面信息的融合。研究发现,简单共输入量价和基本面特征效果有限,二次加权及图神经网络(GNN)能更好融合二者,其中BiAGRU-GAT模型表现最佳,2024年内显示较强的选股能力和更稳定的超额收益。AI增强组合测试表明该模型在中证500与中证1000指数增强中取得显著年化超额收益和较低回撤风险,为量化选股提供有效工具[page::0][page::4][page::5][page::7][page::8][page::10][page::11]。

速读内容


深度学习模型提取基本面与量价信息的融合难题 [page::0][page::4]

  • 简单将基本面特征和量价特征共同作为模型输入,模型难以有效学习基本面信息。

- 深度学习基本面因子周均Rank IC约0.039,月均Rank IC约0.067,Top10%组合费前超额收益约10%。
  • 基本面与量价信息低相关,复合因子与基本面因子相关性提升有限。


二次加权模型提升基本面信息融合能力 [page::5][page::6][page::7]


  • 使用BiAGRU提取深度学习量价因子,与基本面因子采用XGBOOST二次加权形成终端因子。

- 二次加权模型呈现显著周度选股能力,周均Rank IC达0.133,Top10%组合年化超额收益达32.1%。
  • 换手率较基准模型提升,Top10%组合年化双边换手率从42倍增至52倍。



| 年份 | 基准模型Top10%超额收益 | 二次加权模型Top10%超额收益 |
|------------|-----------------------|---------------------------|
| 2019 | 39.7% | 42.1% |
| 2020 | 26.3% | 35.0% |
| 2024 | -0.7% | 4.2% |
| 全区间 | 32.6% | 32.1% |
  • 2024年初二次加权模型仍存在较大回撤,虽表现优于基准,回撤幅度仍接近基准模型。


图神经网络(BiAGRU-GAT)模型融合效果更佳 [page::7][page::8][page::9]


  • 利用GAT模块根据股票间基本面关联进行动态加权,实现个股得分的基本面相关调整。

- BiAGRU-GAT模型周均Rank IC达0.141,年化多头超额收益达32.9%,换手率轻微增加。
| 年份 | 基准模型Top10%超额收益 | BiAGRU-GATTop10%超额收益 |
|------------|-----------------------|---------------------------|
| 2017 | 27.7% | 32.4% |
| 2018 | 48.6% | 50.9% |
| 2024 | -0.7% | 12.0% |
| 全区间 | 32.6% | 32.9% |




AI增强组合实证测试 [page::9][page::10][page::11]


| 模型 | 中证500增强(全市场) | 中证1000增强(全市场) |
|------------|---------------------|----------------------|
| 基准模型 | 15.9% | 21.7% |
| 二次加权模型| 13.1% | 19.7% |
| BiAGRU-GAT模型| 17.2% | 24.1% |
  • BiAGRU-GAT模型在中证500指数增强组合表现年化超额收益17.2%,最大超额回撤为5.6%,2024年超额收益4.2%,回撤明显优于基准模型。

- 中证1000增强组合表现同样优良,年化超额收益24.1%,最大回撤5.0%,2024年回撤小于基准模型。



总结与风险提示 [page::11]

  • 简单融合基本面和量价信息表现受限,二次加权与图神经网络是有效的组合方法。

- BiAGRU-GAT模型在多周期内保持稳定输出,且2024年表现优异,选股能力强。
  • 主要风险包括市场系统性风险、流动性风险、政策变动风险以及因子失效风险。

深度阅读

报告详尽分析——《选股因子系列研究(九十七)——使用图神经网络融合量价信息与基本面信息》



---

一、元数据与概览


  • 报告标题: 选股因子系列研究(九十七)——使用图神经网络融合量价信息与基本面信息

- 分析师: 郑雅斌、袁林青
  • 发布机构: 海通证券研究所

- 发布日期: 2024年4月22日
  • 主题: 深度探讨通过深度学习及图神经网络(GNN)模型实现量价信息与基本面信息的有效融合,从而构建更加优质的选股因子并测试其在增强组合中的应用效果。

- 核心论点: 简单直接将基本面信息和量价信息拼接输入深度学习模型难以获得理想表现。二次加权及图神经网络模型(特别是BiAGRU-GAT模型)可更有效融合两类信息,显著提升选股能力及组合收益表现。图神经网络融合方案在2024年表现更佳,回撤更小,更适合实际投资应用。
  • 评级/目标价: 本报告为研究报告,无明确股票评级及目标价。

- 主要信息传递: 通过创新的模型设计,图神经网络技术能够打破传统深度学习对多种信息融合的局限,从而大幅提升股票收益预测能力及增强组合表现,具备较强实际应用价值。[page::0,4]

---

二、逐节深度解读



1. 使用简单深度学习模型融合基本面信息


  • 章节主旨: 探讨基础深度学习模型如何从单一量价信息或基本面信息提取选股因子,并评估直接拼接两类特征的表现差异。

- 推理依据: 历史测算结果显示,基于量价特征的深度学习因子具有显著的选股能力。单用基本面信息训练,则得到的因子表现也不错,显示其有效性;但简单拼接两者输入模型时,模型却难以充分学习基本面信息,复合因子表现仅略优于量价因子。
  • 关键数据点:

- 基本面因子周均Rank IC约0.039,月均约0.067,Top10%组合年化超额收益约10%。
- 量价因子周均Rank IC约0.139,Top10%组合超额收益约32%。
- 复合因子周均Rank IC约0.140,表现略优于量价因子。
  • 关联性分析: 基本面因子与常规基本面因子(BP、EP、盈利、成长、SUE)相关性较高,且量价因子与基本面因子相关性较低,导致直接拼接难以胜任融合任务。[page::4,5]


解释术语

  • Rank IC (Information Coefficient): 衡量因子预测收益排名与实际收益排名的相关系数,越高代表选股能力越强。

- Top10%超额收益: 选取因子排名前10%股票构建组合后的超额收益,体现因子投资价值。

---

2. 使用二次加权模型融合基本面信息


  • 章节主旨: 采用两阶段策略,即先用深度学习模型提取量价因子,再与基本面因子进行XGBoost二次加权,提升基本面信息权重,避免单纯拼接困境。

- 模型架构:
- 第一阶段: 用BiAGRU模型提取32个正交量价因子。
- 第二阶段: 使用XGBoost模型将32个量价因子与基本面因子加权融合,得到最终选股因子(终端因子)。
  • 核心数据:

- 二次加权模型周均Rank IC为0.133,略低于基准模型0.140。
- Top10%组合费前年化超额收益32.1%,略低于基准模型32.6%。
- 因子换手率从42倍提升到52倍,说明交易频率更高。
  • 因子相关性:

- 二次加权模型与盈利、成长、SUE等基本面因子相关性明显高于基准模型(图3)。
- 与风格和量价因子相关性保持稳定,整体仍偏小盘、价值、反转、低波动与低流动性特征(图2)。
  • 年度收益对比:

- 在2019、2020、2024年表现优于基准;2022、2023年跑输基准。
  • 收益曲线(图4)显示: 2024年初二次加权模型回撤依旧明显,与基准模型相当但后续恢复更好。

- 总结: 二次加权策略能一定程度上增强基本面信息,但在最近两年量价因子强势的环境下,模型仍偏重量价信息,限制了表现提升。[page::5,6,7]

---

3. 使用图神经网络融合基本面信息


  • 章节主旨: 提出基于图神经网络(GNN)尤其是图注意力网络(GAT)的方法,利用股票间基本面关联性,以图结构捕捉信息传播,辅助融合。

- 方法论解析:
- 股票基本面信息季度披露频率低,变化缓慢,其关联性表征为图结构节点(股票)和边(基本面相关度)。
- GAT帮助动态赋权,调整不同邻居股票对目标股票评分的影响,体现市场“传染”和“识别”机制。
- 量价信息先用BiAGRU时序提取后,结合GAT层二次修正,形成终端因子。
  • 模型命名: BiAGRU-GAT模型(图5流程示意),兼具时序信息提取和图结构关系建模。

- 关键数据:
- BiAGRU-GAT模型周均Rank IC为0.141,优于基准0.140。
- Top10%组合费前年化超额收益32.9%,略高于基准32.6%。
- 更稳健的换手率47倍,较二次加权更合理。
  • 年度收益表现:

- 2017、2018、2021、2024年表现优异,2019、2020、2022、2023年略逊基准模型。
- 2024年Top10%组合超额收益达12%,明显好于基准。
  • 收益与回撤走势(图6): 2024年年初回撤明显低于基准模型,超额收益更稳健。

- 因子相关性分析(图7-10):
- BiAGRU-GAT模型与基本面因子EP、盈利、成长、SUE截面相关明显提高。
- 与市值和中盘相关性更温和,减少规模偏差。
- 最近时间点的相关性显示模型更侧重价值成长因子,控制了规模偏差。
  • 综合评价: 图神经网络创新性利用图结构关系,突破简单融合限制,有效提升模型捕捉基本面信息的能力,实现更优组合表现。[page::7,8,9]


---

4. AI增强组合测试


  • 测试背景: 结合以上因子,构建基于中证500、中证1000指数增强组合,验证模型预期收益对实际组合的提升作用。

- 组合约束及优化:
- 个股权重偏离不超过0.5%。
- 因子暴露控制(估值中性、市值中性等)。
- 行业中性约束。
- 选股空间涵盖指数成分和全市场。
- 最大换手率限制单边30%。
- 投资目标最大化预期收益,扣除3个基点双边交易成本,按次日均价执行。
  • 超额收益表现(表7):

- BiAGRU-GAT在中证500全市场增强组合年化超额收益17.2%,优于基准模型的15.9%和二次加权的13.1%。
- 中证1000全市场增强组合表现更突出,年化超额达24.1%。
  • 收益风险特征(表8、9):

- BiAGRU-GAT组合超额最大回撤显著低于基准(中证500组合从11%降至5.6%,中证1000组合从7.8%降至5%)。
- 信息比率和月度胜率普遍优于基准模型,体现更稳定的盈利能力和风险控制。
  • 收益率曲线(图11、12): 2024年年初回撤阶段,BiAGRU-GAT组合超额收益回撤更小,表现更稳健。

- 总结: BiAGRU-GAT模型在约束实际组合框架下表现出优异的年化超额收益与风险调整后表现,验证了该模型的实用性和投资价值。[page::9,10,11]

---

5. 总结与风险提示


  • 总结:

- 基本面信息对选股因子有显著贡献,但深度学习模型无法简单拼接量价与基本面信息取得理想融合。
- 二次加权策略能适度引入基本面信息,但受限于量价因子强势表现,存在表现波动。
- 图神经网络(BiAGRU-GAT)创新设计利用股票间基本面关联,动态调节因子评分权重,显著提升周度选股能力和增强组合表现。
- 2024年以来,BiAGRU-GAT模型展现更稳健的多头超额收益和更低的超额回撤,实务应用前景广阔。
  • 风险提示:

- 市场系统性风险。
- 资产流动性风险。
- 政策变动风险。
- 因子失效风险,尤其在市场结构变化时。

---

三、图表深度解读



1. 表1 深度学习因子选股能力(2017.01-2024.04)


  • 内容: 比较深度学习量价因子、基本面因子和复合因子在不同调仓周期下的Rank IC及超额收益表现。

- 趋势: 量价因子表现最强,基本面因子虽弱但具有稳定选股能力。复合因子表现略好于量价因子,表明简单拼接并未解决融合问题。
  • 意义: 确认基本面因子具备选股信息但无法简单叠加,应引入更复杂融合机制。[page::4]


---

2. 表2 相关性对比


  • 内容: 显示深度学习量价因子、基本面因子及复合因子与经典基本面和风格因子的相关系数。

- 解读: 基本面因子与盈利、成长、SUE因子关系密切;量价因子与规模和波动率相关性较高;复合因子没有明显提升相关性,证实简单融合局限。
  • 意义: 说明需要有效模型帮助从量价和基本面因子中挖掘独立而强有力的融合因子。[page::5]


---

3. 图1 二次加权模型流程示意图(图片链接)




  • 内容: 流程图展示将量价信息用BiAGRU提取深度因子,与基本面因子通过人工逻辑处理后,用XGBoost二次加权融合。

- 说明: 该方法通过分步融合避免了深度神经网络直接拼接两类信息性能下降的问题。[page::5]

---

4. 表3 二次加权模型周度选股能力


  • 内容: 对比基准模型和二次加权模型Rank IC、超额收益及换手率。

- 分析:
- 两模型Rank IC相近,均显著。
- 二次加权换手率上升,反映交易频繁,可能影响交易成本。
- 超额收益费后略逊于基准。
  • 意义: 融合有效,表现稳定但回撤与基准相近。[page::6]


---

5. 图2、图3 二次加权模型相关性展示


  • 图2 展示二次加权模型与市值、中盘、BP、EP等风格和量价因子的截面相关,变化不大。

- 图3 显示二次加权模型与盈利、成长、SUE等基本面因子的截面相关显著增加。
  • 分析: 二次加权模型有意提升了基本面因子影响,融合效果初见成效。[page::6]


---

6. 表4 二次加权分年度多头超额收益


  • 内容: 从2017年至2024年分年度对比基准和二次加权模型的超额收益。

- 观察: 二次加权在2019、2020、2024表现优于基准,但2022、2023年表现较差。
  • 含义: 融合效果受市场环境及因子表现周期影响显著。[page::6]


---

7. 图4 二次加权模型Top10%组合超额净值走势


  • 内容: 2024年初超额净值走势对比,二次加权模型回撤与基准模型相似,但后续恢复较优。

- 说明: 突显二次加权模型在市场下跌时的承压情况及后续修复能力。[page::7]

---

8. 图5 图神经网络模型流程示意图




  • 内容: 展示量价信息经BiAGRU编码后,经GAT模块与基本面信息结合,产生终端选股因子流程。

- 特点: 融合机制动态、灵活,充分利用股票间基本面关系,克服单纯特征拼接的局限。[page::7]

---

9. 表5 BiAGRU-GAT模型周度选股能力


  • 内容: BiAGRU-GAT模型与基准模型选股能力对比。

- 结果: Rank IC略优,超额收益略增,换手率适度增加。
  • 意义: 图神经网络融合方法对选股能力有正面提升且交易成本适中。[page::8]


---

10. 表6 BiAGRU-GAT模型分年度收益


  • 观察: 2017、2018、2021、2024年表现更优,2023年表现疲软但高于基准模型。

- 暗示: 模型能动态适应市场环境,部分年份表现优异弥补了其他年份不足。[page::8]

---

11. 图6 BiAGRU-GAT模型Top10%组合超额净值走势


  • 分析: 2024年初回撤明显小于基准,收益曲线更为稳健。

- 投资意义: 表明模型提升了危机时刻选股稳定性和风险控制能力。[page::8]

---

12. 图7-10 截面相关性分析


  • 内容: 展示BiAGRU-GAT模型与风格因子及基本面因子的相关性,均显著优于基准模型。

- 说明: 该融合模型更好地捕获了价值、盈利、成长等基本面信号,且规模因子相关性降低,优化了因子偏好。[page::9]

---

13. 表7-9 AI增强组合超额收益及分年度收益风险特征


  • 绩效: BiAGRU-GAT模型增强组合年化超额收益领先基准及二次加权模型,最大回撤显著下降。

- 风险调整: 信息比率提升,月度胜率普遍优,组合表现更稳健。
  • 完整性: 涉及中证500与中证1000两大主要指数增强组合,覆盖市场主流股票池。[page::9-11]


---

14. 图11-12 增强组合超额净值走势


  • 内容: 展示2024年初基准和BiAGRU-GAT模型增强组合的超额净值趋势。

- 发现: BiAGRU-GAT组合在回撤时段展现出更强防御性与回撤修复力。
  • 投资价值: 确认图神经网络模型适合实战,提升实际投资组合收益稳定性。[page::10,11]


---

四、批判性视角与细微差别


  • 假设限制: 在第一章中简单将基本面特征加入模型未作频率差异调整,可能影响模型训练真实性,且未解决标签不一致问题,未来研究空间广阔。

- 因子表现波动: 二次加权模型在近年表现不佳可能受量价因子强势影响,意味着模型对权重调配依赖较大,且换手率升高带来交易成本压力。
  • 图神经网络优势体现: BiAGRU-GAT模型相对更均衡,缓解了规模偏向问题,显示其在多维度融合上的潜力。

- 数据样本限制: 模型表现基于历史回测,未来市场结构变化、政策环境等仍可能影响因子有效性及回撤风险。
  • 风险提示层面的提醒: 报告提及因子失效风险,实际应用中需持续监控模型稳定性及市场适应性。


---

五、结论性综合



本报告围绕如何有效融合基本面信息与量价信息构建选股因子展开系统研究,提出了三种深度学习框架:
  1. 简单拼接基本面与量价信息的基线模型显示基本面信息存在显著选股能力,但直接融合表现欠佳。

2. 二次加权模型通过XGBoost将基本面因子权重显著引入终端因子,虽提升了基本面选股相关性,部分年份的组合回报优于基准,换手较高且近期表现不稳。
  1. 图神经网络BiAGRU-GAT模型利用股票间基本面关联关系,动态调整因子得分,显著提升了选股的预测能力和增强组合的收益稳定性,2024年显示出更好的风险控制和业绩表现。


通过系统对比,BiAGRU-GAT模型融合方案代表当前深度学习与金融融合的前沿方法,其年化超额收益和回撤控制层面均优于其他模型及基准,具备较强的应用价值和推广潜力。组合实测结果也验证了因子研究的实际效果,展示了深度学习与图神经网络技术在资产管理中的领先应用案例。

最后,报告对市场系统性风险、流动性风险、政策风险及因子失效风险进行了基本提示,提醒投资者保持风险意识,谨慎使用因子模型。

---

该报告为海通证券研究所发布的系统性学术金融研究,数据详实、方法先进、结论严谨,适合对量化选股模型感兴趣的专业投资者及量化研究者深度阅读。[page::0-12]

报告