图神经网络选股与 Qlib 实践
创建于 更新于
摘要
本报告系统介绍了图神经网络(GNN)的理论基础及其在量化选股中的应用,重点展示了微软开源量化投资平台Qlib实现的动态图注意力网络模型GATs_ts。基于沪深300成分股和Alpha158因子库,回测期间(2010-2021年)GATs_ts在日频选股上的年化超额收益率达28.9%,信息比率2.94,表现优于基准模型LSTM和多层GATs_ts,证明了图时空网络将股票间关联关系及时序特征结合的有效性。同时分析了模型设计、数据处理及回测策略细节,指出未来可从建图方法、网络结构和策略构建等方面深入优化[page::0][page::4][page::22][page::27][page::35]
速读内容
图神经网络基础与图卷积原理 [page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12]
- 介绍图的拉普拉斯矩阵定义、图信号及图傅里叶变换,奠定谱域图卷积基础。
- 通过总变差和平滑度分析,阐述低通滤波器角色,阐明图卷积的空间域和频谱域意义。
- 提出多项式图卷积、切比雪夫多项式逼近(ChebNet)及其计算复杂度优势。
- GCN作为谱域向空间域的经典过渡,堆叠多层图卷积层实现节点多跳邻居特征聚合。
- 图卷积层采用卷积滤波器调节图信号平滑性,支持半监督学习。
GraphSAGE与GAT模型进阶 [page::13][page::14][page::15][page::16][page::17]
- GraphSAGE通过邻居采样和聚合器实现归纳式学习,解决了GCN转导学习对动态图的限制。
- 聚合器包括Mean、LSTM和Pool三种方式,支持可训练及对称操作。
- GAT引入注意力机制,显式利用邻居节点不同重要性,对特征加权聚合,提升表达能力和鲁棒性。
- 注意力系数由单层前馈网络生成,通过LeakyReLU和softmax标准化,多头注意力机制增强稳定性。
- GAT支持全图并行计算及归纳学习,适用于有向/无向动态图。
图时空网络选股框架——RSR方法详解 [page::18][page::19][page::20][page::21]
- RSR框架结合LSTM捕获股票时序信息与时间图卷积捕获股票间多类型关系的空间信息。
- 显式构建股票关系图,关系向量编码多种行业及供应链关系。
- 设计时间敏感嵌入传播机制,将动态时间特征注入股票关系强度函数,实现动态关系影响捕获。
- 预测层采用点对回归和成对排序损失共同优化,提升收益排序准确性。
- RSR与GAT结构相似,区别在节点特征中是否淡入实体关系,均以注意力机制动态聚合邻居信息。
Qlib平台GATsts模型实现及数据结构解析 [page::22][page::23][page::24][page::25][page::26]
- Qlib OpenAI量化平台集成多种AI模型,包括GATsts(一种基于LSTM+GAT的动态图注意力网络模型)。
- GATsts输入动态股票因子序列,LSTM输出隐藏状态作为节点特征,采用全局自注意力计算邻接权重,无需显式构图。
- 代码实现中注意力系数通过节点对拼接经前馈网络计算,LeakyReLU激活和softmax归一化。
- 多跳邻居卷积支持多层图注意力,通过残差连接缓解深层图卷积过平滑问题。
- 动态batch大小适配每日有效股票数量,支持归纳学习特征在线预测。
回测设计及模型参数配置 [page::27][page::28]
- 回测采用沪深300成分股,时间区间2010-01-04至2021-02-02,分12阶段滚动训练与测试。
- 使用Alpha158vwap因子特征与TopkDropout调仓策略,持仓50只,每日卖出最低5只,买入预测最高5只。
- 模型训练基于MSE损失,提前结束,参数包括时间序列长度20,特征维158,隐藏层64,层数1至3,学习率0.0001。
- LSTM参数及LightGBM模型作为基准对比提供。
因子表现与单因子回测指标 [page::29][page::30]
| 模型 | 年化IC | Rank IC | ICIR | Rank ICIR | Rank IC正日比例 |
|------------------|---------|---------|-------|-----------|----------------|
| LSTM | 0.08 | 0.09 | 0.62 | 0.65 | 75.65% |
| GATsts (K=1) | 0.08 | 0.09 | 0.57 | 0.63 | 74.76% |
| GATsts (K=2) | 0.08 | 0.09 | 0.54 | 0.61 | - |
| GATsts (K=3) | 0.08 | 0.09 | 0.54 | 0.60 | - |
- LSTM模型整体Rank IC略优于GATsts。
- GATsts不同层数中一层表现最佳,且整体因子有效性在2018年后有所下降,可能因因子拥挤或市场环境变化。
- LightGBM模型IC及Rank IC表现与LSTM相近,作为传统决策树基线有效。
量化策略实证结果与分层回测表现 [page::31][page::32][page::33][page::34]
- TopkDropout策略中,LSTM和GATsts (K=1)组合作为头部策略收益领先,年化超额收益分别达到25.69%与28.89%,夏普比率1.26与1.42,信息比率2.64与2.94。
- 分层组合表现显示头部组合Group1年化收益均超过40%,long-short组合年化收益率分别99.44%和95.64%。
- 多层GATsts (K=2,3)和LSTM夏普及收益率相对略低,日换手率保持15-20%之间。
- 回测净值和超额净值图示显示GATs_ts回撤幅度大于LSTM,但整体风险控制效果良好。
- 模型表现随时间衰减,提示因子失效和市场变迁问题,持续因子创新的重要性。
未来展望与研究方向 [page::35]
- 探索显式构图方法,将领域知识和语义关系集成入图时空网络。
- 设计更加灵活的网络结构,如先图卷积后时序模型,拓展模型表达能力。
- 多维度扩展策略构建,尝试不同股票池、换仓周期与组合构建方式。
- 深入挖掘新特征因子应对因子失效风险,结合知识图谱等丰富关系信息。
深度阅读
图神经网络选股与 Qlib 实践 —— 华泰证券深度研究报告详尽分析
---
一、元数据与概览
- 报告标题:《图神经网络选股与 Qlib 实践》
- 作者/研究员: 林晓明、李子钰、何康等
- 发布机构: 华泰证券股份有限公司
- 发布日期: 2021年2月21日
- 研究领域/主题: 量化投资、图神经网络(GNN)、机器学习选股策略,微软开源平台Qlib应用
- 核心内容摘要: 本报告系统介绍图神经网络(GNN)在量化选股中的应用,重点分析了基于微软Qlib平台实现的动态图注意力网络(GATsts)。针对沪深300成分股使用Alpha158因子,回测表明GNN方法在提升选股表现、超额收益率及信息比率方面较传统模型(如LSTM)具备显著优势。报告详述图神经网络原理、谱域与空间域卷积方法,介绍图时空网络选股框架,进一步给出Qlib平台图神经网络实现细节,辅以丰富实证回测与策略表现对比。作者强调GNN能够融合股票间复杂关系的增量信息,相较传统独立样本模型取得更优选股效果。[page::0,4]
---
二、逐节深度解读
2.1 图神经网络基础与技术框架
2.1.1 图结构与图信号理论
报告首先系统介绍了图的定义,包括节点集合\(V\)、边集合\(E\)、邻接矩阵\(W\)、度矩阵\(D\)、拉普拉斯矩阵\(L=D-W\)及其标准化形式的矩阵。通过具体的图示实例(图表1,节点及边连接矩阵赋值),说明拉普拉斯矩阵的谱分解和特征向量矩阵\(U\)。节点信号\(X\)定义为节点上的特征值,既可为标量也可为多维特征矩阵。此为图神经网络处理基础,图信号的表示从空间域转换到谱域为后续谱卷积打基础。[page::5-6]
2.1.2 图傅里叶变换(Graph Fourier Transform)
图信号无序和邻居节点数量不固定特性导致传统CNN不适配图数据,故引入图傅里叶变换,将图信号通过拉普拉斯矩阵特征向量投影至频谱域,利用傅里叶基及其对应的特征值理解图信号,可以实现在谱域上的卷积运算(式(1)和后续定义)。报告通过定量说明节点变差、总变差及其与频谱分量的关系,深入展现图信号频率对应图平滑度的理解(图表2-4)。低频对应变化缓慢、图平滑度高,高频对应变化剧烈、低平滑度,这一特性为后续滤波操作即图卷积奠基。[page::6-8]
2.1.3 谱域图卷积运算
利用卷积定理,图滤波器在谱域定义为对频谱分量乘以滤波器函数。拉普拉斯特征值作为高通滤波示例说明了滤波过程(式(5)),该过程包括傅里叶变换、谱域滤波、逆傅里叶变换(图表5)。为了实现参数训练且降低运算复杂度,引入多项式图卷积近似滤波器,特别是切比雪夫多项式(ChebNet),获得快速局部谱滤波(式(6)-(7))。该框架提出参数数量下降(从n到K,K远小于n),并融入多跳邻居特征。谱域方法的复杂度控制及局部特征提取实现是谱卷积发展的关键。[page::9-11]
2.1.4 空间域图卷积网络(GCN)
GCN模型通过简化一阶切比雪夫多项式(K=2)并使用再归一化技巧实现图卷积层的定义,具体公式如式(8),矩阵\(\hat{W}\)为加入自环的归一化邻接矩阵,其特征值在\[0,2\]范围,保证数值稳定。GCN在谱域为低通滤波器,空间域视角理解为邻居节点特征加权聚合,加入特征降维和非线性激活。堆叠多层GCN有助于多跳邻居信息融合,但存在转导学习限制和全图训练内存占用大等缺点(图表7)。[page::11-12]
2.1.5 GraphSAGE:支持归纳学习的采样聚合框架
GraphSAGE通过采样固定数量邻居进行小批量训练,突破GCN全图训练限制,支持归纳式学习预测新节点(动态图)。用聚合函数(如Mean、LSTM或Pool聚合器)实现邻居特征聚合,经过全连接层变换输出节点嵌入,实现从空间域做归纳表示学习(图表8-9伪代码详述采样和聚合流程)。这种方法利于GPU计算,加速大规模动态图训练,符合实际股票市场动态特征。[page::13-14]
2.1.6 图注意力网络(GAT)
GAT引入注意力机制解决邻居影响均等的不足,计算每个邻居的重要权重\(\alpha{ij}\)(基于线性变换后的节点特征相似度),采用Masked Self-Attention仅聚焦一跳邻居节点,标准化后与节点特征加权聚合,形成节点新特征(式(12)-(14))。多头注意力机制增强表达能力和鲁棒性。GAT同时具备计算高效、无依赖整体图结构、支持归纳学习等优点(图表10及表11比较GCN、GraphSAGE、GAT)。[page::15-17]
---
2.2 图时空网络及量化选股应用
2.2.1 关系股票排序框架(RSR)
RSR结合LSTM处理时间序列与图卷积(时间图卷积TGC)捕获空间邻接关系,构建顺序嵌入\(E^{t}\)和关系嵌入\(EG^{t}\),并通过MLP输出股票排序得分。显著区别于传统拼接样本买卖方法,RSR显式考虑股票行业关系、产业链等多种边权特征和时间动态特征,利用点对回归损失与成对排序损失优化排序准确性(图表12-13,式(15)-(22))。[page::18-21]
2.2.2 RSR与GAT对比及优势
RSR设计了多种层次的关系嵌入传播模块,兼顾多类型关系和时间动态领先效果。GAT利用隐式全局自注意力聚合邻居特征,两者结构上类似,区别在于RSR为显式多类型边和时间敏感性,GAT可隐式动态全局学习。RSR中关系强度函数取内积乘关系权重,GAT以注意力机制实现特征加权,两者均兼具归纳学习能力。[page::21]
---
2.3 Qlib平台GATsts模型实践
2.3.1 Qlib平台及模型架构
Qlib为微软开发开源的AI量化投资平台,提供包括LSTM、GATsts等多种模型实现。GATsts结合LSTM获取时间序列隐状态并采用全局GAT注意力机制聚合股票间动态特征,无需显式的股票关系图,体现动态图卷积网络。Qlib的松耦合设计支持用户定制和扩展模型(图表14-15)。[page::22-23]
2.3.2 GATs
ts模型细节及代码实现- 输入为[Lstm或GRU生成的]隐藏状态tensor,之后计算全局两两节点注意力系数(calattention函数),softmax归一化,使用leaky ReLU非线性,矩阵乘法实现邻居加权聚合,加入自环实现残差跳跃,防止过平滑。
- 最后通过全连接层预测股票收益率。源码清晰呈现图神经网络主流程(图表15、19),支持多层GATsts聚合。
- GATsts模型batchsize根据每日有效股票数量变化,区别于LSTM固定batchsize设计,更符合股票市场动态特征(图表16-18)。[page::23-26]
---
2.4 回测与实证分析
2.4.1 回测流程
- 使用Wind数据转换为Qlib格式,股票池为沪深300,回测区间2010-01-04至2021-02-02,滚动12期训练测试。
- 特征使用Alpha158vwap因子,标签为未来ticker日涨跌幅,交易策略采用TopkDropout,单日买入预测值最高股票,卖出最低,调仓频率为日频(图表20-21)。
- 模型训练采用五年数据,带提前停止和验证集选择,采用均方误差损失(mse),配置多种超参数(图表22)。[page::27-28]
2.4.2 单因子及组合回测性能
- IC分析显示LSTM整体预测能力略优,GATsts单层次K=1表现最佳。
- 分层组合回测中,GATsts(K=1)表现优于K=2、3层和LSTM,年化超额收益率近29%,信息比率近3,夏普比率1.42,最大回撤16.92%(图表23-32)。
- 单因子分层净值走势与超额净值均显示GATs
- 多层GATsts未能提升表现,可能因过平滑或过拟合。LSTM对全样本预测表现优,但对头部股票GATsts更为精准,因TopkDropout策略高度依赖头部预测。Alpha因子作用衰减表明市场因子拥挤或失效风险依然存在。[page::33-34]
2.4.3 LightGBM对比实验
- LightGBM传统集成学习模型IC和策略表现介于LSTM和GATsts之间,信息比率和稳定性稍好(图表44-51),说明图神经网络在基础因子和数据上还有进一步提升空间。[page::37-38]
---
2.5 风险提示与报告局限
- Qlib平台功能未完全成熟,部分功能待完善,存在技术及模型风险。
- AI方法基于历史数据规律,未来市场结构变化可能导致模型失效。
- 过拟合风险不可忽视,因子拥挤和失效是模型表现衰退的潜在诱因。
- 报告对显式建图方法、新网络结构及策略构建等方向提出展望和疑问,表明图神经网络领域尚处于探索阶段(页末总结与展望)。[page::0,36,35]
---
三、图表深度解读
- 图表1 & 2 & 3 & 4(图信号与频谱展示):详细可视化图结构信号及其傅里叶变换,说明图信号平滑度与频谱分布的内在关联,严谨地推导出图信号低通滤波的本质,为GNN卷积提供理论基础。[page::5-8]
- 图表5(图卷积运算流程):简洁明了串联傅里叶变换、滤波器应用和逆变换过程,直观映射GNN的谱域卷积思想。[page::9]
- 图表6(低通滤波器去噪例子):真实示例说明图卷积滤波器如何平滑图信号,去除高频噪音,直观感知GNN对节点信号的调优作用。[page::10]
- 图表7(GK-CNN两层网络示意):展示节点输入层、隐藏层与输出层信息流,演示半监督学习的组合和邻居依赖特性,起到理解GCN节点更新核心作用。[page::12]
- 图表8 & 9(GraphSAGE采样与小批量伪代码):形象地呈现归纳式小批量采样及由外向内的节点特征聚合,结合伪代码详解,展示工业化大规模图学习可行路径。[page::13-14]
- 图表10(GAT注意力机制和多头机制示意):对比单头注意力的计算结构及多头权重融合机制,帮助理解GAT的加权邻居特征聚合及鲁棒性提升原理。[page::16]
- 图表11(GCN、GraphSAGE、GAT对比表):列明三种GNN在公式、核心思想、优势与不足上的区别,有助读者从实用角度选择并理解算法原理。[page::17]
- 图表12(传统多因子选股训练集构造):展示数据处理传统拼接样本的方法,反映策略难以处理股票间和时间动态关联的弊端。[page::18]
- 图表13(RSR框架结构图):清晰分层展示LSTM捕捉时间信息、TGC捕捉股票关系、FC层生成排名的流程,定位时空图网络核心架构。[page::18]
- 图表14(Qlib内置模型算法表):区分传统集成学习、时间序列网络及图神经网络类别,表明GATsts在Qlib平台生态内的位置。[page::22]
- 图表15 & 19(GATsts源码实现展现):代码截屏详细说明动态图注意力网络构建,包含注意力计算与多层GAT堆叠,实证门槛降至用户可操作层面。[page::23,25]
- 图表16 & 17 & 18(GATsts与LSTM输入数据示意):直观展现Qlib处理动态股票池不同的batch和时间序列组织,证实GATsts批量配置更灵活适配现实市场流变性。[page::24]
- 图表20 (滚动回测时间切片示意):分阶段样本内外划分方案图,有助定位训练与验证周期、滚动回测安排。[page::27]
- 图表21 (回测函数及指标代码):重要回测及风险指标计算流程源码细节,有效连接模型输出与策略评价环节。[page::27]
- 图表22 (GATsts参数配置表):关键模型超参数含义和取值,全景映射模型训练环境及设计预设。[page::28]
- 图表23-26 (IC及Rank IC统计与时序趋势图):多模型IC指标年度及日频变化,清晰揭示模型预测能力分布及2017年后衰减趋势背景。[page::29-30]
- 图表27-32 (分层回测关键指标与对比):展示分层收益率、信息比率、最大回撤等指标,LSTM和GATsts性能对标,说明GATsts针对头部因子表现优异。[page::31-33]
- 图表33-40 (策略净值与超额净值曲线):基准模型与GATsts多层策略净值对比,直观展现收益与风险特征,辅助读者实操理解。[page::33-34]
- 图表41-42(换手率趋势):长时序换手数据表现,行情微观数据显示不同模型调仓活跃程度,联系收益波动解释策略节奏。[page::34]
- 图表44-51 (LightGBM IC与回测对比):传统集成模型LightGBM与深度模型对比,为读者提供效果对照及多模型多角度解读。[page::37-38]
---
四、估值与模型性能分析
本报告主要聚焦于图神经网络技术在量化选股中的实现与回测表现,未涉及传统股票的财务基本面估值方法,因此无市盈率、DCF等估值模型。然而,通过详细的因子IC指标分析、分层回测组合绩效、多年度滚动回测绩效、信息比率、夏普比率、最大回撤等多维风险收益指标综合评判模型性能,构成“估值”意义上的性能评估框架。
- 模型性能驱动因素分析:
- GNN充分利用股票间复杂动态关联信息,提升了对头部股票的预测准确率。
- LSTM依赖时间序列特征捕捉长期趋势,表现对整体样本平滑更好。
- 多层GATsts聚合多跳邻居特征未带来明显收益,可能由于过平滑或信息冗余。
- 超额收益与风险指标:回测表明一层GATsts于沪深300基准超额收益显著(28.89%)、信息比率约2.94,但最大回撤相较LSTM略大,反映更高风险承担。
- 换手率:日换手率维持在15%-20%,说明策略有一定交易成本,实际效果需考虑交易费用影响,报告中的净值为扣费和未扣费均给出,展现真实执行情况。
---
五、风险因素评估
- 平台风险: Qlib作为开源平台仍在迭代完善阶段,功能开发不完全,存在技术及实现风险。
- 模型风险:
- AI模型基于历史数据规律总结,市场结构或机制变化可能导致模型失效。
- 过拟合风险不可忽视,策略可能适应历史特征过强而对未来失效。
- Alpha158量价因子经过时间考验但存在显著拥挤效应,因子失效影响模型表现。
- 策略风险: 日频调仓频繁,交易成本和实际执行风险提高。策略仅关注头部股票预测能力,对全市场整体预测能力要求降低,潜在资产配置风险。
- 建议进一步探索: 建图方法(显式关系、知识图谱)、网络结构创新、不同频率及股票池的策略效果及多因子拓展是缓解风险并提升表现的方向。[page::36]
---
六、批判性视角与细微差别
- 报告对图神经网络和LSTM的性能对比详尽,然而单因子表现稍逊一筹的GATsts为何能回测优于LSTM,报告认为因策略只选头部部分股票,模型头部预测更精准。这一推断合理但缺乏更多机制性验证,值得后续深入研究。
- 多层GATsts效率未见提升,反映图卷积深度面临过平滑难题,报告建议引入残差跳跃但未展示相关消融实验,仍存方法优化空间。
- 报告偏重技术细节和回测指标,缺乏对因子生成过程、数据异常处理、交易成本模型的详细说明。
- 图注意力机制部分只用单头未启用多头方法,虽能简化模型,但多头机制的潜力未被充分探索。
- Qlib平台实时性能、延迟和扩展性未有深入披露,实际落地状况未知。
- 报告整体研究面向量价选股,未涉及基本面和宏观因子,模型适用性限定。
- 风险提示简洁明确,但因主攻新算法和平台,未予以过度预期,保持科学态度。
---
七、结论性综合
华泰证券本次深度研究报告系统地展示了图神经网络(GNN)特别是图注意力网络(GAT)在量化选股领域的理论基础、技术实现与实证效果,结合微软开源平台Qlib进行全面实践。报告首先从谱域和空间域的数学原理透彻剖析图卷积的核心,细致解析包含GCN、GraphSAGE及GAT三大主流图神经网络结构,明确阐述它们之间的继承发展与优势局限。通过关系股票排序框架(RSR),报道进一步扩展至时空动态网络,揭示引入显式复杂股票关系和时间敏感动态信息对选股模型的重要价值。
在Qlib平台的实操部分,报告详尽分析GATsts模型将RNN时序信息与图注意力机制结合的实现细节,支持多跳邻居聚合的动态图实现,深度融合股票间隐式且变化的关系。实证选股回测于沪深300行情,选用Alpha158量价因子,严格分阶段滚动训练测试,围绕IC因子有效性、分层收益表现、换手费率展开评估。结果显示:
- GATsts在预测头部股票上具备优势,使其在TopkDropout策略下表现超过传统LSTM的整体样本表现,年化超额收益率达到28.89%,信息比率2.94,尽管存在略高最大回撤。
- IC指标和分月表现揭示因子随时间衰减趋势,提示短板在因子选取及数据维度,强调未来需结合新型因子与显式关系挖掘。
- 多跳聚合层数增多未显著提升收益, 指出GNN深层模型存在过平滑并需平衡复杂度。
- 与LightGBM对比,GATsts展示了与传统集成方法竞争的潜力,但因子效力和策略结构仍为提升方向。
总体来看,报告揭示图神经网络作为融合时序与关系动态信息的先进架构,在量化选股算法中展现广阔前景,尤其适合处理动态多样的股票市场网络结构。结合微软Qlib平台的开源生态,加速了相关方法的研发与应用落地。报告提出若干未来研究建议,包括显式建图策略、网络结构创新及策略多元化,从而推动量化投资智能化转型。
为风险意识,报告客观提示历史规律不保、过拟合风险及平台开发不完善问题,体现严谨的研究态度。整体而言,本报告为从理论推导、实现架构、实证检验全方位解构图神经网络量化策略提供了详实蓝图,适合金融量化研究员及机器学习工程师深入学习与参考。[page::0-41]
---
参考关键图示摘要
- 图表1-6: 拉普拉斯矩阵与图傅里叶变换构造图信号的数学基础与滤波原理。
- 图表7-11: GCN、GraphSAGE、GAT经典结构及对比,明确空间谱域结合演进路径。
- 图表13: 关系股票排序RSR时空框架示意,启发动态图神经网络选股思路。
- 图表15,19: Qlib中GATs_ts代码实现关键截屏,体现动态图节点特征全局注意力计算及多层堆叠。
- 图表23-32: 量价因子单因子效能及分层组合回测对比,量化策略效果的主观指标。
- 图表33-42: 策略净值与换手率时间序列图,展示收益风险实际演化轨迹。
- 图表44-51: LightGBM对照实验,结合基准更好理解GNN模型表现优势与不足。
---
综上,华泰证券通过该报告系统且严谨地将图神经网络与量价因子结合的量化选股研究从理论、实践及性能对比多角度进行了开创性揭示,推动了基于网络关系和动态图特征融合的智能量化投资策略研发的深入发展。