`

资金流向相似性图谱与图神经网络

创建于 更新于

摘要

本报告基于资金流向相似性构建六种资金流向图谱,应用于传统机器学习XGBOOST与图神经网络GAT模型,通过衍生因子构建、联合训练和多模型集成显著提升收益预测指标IC与超额收益,模型在各大宽基指数成分股均表现出稳定的增量效果,结合组合优化实现指数增强,年化多空收益提升超过60%,并带来夏普比率的同步改善,为量化选股模型注入了新型关系型因子增量[page::0][page::3][page::8][page::10][page::17][page::22][page::25][page::27]。

速读内容


资金流向相似性图谱定义及构建 [page::4][page::5]

  • 构建6种资金流向相似性图谱,依据资金主动买卖成交额计算资金净流入/流出。

- 资金类型分为小单、中单、大单和特大单,构建相应的邻接矩阵,保留每行前1%的强邻居,形成稀疏图谱。
  • 资金流向相似性反映投资者交易行为和资金共性,图谱用于捕捉股票间资金联动关系。


资金流向相似性关系与收益率相关性分析 [page::5][page::6][page::7]


  • 资金共同流出图谱及大单、中小单流出类图谱相关个股收益率相关系数普遍高于全市场股票,均值提升1%-5%。

- 相关系数分布显著向右移动,说明资金流向相似性确实反映股价联动性。

资金流向相似性衍生因子及多图谱模型构建 [page::8][page::9]

  • 衍生因子通过资金流向关系邻接矩阵加权原始因子,实现对股票关联特征的增强。

- 多图谱集成方案包括TRI、LRI、TRU等多种图谱组合,数据输入结构详见图表8。


模型训练及性能评估:XGBOOST方案 [page::10][page::11]


| 方案 | IC均值 | RankIC | IC胜率 |
|-----|-------|--------|--------|
| EnsLRI | 9.67% | 11.85% | 80.87% |
| Ens
TRI | 9.60% | 11.67% | 81.40% |
| EnsTRU | 9.68% | 11.84% | 81.17% |
| 资金共同流入CashCoIn | 9.49% | 11.57% | 81.33% |
| 原始模型RawModel | 9.35% | 11.57% | 80.34% |
  • 多图谱集成明显提升模型IC约0.3个百分点,超额收益也获得2%-3%的增幅。



分指数成分股模型表现 [page::11][page::12][page::13]

  • 沪深300成分股增量最大,IC、rankIC、超额收益三项指标明显向好。

- 多图谱集成方案TRI/TRU在中证1000、500、800均表现较强,特别是中证1000 TOP组超额收益提升显著。


图神经网络GAT模型介绍及应用 [page::15][page::16]

  • 采用基于注意力机制的Graph Attention Network,融合显式资金流向图谱与隐式关系图,构建改进版图神经网络。

- 模型结构为两层GAT叠加两层MLP,输入包含标准存量因子和资金流向邻接矩阵。


GAT模型训练效果及分层测试 [page::17][page::18][page::19]


| 方案 | IC均值 | RankIC | IC胜率 |
|------|--------|--------|--------|
| Ens
GAT (多图谱集成) | 8.01% | 9.86% | 79.34% |
| MLP (基准) | 6.77% | 9.20% | 73.66% |
  • 引入资金流向图谱GAT模型相较纯MLP提升1.2%以上IC,多图谱集成表现最佳。

- 各指数成分股上资金共同流出及大单共同流入图谱表现优异,带来0.5%~2% IC提升。
  • 分层测试显示多图谱集成方案TOP组年化超额收益最高达8.31%,夏普与最大回撤改善明显。





多模型集成及相关性分析提升 [page::22][page::23][page::24]

  • XGBOOST与GAT模型相关性低于65%,叠加集成带来明显的IC、rankIC增益。

- 集成后全市场IC提升至约9.8%,多空年化收益达60%以上,超额夏普同比有显著提升。
  • 各指数成分股IC和rankIC均实现增量,尤其是中证500和中证1000表现亮眼。


组合优化及指数增强实证 [page::25][page::26]

  • 基于集成模型结果构建指数增强组合,超额夏普比率提升至1.5以上,年化波动率大幅下降至4-5%。

- 沪深300和中证500增强组合超额收益提升超1%,其他宽基指数波动性显著下行,增强成果稳定。


总结与风险提示 [page::27]

  • 资金流向相似性图谱有助于提升现存因子边际增量,结合XGBOOST和GAT实现更优量化选股模型,表现稳健。

- 机器学习模型基于历史数据训练,有效性存在未来市场风格变化导致失效风险,投资者须独立判断风险。

深度阅读

资金流向相似性图谱与图神经网络:深度分析报告



---

一、元数据与报告概览


  • 报告标题:资金流向相似性图谱与图神经网络

- 作者:陈升锐、鲁植宸
  • 发布机构:中信建投证券股份有限公司

- 发布日期:2023年7月15日
  • 研究主题:基于资金流向相似性构建六种关系图谱,通过传统机器学习(XGBOOST)与图神经网络(GAT)结合实现因子增强,提高量化模型的预测能力及策略收益。

- 主要信息传达:报告提出利用资金流向相似性构建股票间的六种图谱,将其应用于传统机器学习模型和图神经网络训练,通过特征衍生及多模型集成,实现因子IC及多空收益的显著提升,进而优化量化选股策略和指数增强组合表现。

本报告核心观点强调以资金流向相似性为基础的图谱数据,结合XGBOOST和GAT模型,有效提升因子模型性能和战略收益,尤其通过叠加多图谱与二次模型集成实现最佳增量收益,带动市场表现优化[page::0]。

---

二、逐节深度解读



1. 引言(第3页)


  • 关键观点

随着量化投资因子库扩展到上千维度,单因子有效性逐渐被因子的边际增量所取代。新数据、新信息的价值不仅取决于单因子有效性,更重要的是对存量因子带来的信息增量。
本报告重视关系型数据图谱(如供应链、分析师覆盖、新闻报道)的因子衍生在量化投资中的作用,提出以资金流向相似性构建图谱,用于衍生因子扩展和图神经网络建模,推动因子库信息增量与策略超额收益提升。
  • 逻辑基础

结合非线性机器学习模型(XGBOOST、图神经网络),可以更好地挖掘和利用复杂的关系型图谱数据,以提升对股票未来收益的预测能力。图表1(关系型数据的应用框架)展现整个数据挖掘与模型训练流程,明确了从关系数据到模型集成再到组合优化的端到端流程[page::3]。

---

2. 资金流向相似性(第4-7页)



2.1 资金流向相似性图谱定义(4页)


  • 定义及构建方法

股票间资金流向相似性反映其资金买卖行为的同步性。报告基于level2高频数据通过主动买卖成交额计算资金净流入(卖出则为流出),进而定义六种图谱类型:

1. 资金共同流入(CashCoIn)
2. 资金共同流出(CashOut)
3. 中小单资金共同流入(MedSmallCoInAct)
4. 中小单资金共同流出(MedSmallCoOutAct)
5. 大单资金共同流入(ExNLargeCoInAct)
6. 大单资金共同流出(ExNLargeCoOutAct)

计算逻辑为历时22个交易日内两股共同出现净流入或流出次数,构建邻接矩阵后仅保留关联度最强的1%作为邻居,实现图谱稀疏化。
  • 交易类型及资金分类说明

- 资金分小单、 中单、大单、特大单,根据成交金额分级;
- 成交主动性通过买卖委托顺序判断。

此环节是整个模型注入资金行为信息的基础,体现了股票间资金流动同步性的内在逻辑[page::4-5]。

2.2 资金流向相似性股票收益率相关性分析(5-7页)


  • 分析目标与发现

利用2018-2021年间,按半年频率验证资金流向相似关系股票的收益率相关性。
  • 关键数据(图表4):


- 资金共同流出类图谱(CashOut,大单、中小单流出)中关联股票收益率的均值相关系数高出全市场1%-5%。
- 收益相关系数分布相较全样本向右偏移,说明资金流向相似的股票价格波动更为同步。
  • 图表5-7显示不同时间维度下资金流出相关股票的相关系数分布,进一步强调资金流向相似性与股价联动之间的稳定联系。


结论是资金流出类图谱能够较好显现出股票间价格波动的同步性,这为衍生因子的信号稳定性提供了数据支持[page::5-7]。

---

3. 资金流向相似性在模型训练中的应用(8-14页)



3.1 衍生因子构建(8页)


  • 技术细节

- 利用相似性矩阵Mc,将原始因子向量F乘以对应权重矩阵Mw(行归一化后的Mc)形成衍生因子Fc。
- 融合每只股票自身的因子和图谱邻居因子加权信息,融合其相关股票的因子信息,实现因子空间的拓展。
  • 意义

衍生因子捕获了资金流向轨迹上的关联个股信息,提升变量表达和相关性,有利于非线性模型发掘更丰富的信息[page::8]。

3.2 衍生因子联合训练(8页)


  • 将原因子X和衍生因子Xw拼接,双维度结合用于模型训练。
  • 训练目标是利用资金相似股票间非独立信息,联合预测未来收益。
  • 支持单图谱训练和多图谱组合方案(图表8)餐利来提升信息容量和模型稳定性[page::8-9]。


3.3 模型训练和结果分析(9-14页)


  • 实验设计

- 基础模型为XGBOOST,通过10日滚动训练预测未来10日股票收益。
- 特征包括原始因子和衍生因子,衍生因子来源上述六类资金流向相似性图谱。
- 训练时使用最近22个交易日构建资金流向图谱。
  • 结果(图表10、11):

- 所有单图谱衍生因子模型均提升模型IC值0.1%-0.2%。
- 多图谱集成方案IC提升约0.3%。
- 资金流出相关图谱衍生因子效果更稳定,资金流入图谱效果周期波动明显。
  • 成分股分层表现(图表12、13):

- 沪深300成分股IC提升最大,市值较大的股票资金流向相关性强,信号更显著。
- TOP组年化超额收益提升2%-3%,多空收益增量2%-5%。
- 多图谱集成方案的超额收益和风险调整后收益均优于单图谱。
  • 图表15中,不同指数成分股TOP组累计超额收益量化显示多图谱集成方案持续提供增量,2019年以来增量效果尤为突出。


总结:资金流向相似性衍生因子有效提升XGBOOST模型预测力,收益增量显著且多维度验证一致,尤其在大盘股中表现更加稳定[page::9-14]。

---

4. 资金流向相似性图谱在图神经网络上的应用(15-24页)



4.1 模型介绍(15-16页)


  • 采用基于Graph Attention Network (GAT)的图神经网络,通过自适应注意力权重计算节点(股票)邻居对当前节点的影响力,实现对关系图谱上的加权特征聚合。

  • 引入隐式图学习机制,自适应学习节点间潜在关系的邻接矩阵,缓解传统依赖预定义关系图信息不足的问题,结合了Barra CNE5 风格因子与资金流向指标。
  • 模型结构包括两层GAT加两层全连接网络(MLP),输入为存量因子和配套资金流向显式/隐式关系邻接矩阵(图表16)。
  • 对比设置:

1. 纯MLP基准
2. 基于单图谱训练的GAT模型
3. 多图谱集成GAT方案(EnsGAT)

为融合复杂关系信息,图神经网络具有天然优势,但其特征表达较XGBOOST模型存在差异和互补性[page::15-16]。

4.3 模型结果评估(17-18页)


  • GAT模型IC显著提升,相较MLP模型IC提升0.16%-1.18%,多图谱集成EnsGAT平均IC达8.01%,提升1.24%。

- 除资金共同流入图外,其他图谱对模型IC和RankIC均有明显增量和稳定性。
  • 成分股层面,GAT模型提升在沪深300及中证1000表现突出(图表19),其中资金共同流出与大单资金共同流入图谱贡献最大。

  • 叠加图谱降低IC、RankIC波动性,支持其信号更为鲁棒。
  • 图表17-18出现周期性波动,提示图神经网络对不同市场环境敏感性,2022年后普遍失效需关注模型稳定性[page::17-18]。


4.4 分组测试(19-21页)


  • 全市场分组测试结果表明,多数资金流向图谱GAT模型显著提升头部组合年化超额收益和Sharpe比率。

- 资金共同流出图带来头部年化超额收益约3.79%提升,夏普比提升0.177。
  • 多图谱集成方案表现优于单图,年化超额提升达4.39%,最大回撤降低2.19%。

- 资金共同流入及中小单资金共同流出图谱对头尾部区分力度有限,未体现多空收益提升。
  • 不同指数成分股表现差异显著,中证1000最优,沪深300和中证800表现次之,资金类别影响回测效果表现出差异化(图表20-22、图表23)。


4.5 模型相关性与二次集成(22-24页)


  • XGBOOST各单图谱模型相关性极高(均超90%),而GAT各单图谱模型相关性较低(75%-85%),XGBOOST与GAT之间相关性更低(65%以下)。

- 低相关性带来二次模型集成增量显著,集成后IC由9.35%提升至最高10.53%,多空年化收益由44.8%提升至61.35%,TOP组超额收益、夏普率均显著提升。
  • 各指数成分股集成模型均体现稳健增益,沪深300 RankIC提升约0.78%。

- 集成模型在多空收益、夏普率和风险控制上均优于单一模型,表明融合不同学习机制及资金流向图谱带来实质性增量(图表24-28)。

总结:图神经网络通过学习资金流向关系实现因子增强,为预测提供新视角;二次集成进一步发挥XGBOOST与GAT模型互补优势,提升量化组合表现[page::22-24]。

---

5. 组合优化与指数增强(25-26页)


  • 利用集成模型输出,报告构建了基于四大指数成分股的增强组合。

- 通过组合优化,增强组合年化超额收益普遍提升,中证500/沪深300增强年化超额提升约1%,中证1000/中证800提升有限。
  • 超额波动率明显降低从20%降至4%-5%区间,最大回撤有所控制,增强组合Sharpe及日胜率亦有改善。

- 但不同指数增强组合表现差异明显,沪深300组策略存在阶段性失效,增强策略波动性和稳定性差异显著。

图表30反映不同方案在不同行情及指数上的收益增量轨迹,说明增强组合需针对指数特性和市场环境作动态调整[page::25-26]。

---

6. 总结与风险提示(27页)


  • 总结

报告构建了6种资金流向相似性图谱,通过XGBOOST特征衍生和GAT图神经网络融合实现多模型增量。
结果表明资金流向图谱增强机制显著提升资产定价效率、模型预测IC及量化策略表现,特别是在大盘及中盘股票中收益显著。
多模型集成整合了机器学习和图神经网络优势,显著提高了年化多空收益率和夏普比,优化了指数增强策略。
  • 风险提示

量化因子基于历史行情提炼的经验总结,未来市场结构变化、风格转换、极端行情等均可能导致模型失效。
机器学习模型假设历史数据有效传递未来表现,存在过拟合及市场因子失效风险。
投资者需结合自身风险偏好谨慎使用,模型输出不构成任何投资保证或建议[page::27]。

---

三、图表深度解析



图表1:关系型数据的应用框架(第3页)


  • 内容描述:展示因子挖掘与关系型数据利用的整体流程,涵盖关系数据来源、特征工程(去量纲、预处理、标注)、模型训练(滚动训练、模型集成)、组合优化(风险控制、多重基准调整)。

- 分析解读:图表形象展现多层次多环节融合关系型数据与传统因子建模、模型训练的技术路线,强化数据构建与模型输出间的逻辑闭环,彰显机器学习与关系数据结合的重要环节。
  • 文本关联:辅助说明引言中因子边际增量和关系型数据的价值论点,提供实践框架基础[page::3]。


---

图表3:资金流向图谱相似性定义(第4页)


  • 内容描述:六种资金流向相似性图谱的具体定义、计算原理和处理细节表格,阐释资金净流入计算方式与图谱邻接矩阵构建原则。

- 解读:详尽说明如何从日常交易活动高频数据提取资金流入、流出信号,形成六种不同粒度与方向的邻接矩阵,确认保留强连接确保图谱稀疏且聚焦核心关系。
  • 限制:邻接矩阵只保留前1%强关联边,可能会丢弃薄弱但潜在重要的关系,对小市值股票影响评估需要留意。

- 文本关联:构成后续衍生因子构建和图神经网络输入的关键数据基础[page::4]。

---

图表4:资金流向相似性关系中个股收益率相关系数统计(第5页)


  • 内容描述:全样本与六种资金流向图谱样本对应股票对收益相关系数的统计数据,涵盖均值、标准差及分位数。

- 解读:资金流出类图谱相关系数均高于全样本,表明这些资金流向相似的股票对未来价格走势更同步。这支持资金流向相似性具有提炼股票共动信号的能力。
  • 文本关联:为资金流向图谱作为因子衍生逻辑基础提供了统计实证支撑[page::5]。


---

图表5-7:资金共同流出相关股票收益率相关系数分布(第6-7页)


  • 内容描述:多个时间点全市场及资金共同流出相关股票收益率相关性分布的核密度估计图。

- 解读:相关股票群的收益相关性分布整体向右偏,反映资金流出关系具有持续的价格联动特征。跨时间点的一致性显示稳定有效性。
  • 限制:因不同时间窗口稍有波动,说明市场环境可能影响资金流关系与价格联动的强弱。

- 文本关联:进一步验证资金流向相关性的稳定信号[page::6-7]。

---

图表9:滚动模型训练示意图(第9页)


  • 内容描述:XGBOOST模型的滚动训练与回测机制示意,包括训练样本选择、训练步长、验证流程与参数设置。

- 解读:滚动训练保证模型适应市场时间动态变化,避免数据泄露。参数设定(maxdepth=7, colsamplebytree=0.7等)体现模型复杂度与泛化之间权衡。
  • 文本关联:确保训练结果的现实适用性与时间序列一致性[page::9]。


---

图表10-11:单/多图谱模型IC及增量累计(第10-11页)


  • 内容描述:各单图谱及多图谱叠加XGBOOST模型的IC均值、rankIC、ICIR及胜率指标;IC增量随时间累积折线。

- 解读:多图谱复合方案IC提升明显且增量逐步累积,单图谱中资金流出相关图谱模型相对表现更稳健,支持多维关系数据融合提升模型鲁棒性。
  • 限制:2020年后资金流入相关图谱增量波动大,模型可能存在周期性失效。

- 文本关联:验证了特征工程在传统机器学习中引入图谱的有效性[page::10-11]。

---

图表12-15:各指数成分股模型IC及超额收益分层测试(第11-14页)


  • 内容描述:不同指数成分股内各模型IC均值及相关收益指标的对比、多图谱方案TOP组超额收益的累计增量曲线。

- 解读:大盘指数如沪深300中资金流向类因子功效更显著,估计源于大盘股资金行为更为集中与稳定;小盘股票随机性更大、模型提升有限。叠加多图谱方案持续带来收益增量并提高夏普比。
  • 文本关联:展现不同市值板块资金流相关性的差异及模型有效性[page::11-14]。


---

图表17-19:GAT模型IC及成分股分层测试(第17-18页)


  • 内容描述:基于GAT模型的各图谱及多图谱集成模型IC及rankIC,附成分股分层测试数据。

- 解读:GAT模型带来的IC提升与分层效果明显,尤其资金流出及大单流入关系图谱成分突出。集成多图谱模型最为稳定,降低了IC波动率。
  • 文本关联:证实图神经网络在捕获复杂资金关系网络信息上优于传统MLP[page::17-18]。


---

图表20-23:GAT模型分组测试及超额收益累计(第19-21页)


  • 内容描述:GAT模型的分组性能分析,全市场和主要指数成分股的超额收益累计曲线。

- 解读:多空组合年化收益与夏普显著提升,资金流出类图谱提升集中度最高。多图谱集成带来的正收益更为稳健,适用性广泛,提示图神经网络可为实际策略应用带来积极贡献[page::19-21]。

---

图表24-28:XGBOOST与GAT集成模型相关性及表现(第22-24页)


  • 内容描述:模型集成后的分组结果,模型相关系数矩阵,XGBOOST与GAT相关性。

- 解读:XGBOOST单图谱模型间相关性极高,GAT模型之间适中,而两大模型间相关性低,二次集成最大化了模型多样性和信息利用,显著提高了预测指数提升及多空收益表现。
  • 文本关联:展示机器学习与图神经网络互补性的实证[page::22-24]。


---

图表29-30:指数增强回测及超额收益增量累计(第25-26页)


  • 内容描述:各集成方案在四大指数中组合优化增强效果及超额收益累计折线。

- 解读:组合优化有效降低风险,提升Sharpe比率和超额收益,尤其沪深300与中证500效果突出。不同方案增幅和稳定性存在差异,需考虑行情周期调整。
  • 文本关联:印证资金流向图谱与模型集成带来的量化策略落地价值[page::25-26]。


---

四、估值分析



本报告为量化策略与因子挖掘研究报告,未涉及具体估值方法和目标价制定,故无估值分析章节。

---

五、风险因素评估


  • 本报告提醒因子挖掘与机器学习建模基于历史数据,未来市场结构变化、风格切换及极端行情可能导致模型失效。

- 机器学习模型的“黑箱”性质也增加模型解释难度及风险。
  • 报告未详述缓解方案,投资者需结合自身特色和风控框架审慎应用。


此风险提示提示投资者对模型输出需持审慎态度,合理预期增量风险收益平衡[page::27]。

---

六、批判性视角与细微差别


  • 报告强调资金流向相似性在因子增强中的增量价值,但部分资金流入类图谱多时段表现不稳,提示该类信号存在周期性依赖及短期噪声干扰。

- 机器学习与GAT出力虽有互补,但GAT模型IC表现整体低于XGBOOST,显示图神经网络在该任务上的潜力尚未完全释放。
  • 组合增强中沪深300表现波动及失效现象,提示大盘策略对资金流向关系敏感度高于中小盘。

- 报告隐含假设资金流向行为与股价变化稳定关联,但对极端市场或资金流失风险缺少探讨。
  • 相关性分析揭示模型间高度相关,整合潜力受限于特征多样性和图谱覆盖范围。


报中给出的方法论较为系统,然而对不同时期图谱有效性波动的解释和策略适应性调整的讨论较少,这可能影响实盘操作的稳定性。

---

七、结论性综合



本报告系统构建了基于资金流向相似性的六种关系图谱,经过行之有效的邻接矩阵稀疏化处理,通过两大机器学习框架XGBOOST与GAT模型实现因子衍生与图神经网络训练。两种模型分别展示出不同程度的IC及收益提升,尤其在大盘指数如沪深300及中证1000效果显著,资金流出类图谱表现较稳定。

图谱信息通过衍生因子有效提升传统模型预测能力,GAT模型能捕获更丰富的关联信息,且多图谱集成模型效果优于单图谱方案。对两类模型输出的二次集成进一步打破了模型预测的相关限制,显著提升了超额收益表现,增强了组合的夏普率和风险调整回报能力。

多个图表系统验证了资金流向关联信号的有效性——从资金流向相似性与收益率的统计相关、模型IC及rankIC的提升,到实证的策略收益增强及组合风险的降低。市场表现图(第0页)及超额收益累计图反映了策略在多周期、多指数上的稳健性和适应性。

尽管存在部分时期资金类图谱失效和大型指数策略波动性加大的情况,报告整体展示了利用资金流向关系及图神经网络提升量化策略表现的前沿方法。

报告总结部分及风险提示,提醒投资者因子和模型基于历史数据,未来存在失效风险,需慎重使用。

---

总体评价



本报告深度融合了关系型数据与先进机器学习方法,构建了创新的资金流向相似性图谱体系,系统验证了其在提升因子模型预测及策略表现中的有效性和稳定性。通过多维度数据、模型和组合应用,对量化投资的因子工程及图神经网络应用提供了重要实践参考和技术路径。

---

重要图表汇总展示



以下为报告中关键图表示例引用(以markdown形式标注页码):
  • 关系型数据应用框架


  • 资金流向图谱相似性定义


  • 滚动模型训练示意图


  • IC增量累计图


  • 图神经网络模型结构示意


  • 各图谱GAT模型IC增量累计


  • 组合优化收益超额增量累计



---

参考文献及数据来源


  • 中信建投证券股份有限公司,Wind数据

- 图谱构建及机器学习模型由报告作者团队研发完成

---

结尾备注



本报告在量化选股领域,针对资金流行为构建创新图谱数据,并结合传统与深度机器学习方法,开创了因子增量的新路径,具备较强的实际操作指导价值,尤其适用于希望优化模型结构、提升收益及风险调整水平的量化投资团队。

[page::0,3-7,8-14,15-26,27-29]

报告