`

从基金持仓行为到股票关联网络

创建于 更新于

摘要

本报告基于基金共同持仓行为构建股票关联网络,提出关联网络牵引因子Traction20d以刻画股票涨跌间的牵引关系。实证结果显示,该因子在2013-2021年的回测中表现稳健,年化收益17.1%,年化IR 2.6,最大回撤6.06%,因子与常见因子相关性低,且在不同选股域均表现稳定,验证了基金共同持仓行为是股票关联性的主要来源,为多因子投资提供新的视角[page::0][page::8][page::9]。

速读内容


基金持仓股票池及特征 [page::2][page::3]


  • 公募基金数量与持仓股票数自2013年Q2起大幅增长,股票池规模维持1500只左右。

- 持仓股票中,市值500亿以下占比约87%,较全市场93%略偏大市值。
  • 持仓集中于医药生物、电子、化工、机械设备等行业。

- 基金持仓覆盖率:沪深300%以上90%,中证500约70%,中证1000约40%。


基金共同持仓提升股票涨跌关联度 [page::4]


  • 基金共同持仓股票的日收益R方均值(15.05%)高于基金持仓股票对均值(14.07%)。

- 基金共同持仓股票间关联度均显著高于非共同持仓股票。

关联度指标构建及网络示意图 [page::5]


  • 以基金持仓市值/成交额比例衡量机构拥挤度,采用最小值法计算基金共同持仓带来的股票关联强度,叠加所有基金关联得出股票间关联度指标。

  • 关联网络示意图体现不同股票间强弱关联。


关联度指标的统计验证 [page::6][page::7]


  • 股票市值大小对关联度无显著影响。

  • 同行业股票间关联度显著高于不同行业股票。

  • 关联度指标越高,股票次季度日涨跌R方越高,最低组14.92%,最高组16.96%,证明其有效性。




关联网络牵引因子Traction20d构建与表现 [page::7][page::8][page::9]

  • 因子构建流程通过关联度加权传递关联股票alpha溢价,剔除个股自身alpha及行业因素构建。

- 因子与常见因子相关性较低且行业间差异明显,体现独立有效信息。




因子原始因子alpha中性Traction20d
momentum21.46%-13.49%-14.65%
size1.69%-0.50%2.13%

  • 2013-2021年因子RankIC 3.84%,RankICIR 2.6,多空组合年化收益17.1%,最大回撤6.06%,胜率72.6%。



  • 对比等强度牵引因子,Traction20d因子覆盖关联强度,效果显著提升。


不同选股域因子表现对比 [page::9][page::10]



| 选股域 | 覆盖度(%) | 多空组合年化IR |
|---------|-----------|----------------|
| 全市场 | ~100 | 2.6 |
| 沪深300 | ~90 | 1.4 |
| 中证500 | ~70 | 1.3 |
| 中证1000| ~40 | 1.0 |
  • 因子在各选股域均表现稳健且与传统因子相关性低,具有较强独立选股能力。


深度阅读

金融工程专题报告:《从基金持仓行为到股票关联网络》详细分析报告



---

一、元数据与概览


  • 报告标题:从基金持仓行为到股票关联网络

- 发布机构:开源证券研究所金融工程研究团队
  • 发布日期:2021年10月2日

- 作者及团队:魏建榕(首席分析师)、张翔、傅开波、高鹏、苏俊豪、胡亮勇、王志豪、盛少成、苏良
  • 研究主题:利用基金持仓数据构建股票关联网络,探索基金共同持仓行为对股票涨跌关联性的影响,并在此基础上开发基于关联网络的选股因子(Traction20d),验证其选股表现和应用价值。

- 核心论点
1. 基金共同持仓行为是股票关联关系的重要来源,基金管理人的认知和股东协同行为共同推动股票涨跌相关性上升。
2. 基于基金持仓构建的关联度指标能有效反映股票间的市场联动性,且同市值组别间无显著差异,但同行业股票关联度明显更高。
3. 关联网络牵引因子Traction20d在不同选股域表现稳健,年化收益和信息比率(IR)表现优异,且与传统因子相关性较低,具有较好的选股补涨预测能力。
  • 风险提示:模型基于历史数据,未来市场可能发生重大变化,投资需谨慎。[page::0,1]


---

二、逐节深度解读



1、基金共同持仓行为是股票关联性的基础



1.1 基金数量与持仓股票数变化


  • 研究选取所有披露权益持仓的公募基金,使用基金季报前十大持仓数据构成股票池。

- 公募基金数量自2002年起稳健增长,尤以2013年Q2开始加速,2014年Q3持仓股票数量突破1000只,近三年稳定维持约1500只水准。
  • 图1显示基金数量(左轴条形)和持仓股票数(右轴线条)自2013年Q2后增长明显,表明基金对市场的覆盖度及影响逐步提升。[page::2]


1.2 基金持仓股票池特征


  • 市值分布:图2显示2021年Q2持仓股票中87%市值低于500亿元,低于全市场93%的比例,表明基金偏向大市值股票,但也覆盖大量中小市值。

- 行业分布:图3显示持仓集中在医药生物(11%)、电子(10%)、化工(10%)、机械设备(8%)等行业,反映主动基金偏好行业分布。
  • 指数覆盖度:图4显示基金持仓对沪深300覆盖率稳定在90%左右,中证500约70%,中证1000约40%,覆盖范围广泛但对低市值股票渗透有限。[page::3]


1.3 基金共同持仓股票涨跌相关性高


  • 两只股票若被同一基金持有,即为“基金共同持仓股票”。

- 基金共同持仓股票的日收益R方(解释度)均值高于基金持仓股票池的日收益R方,平均分别为15.05% vs 14.07%,超过比例达78.13%。
  • 图5展示历32个季度中大多数时间共同持仓股票的收益相关性显著高于普通持仓,验证基金共同持仓行为确实提升了股票间涨跌的同步性。

- 逻辑基础:
- 基金管理人认知:共同持仓反映基金对股票的共性认知与判断。
- 股东协同行为:持股交集导致市场表现联动性。

此部分揭示基金持仓行为不仅表征资金流向,也是市场信息传递的重要载体。[page::4]

2、用基金持仓数据构建股票关联度指标



2.1 关联度指标构建方法


  • 利用基金持仓股票的持仓市值(H)与成交额(AMT)的比值衡量基金对个股的“机构拥挤度”(I)。

- 对两只股票a、b共享同基金的持仓,取基金上对两只股票的拥挤度的较小值作为该基金带来的关联度贡献(Jab)。
  • 最后对所有基金贡献加总,得到股票a与股票b的关联度指标Kab,体现股票相互关联强度。

- 图6示意了构建过程,展示多基金持仓下股票间关联度累积的思想。
  • 根据关联度指标,基于所有基金持仓形成股票的关联网络,图7以知名股票为节点,连线粗细表示关联强弱,形象展示了市场关联结构。[page::5]


2.2 关联度指标的统计分析


  • 按股票市值分组(5组),图8揭示关联度指标在不同市值组别间无显著差异,说明大市值并非影响基金持仓关联强度的主要因素。

- 按行业分类,图9显示同行业股票之间的关联度指标显著高于不同行业,验证行业属性是基金共同持仓和股票涨跌同步的关键驱动力。
  • 这种行业间差异支持基金管理人在选股时基于行业共性进行投资组合配置理论。[page::6]


2.3 关联度指标验证


  • 将股票a关联股票按关联度分为5组,计算下一季度股票间日收益R方均值。

- 观察到R方均值随着关联度指标提升逐步升高,最低组14.92%,最高组16.96%。
-图10直观表明:高关联度指标确实代表更强的涨跌同步度。
  • 对比基金共同持仓R方均值及基金持仓R方均值(图11、图12),最高组关联度指标的R方均值提升幅度分别达到13%和21%,且100%胜率,进一步验证指标有效性与市场反映能力。

- 该指标刻画的关联网络较传统基金持仓关系提供了更细致的市场结构认知和预测能力。[page::6,7]

3、关联网络牵引因子Traction20d构建及表现



3.1 因子构建逻辑与方法


  • 核心理念:“股票a的关联股票涨跌幅有锚定效应”。当关联股票本月普遍上涨而股票a本月涨幅不高时,股票a次月有补涨的预期。

- 构建步骤(详见表1):
1. 计算股票过去20日累计涨跌幅,获取市场中位数(med)。
2. 计算股票a所有关联股票累积涨跌减 med,获得关联股票的alpha收益向量。
3. 用关联度指标加权alpha收益,得到股票a的alpha锚定值,取均值作为原始因子。
4. 对原始因子做股票自身alpha和行业中性化处理,得到最终因子Traction20d。

此方法结合链式影响与因子选股理念,创新性引入了基金持仓关联度作为因子权重,有助数据驱动捕捉市场结构中的价格传播效应。[page::7]

3.2 因子相关性与行业分布


  • 图13展示Traction20d各版本与常见因素的相关性极低,alpha中性后与动量因子相关性甚至转为负相关(约-14%),表明该因子捕获不同于传统动量、规模、换手等因子的独特信息。

- 图14显示不同行业原始因子值差异显著,纺织服装、轻工制造、家用电器行业较高,采掘、钢铁、非银金融行业较低,体现出了行业效应,因而做行业中性调整是必要步骤。
  • 因子相关性低及行业中性化处理保证了因子的独立信息量及适用面的普遍性。[page::7,8]


3.3 因子表现衡量


  • 测试周期:2013年7月1日至2021年8月30日,按照月末调仓,假设双边千三费用。

- 结果:
- Rank IC(排名相关系数)3.84%,Rank IC IR(信息比率)2.60,表明因子具有稳健预测能力。
- 5分组净值分化明显(图15),最高组合年化收益率达17.1%,换手率69.5%,波动率0.61,收益波动比良好,展现高收益与控制风险的能力。
- 多空组合年化收益14.3%,IR高达2.6,最大回撤较小(6.06%,2021年5月),胜率72.6%(图16)。
  • 对照因子“等强度牵引因子”(只考虑关联关系,不区分强度)表现逊色,验证关联度指标的加入明显提升选股效果(图17)[page::8,9]


4、不同选股域中的选股效果对比


  • 分别在全市场、沪深300、中证500、中证1000四个选股域应用Traction20d因子,构建5分组多空组合。

- 全市场表现最佳,信息比率2.6,稳定性强。
  • 沪深300覆盖度约90%,IR 1.4;

- 中证500覆盖70%,IR 1.3;
  • 中证1000覆盖40%,IR 1.0;

- 覆盖度下降对应因子表现略减,但均仍优于随机选股水平。
  • 表2数据显示Traction20d与常见因子在各选股域均保持低相关性,保持了良好扩展性和独立选股信息。

- 图18比较各选股域多空组合净值走势,展现因子稳定的跨市场适应能力。[page::9,10]

5、风险提示


  • 报告明确指出所有模型测试基于历史数据,市场环境若发生较大变化,因子表现存在不确定性,投资者需注意时效性风险。[page::0,10]


---

三、图表深度解读


  1. 图1(基金数与持仓股票数变化)

- 展现了基金数量和基金持仓股票数自2002年至2021年的增长趋势。基金数量持续增加导致持仓股票池扩张,说明越来越多资金参与基金股票持仓,数据涵盖面广。
- 相关性:为后续基金持仓相关模型构建提供数据基础。[page::2]
  1. 图2(市值分布)

- 表示基金持仓股票主要聚集于中小市值区间,42.86%处于100-500亿元,合计87%低于500亿元,相比市场整体股票偏重大市值。
- 反映基金倾向选择流动性和市值相对较大的股票。[page::3]
  1. 图3(行业分布)

- 饼图详列持仓股票行业,医药生物、电子、化工行业占据主导,体现基金对新兴成长行业的偏好。
- 为行业相关指标提供解释基础。[page::3]
  1. 图4(指数覆盖度)

- 不同指数成分股的基金持仓覆盖度趋势,沪深300覆盖率稳定在90%,代表该因子分析在主流大盘股间具代表性。
- 中证1000覆盖仅40%,在小盘股中因子表现相对弱。[page::3]
  1. 图5(基金共同持仓股票的日收益R方更高)

- 对比基金持仓和共同持仓股票间的日收益相关程度,多数季度共同持仓股票组合的收益相关度更高,图形表现明显且稳健。
- 说明共同持仓行为提高了股票间涨跌同步度,是关联网络构建的理论基础。[page::4]
  1. 图6(关联度指标构建示意)

- 系统阐释基金共同持仓如何转化为股票间关联度,展示了多基金多股票节点的复杂加权计算。
- 贵在体现了收益关联的量化测度。[page::5]
  1. 图7(关联网络局部示意)

- 展示了部分知名股票间的基金持仓关联网络,粗细线代表关联强弱。
- 直观呈现实际市场上基金持仓导致的关联网络结构。[page::5]
  1. 图8(关联度指标市值无差异)、图9(同行业关联度更高)

- 图8分市值展示关联度均值无明显差异,排除了市值作为主导关联因素的可能性。
- 图9明显显示同行业股票间关联度更高,印证行业是关联网络构建的核心维度。[page::6]
  1. 图10-12(高关联度股票间收益R方更高)

- 展示关联度越高的股票对,其下一季度收益同步性越强,且胜率均为100%。
- 关联度指标对溢价、流动性等影响因素做了增强,是更优的股票关联量度。[page::6,7]
  1. 图13(因子相关性表)

- 显示Traction20d因子与传统因子基本低相关,去除Alpha和行业因素后与动量系数呈负相关,说明捕获了新的风险溢价信号。[page::8]
  1. 图14(行业间因子值差异)

- 不同行业因子值差异大,基金持仓偏好行业带来行业效应显著,需做中性化处理减弱行业偏误。[page::8]
  1. 图15(Traction20d五分组净值曲线)

- 明显分组分化,说明该因子有较强的个股选时能力。最高组年化收益17.1%明显优于最低组2.1%。[page::8]
  1. 图16(多空组合表现)

- 多空组合净值稳健上涨,年化IR2.6,最大回撤小,说明因子在风险调整后有较好收益表现。[page::9]
  1. 图17(关联度权重提升效果)

- 加入关联度指标权重(红线)明显优于等权重版本,验证基金持仓关联度指标的有效性。[page::9]
  1. 图18(不同选股域多空组合表现)

- 全市场表现最佳,沪深300次之,中证500、中证1000逐渐减弱,因子稳定性与覆盖率挂钩。[page::9]

---

四、估值方法



本报告未涉及传统估值方法(如DCF、市盈率等),核心内容为因子构建与回测分析,因子基于基金持仓关联度指标进行选股,有效利用了基金持仓公共信息,通过统计回归及多空组合回测验证因子有效性,偏重量化策略构建与验证技术流程。

---

五、风险因素评估


  • 主要风险源于模型基于历史数据的拟合,市场结构或基金持仓行为若发生根本性变化,因子有效性可能降低。

- 储备因子涉及行业及市场偏离风险,因子行业中性化有部分缓解该风险。
  • 报告未给出具体缓释策略,提醒投资者基于历史表现谨慎应用,需结合市场动态调整与监控。[page::0,10]


---

六、批判性视角与细微差别


  • 本报告优势在于创新性应用基金持仓数据构建关联网络,弥补了传统以收益价量等市场数据构建网络的单一性。

- 关联度指标的构建逻辑合理,但对基金持仓市值与成交额的比值敏感,可能受极端成交额影响。
  • 报告未详细讨论基金持仓数据披露滞后与公告时间点对关联网络时效性影响。

- 因子表现虽稳定,但换手率较高(近70%),交易成本、市场冲击成本未充分论述。
  • 行业中性处理虽有,但对宏观经济周期和市场风格转变敏感度尚未充分讨论。


---

七、结论性综合



本报告系统分析了基金共同持仓行为对股票涨跌关联性的推动作用,基于基金季报数据构建了创新的基金持仓关联度指标,有效提升了股票间收益同步度的刻画。

利用关联度指标,报告开发并测试了关联网络牵引因子Traction20d,该因子能捕捉关联股票涨跌溢出效应,表现出稳定的跨市场及行业适用性,呈现显著的选股价值和风险调整后收益优势。其独立于传统因子信息,为量化投资策略提供新的alpha来源。

主要贡献为:
  • 揭示基金持仓行为对市场关联结构的重要影响,构建更精准的股票关联网络。

- 提供关联度指标计算方法,结合成交额调整衡量机构拥挤度,较传统简单共同持仓有更科学权重。
  • 开发关联网络牵引因子,理论基础坚实,实证与回测验证充分,覆盖大中小盘,行业适用广泛。

- 风险提示恰当,强调历史数据限制,为投资者提供合理预警。

综上,报告提出的方法与因子在当前我国股票市场环境中具有较高的研究和实务价值,建议投资者结合自身实际与市场动态采用,注意交易成本及模型适时校准。[page::0-10]

---

附:报告中重要图表(部分)




---

以上为报告的详细分析解读与综合总结,完整覆盖了文本与图表细节,具备全面洞察力与逻辑严谨性。希望能为您的投资研究及策略构建提供专业参考。

报告