从基金持仓行为到股票关联网络 | 开源金工
创建于 更新于
摘要
本报告基于基金共同持仓行为构建股票关联网络,提出关联网络牵引因子Traction20d,通过基金持仓市值与成交额比值构建关联度指标,验证了高关联度股票间次季度收益关联更强,Traction20d因子表现稳健,年化收益达17.1%,多空组合年化IR达到2.6,且覆盖不同选股域均具良好择时能力,体现了基金持仓数据在量化选股中的创新应用 [page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8]
速读内容
- 基金共同持仓行为是股票关联关系的重要来源 [page::0][page::1][page::2]



- 公募基金数量和持仓股票池规模自2013年Q2快速增长,股票池规模稳定在约1500只左右。
- 基金持仓股票市值多集中于500亿以下,但偏向大市值股票,主要分布于医药生物、电子、化工和机械设备等行业。
- 基金共同持仓股票的日收益收益相关(R方)均值为15.05%,显著高于基金持仓股票池的14.07%,验证了基金共同持仓提升股票涨跌关联性。
- 基于基金持仓构建股票关联度指标,刻画股票关联网络 [page::3][page::4][page::5]




- 关联度指标通过基金持仓市值与成交额比值确定,量化两只股票由同一基金持仓产生的关联强度。
- 行业内股票间关联度显著高于不同行业股票,且关联度指标在市值上无明显差异。
- 关联度越高的股票对,其次季度收益日涨跌的R方越大,最高关联度组R方高达16.96%,优于基金共同持仓平均水平。
- 关联网络牵引因子Traction20d的构建与表现 [page::6][page::7][page::8]
表1:关联网络牵引因子构建步骤:
| 步骤 | 内容说明 |
|------|----------|
| 1 | 计算20日累计涨跌幅中位数作为市场基准 |
| 2 | 提取股票A所有关联股票20日涨跌幅向量chgA |
| 3 | 计算alpha收益:chgA减去中位数 |
| 4 | 取得股票A与关联股票关联度向量 |
| 5 | 计算关联股票alpha锚定值 |
| 6 | 取锚定值均值作为原始因子值 |
| 7 | 回归剔除自身alpha和行业因素,得到Traction20d |
- Traction20d因子RankIC为3.84%,RankICIR为2.60,5分组中多头年化收益达17.1%,年化换手率69.5%,收益波动比0.61。
- 因子在行业间表现差异显著,存在纺织服装、轻工制造等行业因子值较高,钢铁、采掘等行业较低,故进行行业中性化处理。
- 与常见因子相关性较低,具备独立Alpha价值。
- Traction20d因子相比等强度牵引因子表现更优 [page::8]


- 等强度牵引因子不考虑关联强度,RankIC及IR分别为3.1%和1.87。
- Traction20d因子多空组合收益和信息比率均优于等强度牵引因子,充分体现关联度的重要性。
- Traction20d因子在不同选股域上的表现差异 [page::8]

| 选股域 | 覆盖度(%) | 多空组合年化IR | 相关性概要 |
|----------|-----------|----------------|-----------------------------|
| 全市场 | 100% | 2.6 | 与常见因子相关性均较低 |
| 沪深300 | ~90 | 1.4 | 与size、turnover、volatility等相关性较低 |
| 中证500 | ~70 | 1.3 | 同上 |
| 中证1000 | ~40 | 1.0 | 同上 |
- 因子覆盖度和效能随标的池规模缩小而下降。
- 因子相关性均较低,彰显独立性。
深度阅读
深度解析报告:《从基金持仓行为到股票关联网络》——开源金工,2021年10月4日发布
---
一、元数据与报告概览
- 标题:从基金持仓行为到股票关联网络
- 作者:开源证券金融工程首席分析师魏建榕,金融工程研究员王志豪(报告联系人)
- 发布日期:2021年10月4日
- 发布机构:开源证券研究所
- 主题:基于基金持仓行为构建股票关联网络,研究组合基金持仓对股票关联性及投资因子的影响,探索股票关联网络在量化选股中的应用。
报告核心论点围绕“基金共同持仓行为是股票关联关系的重要来源”展开,提出基金持仓不仅反映基金管理人的选股共识,也导致股票间的涨跌呈现一定关联性。基于这一观察,报告进一步构建了“股票关联度指标”和“关联网络牵引因子(Traction20d)”,并验证了其在预测股票涨跌和构建稳定投资组合的有效性。通过详尽的数据分析及实证测试,报告得出基金持仓数据不仅可以构建有效的股票关联网络,还可用于改进选股模型,提升投资表现。
---
二、逐节深度解读
2.1 基金共同持仓行为是股票关联性的重要来源
- 关键论点:
传统学术研究往往利用涨跌幅、成交额、换手率等维度来构建股票关联网络,报告创新地从基金持仓角度切入,认为基金共同持仓是股票间建立关联关系的重要来源。
- 推理依据:
- 基金管理人认知角度:基金持仓代表管理人对个股的“脚投票”,基金共同持仓两只股票反映它们对管理人来讲存在某种共性。
- 股东协同行为角度:共同持仓导致两只股票股东结构交集,从而使股票市场表现出现关联。
- 数据与趋势:
- 公募基金数量不断增长,基金持仓股票数从2013年Q2开始快速上升,至2014年Q3超过1000只,并在近三年稳定在约1500只。
- 基金持仓股票市值分布偏向大市值,2021年Q2市值500亿元以下的股票占比约87%,低于市场整体93%的比例。
- 行业分布集中于医药生物(11%)、电子(10%)、化工(10%)、机械设备(8%)等行业。
- 基金持仓覆盖度:沪深300覆盖度稳定在约90%;中证500约70%;中证1000覆盖度较低且波动大,约40%。
- 以上体现基金持仓更聚焦大市值及部分行业龙头企业,业绩覆盖维持较稳定。




- 基金共同持仓股票的涨跌关联度:
利用R方衡量日收益的统计特征,报告发现基金共同持仓股票的日收益率R方均值为15.05%,高于基金持仓股票池的14.07%,且在78.13%的季度数据中表现出相对优势,验证了基金共同持仓带来的股票关联提升。

---
2.2 基于基金持仓数据构建股票关联度指标
- 方法说明:
关联度指标的构建采用基金持仓市值与成交额的比率作为基金影响力的衡量,计算两只股票被共同持有基金的最小拥挤度(即持仓市值/成交额最小者),并在所有基金间求和,得到两股票间的综合关联度指标(Kab),用以刻画股票间的关联强弱。
- 构建逻辑图解说明(图6):
展示基金A、B、C分别对股票a、b、c、d间不同边的关联度贡献,最终叠加为股票间的关联度网络。
- 关联网络示意图(图7):
展示部分股票如贵州茅台、五粮液等之间的关联关系,连线粗细代表关联强弱,明显反映市场龙头股间的密切关系。


- 关联度指标统计结果:
- 股票市值分组显示不同市值组间的关联度指标无明显差异,表明市值对基金持仓引致的关联度影响不大。
- 不同行业与同行业股票比较,同行业股票的关联度指标显著高于不同行业,突显行业属性在关联度构建中的重要性。


- 关联度指标与股价涨跌R方的关系验证:
按关联度指标分组,股票对间下季度收益R方呈递增趋势,最高关联组达16.96%,最低组仅14.92%,且最高关联组相较基金共同持仓或基金持仓股票池R方均值的提升分别为21%和13%。





---
2.3 关联网络牵引因子(Traction20d)表现分析
- 因子构建逻辑:
Traction20d基于基金持仓构建的关联度指标,将个股近期(20日)涨跌幅与其关联股票上涨信息结合形成因子,调整自身alpha收益及行业影响后得到因子值。核心理念是关联股票的涨跌对该股票未来涨跌有锚定效应,缺乏涨幅的股票未来可能补涨。
- 具体步骤(表1概要):
1. 计算市场中位数收益;
2. 计算个股所有关联股票相对市场的alpha收益;
3. 利用关联度加权合成个股alpha锚定值;
4. 对因子值做行业和alpha中性处理,完成Traction20d因子构建。
- 因子属性与相关性:
- Traction20d因子与传统因子(动量、规模、换手率等)相关性较低,保持了较强的独立性。
- 动量因子相关性经中性化调整后为负,表明剔除动量等已知因子影响,Traction20d提供了新增信息。
- 行业层面,纺织服装、轻工制造、家用电器等行业因子值较高,钢铁、采掘、非银金融较低,体现行业特征明显。

因子 | 原始因子 | alpha中性 | Traction20d |
动量 | 21.46% | -13.49% | -14.65% |
规模 | 1.69% | -0.50% | 2.13% |
换手 | 0.24% | -4.93% | -6.22% |
波动率 | 3.98% | -4.21% | -4.95% |
价值 | 3.81% | 0.56% | -0.77% |
成长 | 5.82% | 4.72% | 3.17% |
收益 | 2.97% | -0.34% | -0.53% |
- 实证表现(2013年7月1日至2021年8月30日):
- RankIC均值为3.84%,IR达2.60,表现稳定且显著。
- 5分组多头年化收益最高达17.1%,对应换手率69.5%,收益波动比0.61。
- 多空组合年化收益率14.3%,年化IR2.6,最大回撤6.06%,整体胜率72.6%。
- 与只考虑关联关系的等强度牵引因子对比,Traction20d显著提升了因子的选股效果与收益表现。



---
2.4 不同选股域应用效果比较
- 选股域切分:全市场、沪深300、中证500、中证1000。
- 因子覆盖度与表现:
- 沪深300覆盖率约90%,多空组合IR为1.4;
- 中证500覆盖约70%,IR为1.3;
- 中证1000覆盖约40%,IR为1.0,体现大市值股票上的因子效用更强。
- 因子与常见因子相关性依旧较低,稳健性好。

全市场 | 中证1000 | 中证500 | 沪深300 | |
规模 | 2.13% | -0.61% | 1.21% | 0.00% |
换手 | -6.22% | -4.97% | -4.94% | -4.30% |
波动率 | -4.95% | -3.93% | -2.14% | -3.68% |
价值 | -0.77% | -0.94% | -1.63% | 0.53% |
成长 | 3.17% | 2.46% | 4.53% | 1.92% |
收益 | -0.53% | -0.26% | -0.11% | -0.48% |
---
三、图表深度解读
- 图1-4 体现了基金公募数量激增和持仓股票池扩大趋势,持仓股票以中大市值、特定行业为重心,且覆盖主流指数成分股的比例较高,验证了基金持仓的市场代表性。
- 图5 显示基金共同持仓股票组合的日收益相关性更高,佐证了报告“共同持仓推动关联”的假设。
- 图6-7 直观展示了关联度指标的计算方法和关联网络构建效果,清晰呈现多个基金交叉持仓导致股票间权重连结,体现股票间复杂关系。
- 图8-9 数值分析拆分市值组和行业分类,展示关联度指标在市值维度无显著区分,但同行业股票连接更强,强化行业共性对股票相关性的影响力。
- 图10-12 验证了关联度指标的预测能力,股价涨跌关联度从低到高分组对应显著提升的收益R方,提高了因子辨识度和选股的可信度。
- 图13-14 因子与传统因子的相关性表明独立性强,行业分布差异明确,说明因子具备区隔能力。
- 图15-17 因子分组收益及多空组合表现曲线显示Traction20d因子收益稳定且分组分化显著,且优于仅依赖连接强度的对比因子,体现了关联度指标加权的显著价值。
- 图18及表2 说明因子在不同股票筛选范围内的应用效果及关联度与因子覆盖率间的对应关系,强调因子稳健泛化能力。
---
四、估值分析
报告未涉及传统意义上的公司估值分析(如DCF、市盈率等),其核心在于构建和应用股票间“关联度指标”和“牵引因子”,其估值意义主要体现在利用关联网络提升预测股票收益的因子表现和投资组合构建的风险调整后收益。因此,学术及实证因子表现(IC、IR、收益率)替代了经典估值方法。
---
五、风险因素评估
- 模型风险:基于历史基金持仓数据构建的关联度和收益因子,在市场结构、资金流、行业变迁发生重大转变时,模型适用性与因子表现可能下降。
- 数据风险:基金季报持仓为滞后披露数据,未实时反映市场持仓变化,可能导致因子响应滞后。
- 覆盖率限制:报告指出中证1000等中小市值股票覆盖较低,限制了因子对该板块的解释力和应用效果。
- 行业偏差:因子对行业有一定偏好,对行业结构调整敏感,可能引入配置偏差。
- 市场环境依赖:当前因子表现基于2013-2021年市场数据,后市环境若出现变异,因子表现难以保证。
缓解策略未明确提出,建议结合其他多因子模型共同使用,动态调整参数以适应市场变化。
---
六、批判性视角与细微差别
- 数据频率与时效性:基金持仓数据源自季报,更新频率低,可能限制关联度指标对股票价格短期动态变化的捕捉能力。
- 基金覆盖度和偏好:基金偏好大中市值及部分行业股票,可能带来选股范围内的偏倚,限制关联网络视角的全面性。
- 因子独立性的真实性判别:尽管因子与传统因子相关性较低,但其本质与动量因子仍存在一定联系,需进一步排除叠加效应。
- 最大回撤虽不大但仍存在:最大回撤达6%,投资者需注意当极端市场环境下因子表现可能受限。
- 是否存在信息漏检:关联度指标提升R方的幅度较为有限(从14.92%提高至16.96%),提示关联网络仅是影响股票收益相关性的部分因素,其对因子预测能力贡献虽明显但有限。
- 无严格的模型验证:模型成功依赖于参数设定和聚合方式,没有阐明是否存在更优模型或选择过程的细致验证,后续研究或需增加测试稳健性及对比分析。
---
七、结论性综合
本报告围绕基金持仓行为对个股涨跌关联性的影响展开,创新地提出以基金共同持仓构建关联网络,并从两个角度阐释其形成机制(管理人认知和股东协同行为)。通过严谨的数据分析发现基金共同持仓股票的日收益关联性明显高于随机持仓股票。为量化表现构建了以持仓市值与成交额比率为核心的股票关联度指标,成功刻画股票间关联强弱。实证检验表明,该指标能够显著提升股票组合间收益关系的解释力,推动关联网络因子(Traction20d)的构建。
Traction20d因子以关联度加权传导关联股票alpha收益,剔除行业和个股自身影响后,展示出优异的稳定性、显著的收益率(多头17.1%年化)、较小的回撤与高效的收益波动比。并且,Traction20d因子与传统因子的低相关性赋予其独立的选股信息量,具备良好扩散性和应用前景。其在不同规模指数的覆盖率和效果差异提示基金持仓集中度对因子表现有影响,且大市值股票上表现更优。
报告通过大量图表直观展现数据趋势,验证过程严谨、方法创新,具有较强的理论和实践意义,为利用公募基金持仓信息构建股票关联网络及量化投资提供了宝贵思路。该方法适合辅助量化选股、风险管理及行业轮动策略,有一定应用推广价值。
---
参考文献溯源
- 基金持仓股票池扩容与相关性分析,表1至图5详细展示基金数量、持仓股票数、基金共同持仓股票日收益R方对比数据 [page::1,2,3]
- 关联度指标设计原则与网络可视化展示图6、7 [page::4]
- 行业与市值对关联度影响统计图8、9 [page::5]
- 关联度与股票收益R方验证及多维对比图10-12 [page::5,6]
- 关联网络牵引因子构建表1与因子相关性表、表现图13-17 [page::7,8]
- 不同指数选股域因子表现对比与相关性数据,图18及表2 [page::8]
---
总结
该报告基于独特的基金持仓视角,结合复杂网络方法,构建股票间关联度指标,深化了对股票关联性的理解。通过创新的因子设计,丰富了量化选股框架,提升了预期收益及组合稳定性,具有高度实用价值与研究前瞻性。
[page::0,1,2,3,4,5,6,7,8]