从网络结构模型识别 “中心资产”──因子研究系列
创建于 更新于
摘要
本报告基于网络结构模型,采用动态时间规整算法构建沪深300股票的邻接矩阵,利用最小生成树优化网络结构,通过度中心性、紧密中心性和介数中心性三类中心性指标识别“中心资产”。实证回测显示,中心度因子在2010-2020年间具有显著选股能力,中心度较高的股票组合实现明显的超额收益和较低的最大回撤,且与市场阶段和行业风格具有关联性,为动态资产配置提供了新视角 [page::0][page::6][page::8][page::10][page::11]。
速读内容
网络结构模型构建与优化 [page::2][page::4][page::5]
- 通过互信息率和动态时间规整算法度量股票收益率序列的非线性关系,构建邻接矩阵。
- 利用阈值剪枝和最小生成树算法简化网络结构,降低边数,提升模型可解释性。
- 图1展示全连接网络与最小生成树的对比,凸显结构优化效果。

三大中心性指标及其时序特征 [page::5][page::8][page::9]
- 选取度中心性、紧密中心性和介数中心性三类指标刻画节点(股票)在网络中的重要性。
- 三指标在沪深300成分股中表现出显著的头尾效应,Top 20%股票中心性均值远高于Bottom 80%。
- 动态时间规整算法网络模型更贴合市场走势,中心度集体提升的时期多与市场泡沫及调整相呼应。


基于中心度的选股因子构建与回测结果 [page::9][page::10][page::11]
- 以动态时间规整网络模型构建中心度得分因子,按月度对沪深300动态成分股进行五分组。
- 回测结果显示,高中心度组合“中心资产”长期跑赢市场基准,年化超额收益达2.29%,胜率54%,最大回撤显著低于基准。
- 该因子对市场风格敏感,2019-2020年回撤期间因重仓银行保险、能源等低估值行业。

| 组合 | 年化收益率 (%) | 年化波动率 (%) | 夏普比率 | 最大回撤 (%) | 超额收益率 (%) | 信息比率 | 胜率 (%) | 超额收益 最大回撤 (%) |
|------|----------------|----------------|----------|--------------|----------------|----------|----------|------------------------|
| 基准 | 3.61 | 23.36 | 0.15 | 40.55 | 0 | | | |
| G01 | 5.99 | 22.72 | 0.26 | 36.98 | 2.29 | 0.43 | 54.61 | 14.75 |
| G02 | 5.08 | 24.54 | 0.20 | 40.08 | 1.41 | 0.23 | 50.00 | 14.69 |
| G03 | 1.87 | 25.40 | 0.07 | 50.91 | -1.67 | -0.22 | 48.46 | 26.16 |
| G04 | 2.00 | 25.57 | 0.07 | 55.95 | -1.55 | -0.14 | 46.92 | 36.90 |
| G05 | -0.11 | 25.92 | -0.004 | 58.11 | -3.60 | -0.47 | 46.15 | 39.13 |
网络中心度因子的风险提示与展望 [page::11]
- 中心度因子本质为统计学意义下的风险因子,与价值因子存在一定相关性。
- 特定市场风格(如2019-2020年)可能导致因子表现回撤。
- 后续研究方向涵盖因子的alpha属性、风险补偿关联及价值因子结合。
深度阅读
报告分析:从网络结构模型识别 “中心资产”──因子研究系列
---
1. 元数据与报告概览
- 报告标题:《从网络结构模型识别 “中心资产”──因子研究系列》
- 作者与联系:邱冠华(执业证书编号:S1230520010003);联系人:王小青
- 发布机构:浙商证券研究所
- 报告日期:2021年4月26日
- 研究主题:应用网络结构模型(尤其是动态时间规整算法和互信息率)构建股票池中股票节点间的非线性关联网络,识别并量化“中心资产”——即在股票市场中网络中心性较高、具有超额收益潜力的股票。
- 核心内容与信息:2020年以来核心资产估值快速上升,市场呈现“二八”分化格局。通过传统基本面和财务质量因子难以实现及时动态调整,报告引入网络结构模型中最小生成树与中心性分析的方法,提出基于度中心性、节点中心性和介数中心性构建的选股因子,并通过回测验证其在沪深300成分股中的显著超额收益表现(例如月度超额收益达2.29%),显示了中心资产识别的新思路和应用价值。风险提示为量化模型可能失效[page::0].
---
2. 逐节深度解读
2.1 金融市场的层级结构特性
- 总结要点:金融市场是一个复杂动态的系统,由宏观、中观、微观层面多维信息交互影响投资行为及资产价格。疫情后市场经历剧烈波动,核心资产大幅上涨,形成明显“二八分化”,即少数核心资产成为“抱团组合”,呈现强烈联动性和层级网络结构特性。现有基于传统因子选股方法受信息时滞限制,难以动态优化。市场体现层级结构与网络模型的匹配性,为识别重要股票(“中心资产”)提供动力与理论基础[page::2].
- 支撑逻辑:引述Simon(1962)关于金融系统层级结构的理论,强调观测层面的匹配性,体现复杂性和动态平衡;后疫情核心资产的“抱团”联动,通过一致审美角度下的市场估值偏好驱动形成层级网络;提出将股票市场视为节点和边构成的网络结构,股票关联度非线性,运用复杂网络模型刻画。
---
2.2 网络结构模型构建
2.2.1 设定邻接矩阵—互信息率度量
- 关键论点:传统相关系数(Pearson/Spearman)无法全面捕捉股票收益率的非线性复杂关系,互信息率作为信息论工具量化随机变量间共享信息量,能揭示线性与非线性依赖,适合度量股票之间收益率序列的相关性。
- 公式与原理:熵的定义,联合熵,以及互信息率定义的公式阐述。互信息率归一化后通过转换函数映射为距离值$D$,距离越小代表关系越紧密,距离接近1则关系疏远。为提升互信息率计算的区分能力,对收益率序列先等频离散化处理[page::3].
2.2.2 设定邻接矩阵—动态时间规整算法(DTW)
- 关键论点:互信息率忽视时间序列本身时序特性,也因离散化损失信息;DTW算法克服欧式距离无法处理时间错位的限制,通过动态规划寻找两序列最小距离匹配路径,更正局部峰值等市场事件导致的时序错位,在股票收益率净值序列的相似度度量中表现更优。
- 算法介绍:构造距离矩阵,最小化累积距离路径计算,支持非线性对应和局部时间轴变形,适用于金融市场不同股票受事件影响不同步但整体轨迹相关的问题,尽管计算复杂,但适用于沪深300的样本规模[page::3-4].
2.3 网络结构优化
- 问题与方案:全连接网络边数巨大(沪深300约44,850条边),计算复杂且冗余,需剔除低相关边。简单阈值法(如截断90%分位数以上距离)节省计算,但不够系统和目标明确。
- 核心方案:采用最小生成树算法(如Prim算法),在保持所有节点连通的前提下,保留最重要边,消除冗余边与形成树形层级结构。数学表达式保证生成无环且总权重最小,有利于清晰网络框架和节点中心性分析。图1直观对比全连接网络与最小生成树效果,明显简化网络结构同时保留关键连接[page::4-5].
---
2.4 中心性及其度量
- 中心性的意义:在网络中量度节点相对于整体的重要性。中心性高的节点(“中心资产”)在系统中具有较大影响力,中心性低的节点则是“边缘资产”。挖掘中心资产有助于发现具有超配价值的股票。
- 三种中心性指标:
1. 度中心性(Degree Centrality)——节点直接连接数占比,数值越高表示连接越广。
2. 紧密中心性(Closeness Centrality)——测量节点到其他所有节点的平均最短路径的倒数,数值越大表示节点越“接近”整个网络。
3. 介数中心性(Betweenness Centrality)——衡量节点在网络中最短路径的桥梁作用,中心性高代表节点在信息流转中占主导位置。
- 定量表达:每种中心性的数学定义充分展示计算方式及其归一化过程[page::5-6].
---
3. 基于网络中心性的选股因子构建与测试
3.1 网络模型实证构建
- 数据选择与处理:沪深300月度动态成分股,2009年至2020年12月,日收益率序列,样本周期252交易日(一年),5日均值平滑处理,收益率离散化分为10等份或转为净值序列以适应不同方法。
- 网络构建方法比较:采用互信息率和动态时间规整两种邻接矩阵构建方法,均经过P95阈值筛选边后用Prim算法生成最小生成树。
- 网络图示:通过图2与图3展现2010、2015、2019及2020年12月的沪深300成分股最小生成树结构,有助观察市场网络结构演变,反映不同历史阶段市场的关联状态[page::6-7].
3.2 中心度的时序表现分析
- 发现:三种中心性指标均显示明显的“头部效应”,即Top 20%股票中心性水平显著高于底部80%。该特征在度中心性和介数中心性下尤为明显且平稳,在时间序列中持续表现[page::7-8].
- 动态时间规整的特性:2010年初、2015年中、2020年末等时间节点,个股中心性集体增强,网络整体趋紧,与市场泡沫和集体冲高现象对应,提示中心性反映系统性风险的潜在指标,暗示择时可能。此种动态特征在基于互信息率的网络中体现较弱[page::9].
---
3.3 中心度因子的选股应用与绩效表现
- 选股策略设计:基于动态时间规整网络,月末更新网络并根据节点中心性得分进行排序。以Top 20%与Bottom 80%为界进行简单分组;并进一步进行五分组测试。测试包括等权重和加权收益计算,手续费假设为0及千三双边。
- 回测结果解读:
- 图9和图10显示以中心度指标构建的高中心性组合在过去10年内持续跑赢低中心性组合,具有显著超额收益和较好的收益稳定性。
- 图11五分组测试进一步验证因子单调性,收益分组表现层次分明。
- 表1列出绩效指标,G01组合年化收益率5.99%,夏普0.26,信息比率0.43,最大回撤36.98%,超额收益2.29%,月度胜率54.61%,均优于基准指数(年化3.61%,夏普0.15)[page::10-11].
- 持仓组合分析:2019年4月至2020年7月的回撤期间,组合中低估值的银行、能源、钢铁等周期行业股票权重较高,反映因子与传统价值因子存在关联,市场风格转变导致短期表现不佳。此后,随着市场风格调整,中心资产组合表现恢复并进入新的上涨阶段[page::11].
- 总结:中心度选股因子表现出一定的截面选股能力和时间稳定性,更可能作为统计风险因子而非纯粹alpha因子,具有潜力作为价值因子体系的组成部分,未来研究方向包括对风险补偿属性和内在逻辑的深入探讨。
---
4. 风险提示
- 模型风险:基于量化模型和历史数据构建,模型存在失效风险。务必关注因子在不同市场环境和风格下的表现与适用性限制[page::0, 11].
---
3. 图表深度解读
图1:20只股票的全连接网络与最小生成树对比示意
- 描述:左图为全连接图,20只股票全部两两连接,关系复杂;右图为应用Prim算法剪枝得到的最小生成树,边数大幅减少,结构更清晰且无环。
- 意义:最小生成树提供了减少计算复杂度和清晰体现最核心股票关联结构的方法,便于后续计算中心性,避免冗余关系干扰分析[page::5].
---
图2 & 图3:沪深300成分股最小生成树(2010、2015、2019、2020年对比)
- 描述:不同年份的成分股最小生成树结构示意。节点代表股票,边代表经过剪枝后的强连接关系。
- 解读趋势:树结构随着时间发展呈现一定变迁,2019-2020年网络结构较为紧密,核心资产联动更强,反映市场实际“抱团”现象;2010-2015年网络较为稀疏,反映市场分散性相对较大[page::7].
---
图4-6:基于互信息率计算的度中心性、紧密中心性和介数中心性的均值与波动率时序
- 描述:每图左侧为中心性均值时间序列,右侧为其波动率,蓝色为Top 20%股票,橙色为Bottom 80%。
- 趋势:度中心性和介数中心性差异最大,Top 20%组整体中心性均值显著高于底部组,且波动率也更高,显示头部资产位置稳固;紧密中心性差异较度中心性略小。整体表现稳定,支撑“头部效应”理论[page::8].
---
图7-8:基于动态时间规整算法的度中心性与紧密中心性的均值和波动率时间序列
- 描述与解读:类似图4-6,但用DTW度量网络关系。Top 20%资产中心性波动更明显,特定年份(2010年初、2015年中、2020年末)中心性均值集中上升,暗示市场整体关联度与潜在风险累积一致性。
- 对比分析:DTW认知的网络结构更符合市场情绪高点的聚集,体现了算法优势[page::9].
---
图9-11:中心度得分因子分组回测表现
- 图9:Top 20%与Bottom 80%的等权重和加权组合收益走势对比,Top组明显优于Bottom组。
- 图10:仅加权组合的头尾分组回测,表现与图9一致。
- 图11:五分组分层收益,清晰呈现收益梯度,收益由G01(最高)递减至G05(最低),验证因子具有良好分层能力。
- 整体意义:中心度因子在样本期内具有显著选股能力,该因子可作为投资决策中的辅助因子来提升组合收益表现[page::10].
---
表1:中心度得分因子各组绩效指标
- 核心数据:
- G01(顶层)年化收益5.99%、夏普0.26、最大回撤36.98%、信息比率0.43、月度胜率54.61%,明显优于基准(年化3.61%、夏普0.15、40.55%最大回撤)。
- 中间组G02表现稳定,小幅跑赢基准;底部组表现显著逊色。
- 分析:数据进一步证实中心资产具有稳健的超额收益及较好的回撤控制能力,因子具备实际投资价值和可操作性[page::11].
---
4. 估值分析
报告未直接涉及传统估值模型如DCF、PE等,评估标准基于回测历史表现的超额收益和风险指标。因子表现被视为系统风险或统计风险因子,不属于纯粹阿尔法因子,评分模型主要基于网络中心度指标及其在动态网络中的表现。
---
5. 风险因素评估
- 模型风险:量化模型基于历史数据构建,风险主要在于模型失效,即实际市场结构、关联关系发生深刻变化时模型预测与实际偏离。
- 市场风格风险:因子在极端风格(如2019年科技/成长风潮)下可能回撤,因偏向传统价值及周期股,受市场风格转换影响较大。
- 信息滞后性:网络结构更新月度有限,短期突发事件可能未及时反映,影响模型有效性。
- 缓解策略:报告建议动态监控因子表现并结合基本面因子,未来研究加深风险补偿与因子属性的理解[page::0, 11].
---
6. 批判性视角与细微差别
- 模型局限:网络模型高度依赖输入数据和算法参数(离散化分段、时间窗口长度等),回测期等参数变化可能影响因子效果。
- 过度拟合风险:回测时间区间长且数据分布复杂,需留意模型是否对特定涨跌周期过度优化。
- 因子解释性不足:因子表现虽与市场某些风险属性相关,但缺乏直接的经济或基本面解释,未来需探讨核心资产的风险溢价来源。
- 内在矛盾:部分低估值资产在某些周期因风格影响导致因子表现下滑,说明因子并非单纯alpha来源,应审慎使用。
---
7. 结论性综合
本报告系统构建并应用了基于网络结构的股票中心性因子,通过动态时间规整算法精准刻画股票间非线性时序相关性,从而搭建沪深300股票最小生成树网络,计算包括度中心性、紧密中心性和介数中心性在内的多个中心性指标。
实证分析表明,股票网络中位于核心位置的“中心资产”表现出显著的收益优势,尤其是基于动态时间规整构建的网络,其中心性指标能有效区分市场中的核心与边缘个股。中心度因子的历史回测结果(2009-2020年)展示了稳健的超额收益和较优的风险调整后性能,年化超额收益可达2.29%,信息比率0.43,明显优于沪深300基准。
图表解析清晰揭示了网络结构优化的必要性(图1)、最小生成树建模的网络层级特征(图2、3)、以及中心性指标的时序稳定性和差异(图4-8)。回测绩效图(图9-11)及表1进一步佐证了中心度得分因子的显著选股效力,且不同市场环境下表现出一定的稳健性。
报告提醒该因子可能在市场风格轮动过程中表现波动,尤以周期价值与科技成长风格的转换期为甚,因子有可能更多反映统计性风险因素而非纯粹的alpha。此外,模型存在量化本身的失效风险,投资者需谨慎跟踪和动态调整。
总体而言,本文提出的网络结构模型及中心度选股因子为传统基本面与财务因子之外,提供了一种结构性认知和量化工具,在市场复杂动态交织的环境下能够有效识别“中心资产”,指导资产配置和风险管理,是因子投资研究的重要补充。
---
参考文献亮点
引用了Mantegna(1999)关于金融市场层级结构的经典研究,Borgatti(2005)网络中心性的理论基础,Prim算法的最小生成树优化等核心文献,国内外相关领域研究也被覆盖,体现了报告的理论和实践基础的严谨性[page::12].
---
结束语
该报告从系统复杂性视角创新性地引入网络结构模型识别股票市场“中心资产”,理论创新与实证结果相结合,基于丰富图表数据展示网络特征与因子效果,为量化投资提供新思路,具有较高的研究和应用价值,同时需关注模型适用范围与风险提示,结合多因子策略实现投资决策优化。
---
附:核心图表链接示例
- 图1:最小生成树优化示意

- 图2:2020年12月沪深300最小生成树

- 图9:中心度等权因子头尾测试

- 表1:绩效指标表
(参见正文展示)
---
(全文总结基于报告内容,引用页码以供溯源。)