重构行业轮动框架之十——基于行业聚类的行业轮动策略研究
创建于 更新于
摘要
本报告系统性研究了基于聚类方法的行业重新划分与重构,采用K-Means、kernel K-Means和凝聚层次聚类三种方法,结合不同参数对行业划分的敏感性分析,选用余弦距离和全链距离实现了更合理的行业聚类。基于动态行业聚类,构建趋势跟踪与反转类板块轮动策略,对2012-2021年申万一级行业指数进行回测,趋势跟踪策略年化收益率达14.76%,显著超越基准,验证了行业聚类分组在轮动选股中的应用价值 [page::0][page::5][page::27][page::28][page::29]
速读内容
行业聚类框架搭建 [page::0][page::5]
- 行业轮动框架结合自上而下宏观指标和自下而上行业价量分析。
- 传统行业划分基于主营业务、产业链阶段和行业特征,存在刻板与滞后问题。
- 提出基于统计相关特征的行业重新划分需求。
聚类方法详解与对比 [page::5][page::8]
- 采用K-Means(划分聚类)、凝聚层次聚类和DBSCAN三种聚类方法。
- K-Means优点为简洁高效,缺点为对初值敏感,且难处理非凸形状聚类。
- 层次聚类具可多种距离度量,缺点为计算复杂度高和聚类不可逆。
- 密度聚类(DBSCAN)适用任意形状,能识别噪声,但复杂度高。
- 类间距离采用单链、全链和平均链,单链对边界模糊数据效果差,余弦距离表现最好。
不同参数对聚类效果影响分析 [page::11][page::14][page::18][page::22][page::26]
- 聚类数增加使行业划分细致但过大影响有效性,最终优选K=5或6。
- 时间跨度对行业联动捕捉有影响,1年跨度效果较合理,2年及以上开始出现空类或分组异常。
- 核函数中Cosine和RBF表现最佳,线性和多项式不均匀。
- 类间距离衡量采用全链比单链更均衡稳定。
- 聚类结果体现周期性关联板块如钢铁-采掘,大金融板块的合理划分。
动态行业聚类板块轮动策略构建 [page::27]
- 以申万一级28个行业指数为标的,滚动窗口为1年,滚动周度调仓。
- 使用层次聚类(余弦距离+全链)自适应行业板块结构。
- 趋势跟踪策略:每周期内板块选当期最强行业等权持仓。
- 反转策略:选择当期表现最弱行业等权持仓。
策略回测结果总结 [page::28][page::29][page::30]

- 趋势跟踪策略年化收益14.76%,信息比率0.65,超越行业等权指数77.18%收益。
- 反转策略表现逊色,年化收益6.01%,信息比率0.26,表现弱于基准。
- 风险提示:基于历史数据推演,策略表现受市场环境变化影响。
深度阅读
行业聚类方法探讨报告详尽分析
---
一、元数据与报告概览
- 报告标题:行业聚类方法探讨(重构行业轮动框架之十)
- 作者及分析师:陈原文、安宁宁等,均为广发证券发展研究中心的资深研究员和分析师
- 机构:广发证券发展研究中心
- 发布日期:含2021年的实证回测,全文未明确具体发布日期,但有2021年10月最新数据
- 研究主题:基于行业聚类的行业轮动框架的重构与改进,通过数据驱动的方法对行业划分进行重构,并以重新构建的行业分类在投资轮动策略中进行应用。
- 核心论点:
1. 传统行业划分存在局限,无法灵活适应产业链联动加速和市场环境变化的需求。
2. 采用机器学习的聚类算法(如K-Means、kernel K-Means、凝聚层次聚类)对行业进行动态划分更为合理。
3. 聚类结果基于行业收益率的统计特征,可以更好地捕获行业间的联动性和轮动机会。
4. 基于动态行业聚类构建的趋势跟踪策略在实证中表现优异,年化收益率达14.76%,显著跑赢等权行业指数。
- 主要结论:
- 通过不同聚类方法和参数的敏感性分析,选定合适的模型和聚类数,实现稳健的行业划分。
- 基于动态聚类的行业轮动策略能有效提升收益率和风险调整后的表现。
- 投资者制定策略需谨慎,应结合市场环境和个人理念。
- 目标读者:量化投资研究人员,基金经理,资产配置分析师等。
- 评级和目标价:本报告为专题研究报告,无直接投资评级和目标价。
---
二、逐节深度解读
1. 背景介绍
本报告从行业轮动策略的宏观层面和微观层面出发,提出传统行业划分长期依赖主观分类(如中信或申万分类),难以灵活反映市场和产业链快速变化。报告强调行业聚类的重要性,主张基于统计相关性和行业收益联动性的客观划分,有助于实时捕捉轮动机会。
关键数据与论证:
- 传统行业多按主营业务领域(能源、制造、TMT等)、产业链阶段(上中下游)、行业属性(周期、成长)、资本密集型等划分(见表1)。
- 而报告认为,此类人工划分可能滞后于市场动态,因此需基于收益率等显著统计特征动态划分。[page::4]
2. 行业聚类已有成果与框架
广发金工团队前期的行业轮动研究积累了丰富经验,建立了多层次、基于宏观—中观—微观指标、结合行业估值和资金流向的轮动模型(图1)。报告指出,当前专题是该框架下重点解决的行业重新划分的一环。
---
3. 行业聚类方法介绍
(一)聚类方法基础
解释了聚类的定义、目的,描述主流聚类算法分类:
- 划分聚类:如K-Means,初设簇心,通过迭代最小化类内距离。
- 层次聚类:自底向上(凝聚法)或自顶向下(分裂法),构建层次结构。
- 密度聚类:基于点的密度而非距离,能识别任意形状簇,如DBSCAN。
- 其他如网格聚类、模型聚类,先做特征提取,再聚类。
(二)常用聚类算法详解
- K-Means算法:
- 原理:最小化样本到簇心的平方距离和。
- 优缺点:算法简单高效,但聚类结果受初值敏感,难以确定最佳簇数K,且对非凸数据聚类效果有限。
- 数学公式体现目标函数。
- 凝聚层次聚类:
- 计算类间距离(点与点距离为基础)。
- 聚类中类间距离计算可用单链、全链、平均链方法。
- 优点为可发现层次结构,不敏感于簇形状。
- 缺点包括计算复杂、对异常值敏感、不可逆。
- 三种链式距离方式差异用图2用实际点演示:单链易受噪声影响,平均链和全链适合不同数据结构。
- DBSCAN:
- 基于密度判定簇结构,适合任意形状数据,能识别噪声点。
- 需调参邻域大小和点密度阈值。
- 核聚类改进:
- 针对K-Means线性可分假设不足,引入核函数将数据映射至高维空间实现线性可分。
- 引入核函数定义距离,新定义样本点与簇心距离公式。
- 常用核函数涵盖线性核、多项式核、RBF和余弦核(表4)。
- 聚类稳定性增强:
- 通过多次分组后的贪心匹配,合并多次聚类结果提升稳定性。
---
4. 行业聚类方法应用
(一)聚类设置与敏感性分析
- 聚焦K-Means、kernel K-Means和凝聚层次聚类三大算法。
- 研究维度包括:
- 聚类数K值
- 时间跨度(如3个月至3年)
- 核函数类型(线性、多项式、RBF、余弦)
- 距离度量方式(欧式、曼哈顿、余弦)
- 类间距离计算方法(单链、全链、平均链)
(二)K-Means聚类分析及敏感性
- 使用1年归属于2020.10.01-2021.10.31申万一级行业收益率数据,对不同K值(3-8)的聚类结果分别绘制(图3-8)。
- 观察行业在同类簇中的归属情况和簇内行业数量(表5)。
- 发现:
- 聚类数越大,行业划分更细致,簇内行业数趋向均匀。
- 部分行业如钢铁和采掘持续聚在一起,显示稳定的内在联系。
- 银行和非银金融是否同簇对K值敏感,当K<=6二者聚为同类,K>6分开。
- K=8时聚类结果不理想,存在空簇。
- 综合有效性和均衡性,K=6被选为平衡点。(选取K=6的重要性示例)
- 时间跨度敏感性:
- 设定K=6,变更数据时间跨度3个月、6个月、1年、2年、3年(图9-13,表6)。
- 发现时间跨度6个月聚类更均匀;周期性行业联动明显。
- 长短跨度影响行业间归属,体现行业相关性的动态变化。
(三)Kernel K-Means算法
- 测试不同核函数及K值组合对聚类效果的影响(表7)。
- 线性核和多项式核聚类结果较为不均衡,剔除。
- 余弦核和RBF核表现较为相近,推荐余弦核。
- 在余弦核下考察K=3-8的行业聚类结果(图14-19,表8)。
- 聚类数5时,行业划分较为合理,银行行业独立分类较清晰。
- K=5为后续采用的意见。
(四)层次聚类方法探索
- 固定时间跨度1年,K=5,类间距离选用全链,分别研究三种距离度量:欧氏、曼哈顿、余弦(图25-27,表10)。
- 余弦距离聚类结果分布均匀,欧氏和曼哈顿倾向一簇偏大。
- 进一步调研三种类间距离(全链、平均链、单链)影响(图28-30,表12)。
- 单链聚类结果极不均衡,选择全链作为后续研究标准。
(五)层次聚类聚类数与时间跨度敏感性(图31-41)
- 观察不同聚类数下行业数量分布(表13)。
- 聚类数5-6时均衡度较好,选择聚类数5。
- 时间跨度3个月至3年分析(图37-41,表14)。
- 发现1年和2年时间跨度表现更合理;2年中建筑装饰和钢铁同簇但收益率走势差异更大,暗示聚类结果不够合理。
- 1年跨度聚类效果更佳,作为标准结果。
---
5. 基于动态行业聚类的板块轮动策略
(一)策略思想
- 假设行业间短期联动和惯性效应存在。
- 动态滚动窗口1年对行业收益率执行聚类,构建动态行业板块。
- 在每期对聚类板块进行行业选择,形成轮动投资组合。
- 主要策略:
- 趋势跟踪策略:板块内选取当期表现最好的行业,等权持有。
- 反转策略:板块内选取当期表现最差的行业,等权持有。
(二)样本与聚类参数
- 数据:2012年1月1日-2021年10月31日,申万一级行业28个。
- 聚类模型:层次聚类(余弦距离,全链距离,K=5),滚动时间窗口1年。
- 采用周频调仓进行实证回测。
(三)实证结果
- 趋势跟踪策略(图42,表15):
- 全样本年化收益率14.76%,累计收益301.73%。
- 年化波动率22.81%,信息比率0.65。
- 相比行业等权指数超额收益达77.18%。
- 年度表现多优于基准,最大回撤控制合理。
- 反转策略(图43,表16):
- 全样本年化收益率6.01%,累计收益80.24%。
- 年化波动率23.11%,信息比率0.26。
- 相比基准表现为负,超额收益-20.50%。
- 某些年份表现优良但整体不足。
---
6. 风险提示
- 报告强调所有策略基于历史数据推导,未来环境可能有变。
- 投资需结合现实环境及个人风险偏好,自主决策。
- 警示潜在模型失效和不确定性风险。
---
三、图表深度解读
图0(首页趋势策略表现)
- 图示趋势跟踪策略与等权指数的净值对比,明显趋势策略收益稳健上扬,显著跑赢基准。
- 说明基于聚类的动态行业轮动框架在实证中的有效性。
图1(行业轮动框架)
- 反映宏观指标(GDP、PMI)、货币政策、财政政策、通胀等对行业盈利和表现的驱动关系。
- 行业重构通过聚类分析实现,模型层面多角度量化因子综合。
- 图中标红的"行业重构"和"行业微观"说明本报告聚焦行业划分创新。
图2(类间距离对聚类结果影响)
- 每列代表一种类间距离计算方法(单链、平均链、全链)。
- 每行代表不同数据结构。
- 单链效果好于清晰分界的点群,表现不佳于模糊边界数据(噪声敏感)。
- 平均链和平链能较好处理边界模糊数据,推荐实际应用。
图3-8/K-Means 聚类数敏感性
- 行业随着聚类数目增加被划分成更多类别,颜色代表不同分类。
- 银行、非银金融等行业是否同簇随K调整。
- 视觉上各投资行业保持较强一致性,板块行业成员变动体现动态性。
图9-13 时间跨度敏感性
- 体现不同样本窗口长度影响聚类结果的稳定与均匀。
- 短周期如3个月,行业较分散,存在噪声。
- 6个月出现较好的周期行业联动。
- 3年跨度则反映更长周期的结构特征。
表5与表6
- 精细定量说明不同聚类数和时间跨度带来的各聚类中的行业数量分布,便于客观选择K。
表7-8,图14-19 Kernel K-Means 聚类结果
- 不同核函数导致聚类细块分布偏好不一。
- 剔除线性、多项式核后,选择余弦核获得均衡划分。
- 聚类数5-6时结果更合理。
图25-27 距离度量敏感性
- 欧氏和曼哈顿距离造成类别极端不均,余弦距离更合理。
- 判断余弦距离为层次聚类的最佳度量指标。
图28-30 类间距离计算敏感性
- 单链方法明显分类不均,推荐使用全链或平均链。
- 整体基于全链的稳健性和历史经验决定其选取。
图31-41 层次聚类聚类数与时间跨度
- 聚类数5、6适中,均衡切分行业。
- 1年时间跨度效果较优,呈现合理行业结构。
图42 趋势跟踪策略回测表现
- 净值曲线明显优于等权指数,验证策略有效。
图43 反转策略回测表现
- 虽体现反转效应,整体跑输基准,表现一般。
---
四、估值分析
本报告主要聚焦行业划分方法及其策略应用,未涉及传统意义上的估值模型和目标价预测。
---
五、风险因素评估
- 策略和模型均基于历史数据,未来市场环境可能大不相同,策略有效性面临挑战。
- 聚类方法对参数、距离度量、时间跨度较敏感,错误决策可能导致行业分类不合理,影响投资回报。
- 行业联动性和周期特征本质存在变异,模型固有局限。
- 报告未提供具体缓解风险手段,风险警示强调结合投资者风险偏好制定策略。
---
六、批判性视角与细微差别
- 报告选取的聚类数和其他参数均是基于均衡性和经验的折中,仍存在一定的主观选择成分。
- 多次聚类结果不一致显示聚类方法对初始条件和参数敏感,说明行业轮动信号存在不确定。
- 反转策略表现的波动和落后体现聚类结果及市场反转模式识别不足。
- 对时间跨度进行选择时,可能存在过拟合的风险,市场动态快速变动时固定窗口聚类存在滞后问题。
- 关于核函数的作用和选择,报告选择较为保守,未来可考虑更多非线性映射技术。
---
七、结论性综合
综合来看,报告系统性地探讨了传统行业划分缺陷与基于机器学习行业动态聚类的替代方案,涵盖K-Means、kernel K-Means和凝聚层次聚类等多种算法及其参数敏感性。通过周度滚动窗口对申万一级行业收益率做动态聚类,实现行业的合理重构。
主要见解总结如下:
- 方法论创新:聚类算法将产业链联动性和行业相关性以量化形式表达,突破了传统静态划分的局限。
- 对比评估:核函数和距离度量对行业聚类结果影响显著,余弦核和余弦距离表现更稳健合理。全链类间距离优于单链。
- 参数选取依据:结合行业分组均衡性、行业属性及实证有效性,选择层次聚类、余弦距离、全链距离、聚类数K=5,样本跨度1年作为较优的实施方案。
- 实证成果:
- 基于动态行业聚类的趋势跟踪策略表现优异,年化收益率14.76%,超额77.18%。
- 反转策略表现落后,验证趋势延续性优于反转假设。
- 风险警示:强调市场环境未来不可预知,历史数据模型存在失效风险,投资者需结合自身情况谨慎应用。
图表中的圆圈聚类图形清晰地展示了各算法对行业的不同归类,行业成员的变动揭示了不同参数对行业相关性捕捉的差异。趋势策略的净值曲线和收益数据充分佐证了行业聚类结果在投资实务中可行且优于传统方法。
总体看,报告通过详实数据和严谨分析,体现了将机器学习聚类方法引入行业轮动投资的前瞻性思考,为投资者和研究者提供了切实可行的框架和方法。该方法在提升投资组合风险调整后收益方面具有积极意义,值得持续关注和深化优化。[page::0,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]
---
# 详尽分析完毕。