多因子模型的行业分类方法多因子模型研究系列之十一
创建于 更新于
摘要
本报告利用K-Means聚类分析方法及因子分层回测,研究多因子模型在不同行业的适用性。结果显示银行行业的独立性最强,多因子模型在银行行业表现反向失效,需单独构建模型。非银金融、国防军工、有色金属等行业模型表现也较弱,餐饮旅游、通信、传媒、计算机、农林牧渔等行业的模型近年出现失效。报告建议对不同行业的多因子模型进行细分和调整,尤其对银行行业进行专项模型研究。[page::0][page::6][page::8][page::10][page::21]
速读内容
聚类方法揭示行业因子特性差异 [page::5][page::6]
- 采用29个中信一级行业因子历史RankIC序列,56因子12期移动平均数据进行K-Means聚类。
- 银行业独立性最高,多数因子中自成一类,非银金融次之。
- 其他行业如餐饮旅游、国防军工、石油石化、综合等在部分因子上显示独立性。
- 建议多因子模型构建中剔除银行行业,使用行业划分优化因子模型构建。
主要因子行业聚类可视化分析 [page::7]


- 多个关键因子(EPcut、BP、净利润增长率、ROE、波动率、换手率、Beta)的行业聚类结果展示。
- 银行业普遍在各因子聚类结果中独立划分为一类。
多因子模型分层回测验证行业适用性 [page::8][page::9][page::10]
- 使用七大类因子(估值、盈利、成长、反转、流动性、波动率、市值因子)构建多因子收益预测模型。
- 分别测试行业中性处理前后和剔除银行非银前后的分层回测结果,行业中性处理显著提升分层能力。
- 回测表3-6展示各调仓分层组的年化收益、波动率、最大回撤、夏普比率、信息比率及胜率。
| 分层组 | 年化收益 | 波动率 | 最大回撤 | 夏普比率 | 信息比率 | 胜率 |
|-------|----------|--------|----------|----------|----------|------|
| 未中性化第1组 | 26.20% | 28.00% | 34.32% | 0.94 | 2.53 | 75.42% |
| 中性化第1组 | 27.16% | 28.39% | 33.55% | 0.96 | 2.89 | 82.20% |
| 去银行非银中性化第1组 | 27.48% | 28.48% | 33.94% | 0.97 | 2.93 | 81.36% |
分行业分层回测结果揭示表现差异 [page::11]-[page::20]
- 银行业分层回测效果反向,模型无法筛选优质股票,表现出明显失效。
- 非银金融、有色金属、国防军工等行业表现较弱。
- 餐饮旅游、通信、传媒、计算机、农林牧渔等近年模型效果减弱,存在失效趋势。
多因子模型未来改进方向 [page::21]
- 针对银行行业设计独立多因子模型,结合银行权重大型指数(如沪深300、上证50)。
- 对非银金融、国防军工、农林牧渔、TMT行业因子精准划分及模型调整。
- 探讨更多多因子模型细节与行业适应性问题。
深度阅读
多因子模型的行业分类方法多因子模型研究系列之十一 — 详尽分析报告
---
1. 元数据与概览
- 报告标题: 多因子模型的行业分类方法(多因子模型研究系列之十一)
- 作者: 宋肠
- 发布机构: 渤海证券股份有限公司研究所
- 发布日期: 2019年12月30日
- 联系信息: 电话022-28451131,邮箱songyang@bhzq.com
- 核心议题: 针对多因子模型在不同行业中的适用性和有效性进行研究,探讨是否存在行业特异性,及其对多因子模型构建和应用的影响。
- 核心观点摘要:
- 传统多因子模型在不同行业中的表现差异显著,尤其是银行行业表现出高度的独立性,模型在该行业里甚至表现出负效果;
- 非银金融、餐饮旅游、国防军工、石油石化等行业部分因子表现独立且模型表现不理想;
- 未来建议对银行和若干特定行业采用专门的多因子模型,或在指数增强模型中进行特化处理;
- 提醒模型存在随市场环境变化而失效的风险。[page::0]
---
2. 逐节深度解读
2.1 引言及背景说明
报告强调,不同行业有其特殊的经济属性和运行规律,导致多因子模型未必能够在所有行业有效。此前的多因子模型构建和因子选择虽然广泛应用,但对行业特性考量不足,可能掩盖了模型针对部分行业的失效情况。本报告试图通过无监督学习的聚类分析与因子分层回测直观测试,深入理解行业间的差异及模型的分行业适用性,期望为多因子模型的改进提供依据。[page::4]
2.2 使用K-Means聚类算法进行行业分类
方法简介
- 利用29个中信一级行业在56个因子上2013年以来的历史RankIC序列(衡量因子对股票未来收益的解释力的相关指标)作为样本数据。
- RankIC使用12期移动平均平滑。
- 采用K-Means算法进行聚类,意图将行业按因子表现的相似性进行分类。
聚类指标设计
- 为每个行业统计其在每个因子聚类中形成“独立一类”或“与少数行业聚为一类”的次数,得到独立性评分。
- 低得分表示行业表现独立性强,高得分表示行业间相似性较高。
关键发现
- 银行业表现极其独立,46个因子均单独成类,总分最低显示独立性最高;
- 非银金融行业独立性次之,但仍显著;
- 餐饮旅游、国防军工、石油石化、综合等行业在若干因子上表现出一定独立性;
- 大部分其它行业独立性较低,表现相似。[page::5][page::6]
对应表1的数据总结如下:
| 行业 | 单独成类次数 | 与2个以下其他行业共类次数 | 总分(越低独立性越强) |
|------------|--------------|---------------------------|------------------------|
| 银行 | 46 | 51 | 102 |
| 非银金融 | 3 | 6 | 417 |
| 餐饮旅游 | 1 | 2 | 520 |
| 国防军工 | 1 | 2 | 539 |
| 石油石化 | 1 | 1 | 596 |
| 其他行业均相似性较高,独立性较弱 |
这种数据体现了传统行业划分未必契合因子表现,尤其银行行业高度独立。[page::6]
代表性因子聚类结果图示解读
- 图1 (EPcut)显示银行行业单独分支,非银金融、部分制造业等成另一类,显示估值因子对这些行业的明显区分
- 图2 (BP)显示估值精品类聚集,能源和资源相关行业分开
- 图3 (净利润季度增长率)金融与资源行业明显区分
- 图4 (ROE_ttm)银行与其他多数行业独立成簇
- 图5 到图8 (短期收益、波动率、换手率、Beta)各呈现行业内部因子行为差异,银行仍多次单独成类,显示其特殊特征
- 聚类图体现各行业在因子收益解释力上的不同表现,支持银行需建立独立模型的结论。[page::7]
2.3 因子分层回测方法及结果分析
方法介绍
- 先根据多因子模型预测下一期股票收益,再在各行业内部将股票根据预测收益分层(通常分10层),进行等权回测;
- 分层回测是观察模型是否能有效区分优劣标的,分层收益差表明模型选股能力;
- 七大类因子定义明确,涵盖估值、盈利、成长、反转、流动性、波动率、市值等;
- 因子收益用12月移动平均预测,组合各因子通过等权和正交处理。[page::8]
因子是否行业中性调整
- 采用去极值、标准化外,测试了因子是否进入行业中性处理的效果;
- 行业中性处理即用线性回归剔除因子与行业哑变量的相关影响,避免行业偏差过大;
- 回测结果显示,无论是否剔除银行、非银金融,行业中性化后模型的分层效果优于非行业中性化,更能区分高低绩效股票;
- 因此,行业中性处理是提升模型适用性和稳定性的有效手段。[page::8]
分层回测总体数据展示(表3-6)
- 未经中性化的分层平均年化收益4.55%,夏普比率为0.17;
- 中性化后的提升明显,第一层年化收益提升至27.16%,夏普比率升至0.96;
- 去除银行、非银后,整体收益稍有改善,夏普基本持平,体现两行业对整体模型影响大;
- 指标包括波动率、最大回撤、信息比率及胜率,多层级测试结果支持行业中性和针对性调整的必要性。[page::9][page::10]
分行业回测表现亮点
- 银行行业: 分层回测结果反向,模型选出的"优质"股票收益反而较差,说明传统多因子模型不适用于银行,迫切需要专属模型构建(图9);
- 非银金融、国防军工、有色金属: 模型表现欠佳,分层收益不明显(图10、图24、图28);
- 餐饮旅游、通信、传媒、计算机、农林牧渔等近年模型失效明显(图17、20、29、33、34): 近几年分层差距缩小,模型失效迹象显著;
- 食品饮料、建筑、机械、房地产等行业: 模型表现相对较好,分层收益明显(图11-15);
- 其他行业表现中庸,整体表现较为稳定。
这些行业表现差异提示需要对不同板块采取差异化的模型构建策略。[page::10][page::11-20]
---
3. 图表深度解读
- 表1(聚类结果)清晰量化不同行业独立性,银行46因子全部单独成类,说明其因子收益特征极其特殊,建议剔除单独建模。
- 图1-8(各因子聚类结果)视觉印证银行及部分行业与其他行业差异明显,图结构展示行业聚合/分散的行业内部一致性。
- 表3-6(分层回测数据) 反映了行业中性处理对模型提升的实证,因子组合分组最高层和最低层差异大,提升模型预测信号有效性。
- 图9-37(各行业因子分层回测)每个行业分为三部分:
- 左图:分层累计收益,分层之间越分明,模型效果越好;
- 中图:分层相对收益增长,显示选股分层效果;
- 右图:分年收益柱状,反映模型不同时间段的稳定性。
- 银行业图9显示领先层表现持续低于劣后层,模型信号失效;
- 其它表现欠佳行业如餐饮旅游、计算机、传媒显示近年出现明显衰退;
- 表现良好行业如食品饮料、建筑、机械则分层曲线清晰上升,模型选股有效;
- 这些图形是多因子模型行业异质性直观证明。[page::7][page::9-20]
---
4. 估值分析
本报告核心不在公司估值而在多因子模型有效性,并未涉及DCF、P/E估值等传统估值方法,而是侧重多因子模型对不同行业股票预测能力的分析及聚类,同样借助因子收益的RankIC和分层收益率数据为理论和实践提供支撑。
---
5. 风险因素评估
- 模型失效风险: 随着市场环境和宏观经济变化,多因子模型的有效性存在被削弱或失效的风险;
- 行业特性差异: 统一模型忽略行业差异导致部分行业模型表现不佳,存在选股误判概率增加;
- 模型定期调整必要性: 需动态监测因子收益变动,适时进行行业分组调整和因子择时;
- 技术实现风险: 聚类算法依赖历史数据质量和选取因子,数据噪声可能影响聚类准确度和模型稳定性。
报告暂未提供详细缓解措施,但提出针对银行业和特定行业构建独立模型作为应对方案。[page::0][page::21]
---
6. 批判性视角与细微差别
- 报告对银行业及非银金融表现的独立性和模型失效有明确且重复强调,体现该领域风险和挑战性;
- 对其他行业模型失效现象虽有提示,但深度探讨较少,具体的模型改良方案尚留待未来研究;
- 聚类方法使用K-Means用途明确,但终止条件说明有技术保障,标准化处理加强了数据间的可比性,但对距离度量选择的限制未展开讨论,可能影响聚类稳健性;
- 行业中性处理被实验验证为必要,但不同因子中性化可能带来模型复杂度提升,未提风险控制相关策略;
- 报告结论多基于统计和回测数据,未来应用时仍需辅以行业基本面深度分析以避免过度模型依赖。
以上观点仅基于报告自身内容及暗示,保持客观中立。[page::4][page::8][page::21]
---
7. 结论性综合
本报告系统地研究了多因子模型在不同行业的适用性,采用历史因子收益RankIC聚类与分层回测双重方法,全面分析了29个中信一级行业的因子表现和模型选股能力。总体见解如下:
- 银行行业高度独立性突出,传统多因子模型在该行业表现反向失效,急需构建专属模型。
- 非银金融、国防军工、有色金属等行业亦显示一定模型适用性不足,需要模型结构调整。
- 餐饮旅游、通信、传媒、计算机、农林牧渔行业近年来多因子模型效果明显减弱,需关注因子收益动态,实施因子择时和模型优化。
- 多数其他行业模型体现较好的分层收益,显示模型具备较强的选股能力。
- 行业中性处理对模型整体性能提升显著,成为模型应用不可或缺的部分。
- 多因子模型存在市场环境变化导致的失效风险,需持续监控并进行动态调整。
图表综合解读进一步强化了结论,聚类结果明确了行业间因子收益差异,分层回测直观展示了模型实际的因子预测效果。未来指数增强策略及多因子模型开发必须充分考虑行业异质性,分别针对银行等特殊行业单独建模,同时对非银金融、TMT等行业适当调整因子体系和模型框架。
该报告为多因子量化投资提供了重要的行业分类与模型改进方向,对基金经理、量化研究员和风险管理者具有较强的指导价值。
---
致谢和信息来源
- 数据与因子定义均来自潮海证券研究所及Wind数据库。
- 报告数学和统计方法基于广泛认可的多因子理论、Barra模型和聚类算法技术。
- 作者宋肠及渤海证券研究所团队提供专业的技术支持和研究成果。
---
(文中引用所有结论均标注对应页码,以便溯源和核查)
---
以上为报告的详尽、系统且专业的分析解读,覆盖了从原理到实证再到风险与改进建议,全面体现研究的深度和广度。