`

金融科技(Fintech)和数据挖掘研究(七)——基于机器学习和知识图谱的行业轮动

创建于 更新于

摘要

本报告提出基于行业滞后收益率预测行业未来收益的新视角,采用机器学习中的Post-Lasso方法和基于客户-供应商关系的行业知识图谱两种策略,提升行业轮动策略的预测能力。Post-Lasso策略在2010-2020年间实现多空收益11.57%,而基于知识图谱的强关系网络策略2017-2020年多空收益达19.44%,均显著优于简单动量策略。策略表现稳定,具备较强的经济解释力,但仍面临数据挖掘模型失效风险 [page::0][page::4][page::7][page::14][page::16]。

速读内容


研究背景与理论基础 [page::0][page::4]

  • 分析行业收益的可预测性采用相关行业滞后收益率,基于信息在行业间逐步扩散的假设。

- 传统回归易过拟合或主观性强,采用机器学习Post-Lasso和知识图谱方法结合行业关联性减少过拟合。
  • 研究涵盖量价、宏观、情绪面、高频因子等行业轮动因子池。



Post-Lasso 方法与行业筛选 [page::4][page::5]

  • Post-Lasso包含两步:先用Lasso筛选变量,再用OLS估计所选变量参数,避免过度收缩。

- 在2010年至2020年4月期间回测,平均每个行业选择2-3个相关行业滞后收益作为预测因子,电力设备及新能源行业相关行业最多。


Post-Lasso 策略表现及参数敏感性分析 [page::7][page::8][page::10]

  • 多头年化超额收益达5.36%,空头-6.38%,多空收益11.57%,T值超过3,表现稳健。

- 不同年份表现多数为正,多头领先基准,显著优于基准。
  • 策略对初始训练期长度及动量填补参数不敏感,推荐60个月训练期,动量填补使用过去12个月收益均值。





| 初始训练期(月) | 多头超额收益 | 空头超额收益 | 多空收益 | 多空收益-T |
|----------------|-----------|-----------|--------|----------|
| 36 | 3.70% | -5.04% | 8.12% | 2.37 |
| 60 | 5.36% | -6.38% | 11.57% | 3.06 |
| 144 | 11.09% | -9.33% | 21.90% | 3.50 |

与动量策略对比 [page::9][page::10]

  • Post-Lasso模型和动量策略相关性正向且增加,体现动量因子影响。

- Post-Lasso在年化收益(9.57%)、夏普比率(0.35)及IC表现均显著优于3、6、12个月动量策略。
| 策略 | 年化收益 | 波动率 | 夏普比率 |
|------------|---------|--------|---------|
| Post-Lasso | 9.57% | 27.20% | 0.35 |
| 3个月动量 | 5.29% | 27.81% | 0.19 |
| 12个月动量 | 7.38% | 28.77% | 0.26 |

基于客户-供应商关系的行业知识图谱构建 [page::11][page::13][page::14]

  • 采用FactSet供应链数据映射上市公司客户-供应商关系,类似投入产出表生成行业贸易网络。

- 构建拉动型与推动型网络,进一步汇聚生成强衰关系网络和弱关系网络。
  • 强关系网络稀疏,平均每行业连接2-3个行业;弱关系网络联系密集,平均连接6-7个行业。







基于知识图谱的行业轮动策略表现 [page::15]

  • 采用强/弱关系网络作为自变量构建回归模型预测行业收益。

- 强关系网络策略多头超额收益8.44%,空头超额收益-10.84%,多空收益19.44%,最大回撤10.53%。
  • 弱关系网络策略多空收益7.98%,回撤较低,但空头效用更强。

- 与Post-Lasso策略相比,均优于简单的仅用自身滞后收益或全部行业滞后收益模型。



| 策略类型 | 强关系网 | 弱关系网 | Post-Lasso | 行业自身滞后收益 | 全部行业滞后收益 |
|------------------|---------|---------|------------|------------------|------------------|
| 多头超额收益 | 8.44% | 1.67% | 11.43% | -0.73% | -1.86% |
| 空头超额收益 | -10.84% | -6.55% | -9.59% | -2.06% | -2.83% |
| 多空收益 | 19.44% | 7.98% | 22.04% | 0.89% | 0.80% |
| 多空收益-T | 2.86 | 1.49 | 3.68 | 0.12 | 0.12 |

深度阅读

金融科技(Fintech)和数据挖掘研究(七)——基于机器学习和知识图谱的行业轮动深度解析



---

一、元数据与报告概览


  • 报告标题:《金融科技(Fintech)和数据挖掘研究(七)——基于机器学习和知识图谱的行业轮动》

- 分析师:冯佳睿、张振岗
  • 发布机构:海通证券研究所

- 发布时间:2020年
  • 研究主题:基于机器学习(Post-Lasso方法)及知识图谱(客户-供应商关系构建的行业关系网络)两种创新方法,探索行业间滞后收益率的预测能力及行业轮动策略的构建与表现分析。


报告核心论点与目标信息



本报告核心在于突破传统行业轮动因子仅依赖独立行业特征或基于共同宏观变量的收益预测,创新地引入行业间的关联性,即利用相关行业的滞后收益率来预测目标行业收益。该方法理论基于信息扩散的市场非完全有效性,且通过两条路径实现:
  1. 机器学习路径:利用Post-Lasso方法自动从滞后收益率中筛选预测因子,避免OLS的过拟合或主观因子选择的不足。

2. 知识图谱路径:借助FactSet的客户-供应商供应链数据,映射形成行业间的强弱关系网络,准确捕捉行业关联的经济基础。

报告推出了基于两种路径的行业轮动策略,并进行了全面的回测验证,最后对策略表现进行对比与总结。报告指出这两类策略均能带来显著多空收益,其中知识图谱方法的强关系网络策略和Post-Lasso模型表现相当,均超过传统无筛选模型或单一行业动量模型的效果。[page::0,1]

---

二、逐节深度解读



1. 研究背景与问题提出(第4页)


  • 报告回顾了此前行业轮动因子研究,如量价、宏观、情绪及历史与预期基本面因子,但指出缺乏对行业间关联性的研究。

- 提出行业滞后收益率能预测相关行业未来收益的理论基础,即信息传递不及时导致价格滞后反应。
  • 传统回归方法存在因子过多过拟合或主观选择的双重问题,报告决定采用Post-Lasso机器学习和知识图谱两种创新方法解决。


2. Post-Lasso模型详细说明(第4-10页)


  • Post-Lasso方法介绍:结合L1正则化的Lasso回归做变量选择,再用选出的变量做普通最小二乘回归,缓解Lasso过度收缩的问题。

- 采用中信一级行业,数据区间为2010年1月至2020年4月,在每个月末利用过去数据训练模型,动态预测下一期行业收益。
  • 关键数据点

- 平均每个目标行业选出约2.48个相关行业作为预测因子,电力设备新能源行业关联行业数量最多(9.24个)。
- 行业被选次数分析显示银行和房地产行业被多行业频繁选中,体现经济中资金中介及房地产的重要作用。
  • 缺失因子填补

- 对于模型未选出任何相关行业的情况,使用截距项(历史均值)和历史动量两种方式填补,动量填补效果更佳。
  • 策略表现

- 多头年化超额收益5.36%,空头-6.38%,多空收益11.57%(T值3以上)。
- 分年度来看,除2011、2016年外,多数年份收益表现正向且稳定。
- Post-Lasso优于直接Lasso估计,并且动量填补明显好于截距。
- 参数敏感性(训练期长度和动量跨度)分析显示策略对于参数设定鲁棒,且训练期越长效果越好。
- 与传统动量策略对比,Post-Lasso策略年化收益、夏普比率和信息系数(IC)均显著优于3、6、12个月动量,说明引入其他行业信息有效提升预测力。

3. 知识图谱方法——基于客户-供应商关系构建行业贸易网络(第10-15页)


  • 投入产出关系简介

- 采用国家统计局投入产出表,构建两个产业网络:
- 拉动型(下游对上游的影响)
- 推动型(上游对下游的影响)
- 通过设定阈值(1/(N-1)),确定行业间强关联(同时存在拉动和推动)和弱关联(单方面存在)。
  • 网络结构

- 强关系网络较为稀疏,行业平均关联数2-3个。
- 弱关系网络连接密集,行业连接数达到7-8个。
  • 方法不足及替代方案

- 投入产出表行业分类与上市公司行业分类不匹配,且频率低(5年更新一次)滞后严重。
- 因此采用FactSet客户-供应商关系数据,映射至行业层面构建更新及时、结构一致的行业贸易网络。
  • 供应链网络生成效果

- 以2020年3月为例的强弱关系网络与投入产出表结果结构相似且稳定。
- 平均选取关联行业数也与历史估计相近。

4. 基于行业知识图谱的轮动策略表现(第14-16页)


  • 构建24个月回归窗宽,通过目标行业收益率与由知识图谱确定的预测行业滞后收益率建立回归,预测下一期收益。

- 动态筛选每期相关行业,形成多空5行业组合。
  • 策略表现

- 强关系网络:
- 多头年化超额收益8.44%
- 空头年化超额收益-10.84%
- 多空收益19.44%,最大回撤10.53%
- 弱关系网络:
- 多头超额收益1.67%
- 空头空头效应更明显,年化超额收益-6.55%
- 多空收益7.98%,最大回撤9.91%
  • 与基准对比:

- 行业自身滞后收益和全部行业滞后收益两个无筛选基准的多空收益均不显著。
- Post-Lasso及基于知识图谱的强关系网络策略均带来显著且稳定的正多空收益,且Post-Lasso稍优。

5. 总结与风险提示(第16页)


  • 信息传递滞后使滞后行业收益率成为有效预测变量。

- 高维回归变量筛选关键:采用机器学习Post-Lasso及知识图谱两方法均有效。
  • Post-Lasso模型过去十年回测多空收益约11.57%,知识图谱强关系网络策略过去三年多空收益约19.44%。

- 风险提示强调历史数据经验模型可能失效,存在模型风险。

---

三、图表深度解读


  1. 图1 行业轮动因子池(第4页)


- 展示“行业因子池”的结构,将行业因子分为“慢变量”和“快变量”,慢变量包含预期基本面、历史基本面、公募基金观点(季度频率);快变量包括量价、情绪面、宏观和高频因子(周/双周频率)。
- 说明现有因子研究侧重点在行业自身特征,而未考虑行业间的关联,为后续引入滞后收益率相关性埋下理论基础。
  1. 图2 各目标行业由 Lasso 模型选到的相关行业数量(第5页)


- 水平柱状图显示不同目标行业被选择的相关行业平均个数区间在0-10左右,能源密集型行业如电力设备及新能源最高(约9.24个)。
- 表明不同产业的相关性差异显著,能源领域关联行业众多,体现其在供应链和产业链中的多重链接。
  1. 图3 各行业被选到的次数(第6页)


- 通过矩阵展示不同目标行业的相关因子行业被选次数,银行和房地产行业被多行业频繁选中,显示其重要中介及核心地位。
- 该矩阵的细致分析反映机器学习筛选的经济合理性,避免单靠经验猜测。
  1. 图4 各行业未选到预测变量期数占比(第6页)


- 柱状图揭示部分行业如农林牧渔、计算机等时期常未选到任何相关行业因子,提示模型对这些行业的适用存在空白期,需要设计填补方案。
  1. 图5 和图6 Post-Lasso模型策略表现(第7页)


- 图5显示五组行业分组收益率中,最高组(Q5)收益显著领先最低组(Q1),体现预测收益的单调性。
- 图6多头相对基准及多空相对收益稳步走高,说明策略有效捕捉行业轮动机会。
- 结合表1的年度收益正负比率,显示策略稳健性。
  1. 表2 Post-Lasso与Lasso表现对比(第7页)


- Post-Lasso多空收益11.57%,显著优于Lasso的9.19%,动量填补法策略表现更佳。
- 说明两步骤回归能改善模型偏差,提高预测精度。
  1. 参数敏感性分析(第8-9页)


- 表3、表4结果显示训练期长度从36月增加至144月,多空收益及因子IC均有提升且均大于零,策略稳定且鲁棒。
- 表5、表6显示动量填补长度8-12个月区间内表现较优,进一步证实参数选取合理。
- 表7至表9的动量对比分析明确Post-Lasso胜出,IC均值与T值均高出常规动量策略。
  1. 图7 Post-Lasso与动量策略累计净值对比(第10页)


- Post-Lasso策略累计净值不断领先,展现更强的行业轮动预测能力及风险调整后表现。
  1. 投入产出表示例及网络构建(第11-12页)


- 图8数据明确展示了行业间具体的中间投入数值,清晰展示投入产出网络的真实基础。
- 图9和图10分别展示强关系和弱关系网络,强关系网络稀疏平均2-3连接,弱关系网络密集平均7-8连接,体现行业间不同强度的经济联系。
  1. 客户-供应商网络构建流程及行业强、弱关系网络示意(第13-14页)


- 图11流程图清楚表述从个股供应链数据映射行业,再构建投入产出网络,最终选定预测变量的闭环步骤。
- 图12与图13客户-供应商数据生成的行业关系网络形态与投入产出网络相似,验证了替代方案的可行性。
- 图14网络每期行业数稳定,显示数据时效性和模型的动态更新能力。
  1. 基于知识图谱的轮动策略表现(第15页)


- 图15基于强关系网络策略多空组合明显跑赢基准,年化多空收益达19.44%。
- 图16基于弱关系网络策略表现稍弱但依然有效,多空收益7.98%,显示强关系网络对预测更关键。
- 表10综合对比Post-Lasso、知识图谱强弱网络及无筛选基准模型,进一步验证机器学习和知识图谱双重方法均带来显著超额收益。

---

四、估值分析



本报告并未涉及个别公司的估值问题,重点为行业轮动策略构建与收益表现分析,因此无相关估值模型章节。

---

五、风险因素评估


  • 数据挖掘基于历史先验数据得出模型,存在模型失效的风险,尤其在宏观经济环境变化或行业结构调整时,模型的稳定性和预测能力可能下降。

- 机器学习模型的参数选择和过拟合风险需谨慎应用,虽报告中进行了敏感性分析但仍不能完全排除后续回测失效可能。
  • 知识图谱构建依赖供应链数据的准确性和及时性,数据缺失或误报可能影响模型表现。

- 行业关系动态改变速度及舆情、政策等非量化因素的突然冲击,可能导致滞后收益预测失灵。
  • 报告未给出风险缓解策略,提示用户需结合自身判断加以审慎应用。


---

六、批判性视角与细微差别


  • 报告虽全面实现机器学习与经济学知识结合,但仍有以下方面需注意:

- Post-Lasso模型中,滞后收益率作为因子,部分行业“空白期”未选中相关行业,表明模型预测覆盖面不全,填补动量规律虽合理但带主观简化。
- 知识图谱网络建设依赖映射客户-供应商关系,可能存在映射误差及行业分类不同步问题,影响预测变量选择的科学性。
- 由于历史窗口跨度长达十年,短期市场极端变动可能被平滑,掩盖策略的潜在风险暴露。
- 报告对未来策略稳健性表述审慎,风险提示简略仍需用户对模型局限性有充分认识。
- 虽然知识图谱策略在最新三年中表现良好,但期间经济环境稳定且数据更新及时,未来不确定性对模型冲击尚不明朗。
- 报告未深入探讨因子间共线性或外生因素影响,对模型解释力与因子代表性的讨论较少。

---

七、结论性综合



本报告系统地探讨并实证了行业间滞后收益率的预测作用,突破了传统行业轮动因子研究难以捕捉行业相关性的瓶颈。核心发现与贡献如下:
  • 利用Post-Lasso机器学习技术有效筛选多个相关行业滞后收益率变量,避免了传统OLS回归的过拟合和主观筛选问题,显著提升预测准确性。基于此构建的行业轮动策略,在过去十年表现出11.57%的年化多空超额收益,稳健且具有统计显著性。

- 通过构建基于投入产出表和客户-供应商数据的行业知识图谱,捕捉行业间的强弱经济联系,用以筛选预测变量,实现了结构化的先验信息引入。基于2017年以后以强关系网络构建的行业轮动策略,多空年化收益达19.44%,优于传统无筛选模型,显示出更深层次的经济逻辑支撑。
  • 多空策略的多重收益表现,及明显优于单纯行业自身动量策略,验证了行业轮动中的跨行业联动效应和滞后信息传递的存在。

- 参数敏感性分析显示策略相较稳健,对训练窗口及填补参数不敏感,赋予模型较好推广潜力。
  • 报告中各类图表清晰展示了行业因子数量结构、被选行业频次、策略年度表现与收益风险特征,增强结论的说服力。

- 风险提示指出模型受历史数据局限性影响存在失效风险,用户应结合市场动态审慎应用。

综上,本报告体现了金融科技方法(机器学习和大数据经济网络)在行业轮动研究中的成功应用,展现了量化策略构建的新思路和潜力,建议投资管理者关注包括行业间信息流动性的模型创新,提升资产配置动态响应能力。[page::0,4-16]

---

参考主要图表示例(Markdown格式内嵌)


  • 图1 行业轮动因子池示意图


  • 图2 各目标行业由Lasso选到的相关行业数量


  • 图5 Post-Lasso模型分组表现


  • 图7 Post-Lasso模型与动量策略累计净值对比


  • 图9 2015年投入产出表生成的强关系网络


  • 图11 利用FactSet供应链数据构建行业轮动策略流程


  • 图15 基于强关系网络的行业轮动策略表现



---

以上为本报告的系统详尽分析,涵盖理论基础、方法构建、模型实证、策略表现、图表解读及风险与批判视角,帮助读者深刻理解基于机器学习和知识图谱的行业轮动前沿研究成果。

报告