`

机器学习和知识图谱在行业轮动中的应用

创建于 更新于

摘要

本报告研究了利用机器学习中的Post-Lasso方法结合知识图谱构建行业轮动策略,通过客户-供应商关系构建的行业网络提升了行业收益率预测能力。Post-Lasso策略多空收益显著,多头年化超额收益达5.36%,多空收益11.57%;基于客户-供应商关系知识图谱的弱关系网络策略多空收益达到17.79%,显著优于传统基准策略 [page::0][page::1][page::29]。

速读内容


研究背景与理论基础 [page::1][page::2]

  • 行业滞后收益率能提高行业收益预测能力,因市场信息传递存在延迟。

- 传统OLS预测易过拟合且变量选择存在主观性,机器学习和知识图谱为解决方案。



Post-Lasso方法与行业筛选结果 [page::4][page::5][page::6][page::7]

  • Post-Lasso回归结合L1正则化及AIC准则,先特征筛选后OLS拟合,提高预测准确性,避免过度收缩。

- 行业内平均选择约2.48个相关行业,电力设备及新能源相关行业被选次数最多(9.24)。
  • 银行和房地产被多行业频繁选中,体现经济合理性。


| 行业名称 | 被选次数 |
|---------|---------|
| 银行 | 479 |
| 房地产 | 528 |
  • 存在未选中行业时,采用12个月动量均值对其填补。


Post-Lasso策略表现及对比 [page::10][page::11][page::12][page::13][page::14][page::15]

  • 策略多头年化超额收益5.36%,空头-6.38%,多空收益11.57%,夏普比率3.06。

- 不同训练期长度下策略表现稳健且训练期越长多空收益越高。
  • 动量填补表现优于截距填补。

- 策略因子IC均显著,胜率约58%,T值均超过3。


| 指标 | Post-Lasso动量填补 | Post-Lasso截距填补 | Lasso动量填补 | Lasso截距填补 |
|------------|--------------------|--------------------|---------------|---------------|
| 多头超额收益 | 5.36% | 4.76% | 4.56% | 3.49% |
| 空头超额收益 | -6.38% | -2.98% | -4.75% | -5.33% |
| 多空收益差 | 11.57% | 6.94% | 9.19% | 8.30% |
| 多空收益T值 | 3.06 | 2.14 | 2.42 | 2.26 |

基于客户-供应商关系的知识图谱构建行业网络 [page::18][page::19][page::20][page::21][page::23][page::24][page::25]

  • 利用FactSet供应链数据,映射个股客户-供应商关系至行业,生成拉动型和推动型网络。

- 构建强关系和弱关系产业复杂网络,强关系需双向拉动推动,弱关系任意单向即可。
  • 网络结构清晰,可靠且每期平均选取行业数量稳定,强关系2-3个,弱关系6-7个。





基于知识图谱的行业轮动策略表现 [page::26][page::27][page::28]

  • 强关系网络策略多空收益10.53%,多头年化超额2.08%,空头-7.61%,最大回撤10.18%。

- 弱关系网络策略多空收益达17.79%,多头年化超额8.06%,空头-9.22%,最大回撤3.99%。
  • 知识图谱策略显著优于行业自身滞后收益和全部行业滞后收益回归基准。



| 策略 | 多头超额 | 空头超额 | 多空收益差 | 多空收益差显著性 | IC | IC显著性 | IC胜率 | IC IR |
|-------------------|----------|----------|------------|------------------|------|----------|--------|-------|
| 强关系网络 | 2.08% | -5.90% | 10.53% | 1.64 | 0.03 | 0.71 | 55% | 0.39 |
| 弱关系网络 | 7.61% | -9.22% | 17.79% | 3.64 | 0.02 | 0.41 | 55% | 0.22 |
| 行业自身滞后收益 | -0.73% | -2.06% | 0.89% | 0.12 | 0.05 | 1.14 | 52.5% | 0.62 |
| 全部行业滞后收益 | -1.86% | -2.83% | 0.80% | 0.12 | 0.03 | 0.91 | 55% | 0.50 |

总结 [page::29]

  • 利用行业滞后收益率结合机器学习的Post-Lasso方法有效提升行业收益预测效果。

- 结合知识图谱先验的客户-供应商关系构建的行业网络,显著提升行业轮动策略表现。
  • 弱关系网络策略优异,多空收益达到17.79%,明显优于传统基准。

- 该研究为行业轮动提供新型因子构建和变量筛选思路,具有较强的实用价值。

深度阅读

金融研究报告详尽分析:《机器学习和知识图谱在行业轮动中的应用》



---

1. 元数据与报告概览


  • 标题:《机器学习和知识图谱在行业轮动中的应用》

- 作者与机构:海通证券研究所金融工程部,分析师冯佳睿、梁镇、张振岗
  • 发布日期:2020年5月25日

- 研究主题:利用机器学习和知识图谱技术,探索行业轮动策略的实现路径与效果,提升行业收益的可预测性。

核心论点与目标



报告基于行业收益的滞后表现及行业间关联关系,结合机器学习中的Post-Lasso回归技术和客户-供应商关系构建的知识图谱,提出一种改进的行业轮动策略。研究发现,利用这些工具能够有效筛选关键行业变量,降低过拟合,显著提升策略收益表现。报告给出的Post-Lasso策略多空组合收益达11.57%,基于知识图谱的弱关系网络策略多空收益更高达17.79%,远优于传统模型。

[page::0, 1, 2, 29]


---

2. 逐章节深度解读



2.1 研究背景与理论基础



报告首先指出,行业轮动中通常依赖行业自身特征或外生变量进行收益预测,而此次从“相关行业滞后收益率”的视角切入,认为存在信息处理的时滞,致使市场价格调整延后,从而赋予滞后收益率预测价值。
  • 信息处理限制:当行业遭遇冲击,投资者不能即时充分消化信息,导致不同相关行业价格逐步调整形成“波及效应”。

- 理论依据:引用Hong et al. (2007)的研究,行业滞后收益率通过与目标行业未来收益回归构成预测模型。

现实问题是变量众多,导致传统OLS模型难以准确识别预测因子,存在过拟合和主观选择问题。

[page::1, 2]

---

2.2 方法与难点突破:机器学习和知识图谱技术


  • 机器学习方法:特别采用Lasso及Post-Lasso回归进行变量选择和降维,有效防止过拟合,提高预测准确性。

- 知识图谱引入:运用行业内部先验关系图谱(客户-供应商等产业链关联),辅助筛选高度相关变量,减少随机性。

这为后续构建稳定、高效的行业轮动预测模型提供了技术基础。

[page::2, 3, 4]

---

2.3 Post-Lasso方法细节与行业筛选结果



方法介绍


  • Lasso回归(L1正则化)通过在目标函数中加入参数λ的绝对值惩罚项进行变量筛选,挤压部分系数为零,简化模型。

- Post-Lasso:先用Lasso筛选变量,再用OLS精炼估计,解决Lasso系数过度收缩的偏差问题。
  • 参数λ通过信息准则AIC选取,规避k折交叉验证的波动和敏感性问题。


目标是从众多行业滞后收益变量中筛出对预测目标行业未来收益最有解释力的一组变量。

行业筛选


  • 统计2010年至2020年3月间各行业Post-Lasso筛出的相关行业数量,平均选择2.48个,不同行业差异明显。

- 电力设备及新能源行业被选择次数最高,平均达到9.24个,表明这些行业高度关联。
  • 银行和房地产等金融中介行业被普遍选中,反映其对多个行业资金链和产业链的重要影响。


相关的行业历史选择频度和次数表明,Post-Lasso除统计效应,更具经济合理性。例如银行和房地产被近十个行业多次选入。

[page::4,5,6,7]

---

2.4 未选择行业处理及填补策略


  • 部分回测期出现Lasso筛选出“0相关行业”情况。

- 处理方式:
1. 使用Lasso模型截距(行业收益均值)进行填补;
2. 采用行业自身动量(t-12到t-1平均收益率)填补。
  • 两种填补方案效果均较好,动量法表现略优。


[page::8, 9]

---

2.5 策略回测表现分析


  • 回测区间2010年至2020年4月,Post-Lasso模型结合动量填补策略多头年化超额收益5.36%,空头年化超额收益-6.38%,多空收益差11.57%,策略表现稳定且收益显著。

- 年度分解显示,除2011、2016年多空收益为负,整体策略获利能力良好,尤其2014、2015、2017及2019年表现突出。
  • 多头净值分层表现趋势稳健,表现最优的分组(Q5)净值大幅领先弱势分组。

- 多头与空头组合相对基准表现良好,多空策略波动控制合理。

[page::10, 11]

---

2.6 模型对比与敏感性分析


  • 对比Post-Lasso和传统Lasso模型,及动量填补和截距填补,发现Post-Lasso结合动量填补表现最优,多空收益差及IC指标显著高于其他方案。

- IC均值最高达0.073,IR近1,表明策略具有较强、稳定的预测能力。
  • 训练集长度敏感性结果显示,训练期越长,策略收益和IC均值提升明显,最长至144个月下表现最佳,策略稳定性和效益增强。

- 动量填补参数敏感性在N=6-12月间效果均优,表现稳健,充分考虑过去一段时间行业收益趋势有较强预测作用。

[page::12, 13, 14, 15]

---

2.7 与传统动量策略对比


  • Post-Lasso策略与传统行业动量因子之间相关低到中等(3个月0.26,6个月0.40,12个月0.56),说明该策略捕捉了比纯动量更丰富、更细致的行业关联信息。

- 多头净值表现显示Post-Lasso策略整体领先传统动量策略。
  • IC指标方面,Post-Lasso策略IC均值0.073,明显优于动量因子(均值均小于0.05),IR及胜率均高,显著提升预测有效性。


[page::16]

---

2.8 基于客户-供应商关系的行业网络构建


  • 由于投入产出表行业数据与上市公司行业分类难以完全匹配且更新滞后,采用基于FactSet数据库的A股上市公司客户-供应商关系信息构建行业知识图谱。

- 结合客户营业收入进行链路权重分配,映射生成行业投入产出表,从而计算拉动型(Pull)及推动型(Push)产业复杂网络。
  • 拉动型网络体现下游行业对上游行业的需求占比,推动型体现上游对下游贡献占比。

- 依据拉动/推动占比设定阈值,形成强关系(双向强关联)和弱关系(单向关联)产业网络结构。

[page::17, 18, 19, 20, 21, 22, 23]

---

2.9 知识图谱策略结果与对比


  • 网络生成结果显示,强关系网络每期平均选取2-3个相关行业,弱关系网络选取6-7个行业,行业选择相对稳定。

- 回测2017年至2020年4月,强关系网络多头年化超额收益约2.08%,空头为-7.61%,多空收益约10.53%,最大回撤10.18%。
  • 弱关系网络策略表现更优,多头年化超额高达8.06%,空头-9.22%,多空收益达17.79%,最大回撤控制在3.99%以内,风险更低。

- 与基准策略(行业自身滞后收益回归、全部行业滞后收益回归)相比,行业网络策略多空收益溢价明显,且多空收益显著性方面优于基准。
  • IC指标虽没有显著提升,但稳健的多空收益优异表明引入产业链知识图谱有效提升策略稳健性和收益质量。


[page::24, 25, 26, 27, 28]

---

2.10 风险提示



报告明确指出:
  • 因子失效风险——历史统计规律与实际市场情况会变化,模型效用可能下降。

- 模型假设风险——选择的模型及参数如何对应实际环境可能存在偏差。
  • 历史规律不代表未来——策略基于历史数据,存在逆转风险。


[page::30]

---

3. 图表深度解读



图1(page 1)



展示了行业因子池分为“慢变量”和“快变量”,相应因素包括基础面(预期基本面、历史基本面、公募基金观点)和短期变量(估价、情绪、宏观、高频因子)等。这一框架说明了行业因子的多时间频率和来源框架,为滞后收益率的选取提供理论基础。

图2(page 5)



“各行业Lasso平均选择相关行业数量”柱状图清晰显示电力设备及新能源行业相关行业被挑选次数最高,接下来是医药、电子、有色金属等;而计算机、农林牧渔、消费者服务等行业相关选择数较少。说明部分行业生态复杂度高,或关联产业链更长,对预测意义更大。

图3(page 10)



Post-Lasso策略的不同分组净值增长曲线明显分层,Q5最高表现远超Q1,显示模型成功识别了收益更好的行业组合。多头相对基准及多空对冲表现日渐拉开,验证策略可产生超额收益。

表格(page 11)



年度表现表明2010年初及2011年间有策略损失,多空收益负值,但随后表现稳步改善,2014年及2017-2019年表现尤为突出,说明模型随时间表现稳定且能应对市场不同阶段。

表格(page 12)



策略表现对比展示Post-Lasso与Lasso及填补方法间优势,Post-Lasso动量填补方案多空收益差11.57%明显优于其他组合,IR和统计显著性也领先。

图4和表格(page 16)



Post-Lasso与传统动量相关系数及净值对比图表揭示两者相关性中等且策略亮眼,说明Post-Lasso策略背后的信息包含动量因子之外的更多价值。

知识图谱网络图(page 20、21、24)



强关系网络与弱关系网络全产业链连通图,显示了具体行业间的双向或单向高度互联关系,体现产业生态中的复杂交互,为后续变量筛选和策略构建提供基础。

图5(page 25)



强、弱关系网络选取行业数量稳定,说明基于客户-供应商数据的网络工具产生稳健的行业联系指标。

图6和图7(页26-27)



策略多头对基准的超额累计净值图明显上升,且空头组合表现负向,验证行业网络构造的预测价值,弱关系网络策略表现更优且波动较小。

表格(page 28)



综合比较不同策略,多空收益差、显著性均优于单纯滞后收益回归,证明将知识图谱融入行业轮动模型显著提升有效性。

---

4. 估值分析



本报告主要集中于方法构建和策略回测,未涉及具体个股估值模型,例如现金流折现(DCF)等。策略的“估值”体现在因子模型筛选和回测中的收益风险指标,如IC、IR、因子胜率及多空收益等。

---

5. 风险因素评估


  • 因子失效:投资者需关注因子表现变化,因行业关联与市场机制可能随时改变。

- 模型假设错误:机器学习模型依赖历史数据假设,数据异常、异常市场事件等均可能导致模型偏误。
  • 历史与未来不一致:策略基于历史规律构建,未来市场结构、宏观环境等变化,存在表现不稳定的风险。


策略风险披露完整,提醒投资者谨慎对待策略表现。

---

6. 审慎视角与细微差别


  • 报告采用Post-Lasso降低过拟合风险,对比多种填补方法体现方案全面。

- 知识图谱基于客户-供应商关系,数据时效性与覆盖性优于传统投入产出表,改进明显,但对样本覆盖广度仍有依赖,行业分类的匹配仍有潜在主观调整空间。
  • 年度表现中2011、2016年多空为负,需注意市场极端情况下模型的稳健性挑战。

- IC指标虽显著但不算特别高(部分为0.03-0.07区间),表明行业轮动预测尚有改进空间。
  • 报告未涵盖交易成本和流动性影响,真实收益可能受影响。


整体而言,报告观点谨慎且有理有据,充分利用数据和先验知识结合,技术先进。

---

7. 结论性综合



本报告系统阐释了通过结合机器学习(特别是Post-Lasso回归方法)和知识图谱(基于客户-供应商构建的产业链网络)对行业轮动策略进行创新的思路与实践效果。具体亮点如下:
  • 机器学习方法优势:通过Lasso与Post-Lasso有效筛选滞后收益中的核心相关行业,避免传统OLS过拟合和主观选择,提高了行业收益预测的精度。

- 行业关联关系的知识图谱建构:基于FactSet内客户-供应商数据库,将产业链上下游关系量化为拉动型和推动型网络,进一步生成强关联和弱关联两类行业网络,优于单纯基于统计的行业选择。
  • 策略表现

- Post-Lasso模型结合动量填补实现多空收益11.57%,IC和统计显著性均良好,训练期加长策略表现递增。
- 知识图谱策略中,弱关系网络表现尤其出色,多空收益17.79%,最大回撤控制低,表现优于传统滞后收益回归。
  • 图表及数据支持

- 各类行业选择数量和历史被选频率展示了策略筛选的合理性和基于经济逻辑的行业间依赖关系。
- 策略收益和净值曲线体现了模型在实际市场中的盈利能力和风险控制水平。
- 敏感性分析确保策略稳健性,验证了训练长度和填补参数对策略指标的影响。

报告确认,通过融合机器学习与知识图谱能够显著提升行业轮动的预测效率和回报水平,为行业资产配置策略提供技术和理论依据。尽管存在因子失效、公允性和稳健性风险,整体研究为行业轮动领域的科研和实务提供了重要参考和创新路径。[page::0-30]

---

以上分析全面覆盖报告所有重要章节及图表,解释了方法学细节、关键数据含义、模型假设及预测逻辑,结合图表深刻解析了策略表现与优势,体现了报告的专业性和深度。

报告