研报&论文

金融科技(Fintech)和数据挖掘研究(七):基于机器学习和知识图谱的行业轮动-海通证券-20200721

由qxiao创建,最终由qxiao 被浏览 117 用户

摘要

研究背景

我们在之前的行业轮动系列报告中挖掘了几大类的行业因子,例如,量价、宏观、情绪面、高频因子、预期基本面、历史基本面、公募基金观点等。这些因子通常可以分为两类:行业本身的特征以及基于共同外生变量变动的行业预期收益,但这两类因子都没有考虑行业之间的关联性。因此,在本篇报告中,我们从另一个角度研究行业收益的可预测性:相关行业的滞后收益率。

理论基础

投资者处理信息的能力有限,当某个行业出现信息或冲击时,专门从事相关行业的投资者可能也无法迅速把握冲击的全部影响。因此,信息会逐渐在各个行业间扩散,导致不同行业的股票价格先后响应。这一现象构成了某些行业滞后收益率可以预测其他行业未来收益率的理论基础。

策略逻辑

采用除目标行业外其他行业的滞后收益率,与下一期目标行业收益率构建回归模型。如果只是使用普通最小二乘(OLS)选择全部行业进行回归,容易产生过拟合;如果只选择几个行业因子,又存在很强的主观性。为了解决这些不足,我们引入了机器学习和知识图谱两种方法。

基于Post-Lasso的行业轮动策略。模型包含两个步骤:

  1. 用Lasso方法筛选预测变量;
  2. 用上一步中的预测变量建立回归模型。在2010/1-2020/4期间,由此得到的行业轮动策略的多头年化超额收益为5.36%,空头年化超额收益为-6.38%,多空收益为11.57%。策略因子化后的IC为0.07,T值在3以上。


用客户-供应商关系构建A股行业知识图谱

我们将FactSet供应链数据中A股上市公司的客户-供应商关系,嵌入Input-Output网络,构建A股行业的知识图谱。利用知识图谱提供的先验知识,可以确定行业收益率的领先-滞后关系。

基于行业知识图谱的轮动策略

首先,在每个月末根据关系网确定每个行业的预测变量。其次,以24个月为窗宽,建立目标行业收益率和预测变量滞后收益率的线性回归模型。最后,预测最新一期的目标行业收益率。在2017/1-2020/4期间,由此得到的行业轮动策略多头年化超额收益为8.44%,空头组合的年化超额收益为-10.84%。多空收益为19.44%,最大回撤为10.53%。

正文

/wiki/static/upload/aa/aaa8549f-78ce-41b3-9a63-d43b4d2e7d5a.pdf

\

标签

数据挖掘机器学习
{link}