`

基于相关性的行业轮动模型 计量经济+机器学习

创建于 更新于

摘要

本报告基于行业间滞后月度超额收益的相关性,采用Adaptive LASSO及充分预测向量方法构建行业轮动收益预测模型。通过统计学习与机器学习方法,提升模型预测能力和解释度,回测期2004-2019年,量化策略显著优于沪深300基准,累计超额收益达213%,夏普比提升至0.70,最大回撤显著降低,展现行业相关性在轮动策略中的应用价值与有效性[page::0][page::4][page::16][page::17][page::18]

速读内容


行业相关性与轮动现象分析 [page::3][page::4]

  • 行业间存在显著的滞后超额收益相关性,反映经济联系及投资者均值回归行为。

- 采用28个申万一级行业月度数据,利用Adaptive LASSO回归模型揭示行业间交叉预测关系。
  • 相关性不仅限于上下游,互联网等新经济推动跨行业影响扩大。


Adaptive LASSO方法应用与结果 [page::5][page::6][page::7]


| 行业 | 最大R²(%) | 主要显著预测行业 |
|-------------|------------|--------------------------------------------------|
| 公用事业 | 16.15 | 采掘(-0.13*), 休闲服务等 |
| 交通运输 | 13.94 | 房地产负相关,多项行业正相关 |
| 非银金融 | 9.85 | 房地产(正相关) |
| 计算机 | 0.88 | 关联性较弱,预测力不足 |
  • Adaptive LASSO筛除共线性,凸显行业间正负向复杂关系。

- 建筑装饰对多个制造业行业有显著正向预测贡献,房地产与多个行业呈负相关。
  • 大多数行业月度R方显著大于学术界经济意义阈值0.5%。


充分预测向量建模及增强预测性能 [page::11][page::12][page::13][page::14]

  • 针对Adaptive LASSO低R方(如计算机行业0.88%),引入切片逆回归(SIR)构造充分预测向量。

- 充分预测向量利用被预测行业收益信息,实现有监督降维。
  • 使用充分预测向量后,多数行业R方大幅提升,如农林牧渔行业由1%提升至10.10%,计算机行业提升至6.18%。

- 2019年2月28日各行业未来一个月收益预测如下:

| 行业 | 预测收益率(%) | R²(%) | 行业 | 预测收益率(%) | R²(%) |
|------------|---------------|---------|------------|---------------|---------|
| 采掘 | 0.05 | 38.87 | 国防军工 | -0.01 | 17.49 |
| 纺织服装 | 0.05 | 40.02 | 交通运输 | -0.02 | 36.25 |
| 食品饮料 | 0.04 | 41.92 | 建筑材料 | -0.02 | 50.56 |
| 非银金融 | 0.03 | 59.62 | 建筑装饰 | -0.02 | 29.45 |
| 银行 | 0.03 | 31.85 | 轻工制造 | -0.02 | 39.41 |
| 房地产 | 0.02 | 33.53 | 有色金属 | -0.03 | 32.04 |
| 农林牧渔 | 0.01 | 30.88 | 综合 | -0.04 | 42.42 |
| 商业贸易 | 0.01 | 33.44 | 医药生物 | -0.04 | 26.82 |
| 化工 | 0.00 | 33.95 | 通信 | -0.05 | 39.49 |
| 钢铁 | 0.00 | 46.46 | 机械设备 | -0.06 | 32.44 |
| 公用事业 | 0.00 | 30.71 | 休闲服务 | -0.06 | 38.87 |
| 电气设备 | 0.00 | 42.52 | 传媒 | -0.06 | 39.22 |
| 家用电器 | 0.00 | 38.63 | 电子 | -0.07 | 30.13 |
| 汽车 | -0.01 | 43.25 | 计算机 | -0.11 | 34.69 |

量化轮动策略实证回测绩效 [page::0][page::17][page::18]





| 指标 | 沪深300 | 多头 | 空头 | 多-空 |
|------------|-------------|------------|------------|-------------|
| 累计收益率 | 245.74% | 850.55% | 197.32% | 213.03% |
| 年化收益 | 9.06% | 17.05% | 7.92% | 8.31% |
| 夏普比 | 0.33 | 0.56 | 0.28 | 0.70 |
| 年化波动率 | 27.49% | 30.53% | 28.67% | 11.85% |
| 最大回撤 | 72.30% | 71.32% | 72.32% | 21.00% |
  • 回测区间2004年10月-2019年7月,采用50个月历史窗口动态估计预测模型。

- 每月末调仓,选取预测前五行业做多,后五行业做空,实现对冲轮动策略。
  • 策略显著超额收益且风险控制优于基准。


理论意义及模型创新 [page::9][page::10][page::11]

  • 通过数学推导,阐述低R²值的统计模型仍具经济学意义,且R²需超过行业夏普比平方(约4%)方显有效。

- 充分结合统计学习Adaptive LASSO与切片逆回归技术,解决高维预测中变量选择与维度灾难问题。
  • 结合机器学习降维特征和因子模型,提升行业收益预测准确度。

深度阅读

基于相关性的行业轮动模型 — 计量经济+机器学习研究报告详解分析



---

一、元数据与概览


  • 报告标题:基于相关性的行业轮动模型 — 计量经济+机器学习

- 作者:包赞
  • 机构:浙商证券研究所

- 联系方式:baozan@stocke.com.cn,TEL: 021-80108127
  • 发布日期:2023年(具体日期未详)

- 研究主题:基于行业间滞后收益相关性,通过统计学习方法对中国申万28个一级行业超额收益进行预测,设计行业轮动策略,利用AI化的充分预测向量提升预测准确率,实现收益优化。

该报告核心论点是:
  • 行业间存在滞后相关性,适当建模这些相关性能提升单行业收益的预测能力。

- 传统回归因共线性和样本维度问题导致预测效果不佳,采用Adaptive LASSO和切片逆回归(SIR)方法(即构造充分预测向量)可改善。
  • 实证回测结果显示,基于充分预测向量的行业轮动模型,策略具有较沪深300更优的累计收益、夏普比率和控制风险方面表现。

- 重点强调投资从现象出发探索统计规律,无需追求复杂的“本质”因果。

整体来看,报告结合了现代高维稀疏回归技术与经济学行业相关理论,提出实用的行业轮动策略建模思路并验证了其有效性。[page::0,3,17]

---

二、逐节深度解读



2.1 研究背景与引言


报告开篇明确了行业轮动的复杂性,提出用“领先相关性”来刻画行业轮动,即行业间超额收益滞后值对另行业超额收益的预测作用。该相关性既可能因经济联系(如上下游关系),也可能因交易者的均值回复心理因素导致(投资者“轮动”从高涨行业转向相对低估行业)。作者强调投资只需发现且利用规律,无需把握本质,引用哲学家胡塞尔“现象反映本质”。此外,基于Cohen和Frazzini等学者的跨行业预期溢价文献,拓宽了行业联系概念涵盖经济联系之外,纳入更广泛的信息扩散视角。实际模型框架以所有行业滞后超额收益为因子进行回归预测,但样本维度和共线性问题突出,选择Adaptive LASSO予以解决。[page::0,3]

2.2 Adaptive LASSO回归与行业相关性揭示


具体回归模型为

$$
r{i,t+1} = ai + \sum{j=1}^N b{i,j} r{j,t} + \varepsilon{i,t+1}
$$

其中$r{i,t}$为行业$i$的超额收益,$N=28$个行业。传统OLS存在多重共线性,估计不稳,Adaptive LASSO采用带权重的$\ell1$惩罚实现变量自动剔除和估计无偏性(Oracle属性)。其回归方程中权重依据OLS系数大小逆向确定,重要变量惩罚较小。报告详细展示了Adaptive LASSO回归结果(表2),显著变量的正负系数揭示复杂的跨行业相关性。例如,建筑装饰行业滞后收益对电气设备、轻工制造等有正贡献,房地产行业对非银金融表现负相关,符合房价上涨挤出效应等经济直觉。

该自变量稀疏化使模型兼具解释力和稳健性,虽然月度超额收益的R²不高均小于20%,但大多数显著超过文献中9%以下即可认定的经济预测门槛,证明行业间滞后收益有重要信息含量。报告也针对R²问题设立专门章节讨论其经济含义。[page::4,5,6,7]

2.3 行业轮动现象总结(表3)


进一步归纳显著正负相关行业,确认建筑装饰的领先效应极为显著影响多个制造类行业,房地产对医药生物和机械设备呈负贡献,符合宏观产业逻辑。交通运输、公用事业和通信被房地产、休闲服务负相关覆盖,反映一些行业在资金流动中的替代关系。此表体现了Adaptive LASSO挖掘的交叉行业关联矩阵框架,为后续构建充分预测向量提供基础数据支持。[page::8,9]

2.4 R²大小合理性理论框架


报告用效用最大化理论论证了小R²仍有经济意义。假设单资产超额收益由均值和一个预测因子$xt$组成,效用函数为均值减风险(按风险厌恶系数$\gamma$调节)。通过一阶最优条件推导权重表达式,进而推导以$xt$为自变量情况下预期超额收益比不使用该变量时多出一项关于R²和Sharpe比($S$)的函数。结论为:当行业指数的预测变量R²超过其夏普比率平方(约4%)时,预测变量就是有价值的,能够有效提升资产配置效用,强调R²低并非否定预测能力。该理论在经济和金融文献中均属创新且实用。[page::9,10,11]

3.1 充分预测向量介绍


鉴于Adaptive LASSO局限性(部分行业预测R²非常低如计算机行业0.88%),引入切片逆回归(SIR)生成充分预测向量,属于监督降维技术,聚焦于被预测变量的信息,构造多个线性组合主成分,将原始高维变量映射到解释能力更强的低维空间,显著提高预测性能。以农林牧渔行业为例,采用SIR后R²从1%左右跃升至10.1%,计算机行业R²亦提升至6.18%。[page::11,12,13]

3.2 充分预测向量计算流程详解


报发表格系统列举了各行业充分预测向量对应各行业系数和T值,直观提供变量在构成预测主成分中的贡献比例。报告详述SIR的算法实现:标准化数据,划分切片,计算切片间和切片内协方差矩阵,通过广义特征值问题求解关键特征向量,实现最大化切片间协方差方差解释。该过程保证了高维数据的变量筛选聚焦于预测目标最相关信息,显著提高预测效果和模型稳定性。[page::14,15]

3.3 预测模型构建与AI化算法设计


基于因子模型,描述了行业因子载荷向量及误差项的因果关系,强调预测目标通过对因子数据的充分预测向量降维映射形成。预测算法步骤包括因子提取、标准化、构建条件协方差矩阵、特征向量提取,最终通过线性回归对未来行业超额收益进行预测。该过程与深度学习深层结构类似,实现多层非线性映射,图示体现了复合降维及特征提取路径,帮助理解预测策略的机器学习背景与方法论基础。整个预测框架是跨行业相关性信息的有效利用与人工智能技术的融合创新体现。[page::16,17]

4. 实证分析和策略回测


基于2000-2019年申万28个一级行业数据,且考虑样本从2004年10月以历史50个月为滑动窗口估计参数后进行回测,推演每月行业超额收益预测,择优选择收益预测排名前五的行业做多,后五做空。回测区间长达近15年,兼顾多轮行情周期。
  • 指标表现


| 指标 | 沪深300 | 多头 | 空头 | 多-空 |
| -------------- | ------- | ------- | ------- | ------- |
| 累计收益率 | 245.74% | 850.55% | 197.32% | 213.03% |
| 年化收益率 | 9.06% | 17.05% | 7.92% | 8.31% |
| 夏普比率 | 0.33 | 0.56 | 0.28 | 0.70 |
| 年化波动率 | 27.49% | 30.53% | 28.67% | 11.85% |
| 最大回撤 | 72.30% | 71.32% | 72.32% | 21.00% |
  • 多头策略收益显著领先沪深300指数约9倍累计收益,空头组合略逊于指数,但多-空对冲组合表现较好,夏普比率达到0.7,远超指数0.33,显示模型具有良好风险调整收益。多-空组合年化波动显著降低,最大回撤显著减小至21%,风险控制效果突出。

- 策略累积收益图和对冲组合图进一步直观展示了该轮动模型策略的优势和稳定性,尤其在2006-2008、2014-2016等大震荡期均实现超额收益。[page::0,17,18]

---

三、图表深度解读



图表1:计算流程AI化展示(页面0/16)


图示为因子收益到充分预测向量,再到最终预测的流程。上部蓝点表示28个行业的月度超额收益($r{1t}, \ldots, r{6t}$表示部分行业),经若干线性映射(回归系数由Adaptive LASSO得出)聚合为因子主成分$f{1t}, ..., f{5t}$。进一步降维为充分预测向量如$\phi1' ft$,作为线性预测的输入。整体流程像多层神经网络,体现降维和变量选择的AI思想,将多行业信息浓缩表征为预测因子。该设计提升了传统因子模型解释能力,兼顾了机器学习的预测优化思想。[page::0,16]


表1:申万一级行业风险收益指标(页面4)


表格涵盖28个行业2000年-2019年期间月度收益的年化均值、波动率、最大最小月收益和夏普比。
  • 食品饮料行业平均月度收益最高(17.38%年化),波动率仅27.6%,夏普比0.52高居榜首,表明其优质稳健的盈利能力和风险控制。

- 公用事业平均收益最低(7.45%),风险较低,夏普只有0.16,反映其相对保守定位。
  • 大多数行业平均月收益在8%-16%之间,波动率多在28%-38%,表现差异明显。该表为后续轮动构建风险收益分析提供基础。[page::4]


表2:Adaptive LASSO回归结果(页面6-8)


表格为28×28矩阵,行列分别对应预测与被预测行业。非零系数表明自变量行业滞后超额收益对因变量行业下月收益的预测意义。星号表示统计显著性。
  • 大量系数为0,体现稀疏性,降维作用明显。

- 如建筑装饰对建筑材料、轻工制造、纺织服装均有正向重要影响(均带*),说明建筑装饰行业波动具有领先作用。
  • 部分系数负值,例如房地产对医药生物和机械设备系数为负,体现资金挤出效应。

- 该稀疏模型成功减轻共线性影响,获得经济上合理的跨行业依赖结构。[page::6,7,8]

表3:行业相关性总结(页面9)


抽象为正负相关主要变量,进一步简化表达跨行业影响的方向性。重点突出建筑装饰对多个行业领导效应、房地产和休闲服务对部分行业负相关关系。该总结进一步验证了Adaptive LASSO的发现,有助研究者快速把握行业互联网络结构。[page::9]

表4与表5:充分预测向量系数(页面12-13)


详细列出切片逆回归方法计算的农林牧渔(表4)和计算机行业(表5)充分预测向量的组成权重。各列表示不同的主成分,有显著统计的系数区域表明若干行业对主成分贡献较大。该细节体现了机器学习降维的实现细节与对行业间复杂动态关系的精细把握。[page::12,13]

表6:20190228行业超额收益预测与R方(页面14)


展示某时点对28个行业未来一个月超额收益的预测值及相应R²,R²从17.49%(国防军工)至59.62%(非银金融)不等,说明有效解释变量的差异,对非银金融等行业预测能力尤强。该表验证预测模型普遍能捕捉大量有效信号,适合实盘策略开发。[page::14]

表7:回测指标(页面17)


已经详细解读见前文。多头组合显著优于沪深300,空头略逊,整体对冲策略表现最佳,具有稳定性和风险控制能力。[page::17]

图2与图3:累积收益曲线(页面18)

  • 图2展示多头、空头及沪深300指数从2004年起的累计收益,明显看到多头策略涨幅显著领先,持续保持高收益水平,空头收益略逊于沪深300,但多头壮大优势明显。

- 图3为多头与空头的对冲组合累积收益,呈稳步上升趋势,最大回撤小于单边持仓,说明模型在风险盈余平衡方面表现出色。视觉上验证了策略的稳健性和实用性。[page::18]

---

四、估值分析



本报告为量化模型与策略设计性质,估值分析并非核心,报告未做单独的公司估值或市场估值推导。重点突出算法预测准确率提高与策略回测成绩。估值指标转化为基于夏普比率和风险调整收益的投资绩效评价,而非DCF或P/E股价估值。该方法符合量化投资研究范畴的合理定位。[page::0-18]

---

五、风险因素评估



报告在有限篇幅内未专门列明风险因素,但从模型结构及回测结果可推断若干隐含风险:
  • 模型稳定性风险:Adaptive LASSO依赖历史数据及窗口长度,报告指出样本长度不同带来结果差异,模型参数需动态调优改善。

- 经济结构变化风险:行业关系随政策、技术变迁动态调整,过度依赖历史相关性预期未来可能失效。
  • 极端市场冲击风险:如2008金融危机、2020疫情等非线性风险不一定被线性预测模型捕捉。

- 样本外有效性风险:回测区间至2019年,未来市场可能出现不同轮动格局。
  • 策略交易成本及滑点风险:行业轮动策略调仓频繁,未明确考虑交易成本,实际收益可能受影响。


报告提及会在后续研究中改进动态参数调整,部分说明对上述风险有所认识并寻求缓解策略。[page::0,17]

---

六、批判性视角与细微差别


  • 报告强调利用统计现象代替本质,但没有深入探讨因果机制,可能导致对行业动态理解浅显。

- Adaptive LASSO R²较低,虽有理论解释,但统计显著性和预测效果仍受限制,尤其对部分行业如计算机,预测信号较弱。
  • 切片逆回归提升的模型复杂度也带来过拟合风险,报告未明确展现其模型的稳健性检验。

- 相关系数和系数正负虽多符合经济常理,仍有较多“不明原因”联系,提醒需谨慎解读。
  • 没有覆盖交易成本、资金容量等实盘交易限制,策略实现可行性需实证补充。

- 报告对机器学习算法介绍的数学细节较多,实盘操作时参数调优和数据清洗等问题未详述。
  • 建议未来专题分析不同经济周期内模型表现,增强预期的适应力和鲁棒性。


总体而言,报告谨慎而全面,科研与应用兼顾,体现稳健务实的研究态度。[page::4-16,17]

---

七、结论性综合



浙商证券包赞研究员基于申万28个一级行业月度超额收益数据,构建基于高维自回归框架的行业轮动预测模型,通过改进的Adaptive LASSO实现变量筛选和行业间滞后收益相关性的稀疏表达,揭示了行业间复杂关联结构。为克服低R²及共线性问题,进一步采用切片逆回归监督降维算法生成充分预测向量,显著提高了单行业收益率的预测能力,部分行业R²从不足1%提升至近6-60%。基于该预测模型设计的行业轮动策略在2004年至2019年的长周期回测中表现优异,累计收益率超沪深300指数3倍以上,且对冲组合夏普比率达0.7,最大回撤控制在21%以内,显示出较强的风险调整能力和策略稳健性。

报告逻辑清晰,理论与实证结合充分,创新性地融合统计学习与量化投资,实现了一套基于行业相关性投资的新思路。图表详实,数学模型与计算流程透明,便于复制和验证。附带的R代码支持实现并验证该研究结论。

值得关注的是,作者对R²低的经济含义进行了深入阐述,缓解了该指标带来的疑虑,提升对模型解释力的信心。模型虽存在一定局限,如对冲成本与极端风险未充分覆盖,但整体框架为行业轮动量化策略提供稳固基础和发展空间。

总体而言,报告为投资者提供了一种侧重行业相关性和机器学习优化的轮动策略构建方法,对于理解股市行业间动态传导及构建高效多空对冲组合有重要借鉴意义,投资评级建议基于报告后续指引,保持谨慎乐观态度。
[page::0-18]

---

参考文献摘录(核心模型与理论支持)

  • Fan et al. (2017):切片逆回归的充分预测方法

- Zou (2006):Adaptive LASSO及其无偏性(Oracle properties)
  • Cohen & Frazzini (2008)以及Menzly & Ozbas (2010):行业间信息扩散对股市预测的贡献

- Campbell & Thompson (2008):月度收益预测的经济意义与模型$R^{2}$的阈值解释[page::1,3,5,9,11]

---

图表汇总(部分关键图示)



| 图表编号 | 内容描述 | 说明 | 文件路径 |
| -------- | ---------------------------------------- | ------------------------------------------------------------ | ---------------------------------------- |
| 图1 | 预测流程AI化示意。因子超额收益到充分预测向量的映射示意。 | 展示了多层降维回归及线性组合形成预测因子的过程,体现机器学习思想。 | |
| 图2 | 各组合(多头、空头、沪深300)累积收益对比图 | 从2004年开始的收益曲线,多头明显领先指数,空头略逊,体现模型预测优异。 | |
| 图3 | 多头-空头对冲组合累积收益图 | 显示了风险调整后的策略收益稳健,最大回撤较低,风险控制良好。 | |

---

综上所述,浙商证券的本报告对基于滞后相关性的行业轮动进行了系统深入的定量研究,兼顾理论创新和实操回测,提供了有效的多行业收益预测和轮动策略实现路径,对于金融机构和量化交易团队均有较高参考价值。

报告