`

基于机器学习方法的两阶段因子择时

创建于 更新于

摘要

本报告基于机器学习的随机森林算法,构建了一个两阶段因子择时框架:第一阶段利用K-means聚类结合宏观变量预测市场状态,第二阶段基于市场状态划分筛选优胜因子。回测结果显示该策略在中证800及全A范围内均能超越基准和因子等权重组合,验证了因子择时的有效性。报告还重点分析了不同市场状态下因子收益率相关性变化及宏观变量的重要性,为因子择时提供理论与实证支撑。[page::0][page::3][page::4][page::6][page::20][page::25]

速读内容


因子择时的两阶段机器学习框架 [page::0][page::4]


  • 第一阶段通过K-means聚类对股指滚动最大回撤数据进行市场状态划分

- 利用随机森林算法结合16个宏观变量滚动预测市场状态
  • 第二阶段按预测市场状态划分数据集,基于随机森林预测每期优胜因子,实现动态因子加权


市场状态划分及宏观指标分析 [page::5][page::6][page::7][page::8][page::9][page::10]




  • 股指回撤数据聚类为4类市场状态:市场上升、正常时期下降、市场衰退、正常时期上升

- 采用SMOTE方法解决市场状态划分中的数据不平衡问题
  • 宏观指标涵盖通胀、经济增长、金融状况、信贷、市场情绪、汇率六大类

- 金融条件指数(FCI)和金融波动指数(Turbulence)被用作核心宏观变量指标

随机森林模型参数调优与市场状态预测效果 [page::10][page::11][page::12][page::13]




  • 采用网格搜索和5折交叉验证调优随机森林的树数、最大特征数、节点最小样本数和树深度

- 模型在过采样SMOTE处理后ROC_AUC达0.838,表现良好
  • 样本外市场状态预测显示市场上升期占比最高(约70%),衰退期最低(约7%)


因子相关性分析及优胜因子预测方法 [page::15][page::16][page::19]


| 市场状态 | 因子相关性趋势 |
|----------|----------------------------------|
| 市场上升 | 因子收益率间相关性显著降低,择时效果佳 |
| 市场衰退 | 因子相关性升高,择时效果较弱 |

  • 市值、波动率、动量、流动性分别构造8类股票风格因子组合

- 每期收益最高因子标记为优胜因子,用随机森林结合宏观变量预测其未来表现
  • 计算因子优胜概率作为策略中因子权重的动态调整依据


因子择时策略回测效果—中证800范围 [page::20][page::21][page::22]



  • 回测期间2020-2024年,策略累计收益19.02%,超基准21.30%

- 年化收益率为3.73%,夏普比率0.19,最大回撤27%
  • 因子组合中小市值、低波动、低流动权重最高,策略动态调整因子权重提升效果明显


因子择时策略回测效果—全A范围 [page::23][page::24]



  • 策略累计收益率30.18%,超基准约29.68%

- 年化收益率5.71%,夏普比率0.26,最大回撤26%
  • 高动量因子权重较中证800范围表现更突出,策略整体风险调整后收益改善明显


量化因子择时策略总结 [page::25]

  • 两阶段因子择时模型结合市场状态与因子收益,利用机器学习模型动态调整权重

- 因子择时在市场回撤较小状态表现更佳,策略在历史回测中有效击败基准及等权重因子组合
  • 策略受宏观经济环境及市场状态驱动,能够应对不同市场情形的因子表现差异

深度阅读

金融研究报告详尽分析——《基于机器学习方法的两阶段因子择时》



---

一、元数据与概览


  • 报告标题:《基于机器学习方法的两阶段因子择时》

- 作者/分析师:林宸星(华福证券研究所)
  • 发布机构:华福证券研究所

- 发布日期:2024年初至中旬(依据数据到2024年6月)
  • 研究主题:本报告聚焦于基于机器学习,尤其是随机森林算法,实现股票风格因子的择时,通过市场状态划分与优胜因子筛选,旨在提升多因子投资的收益表现,具体应用于中证800及全A市场范围。


核心论点与目标:报告主张,因子择时虽较因子挖掘困难,但采用两阶段机器学习框架,先划分市场状态,再基于市场分状态筛选优胜因子,可以实现显著的择时收益。最终回测结果显示,在中证800和全A范围内,因子择时策略均跑赢基准指数及因子等权重组合。

---

二、逐节深度解读



1. 理论概述


  • 多因子投资、因子择时理论

- 起点为经典的CAPM,发展至Fama-French三因子模型,及中国市场专有barraCNE5模型,引入广泛风格因子(市值、动量、增长等)。然而,多数研究仅聚焦因子挖掘及组合,因子择时因复杂性及预测难度较高而研究较少。
- 经济周期性择时理论(如美林投资时钟)为传统大类资产择时背景,因子择时则更细化到因子层面,核心在于寻找因子表现的驱动宏观或市场状态信号,实现权重动态调整。
- 持续关注学术验证,2023年等学者发现综合信号及将因子择时映射到股票层面效果更好,但单一信号难以奏效(动量和波动率信号除外)。报告基于此,将采用机器学习方法动态预测优胜因子。[page::3]

2. 策略框架


  • 两阶段框架概述

- 先决条件:市场状态在一定周期内稳定且不同市场状态下因子表现差异显著,体现为因子收益率相关性降低。
- 第一阶段:用K-means聚类基于滚动最大回撤划分市场状态;由宏观变量数据预测市场状态。
- 第二阶段:基于预测的市场状态,使用随机森林对因子优势进行分类打标,滚动预测各阶段优胜因子,动态调仓。
- 过采样技术SMOTE用于解决市场状态类别数据不平衡问题,增强模型训练。
- 策略后续回测对比中证800和全A指数范围,验证效果。具体框架见图表1[page::4]

3. 策略模型构建



3.1 第一阶段 — 市场状态划分与预测


  • 回撤数据及聚类方法

- 采用3个月滚动最大回撤作为唯一特征进行K-means聚类。
- K-means聚类优点是简单有效,理论适合单变量聚类,簇数量确定通过肘部法则,选定4类。
- 聚类结果划分4种市场状态:市场上升(占比49.79%,平均回撤-12.68%)、正常时期下降(占15.61%,回撤-30.49%)、市场衰退(占10.97%,回撤-40.8%)、正常时期上升(占23.63%,回撤-23.92%)。以上分布表明市场衰退状态样本较少,为不平衡数据[page::5-6]
  • 数据平衡与过采样(SMOTE)

- 解决样本不平衡对模型训练造成的偏差,SMOTE通过近邻插值生成新的少数类样本,从而平衡训练数据,提高分类能力。
- 原理:随机选取少数类样本,定位k近邻,生成在样本间连线上的新样本,增强少数类代表性[page::7]
  • 宏观指标选取

- 6大类指标:通胀(CPI、PPI)、经济增长(PMI等)、金融状况(金融条件指数、金融波动指数)、信贷(M1、M2、信用利差)、市场情绪、汇率。
- 选取月度数据且滞后2个月,例如2024年6月市场状态对应2024年4月数据,体现信息公布延迟。
- 金融条件指数包括多市场指标如利率、信贷成本、股市波动等,详见图表9、10。金融波动指数度量资产价格偏离历史均值的程度,反映系统性风险[page::7-10]
  • 市场状态预测模型—随机森林

- 随机森林通过集成多棵决策树,增强分类稳定性和准确度。
- 采用网格搜索结合5折交叉验证确定树数量、深度等参数,ROCAUC作为性能指标(适合不平衡分类)。[page::10-12]
  • 预测结果与变量重要性

- 经过SMOTE平衡后,模型ROC
AUC达到0.838,具备较好辨识力。样本外预测表明,上升市场占比最高(70.09%),衰退最低(6.84%)。
- 宏观变量类别重要性显示金融状况指标在末期相较基期提升显著,显示其对市场状态预测的核心作用[page::12-14]

3.2 第二阶段 — 因子优胜筛选与权重调节


  • 因子选择与编制

- 因子涵盖市值(大/小)、波动率(高/低)、流动性(高/低)、动量(高/低),均以指定股票范围内最低或最高1/10等权重构建月度因子组合。
- 每期计算因子收益率并进行打标,最高者为优胜因子(标记1),其他为0。
- 结合第一阶段市场状态,将数据划分子集,在每子集中递归训练随机森林预测优胜因子,计算滚动期优胜概率,形成动态权重依据。[page::14-15]
  • 因子相关性分析

- 验证因子择时的关键条件:不同市场状态下因子间相关性应较低。
- 数据显示,在回撤幅度较低的市场上升及正常上升期,中证800及全A范围因子收益率相关性明显降低,多数相关系数降至0.5-0.9之间,相关性减弱有利于择时效果。
- 但在市场衰退和正常下降期间,因子间相关性反而上升至0.9以上,说明此时因子表现趋同,择时效果受限。
- 总体相关性水平较高(0.7以上居多),特别是在中证800,由于成分股体量较小,市值因素影响显著,这限制了择时幅度和空间[page::15-18]
  • 滚动筛选因子过程

- 以滚动120个月窗口为例,结合市场状态和历史优胜因子数据,利用随机森林滚动预测样本外每期优胜因子。
- 利用优化的随机森林参数,计算因子的持续优胜概率,用于动态因子权重。
- 图表30、31展示中证800及全A因子优胜概率演变,体现不同风格因子随市场时机的动态优势。[page::19]

4. 策略回测


  • 回测方法概述

- 原则:先滚动预测市场状态,基于预测进行因子划分和优胜因子筛选,动态调整组合权重。
- 回测时间跨度2005-2024年,样本外期通常取决滚动长度,如用180个月滚动窗口,则样本外起点为2020年2月。
- 换手率假设0.05%,每月调仓。
- 回测指标包括累计收益率、年化收益、波动率、夏普率、Calmar比率、最大回撤等。[page::20]
  • 中证800回测结果

- 滚动期180月,策略累计收益19.02%,基准收益-2.28%,超额收益21.3%。
- 策略夏普率0.19优于基准-0.02,最大回撤27%显著优于基准38%。
- 年度表现中2021-2023年均保持正超额收益,2024年因政策性剧烈波动影响未能超越基准,反映模型对突发事件的局限。
- 当前因子权重以小市值、低波动、低流动为主,近期策略有所调仓倾向于增加低动量权重[page::21-22]
  • 全A回测结果

- 全A范围策略累计收益30.18%,基准0.5%,超额29.68%。
- 年化收益5.71%,夏普率0.26,表现优异,最大回撤22%,整体控制相对合理。
- 2021-2023均有显著正超额收益,2024年同样受政策调控影响,表现受限。
- 因子权重目前倾向小市值、低波动和高动量因子,10月调整体现低动量因子的权重提升[page::23-24]

5. 总结


  • 报告系统梳理了因子择时理论与机器学习实现路径,提出基于市场状态两阶段因子择时框架。

- 利用K-means(市场状态划分)、SMOTE(平衡数据)、随机森林(预测市场状态与优胜因子)、网格搜索交叉验证(参数优化)等技术,打造完整策略。
  • 验证因子择时前提条件理论,从宏观指标到因子收益率相关性分析清晰展示因子在不同市场环境下的表现差异。

- 回测显示两市场范围内策略均显著优于基准指数及因子等权重配置,尤其全A范围超额收益达29.68%。
  • 模型对宏观经济及市场状态稳定性假设有效,但对短期政策突发事件反应有限,反映机器学习择时策略的现实局限。

- 因子相关性偏高及市场衰退期择时困难,为未来研究指明提升空间——如扩充因子集、引入其他机器学习模型或衍生指标。

---

三、图表深度解读



图表1:策略框架图


  • 内容描述:分为两阶段。第一阶段通过股指回撤数据与宏观变量用K-means和随机森林划分预测市场状态。第二阶段基于市场状态对因子收益率打标,并用随机森林预测优胜因子。

- 意义:清晰展示了两阶段流程,强调市场状态预测为后续因子择时基础。
  • 联系文本:框架紧扣理论假设与策略实施细节,是全文核心内容图示。[page::4]


图表2-3:K-means聚类及簇类平方和


  • 内容描述:图2示意K-means通过质心迭代形成簇,图3展示不同簇数量对应簇内平方和,6-10簇减幅减少明显减缓,肘部明显选4簇。

- 意义:理论上证明4类分类合理性,支持划分市场状态。
  • 局限性:K-means只针对单一回撤特征,适合此处;但忽略多维特征潜在信息。[page::5]


图表4-6:滚动回撤与市场状态划分


  • 内容描述:图4显示原始回撤与分类状态对应,图5数据表定量展示不同簇中占比及平均回撤,图6饼图直观比例分布。

- 趋势:市场上升状态数量最多,衰退少,验证现实市场不平衡特征。
  • 结论:划分类别反映市场多样状态,符合经济常识。[page::6]


图表7:SMOTE示意图


  • 内容描述:展示SMOTE方法如何基于少数类样本和邻居插值新增样本点。

- 作用:缓解训练数据类别不平衡,提升模型泛化能力。
  • 局限性:潜在生成样本代表性受限,仍依赖原始样本分布。[page::7]


图表8-11:宏观指标及关键指数


  • 内容描述:详细列示宏观指标分类、频率、滞后;金融条件指数指标明细及时间序列;金融波动指数时间序列。

- 意义:宏观面多维数据为市场状态预测提供支撑,指标权重及其结构演变说明金融状况重要性提升。
  • 趋势:金融条件指数稳定下降,显示金融环境趋紧;金融波动指数峰值对应2008金融危机,反映风险波动。[page::8-10]


图表12-14:随机森林算法及调参流程


  • 内容描述:图12随机森林多树结构,图13网格搜索与交叉验证示意,图14随机森林主要参数解析。

- 解读:强化模型鲁棒性与性能,通过系统调参优化分类表现。
  • 联系文本:技术细节彰显模型设计合理性。[page::10-12]


图表15-16:样本外市场状态预测及分布


  • 内容描述:时间序列波动的市场状态预测值及比例饼图。

- 趋势:市场上升期显著占优,预测效果合理。
  • 联系文本:显示模型预测偏向反映真实市场走势。[page::13]


图表18:宏观指标重要性得分


  • 内容描述:六类宏观指标在基期和末期的重要性分布对比。

- 趋势:金融状况为末期核心指标,权重跃升至10.55%,显著高于其他类别。
  • 洞察:金融状况变化直接影响市场转折,适合作为短期状态预测关键。[page::14]


图表19:股票风格因子介绍


  • 描述:清晰列示八个风格因子,及其构建规则和调仓频率(月度)。

- 意义:构建明晰因子池为择时提供坚实基础。[page::15]

图表20-29:因子收益率相关性(不同市场状态)


  • 内容描述:多个表格展示不同市场状态下,中证800及全A范围内因子间相关系数。

- 趋势:回撤较小(市场上升、正常上升)时期相关性显著下降,回撤大时相关性升高。
  • 结论:因子择时有利环境是市场回撤幅度较小时。

- 附注:相关性高限制因子组合分散度,减弱择时策略潜力。[page::15-18]

图表30-31:因子优胜概率示例图


  • 描述:时间序列堆叠面积图,显示各因子组合优胜概率动态变化。

- 意义:反映因子优势随市场状态动态转换,是调仓决策重量依据。[page::19]

图表33-37:中证800策略回测相关图表


  • 内容:因子优胜概率(图33)、策略净值(图34)、风险收益(图35)、年化指标(图36)、因子权重动态(图37)。

- 结论:策略累计收益显著优于基准,夏普率和Calmar比率改善最大回撤,年度表现稳健。
  • 细节:2024年因突发政策影响表现波动,策略权重调低小市值,提升低动量因子。

- 体现:机器学习策略对结构性变化具备一定适应性,但对极端事件有限。[page::21-22]

图表38-42:全A策略回测及因子权重


  • 类似结构:因子优胜概率、净值、风险收益指标、年度收益及因子权重变动表。

- 表现优异:累计收益超30%,夏普率0.26,年化收益5.71%,持续超越基准,验证策略有效性。
  • 因子权重分布:以小市值、低波动、高动量为主,反映市场信号导向和风险偏好变迁。

- 年度表现波动同中证800,体现系统性风险影响。[page::23-24]

---

四、估值分析



报告主要聚焦策略框架和实证回测,并未涉及传统估值模型(DCF、P/E等)。其“估值”意义在于对策略效益进行风险调整后收益表现的定量分析与比较。通过风险收益指标(夏普率、Calmar比率、最大回撤)展示策略的有效性和稳健性,实为策略绩效评估。

---

五、风险因素评估


  • 模型风险:基于历史数据和数学模型,存在模型失效风险,特别是宏观数据滞后和突发事件难以捕捉,导致预测误差。

- 市场风险:市场状态变化加速或非典型,可能使聚类划分失效。数据不平衡调整带来的偏差仍可能影响预测准确度。
  • 因子相关性限制:因子间相关性较高限制策略多样化及择时幅度。

- 政策风险及极端事件:2024年回测中体现的政策驱动波动表明,模型对剧烈、突发因素敏感度低。
  • 缓解措施:采用SMOTE平衡数据,网格搜索优化算法参数,历史稳定市场状态假设保障策略有效性[page::0, 25, 27]


---

六、批判性视角与细微差别


  • 报告客观呈现了因子择时难度和局限,未出现明显乐观偏颇。

- 策略核心假设依赖市场状态的相对稳定与宏观变量的滞后有效性,实务中高频波动与突发政策变化可能使模型表现波动。
  • 相关性过高问题说明当前因子设计在选择上仍有优化空间,且报告未涉及交叉因子影响或进一步降维手段,可能影响权重动态灵活性。

- 以单一回撤特征划分市场状态较为简化,可能忽略其他市场结构性变化。
  • 报告中的回测期较长,已包含多周期验证,增加结论稳健性,但同时市场结构变化可能导致早期数据对于后期表现贡献有限。

- 未详细披露交易成本计算细节及交易滑点影响,可能使实际策略表现存在偏差。
  • 报告未展开因子择时失败时的资金保护机制,风险管理描述不详。


---

七、结论性综合



本报告通过构建基于机器学习的两阶段因子择时模型,搭建包括市场状态划分和因子优胜筛选两大核心流程,充分利用滚动回撤聚类和丰富宏观指标,结合SMOTE平衡数据和随机森林预测,系统实现了因子风格权重的动态调整。详实的因子相关性分析证实择时前提条件的存在,尤其回撤幅度较小时因子表现分歧增强,为择时策略带来有效切入点。

中证800和全A两个市场范围的实证回测显示,因子择时策略均实现对基准指数及因子等权重组合的超额收益,风险调整后性能稳定。其中全A策略效果更佳,累计超额收益达29.68%。策略在宏观金融状况变化及市场情绪的驱动下,能灵活调仓不同风格因子组合,增强组合表现的同时控制最大回撤。图表1、6、15、18、20系列以及回测净值和风险指标图表全面支持这一结论。

然而,由于因子间高相关性和市场突发事件预测的局限性,策略在市场衰退和政策剧烈调整时期表现受限,模型假设的市场状态相对稳定性及宏观滞后数据的适用性是有效性的核心前提。整体来看,报告从理论基础、模型设计、宏观指标筛选到实证验证均展现较强的专业深度和系统性,表明基于机器学习的两阶段因子择时在当前中国股票市场具备一定的应用潜力和竞争优势,但仍需持续优化提升,尤其针对突发事件的快速应变和高相关性因子的问题[page::0-25].

---

综述



此份报告通过详尽的机器学习与金融理论结合,提出并验证了一套面向中国市场的两阶段因子择时策略,完美贯穿理论、模型构建、数据处理、技术实现及实证回测,同时以丰富图表支持核心论断,且审慎指出风险。报告内容深入且全面,适合对机器学习应用于量化择时感兴趣的金融专业人士阅读,具有较高的实务参考价值和研究意义。

---

(完)

报告