`

股票多因子系列(三):机器学习在多因子组合中的应用

创建于 更新于

摘要

本报告系统介绍机器学习在多因子选股模型中的应用,涵盖监督学习多种算法如线性回归、逻辑回归、支持向量机及集成学习算法,并基于沪深A股2010-2024年数据进行89个因子的滚动训练和分层回测。结果显示,线性回归模型表现最佳,非线性高斯核支持向量机多空组合年化收益率及夏普率领先,且非线性模型在回撤控制方面优于线性模型,适应市场风格变化更快。分析指出,过大的组合规模、有限的滚动训练长度及市场风格稳定期线性模型优越性是当前模型表现的驱动因素,为后续研究提供方向[page::0][page::14][page::19][page::34][page::35]。

速读内容


机器学习算法分类与定义 [page::4][page::5]



  • 机器学习分为监督学习、无监督学习、半监督学习和强化学习。

- 监督学习中有回归和分类算法,后文以监督学习中的多种算法为重点。
  • 解释过拟合及常见交叉验证方法,指出金融时间序列数据适用时序交叉验证。


过拟合问题及时序交叉验证机制 [page::6][page::7]



  • K折交叉验证可能引入未来信息,时序交叉验证避免未来信息泄露。

- 时序交叉验证适合金融时间序列的模型训练与验证。

线性模型介绍及正则化方法 [page::7][page::9]


  • 线性回归与最小二乘法求解。

- 岭回归、Lasso回归、弹性网中的正则化项作用及区别。
  • 图示三种约束集的几何形状,说明Lasso具备变量筛选功能。


支持向量机及核函数介绍 [page::10][page::11]


  • 支持向量机定义及最大间隔原理。

- 线性核、多项式核、高斯核等核函数介绍,提升非线性拟合能力。

集成学习方法(袋装法与回归提升)[page::12][page::13]




  • 介绍随机森林等袋装法。

- 梯度提升方法(Boosting)与XGBoost算法精要。

因子选择与数据预处理 [page::14][page::15][page::16]



  • 选取沪深A股因子,剔除停牌及ST股。

- 因子极端值处理、缺失值填充、Z-Score标准化、行业市值中性化和PCA正交化。
  • 数据处理确保因子量纲统一和信息净化。


滚动训练及回测方法 [page::15][page::16]

  • 每12个月滚动训练,采用分层回测方法,分为10个组合组别。

- 采用多空组合净值及多种因子有效性指标(RankIC均值与IR、年化收益、夏普比率等)作为绩效评估。

线性模型表现优于带惩罚项模型 [page::19][page::20][page::21][page::22][page::23]



  • 线性回归模型纯多头年化收益20.65%,多空组合年化收益10.35%,夏普1.96,单调性0.99,表现最佳。

- 加入正则化的岭回归、Lasso及弹性网效果均不如普通线性回归。
  • 杠杆率和回撤分析表明,2015年出现偏离,反映市场非平稳性风险。


非线性模型评析:逻辑回归及集成学习 [page::26][page::27][page::28][page::29][page::30]





  • 逻辑回归表现略弱于线性SVM,具备较好回撤控制能力。

- 集成学习中XGBoost、LightGBM优于随机森林,表现稳健,回撤低。
  • 多空组合收益均低于线性回归,但在风格变动期表现更稳定。


非线性核支持向量机表现最优 [page::31][page::32][page::33][page::34]



  • 高斯核支持向量机多头年化收益20.08%,多空组合年化收益12.37%,夏普2.23,综合表现最佳。

- 多项式核与Sigmoid核表现逊于高斯核,但非线性核模型整体优于集成学习。
  • 非线性核可自适应非线性映射,有助于捕捉复杂的因子与收益关系。


模型表现总结与研究展望 [page::34][page::35]

  • 线性回归最优线性模型,惩罚项模型改进有限。

- 非线性高斯核SVM优于其他非线性模型,表现更稳健,回撤更低。
  • 市场风格平稳期线性模型优异,风格变动期非线性模型优势明显。

- 现有模型训练期限短,持仓规模较大,未来需优化滚动训练长度和持仓规模,深化机器学习研究。

深度阅读

江海证券金融工程研究报告详尽分析——“股票多因子系列(三):机器学习在多因子组合中的应用”



---

1. 元数据与报告概览


  • 标题:股票多因子系列(三):机器学习在多因子组合中的应用

- 作者与机构:江海证券研究发展部,金融工程研究组,分析师梁俊炜、联系人朱威
  • 日期:2024年9月12日

- 主题:应用机器学习方法,特别是多种监督学习算法,构建和比较股票多因子组合模型的预测能力,探索机器学习在多因子股票投资中的实用性与优势。
  • 核心观点

- 机器学习方法(尤其监督学习)可通过对大量股票因子数据的训练,实现对未来股票收益的预测。
- 线性回归模型在多因子预测中表现优秀,纯多头年化收益20.65%,多空组合年化收益10.35%,夏普率1.96。
- 高斯核支持向量机(SVM)在非线性模型中表现最优,纯多头年化收益达20.08%,多空组合年化收益12.37%,夏普率2.23。
- 非线性模型相较线性模型,对回撤控制更有优势,尤其在市场风格波动较大时。
- 滚动训练和分层回测方法为实证研究的主要实施方式。
  • 风险声明:数据风险、模型风险、历史回测不代表未来收益,报告仅作研究参考不构成投资建议。


---

2. 逐节深度解读



2.1 机器学习基本概念与算法分类


  • 机器学习定义:计算机通过观测数据学习规律,并对未知数据进行预测。示意图(图1)表达了机器学习的输入(样本数据和新变量)经过学习算法得到预测函数和预测值的流程。

- 分类:监督学习(带标签,进一步分为分类和回归)、无监督学习(无标签,探索数据结构)、半监督学习(少量标注+大量无标注)、强化学习(与环境交互获得累积奖励)。示意图(图2)列示各类典型算法,如线性回归、决策树、支持向量机、神经网络等。
  • 过拟合问题是重要挑战,过拟合意指模型过度拟合训练数据的噪声,泛化能力差。常用策略包括留出法、K折交叉验证、留一法等(图3示意K折交叉验证)。

- 金融数据的时间序列特点导致传统K折交叉验证可能引入未来数据,时序交叉验证(图4)通过时间顺序训练验证,避免数据泄露。

2.2 机器学习算法介绍



2.2.1 线性回归及带惩罚项回归


  • 线性回归模型假设因变量与自变量线性关系,用最小二乘法估计回归系数$\hat{\beta}$。

- 在高维数据下,常出现矩阵不满秩,普通OLS不可行,因而引入正则化手段:
- 岭回归(L2范数惩罚)通过收缩系数减少过拟合,但不抑制某些系数为零。
- Lasso回归(L1范数惩罚)能产生稀疏模型,系数可为零,具变量筛选功能。
- 弹性网结合两者优点,对变量相关性高时更稳定(图5展示三者的约束集形状)。

2.2.2 逻辑回归


  • 针对分类问题(标签为0或1),用逻辑函数将线性回归值映射至[0,1]概率空间,模型基于极大似然法训练。(图6展示逻辑密度和累积分布函数)


2.2.3 支持向量机(SVM)


  • 目标是找到最大间隔的线性或非线性分隔超平面。图7展示了间隔概念和支持向量。

- 核函数解决非线性问题,常用核包括线性、多项式、高斯(RBF)、拉普拉斯、Sigmoid核。

2.2.4 集成学习


  • 结合多个弱学习器提升预测能力。

- 袋装法(Bagging):并行训练多个决策树,取平均或投票(图9)。随机森林即采用袋装法加特征随机选择。
  • 提升法(Boosting):串行训练,每一步基于前一步残差调整(图10),XGBoost为优秀实现,优化目标函数、正则化和高效率。


3 机器学习方法实践


  • 时间跨度:2010年1月至2024年7月,剔除ST及停牌股。因子筛选89个,涵盖基础类、情绪类、成长类等多维度因子(详见表2及16页内容)。

- 因子处理包括极值截断(3倍中位数绝对偏差MAD)、缺失值均值填充、Z-score标准化、行业市值中性化(剔除行业及市值影响)、PCA正交化以降低因子间相关性。
  • 模型训练采用滚动训练+时序交叉验证。回归算法用过去12个月特征预测未来收益;分类算法用收益前后20%标注标签。图12展示滚动训练逻辑。

- 输出结果按因子预测值进行分层回测,构建多头、空头及多空组合,主要指标包括RankIC均值(>2%有效)、RankIC_IR(>0.4稳定)、年度收益率、夏普率及单调性等(详表1)。

3.1 线性模型表现


  • 线性回归作为基线模型,表现最好,纯多头年化收益20.65%,多空组合10.35%,夏普率1.96,分层单调性0.99,表明预测分组收益稳定单调(图13-14,表3-4)。

- 加入惩罚项的岭回归、Lasso、弹性网表现下降,尤其弹性网多空组合收益甚至为负(表5-6,表7-8,表9-10,图15-20)。这可能因为因子已正交化,正则化收缩影响了信息释放,且过大持仓规模(10%市场规模)导致成本及收益压缩。
  • 2015年2月市场回撤明显,线性模型短期失效,显示模型对市场结构突变敏感。

- 线性支持向量机表现与线性回归相近,年化多头收益稍低17.21%,但风险控制稍好(图21-22,表11-12)。

3.2 非线性模型表现


  • 逻辑回归表现与线性支持向量机相近,夏普率略低但控制回撤稍好(图23-24,表14-15)。

- 集成学习模型中随机森林表现最差,多空组合收益5.64%,XGBoost和LightGBM表现接近且优于随机森林,多空组合收益分别为8.41%和8.63%,夏普率相邻(图25-30,表16-21)。
  • 非线性支持向量机中,高斯核表现最佳,纯多头收益达20.08%,多空组合收益12.37%,夏普2.23,明显优于其他核函数(多项式、Sigmoid)及集成学习模型(图31-36,表22-27)。

- 高斯核SVM优势在于不对数据做过多假设,能更灵活拟合因子与收益的非线性关系。

3.3 模型表现总结


  • 线性回归模型仍是线性模型中表现最优者,非线性模型中高斯核SVM最优。

- 非线性模型一般对回撤控制更优,尤其在市场风格快速变化时更显优势。
  • 市场风格长期稳定时,线性模型因简洁有效仍具优势,符合奥卡姆剃刀原则。

- 滚动训练时间窗口为12个月较短,可能限制了部分复杂模型的表现潜力;持仓比例偏大,影响实际收益表现。

---

3. 图表深度解读


  • 图1-4:展示机器学习原理及过拟合防范基本手段,包括K折与时序交叉验证的区别,凸显了时间序列金融数据建模的特殊要求。

- 图5:展示岭回归、Lasso与弹性网的约束集区别,形象揭示了不同正则化如何影响模型参数的稀疏性和偏差。
  • 图6-7:展示逻辑回归概率函数形态及支持向量机中最大边界和支持向量概念,增加读者对模型本质的理解。

- 图8-10:直观说明决策树分类、Bagging与Boosting的集成学习流程。
  • 图12:滚动训练示意,清晰表示因子和收益率时间窗口对应关系,验证方法科学合理。
  • 图13-14(线性回归):因子分层回测净值显示前十组收益显著分离,第1组年化升至14倍左右,且多空组合净值稳步上升,回撤区间反映市场大波动影响。

- 图15-20(带惩罚线性回归):因子分层差异明显减小,尤其弹性网模型多空组合净值涨幅低迷,回撤更大,说明惩罚项约束负面影响。
  • 图21-22(线性SVM):回撤小于线性回归,组间收益分层仍显著,对应表11数据验证。

- 图23-24(逻辑回归):整体表现介于线性回归和线性SVM之间,夏普率与回撤也具有平衡。
  • 图25-30(集成学习):随机森林净值曲线较为平缓但收益率较低,XGBoost及LightGBM净值表现更高但收益波动仍小于线性模型。

- 图31-36(非线性SVM多核):高斯核净值增长最快且回撤控制好,Sigmoid核表现最弱,多项式核介于两者之间。
  • 各模型回测年度收益表细分了不同年份不同分组的收益分布,验证模型在各市场环境下的稳定性和有效性,尤其在2015年和2022年等市场波动较大年份显示各模型表现差异。


---

4. 估值分析



本报告主要聚焦模型构建和多因子预测效能评估,没有涉及具体的公司估值部分,因此未包含估值计算模型(如DCF或PE倍数分析)内容。

---

5. 风险因素评估



报告明确提示如下风险:
  • 数据风险:数据存在缺失、错误、延迟可能,直接影响模型训练和预测准确性。

- 模型风险:模型处理误差、过拟合、未适用全部市场周期带来的效果失真风险。
  • 历史回测风险:历史收益不能代表未来表现,市场变化可能导致过往结论失效。

- 投资建议风险:报告内容不构成投资建议,仅供参考策略搭建。
  • 操作复杂性风险:过大组合规模导致成本升高,模型持仓比例较理论模型有实现风险。


风险提示部分内容详尽,符合研究报告合规标准。

---

6. 审慎视角与细微差别


  • 模型训练窗口局限:仅选取最近12个月样本进行滚动训练,无法覆盖完整经济周期,可能导致模型对长期结构性变化适应不足。

- 组合持仓规模偏大:单组持仓达到市场总股票数10%,与现实中常见100股以内持仓存在明显差距,实际操作难度和成本高。
  • 正则化反效果:加入L1/L2惩罚项未带来提升,反而部分模型效果下降,反映因子预处理的正交化已减少了过拟合问题,惩罚项可能过度限制模型灵活性。

- 线性模型优势明显:尽管机器学习多种非线性模型被测试,经典线性回归依然表现优秀,提醒金融市场中简单模型仍然有效。
  • 非线性模型优势局限:高斯核SVM表现优越,但这种提升依赖于市场风格的变动,整体兼顾收益与风险更稳定,其他复杂模型收益不一定稳定。

- 市场结构转折风险:2015年模型失效期指示市场结构性转折对模型而言极大挑战,任何模型均需关注结构风险。
  • 结果解读需谨慎:报告强调模型回测依赖历史数据,前瞻性有限,且因子质量与市场环境的变化直接影响结果。


整体分析态度严谨,强调实证基础和模型适用边界。

---

7. 结论性综合



本报告系统梳理了机器学习在股票多因子投资组合中的应用,从算法分类、原理介绍,到实证多模型回测,逻辑严密、数据充分,提供了以下关键洞见:
  • 机器学习方法在金融多因子选股中具备天然优势,尤其是监督学习方法在特征丰富的股票市场实现因子有效性较高的预测。

- 回测显示经典线性回归模型依然表现最为优秀,且稳健。纯多头年化收益达20.65%,带来较高的夏普比率,体现简单线性模型在当前市场环境的有效性和可靠性。
  • 非线性模型中,高斯核支持向量机优于所有其他非线性模型和集成学习方法,体现了灵活非线性映射的威力。其纯多头年化收益接近线性回归(20.08%),但多空组合年化收益和夏普率更突出,风险控制能力更强。

- 集成学习(随机森林、XGBoost、LightGBM)虽无法超越线性模型的纯多头收益,但在控回撤、捕获复杂非线性关系上有所贡献,尤其XGBoost和LightGBM表现较好。
  • 过拟合问题在时间序列金融数据中尤为重要,时序交叉验证是更合适的训练验证方案。

- 因子预处理包括极值截断、标准化、中性化及正交化为保证数据质量和模型稳定发挥作用。
  • 市场风格稳定时,使用线性模型简洁高效。市场风格剧变时,非线性模型表现相对更稳健,提供了重要的动态调整潜力。

- 模型训练的数据窗口选择和组合规模实操考虑是未来研究改进的重点方向。

从表格和图表角度来看,累计收益曲线及回测年度收益均表明,模型的预测因子在大多数年份内能够有效区分股票表现,因子分层收益单调性高,表明模型选股信号清晰,风险调整后收益表现突出。[page::4,5,6,7,8,9,10,11,12,13,14,15,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35]

---

附录:主要图表示意示范


  • 图1:机器学习学习函数示意图

图1
  • 图6:逻辑回归概率密度与累计分布函数

图6
  • 图13-14:线性回归模型分层回测净值及多空组合净值

图13
图14
  • 图33-34:高斯核支持向量机模型分层回测净值及多空组合净值

图33
图34

---

综合上述,本报告详细论述并实证检验了机器学习在多因子投资组合构建中的可行性和效果,既强调了传统线性模型的持续有效性,也揭示了高斯核支持向量机在非线性领域的独特优势,为量化投资者提供了重要的策略参考和进一步研究方向。[page::0,1,2,4,5,6,7,8,9,10,11,12,14,15,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,37]

结束



报告