`

基于树模型的分组优化与风格约束改进 机器学习系列七

创建于 更新于

摘要

本报告围绕基于XGBoost树模型的量化选股因子构建展开,提出贝叶斯优化稳定超参数、多组训练降低随机性、分组准确度权重调整和风格中性对抗训练两大改进方案。实证显示改进模型在全市场及大中小市值股票池均显著提升Rank IC和多空夏普比率,结合后复合因子指数增强测试表现稳健,有效提升中证500等指数的超额收益和夏普比率,展现优异的风格中性化特性和风险控制能力[page::0][page::5][page::9][page::14][page::16][page::20][page::27]

速读内容


机器学习量化框架演进与树模型简介 [page::1][page::2]


  • 兴证金工团队自2020年起专注机器学习在量化领域应用,树模型(XGBoost)因非线性捕捉和可解释性能力突出成为核心工具。

- XGBoost相较传统GBDT引入正则化和二阶导数支持,提升了拟合能力与计算效率,适合复杂金融数据特征挖掘。

基准XGB模型搭建:贝叶斯优化+KFold多组训练 [page::3][page::4][page::5]


  • 使用2009-2024年数据,近220个选股因子训练,采用贝叶斯优化调参及KFold数据拆分提升模型鲁棒性。

- 输出两个复合因子BM-5D和BM-10D,预测未来5日和10日收益。
  • 模型在全市场Rank IC均值约0.12,IC IR达0.94,沪深300内表现稍弱但中证1000及全市场皆表现稳健。


基准模型表现:Rank IC及分位数分组回测 [page::6][page::7]



| 股票池 | 因子名称 | 平均值 | 标准差 | IC_IR | t统计量 |
|---------|---------|-------|--------|-------|---------|
| 全市场 | BM-5D | 0.121 | 0.129 | 0.938 | 21.174 |
| 沪深300 | BM-5D | 0.060 | 0.155 | 0.387 | 8.734 |
| 中证800 | BM-5D | 0.076 | 0.139 | 0.544 | 12.294 |
| 中证1000 | BM-5D | 0.110 | 0.131 | 0.840 | 18.965 |
  • BM-5D分位数组合测试显示全市场Top组年化超额收益约32%,多空夏普6.32。沪深300内表现一般,IC及超额收益较低。

- 多空净值曲线表现稳健,收益显著优于市场基准。

分组准确度权重优化方法及因子表现提升 [page::8][page::9][page::10]



  • 在XGB回归模型中加入基于分组标签预测准确性的动态样本权重调整,提高模型对分组边界样本拟合。

- 新算法版本(cutV1等)全市场Rank IC和IC IR均有提升,沪深300和中证800尤为明显,多空夏普率提升。
  • 分位数组合超额收益更为单调稳健,多空净值表现优于基准模型。


风格约束优化:权重动态调整和对抗训练方案 [page::11][page::12][page::14][page::15]




  • 检测基准因子与Barra风格因子(市值、流动性、波动率)存在较强相关性,因子偏小盘,表现大盘内不佳。

- 设计两类风格约束方法:基于风格暴露调整样本权重以及引入风格因子预测器进行对抗训练,减少Alpha信号与风格的相关性。
  • 经测试,风格约束改进版本(styleNeu系列)显著降低风格暴露,提升因子在不同股票池的表现稳定性,特别是流动性和市值。


改进因子精选及复合因子构建 [page::17][page::18]


  • 选择表现较优的cutV1(分组优化)和styleNeuV21(风格对抗)因子进行复合。

- 不同复合策略(模型层面融合、复合型加权)相关性维持约85%,体现方法间增量贡献。
  • 复合因子Rank IC水平提升至0.128,IC IR稳定在1.03左右,沪深300和中证800同样表现稳健。


指数增强回测表现总结 [page::20][page::21][page::23][page::25][page::27]





  • 复合因子在中证500、1000、2000和A500指数的增强测试均表现优异,年化超额收益率分别约15%、24%、26%和10%,超额夏普比率普遍超过2.3。

- 在严格行业和个股权重及风格暴露约束下,组合换手率和最大回撤均保持在较低水平,稳定性良好。
  • 多空收益和净值曲线呈现稳健上升趋势,月度和周度获胜率均维持高位,具备较强抗风险能力。


报告总结 [page::0][page::27]

  • 本文构建了贝叶斯优化+KFold稳定训练的XGB基准模型,结合分组准确度动态权重调整和风格约束对抗训练两大改进思路。

- 改进方案显著提升了模型的预测能力和多空夏普比率,降低了风格因子暴露,提升了复合因子的投资组合表现和稳定性。
  • 指数增强测试表明优化后的因子能够有效实现指数超额收益和风险控制,适用于不同市值和风格偏好的股票池。

- 未来将继续深化机器学习在量化领域的研究,实现更广泛模型框架的优化与创新[page::0][page::27][page::28]。

深度阅读

报告分析:《基于树模型的分组优化与风格约束改进 机器学习系列七》



1. 元数据与概览


  • 报告标题:《基于树模型的分组优化与风格约束改进 机器学习系列七》

- 作者:兴证金工团队 XYQuantResearch
  • 发布日期:2025年3月27日

- 发布机构:兴业证券经济与金融研究院(兴业证券股份有限公司)
  • 研究主题:利用机器学习优化树模型XGBoost在量化投资中的应用,围绕因子复合模型的分组优化和风格约束改进,提升模型的通用性和预测能力,并进行指数增强测试。


核心论点与目标:

兴证金工团队基于此前成熟树模型XGB的实证表现,提出两大改进方案:
  • 分组准确度优化:结合回归与分类标签思想,通过动态权重调整提升分组准确性;

- 风格约束改进:从模型端施加风格约束,采用权重动态调整和对抗学习两种方案,实现因子风格中性化,减少风格相关性影响。

最终,改进方案实现全市场Rank IC稳健提升至0.128,十分组多空夏普比率接近7,在沪深300、中证500等多指数中均显著优于基准模型,通过复合因子指数增强测试验证策略稳定有效,显著提升了超额收益与风险调整表现,显示模型具备较强的预测能力和风格中性化特征。[page::0,1]

---

2. 逐章深度解读



2.1 机器学习在量化投资背景与框架



报告首先概述了机器学习在量化投资中的应用发展,划分为成熟算法优化(如树模型、CNN等)和新兴模型实战测试(如RNN、大模型、强化学习)。其中,重点聚焦XGBoost模型(决策树集成模型),因其在捕捉非线性因子关系和模型解释性方面具备优势。

提出从训练方式、权重设计及模型改进三维度开展通用性优化,搭建稳健的基准模型,为后续改进建立基础。研究框架分明,如图1所示,将成熟算法优化与新兴模型测试并行发展,最终用于策略研发。[page::1]

2.2 基准模型:稳健XGB因子复合模型



树模型与XGBoost算法演进


  • 描述树模型(决策树、随机森林、GBDT)基本原理及优缺点,强调XGBoost的技术创新:

- 引入正则化项(叶子节点数γ和权重λ)控制模型复杂度;
- 采用损失函数的二阶泰勒展开,利用梯度和海森矩阵提升收敛效率;
- 工程化实现支持权重分位图、缺失值自动学习、硬件GPU加速。
  • 图2形象展示了XGBoost的迭代训练及模型融合过程,体现Boosting框架中逐步纠正误差的特点。[page::2,3]


超参数调优:贝叶斯优化


  • 阐释XGBoost超参数多且复杂,参数间非线性交互使传统网格或随机搜索效率低下。

- 引入贝叶斯优化作为基于概率模型的智能搜索,利用代理模型(高斯过程或树结构估计器)拟合目标函数,采集函数引导参数点采样,有效抵御非凸性与高维耦合问题,从而高效定位最优超参数组合。
  • 结合KFold交叉验证协同克服训练波动,提升模型稳定性和泛化能力。[page::3]


数据与训练流程


  • 数据涵盖2009年起至训练截止期,约220个因子特征,含分钟级与日度低频因子,涵盖价值、成长、质量、情绪、动量反转及另类风格。

- 采用稳健ZScore标准化和CSRankNorm处理,避免信息泄露;使用风格因子Size调整样本权重缓解市值长尾分布效应。
  • 超参数调优在80%-20%训练验证拆分下,目标为最小化均方误差(MSE),训练采用提前停止策略防过拟合。

- 采用5折KFold数据拆分分别训练5个模型,最后对预测值取平均,确保模型的稳定性。
  • 时间窗口训练起点为2009年,首次预测从2015年开始,持续至2024年,周频数据频度。

- 图3流程图详述模型训练全过程。[page::4,5]

2.3 基准模型表现


  • Rank IC表现: 全市场复合因子周度Rank IC均值约0.12,IC IR达到0.93以上,显示模型预测能力优异且稳定;大盘指数如沪深300内表现较弱,IC均值0.06,ICIR约0.39,中证1000表现较好。

- 分组组合测试: 基准BM-5D复合因子在全市场十分组Top组年化超额收益率约32%,多空夏普比率6.32,对冲了市场风险;沪深300表现较弱,Top组超额收益9%,多空夏普比率为1.7。
  • 图6和图7通过净值曲线及分位数组合呈现,基准模型保持长期稳健增长,特别是多空组合的良好表现。[page::6,7]


2.4 分组准确度优化改进


  • 概念提出: 将回归训练与分类标签结合,充分利用收益率排序(回归)和分组标签(分类)信息,动态调整样本训练权重,增强模型对于分组标签的准确拟合能力。

- 核心算法: 基于分组错误样本增强权重,正确样本降低权重,改善训练样本梯度和海森矩阵的权重分布,聚焦修正模型预测错误的标的,实现类别间判断的优化。
  • 结果表现: 三种不同权重调整方案均在全市场及各指数表现出Rank IC及夏普比率的提升,尤大盘股(沪深300)以及中证800表现明显得益,夏普比率提升0.3以上。

- 分位数组合收益率更均衡,夏普比率也有较大提升,说明策略增强模型对分组内收益差异和极端误判的判别能力。
  • 图8-12直观展现新旧因子分位数收益与多空净值的差异,改进版本明显优于基准。[page::8,9,10]


2.5 风格约束改进



2.5.1 风格相关性现状与问题


  • 基准复合因子对风格因子(流动性、特质波动、市值)呈现较强负相关,特别偏好小盘,导致大盘股表现不足。

- 需降低因子与这些风格因子的相关性,实现风格中性化,提升因子适应性和组合稳健性。[page::10,11]

2.5.2 权重调整法(风格约束方式1)


  • 基于每轮训练中计算预测值与风格因子的线性回归关系,筛选具有显著性(T值>1.96)的风格因子;

- 根据相关性方向,动态调整样本权重,如与某风格极负相关,则提升该风格暴露度较高(如大市值)样本权重,使模型更关注样本“被忽视”部分;
  • 两种回归实现:分别单独回归每风格和同时回归所有风格;

- 采用Sigmoid函数进行非线性权重修正,缓和极端权重分布。[page::11,12]

2.5.3 对抗训练法(风格约束方式2)


  • 借鉴领域自适应领域对抗神经网络(DANN)思想,引入风格因子预测器与XGB主模型之间的对抗训练机制;

- 目标为训练Alpha预测器,使得其预测的因子与风格因子相关性尽可能小,从而“迷惑”风格因子预测器,实现风格信息的“去除”;
  • 自定义损失函数及梯度,控制训练方向平衡预测性能与风格信息抑制,框架如图14-15所示;

- 四个复合因子版本诞生:权重修正的styleNeuV11、styleNeuV12,以及对抗训练的styleNeuV21、styleNeuV22。[page::12,13,14]

2.5.4 风格约束结果


  • 改进因子对Size、特质波动率等风格暴露均有明显下降,控制效果良好,特别是对抗训练styleNeuV21在流动性风格控制层面表现更优。

- 风格因子多空收益为正负时,改进Alpha因子相对基准胜率普遍提升,表明其既能搭乘风格上涨顺势,也能对抗风格负面影响,实现风格中性。
  • 多指数回测显示风格约束改进版本Rank IC提升至0.124-0.128,ICIR提升至1.02左右,大市值股票池Benefit尤为明显。[page::14,15,16]


2.6 复合因子及指数增强测试


  • 基于改进因子进行了相关性分析,分组准确度优化因子(cutV1)与风格中性化因子(styleNeuV21)与基准模型相关性较低,表明两种方案增量显著且存在互补性。

- 构建模型层面与因子层面两种复合因子(cutStyleNeu、cutComb、styleNeuComb)。
  • 复合因子Rank IC达到0.127~0.128,ICIR约1.03,回测表现全面优于基准。

- 十分组盈利能力强,多头年化超额收益37%以上,多空夏普比率达到7.3,展现极强的风险调整收益能力。
  • 进行了中证500、中证1000、中证2000及中证A500的指数增强回测,均保持良好的超额收益和稳健风险指标。

- 强约束条件下因子表现依旧稳定,最大回撤及跟踪误差均控制良好,月度与周度胜率均较高,体现了策略的持久稳定性。[page::17,18,...,27]

---

3. 图表深度解读



表1(page:0)



展示了改进复合因子在各种指数(中证500、1000、2000、A500)中的超额收益统计,包括年化超额收益、跟踪误差、收益风险比、最大回撤、月度和周度胜率。
  • 亮点:

- 所有指数的年化超额收益均优异,尤其是中证2000达到26.2%;
- 收益风险比最高达4.5,显示较强的风险控制能力;
- 最大回撤较低,均不到8%,月胜率和周胜率均维持在70%以上,反映出策略稳定性;
  • 说明融合的改进方案成功提升了因子的风险调整表现。[page::0]


图1(page:1)



团队机器学习研究框架,分为传统机器学习算法的成熟算法优化、深度学习与大模型的新兴模型实战化测试及强化学习的实战化测试,最终输出为风险控制、收益预测、另类数据和策略开发。强调多元算法方向和资源整合。[page::1]

图2(page:3)



XGBoost模型迭代训练示意图,展示了基于训练集的样本抽取、错误样本识别、模型训练更新与集成预测过程,直观体现Boosting的迭代修正机制,提高预测精度的原理。[page::3]

表2(page:4)



详细列出XGBoost贝叶斯优化的超参数及含义,包括迭代次数、学习率、叶节点数、最大树深度、正则化参数和采样比例等,展现模型复杂度调控策略,表格内容为实验设计明确基础。[page::4]

图3(page:5)



XGB基准模型训练流程图,概括数据预处理、贝叶斯优化超参数、KFold分组训练及平均预测输出的整体流程,清晰展示数据与模型训练结合逻辑。[page::5]

表3(page:6)



基准模型Rank IC回测结果,覆盖全市场及沪深300、中证800、中证1000,展示因子平均值、标准差、IC
IR和t统计量,验证模型的统计显著性和稳定的预测能力。[page::6]

图5(page:6)



基准模型在全市场和中证1000中的分位数组合收益指标,包括分位数年化收益、风险指标、夏普率、换手率和最大回撤,显示顶组具备明显超额收益及分层明显,底组表现显著偏弱。[page::6]

图6(page:7)



全市场基准模型分位数组合回测净值曲线,呈现顶组明显增长、底组下降,中位组平稳,确认模型预测排名有效性及长周期累积优势。[page::7]

图7(page:8)



排序预处理与分组标签的对应关系示意,形象表达回归值(0-1)与分组标签(+1/-1)在训练集中收益率排序上的匹配,为分组准确度权重调整提供理论基础。[page::8]

表4(page:9)



分组准确度优化版本因子Rank IC测试结果,全市场及多个指数显示改进版本普遍优于基准,平均Rank IC上升,ICIR提升,验证了动态权重调整策略提升预测能力。[page::9]

图8-11(page:9-10)



因子分位数年化超额收益率及多空净值在全市场及中证800股票池,改进版本曲线更为单调,净值增长更快,表现稳定性和可操作性提升,符合实用量化策略特征。[page::9,10]

表6(page:15)



风格中性优化因子Rank IC回测,同样维持全市场及主要指数提升,IC
IR超1,表明风格约束不会舍弃预测能力,而是提升模型适应性。[page::15]

图16-22(page:14-16)



展示风格中性因子与Barra风格因子相关系数减少,分位数年化超额收益率及多空净值均优于基准,体现改进因子较好实现了风格中性化且提升收益质量。[page::14,16]

表8(page:18)



多版本复合因子Rank IC测试,说明复合方案整合了改进亮点,提升了整体信号质量,表现最佳达到ICIR 1.07。[page::18]

表9-10(page:20)



中证500增强测试在各约束条件下回测年化超额收益和超额夏普比率,多因子均优于基准,切合实际投资组合限制,提升效果显著。[page::20]

图28(page:21)



中证500增强测试年化超额收益与多空夏普比率柱状折线图,形象展示改进因子提升空间,最大收益比基准高约4%,夏普比率提升近0.7倍。[page::21]

表12-13(page:22)



中证1000年化超额收益与超额夏普比率同样表现优异,最优约达25%收益、3.9夏普,改进因子发挥效果稳定且提升幅度大。[page::22]

图30(page:23)



中证1000增强测试年化超额收益与夏普比率柱状图,清晰披露各因子竞争力,呈现明显幅度优化。[page::23]

表14(page:24)



中证1000年度统计详细数据,包含年度收益率、波动率、收益风险比、最大回撤及胜率,长期稳健性得到证实。[page::24]

表15-16 & 图32(page:24-25)



中证2000增强测试及相应绩效指标,收益水平与风险调整能力均显著提升,展现模型在中小市值股票池的良好适应性和可拓展性。[page::24,25]

表17-18 & 图33-34(page:26-27)



中证2000及中证A500测试,表现稳定,年化超额收益维持在10%-26%区间,夏普率较高且最大回撤可控,适应更广市场环境。[page::26,27]

---

4. 估值分析(模型性能评估)



本报告主要对XGBoost树模型在量化因子构建及优化的实证表现进行研究,估值分析在模型性能评估中着重于因子预测的有效性指标,包括:
  • Rank IC(信息系数):度量预测值与实际收益率的相关性,越高表明模型预测能力越强。

- IC
IR(Rank IC的稳定性指标):信息系数的均值对标准差的比率,反映预测稳定性。
  • 夏普比率:策略的风险调整收益率,是策略有效性的关键衡量标准。

- 年化超额收益率:相较基准指数取得的超额收益。
  • 最大回撤与收益回撤比:风险控制视角看模型表现的稳健性。


通过动态权重调整、风格约束及对抗训练等方法提升了模型的估值表现。贝叶斯优化确保了超参数选择的最优化,KFold交叉验证增强准确性与稳定性。

模型在多个市场样本和股票池中的表现均优于基准,且多项风险控制指标表现良好,显示该估值体系综合权衡了收益和风险,有效支撑其投资建议。[page::0-27]

---

5. 风险因素评估


  • 模型历史依赖风险:所有模型基于历史数据构建和验证,在市场环境显著变化时,模型可能失效,表现大幅滑落。

- 风格暴露风险:尽管引入风格约束,仍存在对未捕获或新兴风格因素的暴露风险,可能导致投资组合的样本外表现波动。
  • 参数与数据选择风险:贝叶斯优化超参数选择依赖于训练集数据特性,数据缺失、错误或样本选择偏差均可能影响模型稳定性。

- 交易成本与流动性风险:尽管控制换手率,实际交易中仍面临市场冲击成本和流动性风险,尤其在小盘和中小盘指数中表现尤为明显。
  • 模型假设风险:对抗训练及分组权重调整假设有效,若实际预测信号或风格因子不稳定,会影响模型改进效果。


报告指出上述风险并提醒投资者关注模型失效的可能性,需谨慎应用和动态监控。[page::0,27]

---

6. 批判性视角与细微差别


  • 优势:报告结构清晰,理论深入且实证充分;多角度优化理念成熟,实证结果丰富且细致;引入领域对抗学习等先进技术尝试,具有创新意义。

- 潜在不足
- 对新兴模型验证成果描述较少,重点集中于XGB优化,限制了研究广度。
- 贝叶斯优化超参数设定与模型更新具体细节、稳定性分析不够透明,缺乏敏感性分析。
- 风格因子选择仅限于Size、Liquidity等传统因子,未涉及新兴风格,可能导致因子中性化不全面。
- 没有披露不同超参数、不同模型版本对回测表现的具体比较,图表中少部分数字表述存在排版混乱或缺失细节,影响理解。
- 对实际交易执行风险,如滑点、市场冲击未能深入探讨。
  • 细节提示:报告中多处分组准确度优化及对抗训练的实现细节较为概述,未供具体代码或伪代码,限制了方法可复制性;但作为综合研究,仍属合理。


---

7. 结论性综合



本报告系统研究并优化了基于树模型XGBoost在量化选股中的应用,聚焦通用性的分组准确度优化和风格约束改进,成功提升了因子的预测能力和风格中性化水平,从而显著增强了因子组合的风险调整收益能力和稳定性。

具体发现包括:
  • 通过贝叶斯优化和KFold复合训练建立了稳定的基准XGB模型,具备较高的Rank IC和夏普率。

- 引入基于回归-分类标签融合的动态权重调整,提升了分组准确度,增强了大盘及全市场的因子表现。
  • 创新应用权重修正和对抗训练两种风格约束方法,显著降低因子与关键风格因子的相关性,改善了模型对大市值股票池的适应性,同时进一步提升了因子有效性。

- 多版本因子复合体现了改进方案间的低相关性和互补性,融合方案在多指数增强测试中均提供了显著优异的超额收益和风险调整表现。
  • 策略在中证500、1000、2000及A500等指数下表现均衡稳健,年化超额收益稳定在10%-28%,多空夏普率达2.3-4.5区间,最大回撤普遍控制在6%-8%以内,月度与周度胜率优良,显示较强的持续盈利能力和抗风险能力。


图25至图27展示了复合因子在全市场十分组测试中的超额收益优势,表11等详细统计表清楚呈现了年度分解绩效,保障了研究结果的全面可信。

综上,兴证金工团队展现出通过机器学习模型持续改进和精细调整量化投资因子有效性的深入能力,提出的方法具备较强推广和实战潜力,值得关注和进一步应用。然而也应关注模型历史依赖风险和市场环境变化带来的不确定性。

报告以务实而创新的视角深入机器学习量化策略的优化,成果为业界提供了可借鉴的技术与思路,推动了量化因子研究的技术演进。[page::0-27]

---

参考文献


  1. Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. arXiv.0rg, 785-794.
  2. Ganin, Y., & Lempitsky, V. (2014). Unsupervised domain adaptation by backpropagation. arXiv.org.


---

总体评价



本报告基于大量实证测试,结合机器学习先进技术系统性改进传统XGBoost算法在量化投资领域的应用,分组准确度优化和风格约束的策略改进有效提升了模型的预测准确性与风格中性化,强化了策略的实用性与稳健性,整体质量高,具有较强的科学价值和实际应用前景。

图1

图2

图3

图7

图14

图15

图29

图31

图33

图34

---

溯源



本文分析内容均来源于兴业证券经济与金融研究院2025年3月发布的《基于树模型的分组优化与风格约束改进》研究报告[page::0-28]。

报告