`

【广发金工】机器学习选股训练手册

创建于 更新于

摘要

本报告系统介绍了基于GBDT与神经网络机器学习模型的量化选股方法,深入解析特征准备、筛选、预处理及损失函数设计,结合多种排序学习算法优化因子表现。最终构建沪深300、中证500、中证1000指数增强策略,展现出年化超额收益超10%及良好风险控制能力,为量化选股及指数增强策略提供实证参考与实践指引[page::0][page::12][page::13].

速读内容


机器学习模型选股框架与训练流程 [page::0][page::1][page::3]


  • 选用代表性GBDT类集成树模型(LGBM, XGBoost, CatBoost)及神经网络时序模型(GRU, TCN, Transformer)。

- GBDT适合处理手工特征,神经网络擅长捕捉时序信号,特征选择重视SHAP方法提升模型效率和解释性。
  • 不建议强制行业与市值中性化,因对模型表现贡献有限,反而降低部分因子效能。


关键特征及特征处理方案 [page::4][page::5][page::6][page::7]


| 特征类型 | 特征数量 | 模型表现(IC均值) |
|------------|----------|-------------------------------------------|
| Alpha158 | 158 | GBDT和神经网络均表现良好 |
| 风格因子GFStyle | 45 | 树模型表现优于神经网络 |
| 原始量价数据 | 6 | 神经网络表现明显优于树模型 |
  • 整体标准化优于截面标准化,特别对神经网络模型学习时序信息有显著促进作用。

- 特征筛选中,基于SHAP解释的GRU模型表现优异,能降低训练成本且保持或提升指标。
  • 损失函数上,排序学习类(如PairWise Hinge Loss、LambdaNDCG2、NeuralNDCG)优于传统MSE,带来更优多头组排序效果和稳定性。


损失函数的改进及样本权重调整 [page::7][page::8][page::9][page::10]


  • 测试多种损失函数,排序学习(LTR)中的PairWise和ListWise有效提升因子质量。

- 结合MSE和排序损失函数的加权混合方案,进一步优化因子指标,IC均值达14.42%,多头年化超额达到18.90%。
  • 调整样本权重,增强多头及多空两侧样本的训练权重,提升多头收益和风险控制指标。


预测目标与周期选择对模型表现的影响 [page::10][page::11][page::12]



  • 使用截面超额收益率作为目标,CSRank预处理使模型获得最佳表现。

- 不同预测周期长度显示,较短周期(IC、收益率)指标更优但换手率高;多周期等权结合显著提升策略表现。
  • 组合选股多期预测因子在沪深300、中证500等中盘指数表现提升更明显,中证1000小盘指数中效果较弱,反映反转效应和流动性差异。


机器学习驱动的指数增强策略表现 [page::12][page::13][page::14]





| 指数 | 年化超额收益率 | 信息比率 | 超额最大回撤 |
|-------------|----------------|-----------|--------------|
| 沪深300 | 10.03% | 2.23 | -5.42% |
| 中证500 | 8.41% | 1.38 | -10.78% |
| 中证1000 | 11.44% | 2.09 | -7.95% |
  • 策略以月度调仓、双边千三手续费进行回测,整体收益稳定,多头超额与回撤控制平衡优异。

- 机器学习因子在中小盘股票池建仓优势明显,策略净值走势优于各指数对应基准。

主要风险提示 [page::0][page::14]

  • 历史数据统计及模型假设可能在政策和市场环境变化时失效。

- 相关预测结果不能完全准确反映未来市场行为,存在策略表现下滑风险。

深度阅读

【广发金工】机器学习选股训练手册—详尽分析解读



---

一、元数据与概览



报告标题:广发金工机器学习选股训练手册
作者及团队:安宁宁(首席金工分析师),陈原文,王小康及广发金工团队
发布机构:广发证券金融工程研究中心
发布日期:2025年6月20日
主题:机器学习在量化选股中的应用探索与实证研究,涵盖模型选择、特征构造与筛选、损失函数设计、预测目标选择及基于机器学习的指数增强策略构建。

核心论点总结
报告围绕机器学习在量化选股中的实践展开,强调近年来传统择股因子失效背景下,机器学习模型选股的重要性与适用性,尤其借助GBDT类集成树模型和神经网络对股票未来收益率进行预测。报告系统地探讨选股特征的类型及预处理方法,提出基于SHAP的有效特征筛选,分析不同损失函数对预测性能的影响,同时结合实际指数增强策略,展示机器学习模型在沪深300、中证500及中证1000等主流宽基指数的投资价值,年化超额收益稳定且回撤控制良好。报告在结尾明确风险提示,指出模型结论依赖历史数据,存在环境变化导致失效的风险。总体上,此份报告实用性强,涵盖机器学习选股全面环节,为量化投资者提供了较系统化的操作指南与经验总结 [page::0, 1, 12, 14]。

---

二、逐节深度解读



1. 摘要


  • 总结了机器学习选股策略中所应用的典型模型类型:GBDT(包含LightGBM, XGBoost, CatBoost)和神经网络(GRU, TCN, Transformer);指出这两类模型在量化股选中的不同适用性。

- 强调特征数据准备的重要性,区域涵盖量价与基本面因子,分析发现树模型适合处理手工构造的特征,神经网络则优于捕捉时序变化,尤其适合高频量价数据。
  • 提出特征筛选中,基于SHAP的方案效果最好,且特征标准化(整体与截面)对模型表现意义重大。

- 损失函数方面,除了传统MSE,还测试了多种排序学习(ranking)损失函数,发现加入NDCG指标的损失函数在多头表现更好。
  • 针对预测目标,推荐使用截面标准化的超额收益率,从而排除市场Beta的干扰。

- 实证策略表现方面,沪深300、 中证500及中证1000均显示出良好的超额收益和风险控制,信息比率及最大回撤均处于较优水平。
  • 风险提示包括模型历史数据依赖、环境变化风险及策略交易成本变化风险 [page::0]。


---

2. 模型选择



(一)基于决策树的GBDT模型


  • 逻辑框架清晰,决策树基于特征划分样本减少均方差,依赖基尼系数。

- 图1展示决策树选股的示例结构,实现简单且直观。
  • 进一步介绍集成学习两大方法:

- Bagging(Bootstrap Aggregating):通过随机抽样训练集训练多个决策树,可降低模型过拟合(方差),典型代表随机森林(Random Forest)。
- Boosting:串行训练弱学习器,每个模型关注前一个模型错误项,降低偏差。GBDT作为Boosting的代表,核心在于逐步拟合残差,增加样本权重的隐含机制有效提升模型性能。
  • 图2清晰展示决策树集成算法家族关系,便于理解不同技术的区别 [page::1, 2]。


(二)神经网络模型


  • 介绍了RNN(循环神经网络)及其变体:LSTM和GRU,指出GRU为简化版,参数更少,训练更快,具备解决梯度消失问题。图3示意了RNN与LSTM的结构。

- 探讨CNN及其在时间序列预测领域的扩展TCN模型,TCN通过因果卷积(避免未来信息泄漏)、空洞卷积(扩大感受野)和残差连接,适合捕捉序列长期依赖,图4展示其网络结构。
  • Transformer模型通过自注意力机制捕捉全局依赖关系,多头注意力和编码器/解码器结构极大拓展了模型表达力。

- 图5说明了使用的机器学习模型结构组合,GBDT合成因子与神经网络合成因子最后融合,体现模型集成提高表现 [page::2,3]。

---

3. 特征数据准备



(一)特征类型选择


  • 介绍三类输入特征集:Alpha158(基于Qlib机器学习量价因子)、广发金工风格因子(GFStyle),含估值、成长、质量及价量因子,以及原始量价数据。

- 通过表4模型与特征类型匹配的IC表现比较,发现:
- 树模型在基本面因子(GFStyle)表现优异,神经网络表现不佳;
- 神经网络模型在原始量价数据表现突出;
- 合并特征(Alpha158+GFStyle)能进一步提升树模型表现。
  • 解释树模型本质为截面模型,不善处理原始时序数据;神经网络擅长捕捉时序动态,更适合量价变化快的原始数据 [page::4,5]。


(二)有效特征筛选


  • 展示常用特征选择方法:基础统计(相关系数、互信息、LightGBM重要性)、SHAP及STG(随机门控模型)。

- 图6和图7分别演示STG的数学机制和网络结构。
  • 表5对比不同特征筛选方法的模型表现,基于SHAP的筛选结合GRU效果最佳,既保证了性能也降低了训练成本,提升解释性。

- STG虽为最新方法但因子表现较为平庸,说明在该场景中以SHAP方法优势明显 [page::5]。

(三)特征中性化


  • 目的是剥离行业、市值等风格因子影响,提纯Alpha因子。

- 通过行业哑变量和市值因子回归残差方式实现,基于LGBM和GRU模型分别测试。
  • 表6显示LGBM中性化后因子表现明显下降,表7显示GRU中性化影响较小但未带来提升。

- 结论是传统中性化手段无法显著提升因子质量,需探索其他解决方案 [page::6]。

(四)特征预处理


  • 包括截面标准化(Z-Score、排序)和整体标准化(Z-Score、MinMax、RobustZscore)。

- 表8结果显示整体标准化对模型性能更有利,尤其是神经网络模型,因为时序信息大小关系被截面标准化破坏。
  • 提示截面标准化可能掩盖跨时间点的大小关系,对时序模型表现不利 [page::6,7]。


---

4. 损失函数选择



(一)排序学习损失函数


  • 报告详细介绍了排序学习背景,包含PointWise、PairWise和ListWise分类,着重说明排序损失相较于传统MSE适用于股价预测的理由。

- 介绍多种PairWise损失(Hinge Loss、DCGHinge、LogisticLoss、RankNet)、Lambda系列及ListWise方法,尤其强调NDCG指标体现排序靠前样本重要性。
  • 表10对比各损失函数训练结果,排序学习类表现整体优于MSE,多头端收益和稳定性尤其突出。

- 图8表现了多种损失函数多头超额净值走势,LambdaNDCG2和NeuralNDCG均优于MSE。
  • 表11展示排序损失因子相关性,LambdaNDCG2相关性明显低于其他,提供了因子多样性增量。

- 表12合成MSE与多个排序损失因子后,综合因子性能进一步提升,达到IC均值14.42%、多头超额年化收益18.90%等较优指标。
  • 总结排序损失函数对整体选股策略的收益与稳定性具有显著提升作用,且合成多种损失函数的模型效果最佳 [page::7,8,9]。


(二)样本权重调整


  • 通过增加多头和多空组样本权重,提升模型对这些重要子集的专注度。

- 表13结果显示,样本权重调整未改变IC指标,但提升了多头收益和回撤控制,实用性明显。
  • 后续全量模型训练采用调整权重的损失函数保证性能 [page::9,10]。


---

5. 预测目标处理



(一)预测目标选取与预处理


  • 重点在于模型训练目标应捕获截面收益差异,不是绝对收益预测。

- 使用未来$T+1$至$T+21$日收益率作为预测标签,比较绝对收益与超额收益的不同预处理方式效果。
  • 表14结果指示,绝对收益率训练需截面标准化保证效果,超额收益率本身已隐含标准化,截面预处理效果差异缩小。

- 最终选用超额收益率经截面排序(CSRank)作为训练目标 [page::10]。

(二)预测目标周期长度影响


  • 实验分别使用未来10、20、40、60、80个交易日的收益率作为预测目标,月度调仓条件下,观察因子表现变化。

- 表15显示,因子IC与收益随预测周期变长整体趋弱,但换手率明显下降,折中考量后采用序列前几周期因子等权合成。
  • 表16、17进一步展示不同周期因子构建的沪深300和中证500策略,合成因子较单一周期表现更优,信息比率和超额收益均提升,最大回撤缩小。

- 中证1000中合成提升不明显,推测因小盘股反转效应明显,长周期预测准确度下降。
  • 图9、10净值走势形象展示了不同预测周期的策略表现,合成策略曲线更为平稳且收益领先 [page::10,11,12]。


---

6. 基于机器学习的指数增强策略


  • 结合上述模型、特征、目标处理及损失设计,训练最终机器学习因子,并以此在沪深300、中证500、中证1000指数样本中做选股优化。

- 优化目标函数为最大化因子收益同时受跟踪误差(T.E)、行业暴露、市值暴露和成分股权重相对基准限制,保证行业及因子暴露等“风格”跟基准接近。
  • 回测区间2020年起至2025年5月,月度调仓,手续费双边千三。

- 表18至表20显示三个主要指数增强策略的核心指标:
- 沪深300:超额年化收益10.03%,最大回撤-5.42%,信息比率2.23,年化波动18.64%,换手率约92.6%;
- 中证500:超额收益8.41%,最大回撤-10.78%,信息比率1.38,换手率136.5%;
- 中证1000:超额收益11.44%,最大回撤-7.95%,信息比率2.09,换手率146.5%。
  • 图11至13直观展示三大策略净值走势,均明显跑赢各自基准指数,且长期趋势稳定。

- 结果说明机器学习因子在中小盘市场展现自然优势,结合优化后策略风险调整表现良好 [page::12,13,14]。

---

7. 风险提示


  • 反复强调,此类基于历史量化方法的模型与研究结论存在随市场环境、政策变化而失效的风险。

- 模型预测不保证未来一定准确。
  • 交易成本变化、市场结构与交易行为改变等均严重影响策略表现。

- 该警示体现了量化策略的固有局限性,提示投资者与研究人员应密切关注策略适用范围和实时表现 [page::0,14]。

---

三、图表深度解读



图1 决策树选股示例(页1)


  • 展现了一个简单的决策树结构,基于估值、ROE增速、资产周转率和一个月收益指标,对股票划分,最终选出“股票A”和“股票B”。

- 说明决策树从根节点到叶节点按规则划分样本的过程,有助理解树模型特征的基准划分逻辑。

图2 树模型集成算法关系示例(页2)


  • 以树形结构阐释Bagging与Boosting两大集成思想,以及它们下属算法如随机森林、Adaboost、GBDT。

- 有助理解集成学习整体框架与应用路径。

图3 RNN与LSTM模型结构示意(页2)


  • 通过方块图直观展示RNN递归节点及LSTM复杂门控结构的区别。

- 清晰诠释LSTM如何克服基本RNN梯度消失问题。

图4 TCN网络结构示意图(页3)


  • 展示TCN的因果卷积、扩张卷积与残差块内部连接,说明其允许模型捕获长期序列依赖的机理。

- 关键点包括时间顺序约束和指数级感受野扩展。

图5 机器学习量化选股模型选择(页3)


  • 显示GBDT三种变体(LightGBM、XGBoost、CatBoost)和神经网络三主流模型(GRU、TCN、Transformer)的融合路径。

- 强调不同模型各显优势,合成因子提升预测能力。

图6、7 STG模型示意图(页5)


  • 分别展现STG随机门控变量的概率分布和在输入层对特征的选择机制。

- 体现STG通过“学习”保留或丢弃特征的过程,强化模型收敛和特征筛选。

图8 多种损失函数多头超额净值走势(页9)


  • 对比MSE损失与排名损失(LambdaNDCG2, NeuralNDCG, DCGHinge)模型训练所得因子表现。

- LambdaNDCG2和NeuralNDCG的曲线持续领先,表现更稳健。

图9、10 GRU不同预测周期净值走势(页12)


  • 对比不同预测周期(10、20、40日及合成)索引增强策略净值走势。

- 合成策略表现最优,呈现起伏更小、回报更高的趋势。

图11、12、13 三大指数增强策略净值走势(页13、14)


  • 各图展示沪深300、中证500和中证1000指数增强策略与基准对比。

- 显示机器学习选股策略有效击败指数基准,稳定超额收益和风险控制。

---

四、估值分析



本报告为机器学习模型训练及实证选股研究报告,未涉及具体的公司价值估值、现金流折现(DCF)或传统市盈率估值方法。其估值分析侧重于策略绩效指标层面,如IC、ICIR、信息比率、超额收益率、最大回撤和夏普比率,用以全面评估机器学习选股模型输出因子的投资价值和风险收益特性 [page::0,12,13,14]。

---

五、风险因素评估



报告明确指出以下风险:
  • 模型局限风险:机器学习模型基于过去市场数据训练,面对市场政策、环境的突然剧变,模型规律失效可能性较大。

- 预测准确性风险:模型输出不能完美反映现实环境,存在预测误差。
  • 策略实施风险:交易成本变化、市况结构调整、投资者行为改变等可能导致策略收益下降甚至亏损。

- 执行风险:回测结果不能保证实际运作效果,需关注模拟与实盘之间的差异。
  • 推荐投资者审慎使用、及时调整模型,并准备风险缓释方案 [page::0,14]。


---

六、批判性视角与细微差别


  • 模型与特征选择偏好:报告强调GBDT和神经网络适用不同类型特征并分别优劣,但未深入探讨二者融合后的模型构建细节及对非线性时序外因影响的捕捉能力。

- 中性化处理争议:虽然进行了行业及市值的中性化尝试,结果显示对LGBM损害较大,GRU无明显提升。报告认为需其他解决方案,但未提出,留待未来工作。
  • 损失函数复杂性与实用性平衡:提出多样排序损失函数,但多数复杂函数并未明显超越简单MSE,说明实际应用中需平衡训练效率与边际收益。

- 模型组合权重未详述:合成多种损失函数因子取得较好效果,但缺少具体组合权重策略阐述。
  • 不涉及交易成本敏感度分析:虽然说明了手续费假设,但未进一步深入交易成本与换手率对策略净收益的影响,实际操作中可视为缺口。

- 外部验证不足:数据主要基于中国A股市场历史,缺少其他市场验证,报告结论可能受限于特定市场环境。
  • 图表部分有扫描残影及少量文字识别错误,但整体不影响核心信息的理解。

- 整体结论较为谨慎,注重历史表现和实际策略效果,未过度夸大机器学习潜力,较为务实。

---

七、结论性综合



本报告系统介绍了机器学习选股策略的研发流程,重点阐述了模型选择、特征构造与处理、损失函数优化和预测目标设计的细节框架,体现了量化实践中的严谨与创新。
  • 模型方面,通过对GBDT类集成树模型和神经网络模型(GRU、TCN、Transformer)的深度解读,结合特征数据的不同性质和模型能力,合理分配特征输入,提升整体选股表现。

- 特征处理,通过详尽的特征筛选、标准化和中性化分析,证实SHAP导出的特征筛选方案最为有效,截面以及整体标准化在不同模型中有明显效果差异,预处理对模型至关重要。
  • 损失函数创新,排序学习损失函数特别是带有NDCG指标的设计带来了多头端的收益与稳定性提升,且与传统MSE损失函数因子存在信息补充,实现合成因子性能的协同提升。

- 预测标签设计,超额收益率且基于截面排序处理的标签更贴合投资逻辑和模型需求,预测周期的设置直接影响因子稳定性及回撤表现,周期组合策略质量最高。
  • 策略表现,实证回测显示机器学习生成的选股因子在沪深300、中证500和中证1000指数增强策略中均取得了显著优于指数基准的超额收益和信息比率,且最大回撤显著受控,表明模型在真实投资管理中具有应用潜力。

- 风险管理方面,报告显著强调因历史数据和环境变化导致策略失效的潜在风险,体现研究的科学性与稳健性。

总的来说,广发证券金融工程研究中心的这份报告不仅展现了当前量化选股领域机器学习策略的技术前沿和实际应用效果,还为投资者和研究者深入理解机器学习在金融领域的特殊实施细节提供了系统性的教学案例。报告结构严谨,数据详实,论据充分,其策略层面的成功回测给出了机器学习模型在中国A股市场量化选股应用的强力佐证。

---

附:关键图表简要 Markdown 格式引用示例


  • 决策树选股示例



  • 树模型集成算法关系示意



  • RNN与LSTM结构



  • TCN网络结构



  • 机器学习选股模型选择



  • 关键损失函数多头净值比较(一部分)



  • 不同预测周期选股策略净值




---

以上分析基于报告全文内容,注重技术细节及策略实证,确保全面且精准地呈现了报告的核心理念、结论及数据支持,同时对关键图表进行了深度解读。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]

报告