`

AI选股模型特征筛选与处理:SHAP、中性化与另类特征

创建于 更新于

摘要

本报告系统研究了机器学习选股模型的特征工程,包括基础统计方法、SHAP解释和STG深度学习模块的特征选择。发现SHAP特征选择能够显著提升GRU模型性能,标签中性化对LightGBM模型有明显增益。同时引入宏观、BARRA及高频另类因子,发现在中证1000小盘股上高频因子表现突出。基于特征工程优化的GBDT+NN模型,在沪深300、中证500及中证1000宽基指数上取得显著超额收益和较低回撤,指数增强策略年化超额收益最高达32.24%。[page::0][page::4][page::24]

速读内容


特征选择方法比较与效果 [page::6][page::7][page::10]

  • 基础统计方法(Spearman相关性、互信息、LightGBM重要性)结合MMR多样性筛选,表现以无MMR Spearman最优。

- SHAP方法对LightGBM与GRU模型解释提取重要因子,LightGBM表现IC和多空收益均较好,GRU多头表现优异,MMR插件提升有限。
  • STG深度学习特征选择有效剔除无用因子,但整体表现不及SHAP方法。

- 特征选择方法均能降低训练成本,并提升模型表现。

因子与标签中性化效果 [page::11][page::12]


| 模型 | IC均值 | 多头年化超额收益率 | 多头信息比率 | 最大回撤 |
|---------------|---------|--------------------|--------------|-----------|
| GRU基准 | 12.20% | 10.61% | 1.64 | 8.75% |
| GRU因子中性化 | 11.68% | 12.47% | 1.74 | 9.41% |
| GRU标签中性化 | 11.82% | 9.25% | 1.30 | 10.52% |
| LightGBM基准 | 14.81% | 18.34% | 2.79 | 5.51% |
| LightGBM标签中性化 | 14.14% | 24.39% | 2.59 | 6.13% |
  • GRU模型中性化效果不显著,LightGBM标签中性化显著提升因子表现。


另类因子与高频因子表现 [page::12][page::13][page::14][page::16]

  • 宏观因子、BARRA因子等另类因子对GRU无显著贡献,但对LightGBM模型在多头超额收益方面有一定提升。

- 高频因子在沪深300和中证500表现较弱,合成日频降低整体表现。在中证1000小盘股上,高频因子IC达13.96%,合成后高达15.74%,多头超额收益显著提升,并控制了回撤,显示较高有效性。

特征工程优化的GBDT+NN模型架构及表现 [page::16][page::17][page::18]



  • 采用SHAP方法筛选Alpha158量价因子64个特征,结合基本面因子及标签中性化进行模型训练,构成GBDT+NN混合模型。

- 在沪深300成分股测试:IC均值14.97%,多头年化超额收益22.47%,最大回撤10.15%。
  • 中证500成分股:IC均值13.40%,多头年化超额收益13.69%,回撤10.9%。

- 中证1000成分股表现最佳,因子IC最高达16.62%,多头超额收益25.39%,最大回撤6.13%。

指数增强策略实盘表现 [page::19][page::20][page::21][page::22][page::23]

  • 通过马科维茨均值-方差优化构建指数增强策略,跟踪误差控制在5%以内。

- 沪深300策略年化超额收益15.83%,最大超额回撤3.18%,信息比率3.74。
  • 中证500策略年化超额收益18.23%,最大回撤8.21%。

- 中证1000策略年化超额收益32.24%,最大超额回撤仅3.88%,年度超额收益均超20%。
  • 策略换手率适中,且回撤控制良好,具备较高风险调整收益效率。


风险提示 [page::0][page::24]

  • 历史数据统计和模型测算结果受政策、市场环境变化影响。

- 交易成本和交易环境变化可能导致策略表现下降甚至亏损。

深度阅读

AI选股模型特征筛选与处理:SHAP、中性化与另类特征——报告详尽分析



---

1. 元数据与概览


  • 报告标题:《AI选股模型特征筛选与处理:SHAP、中性化与另类特征》

- 分析作者:分析师高智威(执业编号S1130522110003)、王小康(执业编号S1130523110004)
  • 发布机构:国金证券研究所

- 发布日期:报告无明确发布日期,但回测数据覆盖至2024年5月,推断为2024年初以后
  • 研究主题:针对A股量化选股模型中的特征工程进行系统研究,主要聚焦三大方面:

- 因子的特征选择方法(重点基于SHAP方法)
- 因子及标签的中性化处理
- 引入另类因子(宏观数据、BARRA风格因子、高频因子等)
  • 核心论点

- 基于SHAP的特征选择显著提升模型训练效率及GRU模型表现,且SHAP的可视化增强了解释性。
- 另类因子如宏观经济和BARRA因子对LightGBM模型有一定提升但整体作用有限,高频因子对小市值股票效果较佳。
- 标签中性化处理对LightGBM模型提升显著,因子中性化整体效果欠佳。
- 全面采用特征工程改进后的GBDT+NN模型在沪深300、中证500和中证1000均取得显著超额收益和良好风险控制。
  • 主要结论摘要

- 在沪深300,中证500,中证1000不同股指中,多头年化超额收益分别达到22.92%、12.35%和25.42%,超额最大回撤分别为6.56%、10.14%和4.42%
- 对应基于该因子构建的指数增强策略年化超额收益分别为15.83%、18.23%和32.24%,且风险可控 [page::0,24]

---

2. 逐节深度解读



一、为什么需要特征工程?



本节提出了量化投资中特征工程的三大目的:
  • 提升模型性能:金融市场因素复杂且非线性,构造交互、调整周期后的因子能更好捕捉关联,强化模型预测能力。

- 降低模型复杂性:高维度和过拟合问题严重,通过筛选或降维技术减少冗余特征,使计算更高效、泛化更好。
  • 提高解释性和透明度:转换成市盈率(PE)、净资产收益率(ROE)、RSI等指标,让投资者更易理解模型逻辑和风险来源。


在后续研究中,报告重点从因子筛选、因子及标签中性化处理、引入另类因子三个层面展开深度实验,并将取得明显进步的策略整合到成熟的GBDT+NN架构中,创新且实用 [page::4]

二、特征选择方法介绍


  • 基础统计方法:包括剔除重复值高的特征、基于Spearman相关性、IV值、互信息、卡方检验等方法,以及基于树模型自带的重要性排序。还尝试引入最大边际相关性(MMR)方法以提升筛选结果多样性。

- SHAP方法:基于Shapley值的合作博弈论,计算每个特征在所有组合中对预测结果的贡献均值,适用于任何模型且具备良好的解释性。SHAP可帮助明确哪些因子对某一特定预测和总体模型影响最大,但计算资源消耗较大。
  • STG(Stochastic Gates):一种基于深度学习的门控结构技术,通过梯度优化近似0范数,实现神经网络中的非线性特征选择,减少过拟合并提升解释性 [page::5-6]


三、特征选择方法效果


  • 实验设计

- 使用全A股市场,标签为未来20个交易日收益率。
- 年度滚动训练,考虑市场风格演变。
- 各因子选择均基于Alpha158因子库。
- 训练随机种子为5个,取均值减小随机影响。
  • 基础统计方法

- Spearman相关性表现最佳,IC均值约12.5%,多头年化超额收益17%以上。
- MMR方法并未明显提升筛选效果。
- LightGBM重要度筛选回撤表现较好,但超额收益有限。
  • SHAP方法

- LightGBM和GRU模型分别训练后,基于SHAP值重要性筛选因子。
- LightGBM+SHAP方法IC均值最高,约12.7%,GRU+SHAP多头超额收益达18%以上。
- MMR插件仍无明显改进。
- SHAP可视化图清晰展示了单个或整体样本中的因子贡献,提供了辅助理解模型的工具(见图表1、10-12)。
  • STG方法

- 自动门控结构选择约44个重要因子,其他因子权重趋近0。
- 整体性能略逊于SHAP方法的GRU模型,且无MMR整合。
- 特征选择均提升模型训练效率和表现,证明特征工程的必要性。
  • 滚动训练必要性

- 因子筛选结果显示排前32名因子较为稳定,排名后半部分因子随时间变化明显,反映市场风格动态切换,使用年度滚动训练较为合理 [page::6-11,16]

四、因子与标签中性化效果


  • 实施市值和行业中性化,目的是去除市值与行业效应对因子纯收益的干扰。

- 中性化方法基于回归残差:因子(或标签)作为被解释变量,行业哑变量及市值作为解释变量回归,残差作为净化后的因子。
  • 结果:

- 对GRU模型,中性化整体影响有限甚至略有负面影响,原因可能是GRU输入缺少充分基本面信息,标签中性化弱化了有用的信号。
- 对LightGBM模型,标签中性化显著提升IC、多头超额收益和Sharpe比率。
- 因子中性化整体表现一般,提示直接用原始因子表现更好。
  • 结论为LightGBM模型的输入标签中性化可提升表现,而因子中性化应用需谨慎 [page::11-12]


五、加入另类因子的效果



5.1 宏观指标及BARRA因子


  • 引入制造业PMI、消费者信心指数、SHIBOR、社会融资规模、M1等宏观经济指标,以及BARRA风格因子收益率和因子均值作为新增因子。

- 结果:
- GRU模型几乎无选中这些另类因子的倾向,认为LRU难以从中获益。
- LightGBM模型加入另类因子后,IC表现无明显提升,甚至部分降低。
- 但宏观因子在多头超额收益和多空组合表现上略优于基准,显示在某些方面有辅助作用。
  • 总体评价为另类因子虽然提供一定辅助,但整体贡献有限,需继续探索 [page::12-13]


5.2 高频因子(基于分钟数据)


  • 构建212个高频因子,基于分钟的OHLCV拆分不同时间段,结合4组数据。

- 使用SHAP-LightGBM筛选64个高频因子,注意由于高频因子和日频因子弱相关,二者结合应用可避免信息重叠。
  • 各宽基指数效果差异明显:

- 沪深300(大盘)高频因子表现落后日频因子,甚至合成因子表现受影响下降。
- 中证500(中盘)高频因子表现有所改善,但仍不及日频因子,合成因子总体接近日频因子。
- 中证1000(小盘/微盘)高频因子表现优异,IC均值高于日频因子,合成因子IC最高达15.74%,多头超额收益和多空表现突出。
  • 结论是高频因子在小盘股上潜力较大,对大中盘股的应用仍待研究 [page::13-16]


六、特征工程优化的 GBDT+NN 指数增强策略



6.1 模型及因子整合


  • 使用SHAP方法筛选Alpha158中64个因子作为神经网络模型(TCN、GRU、Transformer)输入。

- GBDT模型(XGBoost、LightGBM、CatBoost)则结合Alpha158和基本面因子,同时对预测标签进行和未进行中性化的训练和融合。
  • 两类模型进行集成,形成混合GBDT+NN模型结构(见图表33)。

- 回测期2015年2月-2024年5月,月调仓,采用5个随机种子平均结果,向后推迟一天因子值保证交易可行性。

6.2 因子测试结果


  • 沪深300成分股:

- 经过特征工程改进和标签中性化,模型IC均值最高达14.97%,多头超额收益22%以上,超额最大回撤6.56%。
- 特征工程优化明显提升表现(详见图表34)。
  • 中证500:

- 因子IC均值约11.58%,年化超额收益12.34%,最大超额回撤10.14%。
- 表现略逊于沪深300,但表现仍稳定良好。
  • 中证1000:

- 因子IC均值最高达16.62%,年化超额收益超25%,最大回撤4.42%,表现最为突出。
  • 多头及多空净值曲线均显示策略收益稳健持续(图表35-42)。

- 指数增强策略运用马科维茨均值-方差优化,最大跟踪误差控制5%,单边交易费千二。
  • 沪深300策略:

- 年化超额收益达15.83%,策略最大超额回撤3.18%,信息比率3.74,风险收益较优。
  • 中证500策略:

- 年化超额收益达18.23%,超额最大回撤8.21%,略高于沪深300。
  • 中证1000策略:

- 年化超额收益达32.24%,超额最大回撤3.88%,表现出极高的收益和良好风险控制。
  • 年度收益显示多数年份超额收益10%以上,仅少数年份策略表现平稳或不佳(图表46-57) [page::16-23]


---

3. 图表深度解读


  • 图表1 (SHAP示意图) 展示了SHAP如何将模型输出拆分为各特征贡献,由此可理解每因子对预测的正负影响,提升模型透明度。

- 图表3 (滚动训练数据划分) 设定了长期滚动训练框架,强调数据时间分割与样本外测试兼顾;
  • 图表4-6 (基础统计方法对比) 显示Spearman相关性筛选因子在IC均值、超额收益及多空策略上的优势,而MMR未带来明显收益;

- 图表7-9 (SHAP筛选对比) LightGBM+SHAP在IC表现最好,GRU+SHAP在多头收益优;MMR仍无显著提升;
  • 图表10-12 (SHAP可视化) 通过色彩和贡献棒展示单一/全部样本中因为子影响,帮助理解和调试模型;

- 图表13 (STG门控信息) 明确STG将一部分因子权重归零实现筛选,稀疏化效果明显;
  • 图表14-15 (不同筛选方法性能对比) SHAP-GRU在多头收益领先,STG表现相对平庸,所有方法大多优于无筛选基准;

- 图表16 (滚动训练因子变化) 证明高排名因子稳定性高,支持滚动训练必要性;
  • 图表17-18 (中性化处理效果) GRU和LightGBM在因子和标签中性化上的不同响应,标签中性化对LightGBM改善明显;

- 图表19-22 (另类因子分析) 尽管IC未改善,宏观因子在收益层面表现较好,高频因子对不同盘子表现差异明显;
  • 图表23-32 (高频因子表现) 小微盘(中证1000)高频因子突出,中大盘表现较弱,合成因子稳健;

- 图表33 (GBDT+NN模型结构) 清晰描绘神经网络输入通过SHAP筛选,GBDT输入标签中性化,二者集成增强;
  • 图表34-42 (因子及组合表现) 多指标均衡反映因子效果,净值曲线稳健线性增长,回撤控制合理;

- 图表43-57 (指数增强策略表现) 教授基准、改进模型年化收益、波动率、回撤、信息比率均衡指标,年化超额收益稳定,策略有效性充分展现。

---

4. 估值分析



本报告主要为量化选股模型及策略表现的研究报告,未涉及传统行业或公司财务估值模型(如DCF、市盈率等)。报告核心为机器学习模型因子筛选、因子处理、模型预测效果和策略构建,因而无估值方法章节。

---

5. 风险因素评估



报告明确披露风险警示:
  1. 模型时效风险:结果基于历史数据回测,政策及市场环境变化会导致模型失效,表现无法保证延续。

2. 策略执行风险:策略假设在历史中有效,交易成本上升或其它条件变化可能导致实际收益降低甚至亏损。

报告未提出具体风险缓解策略,但强调需投资者关注模型适用范围和假设条件,警示投资非无风险 [page::0,24]

---

6. 审慎视角与细微差别


  • MMR方法效果有限:尝试引入最大边际相关性优化多样性,但实际表现未达预期,模型稳定性与性能提升未见显著,表明当前数据环境和方法需要进一步研究优化。

- STG方法表现平庸:作为较新深度学习特征选择方案,STG效果逊色于SHAP,可能因参数调节、训练策略未充分优化,或方法本身非对当前任务最优。
  • 因子中性化复杂影响:对标签中性化优化效果显著,但对因子中性化反而有时导致表现下降,揭示中性化需根据模型及数据特点谨慎应用,简单套用可能反效果。

- 另类因子贡献有限:虽然宏观和BARRA因子加入提升有限,某些场景表现不如预期,可能因因子时效性弱、信息量不足或模型无法有效利用。
  • 高频因子应用有局限:仅在中证1000表现卓越,而在大盘股中效果差强人意,提示不同规模板块策略需区别对待,模型能否有效捕捉高频因子信息仍存在难题。

- 策略年化超额收益较高,但回撤比例仍然不低,尤其中证500和1000回撤相对较大,关注风险管理仍不可忽视。
  • 年度表现波动明显,某些年份策略超额较低甚至负收益,提示策略稳定性仍需观察和改进。


综合来看,报告分析基于坚实数据与严谨实验,结论充分但仍留有方法和应用上的进一步优化空间 [page::6-24]

---

7. 结论性综合



该报告首次对A股机器学习选股模型输入端的特征工程进行了系统细致的研究,涵盖特征筛选、中性化处理及另类因子引入,形成了集成性优化方案并基于沪深300、中证500及中证1000宽基指数构建了有效的指数增强策略。

核心结论和见解如下:
  • 基础统计方法虽简单有效,Spearman相关性筛选效果佳,但较为依赖线性信息;

- SHAP基于模型预测输出的解释性方法,不仅显著提升特征筛选质量,优化了GRU模型预测准确度,还极大增强了模型可解释性,是当前特征选择的优选方案;
  • STG深度学习方案尚需优化,整体表现未及SHAP;

- 采用年度滚动训练合理捕捉市场风格切换,提高模型稳定性;
  • 标签中性化对LightGBM模型整体表现提升显著,但因子中性化效果复杂,需谨慎应用;

- 另类因子中宏观指标与BARRA因子对模型信息贡献有限,唯有宏观因子对多头收益有一定辅助;
  • 高频因子在小盘股(中证1000)显著提升选股能力与策略表现,但在中大盘股表现一般,显示盘子分化明显,应用需针对性设计;

- 结合SHAP特征筛选和标签中性化,构建的GBDT+NN混合模型,在沪深300、中证500和中证1000三大宽基指数均呈现出超市场的选股能力。特别是中证1000策略,年化超额收益高达32.24%,且最大回撤控制较好,显示出投资价值;
  • 指数增强策略考虑跟踪误差及交易成本,控制合理风险,组合优化效果良好,具备实际可操作性。


从图表数据深度解读可见:
  • 不同特征筛选方法IC均值区间约在11%-14%,但SHAP筛选使得模型超额收益率和信息比率显著提升;

- 高频因子作用突出体现在2024年最新市场环境下小盘股细分市场,提示未来量化模型优化可能新方向;
  • 指数增强策略多年收益曲线稳健向上,风险调整后评价指标(如信息比率,回撤)均符合实际投资需求。


综上,该研究报告为机器学习选股模型的输入因子处理提供了理论和实践范例,系统验证了SHAP+中性化+因子融合的有效性,引领了后续AI投资策略优化的方向。[page::0-24]

---

参考重要图片示例


  • SHAP示意图:



  • 滚动训练数据划分:


滚动训练数据划分
  • 基础统计方法多空组合净值:



  • SHAP方法多空组合净值:



  • STG模型门控信息:



  • GBDT+NN模型结构:



  • 沪深300指数增强策略净值曲线:



  • 中证1000高频因子多空净值:




---

总结



本报告针对机器学习量化选股模型输入端的特征工程展开系统研究,重点介绍和比较了多种特征选择方法和中性化预处理技术,验证了SHAP方法在特征筛选中的突出优势,揭示了标签中性化对GBDT模型的有益影响,首次系统探讨了另类因子及高频因子的引入效果。经过多个市场板块实证,构建了优化后的GBDT+NN混合选股模型和指数增强策略,收获了稳定显著的超额收益及良好的风险控制效果。该研究成果对量化投资领域机器学习策略的开发和优化具有重要指导价值与参考意义。[page::0-25]

报告