`

基于模型池的机器学习 —— 德邦金工机器学习专题之五

创建于 更新于

摘要

本报告提出了一种基于动态因子与模型池的机器学习选股方法,通过因子预筛选和边际筛选加速因子筛选过程,构建并维护一个包含多种机器学习模型的动态扩展模型池。采用验证集数据对模型进行评价,从长期记忆的模型池中筛选表现优异模型集成预测,实现更高效、稳健的选股。回测显示,机器学习复合因子在全市场及中证1000中表现良好,且多模型集成显著提升预测效果,训练频率、验证集长度和模型类型对效果敏感性低,长记忆模型池优于短记忆池,且模型间预测具有较高异质性,有利于模型集成优化[page::0][page::5][page::8][page::9][page::12][page::16][page::17]。

速读内容

  • 因子筛选采用LGBM模型,结合因子预筛选和边际筛选机制,大幅提升筛选效率和模型训练效率。因子池以CNE5风格因子为基础动态扩展[page::4][page::5]。

  • 模型池构建包括神经网络、随机森林、LGBM、GBDT和CatBoost等多种模型,每月训练固定数量新模型,模型池随时间动态扩展,保留所有训练过的模型,便于随时调用和集成使用[page::5][page::6]。

- 模型筛选通过过去12个月验证集平均RankIC打分,剔除得分低于0.02模型,选择前25%模型组建集成模型,提高预测稳定性[page::6]。
  • 构造三类机器学习因子:机器学习因子(模型预测横截面残差收益率均值)、机器学习反转因子(反转上个月未被模型拟合的残差收益率)、复合因子(结合两类因子正负极值部分),复合因子表现最佳[page::6][page::7][page::12][page::13]。



  • 模型有效性存在明显市场风格轮动效应,单个模型随时间衰减但可能重新有效,旧模型仍具参考价值,支持动态持续评估和使用历史模型[page::8]。

  • 长记忆模型池(训练起点早)优于短记忆池,表现为更稳定和更高的RankIC及ICIR,凸显多元历史模型经验的价值[page::9]。


  • 训练频率影响有限:回测表明每3个月训练一次模型表现优于每月训练,训练频率过高反而无明显收益,降低计算资源消耗[page::9]。


  • 验证集长度对模型稳定性影响较小,约12个月较为合适,短期验证效果较差,长期验证期与样本外表现相关性最佳[page::10][page::11]。



  • 不同模型类型表现相近,LGBM表现最佳,神经网络表现最差,模型类型对结果影响有限,稳定性较好[page::10]。

  • 模型之间预测相关性低(平均0.144),异质性好,有利于增强集成模型的表现[page::12]。

  • 多模型集成构造的复合因子在全市场和中证1000表现稳健优异,但在沪深300和中证500等大盘蓝筹股票表现相对较弱,月度选股频率增加使大盘股短期效应减弱[page::13][page::14]。




  • 回测显示复合因子全市场等权十组多头年化超额收益达18.6%,信息比率2.41;中证1000五组多头年化超额收益16.3%,信息比率2.09,超额收益主要来源于特质回报[page::14][page::15][page::16]。



  • 风险提示包括市场风格变化风险、模型失效风险和数据可用性风险[page::19]。

深度阅读

知识报告分析与解读——《基于模型池的机器学习》专题报告



---

一、元数据与报告概览


  • 报告标题:《基于模型池的机器学习 金选融工股程德邦金工机器学习专题之五》

- 作者:证券分析师 肖承志(资格编号 S0120521080003)、研究助理 王成煜
  • 发布机构:德邦证券研究所

- 发布日期:报告未直接注明具体发布日,但包含数据截止至2022年5月,推断发布时间在2022年中
  • 研究主题:聚焦量化投资中的机器学习模型池管理及动态因子筛选方法,针对中国股票市场中的量化因子选股策略,以及模型在历史和样本外测试中的表现。

- 核心论点概述
1. 创新方法建立和维护模型池,非传统“每期重训练”模型,而是持续滚动使用历史训练模型,通过动态筛选选用表现优异的模型组合(集成模型)。
2. 采用LGBM(轻梯度提升机)替代随机森林模型,极大提升因子筛选效率,同时保持筛选效果。
3. 充分利用模型异质性,筛选近期验证集表现较好的模型有效提升模型预测能力。
4. 长记忆模型池(即起始训练时间更早的大规模模型池)优于短记忆模型池,体现出持续记忆市场异象的优势。
5. 多模型集成后形成复合因子,在全市场和中证1000成分股中表现稳定,市值较小的股票池表现更佳。
6. 主要风险提示包括市场风格变化风险、模型失效风险及数据可用性风险。

---

二、逐章节深度解读



1. 前言


  • 回顾《动态因子筛选——德邦金工机器学习专题之四》中关于因子筛选和机器学习合成因子两步法,本文聚焦第二步即机器学习模型合成因子的过程。

- 质疑常见“每次选股前重训模型”的思维定式,强调历史模型和早期数据包含的潜在价值,市场风格和因子收益存在轮动,故需持续监控和动态筛选历史模型[page::3]。

2. 方法



2.1 构建因子库


  • 构建包含CNE5十个风格因子及财务表项计算的多因子库。

- 运用中位数去极值手段规避异常值影响,空值以横截面中位数填充。

公式中,去极值通过设置因子值的上下“阈值”(中位数±3倍中位差)限制极端值[page::3]。

2.2 因子筛选



2.2.1 筛选因子的模型

  • 使用LGBM模型代替随机森林提效,仍以CNE5残差收益率作为预测目标。

- 利用残差收益率作为拟合目标是为了剥离系统风格的影响,更准确捕捉因子影响[page::4]。

2.2.2 筛选频率与2.2.3 因子预筛选

  • 因子筛选和模型训练两者频率可不同,筛选因子每$Ns$个月,训练模型每$NM$个月。

- 利用LGBM模型的特征重要性排除训练集上特征重要性过低的噪音因子,显著加速边际筛选过程[page::4]。

2.2.4 因子边际筛选

  • 边际筛选法:以CNE5风格因子为初始池,逐次加入边际贡献最高的因子,通过训练-验证集来计算因子池整体性能(验证集多个月的RankIC平均),包含某因子与不包含的差值即为该因子边际贡献。

- 图 1 展示了预筛选加边际筛选的流程,凸显效率提升[page::4][page::5]。

2.3 预测模型



2.3.1 构建模型池

  • 创新点为保留历史训练的所有模型,构造动态模型池。

- 每个模型含4要素:模型类型(神经网络、随机森林、LGBM、GBDT、CatBoost等)、参数(例如层数、节点数、树深度)、数据时间范围、因子列表。
  • 每月训练固定数量模型,输入因子数从11到30不等,强化模型多样性与规模[page::5][page::6]。


2.3.2 模型筛选

  • 以最近12个月均RankIC打分筛选模型,得分低于0.02者剔除,保留得分前25%用作集成模型[page::6]。


2.3.3-2.3.5 三类机器学习因子构造

  • 机器学习因子($P{T,m}$)为集成模型预测值平均。

- 机器学习反转因子($P
{T,r}$)基于对上月残差收益率的预测误差,利用其潜在的反转效应构建。
  • 复合因子($P_{T,c}$)结合机器学习因子的多头能力与反转因子的空头能力,取两者正负部分相加,增强选股效果[page::6][page::7]。


3. 结果



3.1 因子筛选结果(图2)


  • RankIC随因子数增加先快速上升后趋缓,不同年度表现差异明显,最高2017年约0.16,2019年和2022年约0.06,表现与数据性质相关[page::7]。

- 这反映了因子库质量和市场环境影响因子有效性。

3.2 模型有效性跟踪(图3)


  • 模型刚训练时表现较好,随后有效性逐渐衰减,标志市场风格与因子轮动效应。

- 少数模型经历先衰减后回升,说明因子和模型有效性呈周期性回归。
  • 验证了保留历史模型的重要性[page::8]。


3.3 长记忆模型池优于短记忆模型池(图4、图5)


  • 长记忆模型池(2010年起)相比短记忆模型池(2017年起),在2017年以后历史数据中,RankIC表现更稳健,负RankIC次数少,ICIR分别为1.307与0.857,体现鲜明差距[page::9]。

- 说明模型池起始时间越早,越利于综合历史信息抓住更广泛市场状态。

3.4 训练频率影响(图6、图7)


  • 不同训练频率下,模型表现总体随训练间隔增加轻微下降。

- 3个月训练间隔表现优于每月训练,说明模型不必太频繁更新,降低计算资源成本。
  • 训练间隔大于1年表现明显变差[page::9]。


3.5 验证集长度影响(图8、图9)


  • 训练时固定用5年数据,验证集时间跨度从1个月到24个月修改,平均RankIC和ICIR对验证集长度不敏感。

- 12个月验证集长度表现优良,且短验证集时模型偏向短期规律,长验证集时偏向稳定规律,权衡后选定12个月最佳[page::10]。

3.6 不同模型对比(图10)


  • LGBM、CatBoost、随机森林、XGBoost、提升树、AdaBoost均表现相近,累积RankIC曲线稳定。

- 神经网络表现最差,因非集成性质噪音抑制能力较弱。
  • 表明方法对模型选择敏感性低,可多种模型并用增强稳定性[page::10]。


3.7 验证集表现与样本外表现相关性(图11)


  • 长期平均RankIC(24个月)与样本外RankIC 相关系数达0.33,明显优于短期单个月度评价0.21。

- 说明用更长时间验证集对模型筛选更可靠,有助稳定提升选股效果。

3.8 多模型异质性分析(图12)


  • 以2022年4月8日横截面为例,5000多模型预测值两两相关度概率密度平均仅0.144,模型间异质性良好,有利于集成模型提高表现[page::12]。


3.9 三类机器学习因子比较(图13-15)


  • 机器学习反转因子RankIC最高(0.095),其次为复合因子(0.088),机器学习因子最低(0.075)。

- 但复合因子多头能力更突出,且在降低选股频率时表现更稳定。
  • 机器学习反转因子虽RankIC高,但主要贡献来自空头[page::12][page::13]。


3.10 多模型集成表现(图16-22,表1-3)


  • 集成复合因子全市场表现优异(最高累计RankIC大于0.3以上)

- 在中证1000指数成分表现良好,但在沪深300和中证500表现较差,尤其沪深3002017年后趋近失效。
  • 主要原因包括:

1. 优化目标为全市场RankIC,因子效果对全市场更佳
2. 量化方法在中小市值股票池中效果更好
3. 股指成分股中存在不同因子频率与动量效应
4. 因子质量仍有提升空间(如更丰富的财务因子、分析师或另类因子)
  • 全市场分组回测年化超额收益18.6%,信息比率2.41;中证1000分五组回测年化超额16.3%,信息比率2.09。

- 超额收益主要归因于特质收益(约10.9%),其次风格收益(4.9%),行业配置贡献较少,反映纯因子选股能力[page::13][page::14][page::15][page::16]。

4. 结论


  • 成功构建并维护了机器学习模型池,实现因子和模型的动态筛选,加速筛选过程。

- 通过长期保留历史训练模型利用其“旧”的价值,解决模型短期内有效性衰减问题。
  • 模型池规模越大、记忆越长,集成效果越佳。

- 验证集打分筛选保持集成模型有效性,训练频率三个月左右最经济高效。
  • 模型之间异质性优良,不同机器学习模型均可贡献稳定表现。

- 复合因子在全市场与中证1000指标成分中表现良好,回测收益稳定且信息比率高。
  • 建议后续持续优化因子库、调整选股频率与改进合成方法以提升中大型市值股票池表现[page::17]。


5. 风险提示


  • 市场风格变化风险:市场风格快速转变可能导致模型和因子失效。

- 模型失效风险:模型表现可能衰减或突变。
  • 数据可用性风险:数据缺失或不准确严重影响因子和模型表现[page::19]。


---

三、图表深度解读



图 1:因子筛选流程


  • 展示了从“原始因子池”经LGBM模型基于特征重要性预筛选,再通过“边际筛选”多次迭代,最终合并“风格因子”得到“终选因子池”的过程。

- 体现预筛选大幅减少计算负担,边际筛选精细选取因子,提升因子池有效性。

图 2:LGBM模型验证集RankIC分年度平均值


  • X轴为因子数量,Y轴为平均RankIC。

- 随因子数增加RankIC快速提升随后趋稳,表明一定数量的因子足以捕捉大部分有效信号。
  • 不同年份差异显著,2017年最高超过0.16,2022年较低,反映市场环境差异和因子有效性波动。


图 3:模型有效性动态跟踪


  • X轴时间,Y轴为一年滚动平均RankIC。

- 不同颜色模型在训练初期RankIC高,之后逐渐衰减,但也有模型出现周期性回升,验证模型记忆和轮动理论。

图 4、5:长记忆与短记忆模型因子RankIC


  • 两图均包含柱状为各期RankIC,红线为RankIC累积。

- 长记忆模型池累积RankIC明显优于短记忆,负RankIC期次数少,表现更稳定。

图 6、7:训练频率影响


  • 累积RankIC曲线显示不同训练间隔表现,间隔3个月优于1个月,长间隔表现下降。

- 平均RankIC与ICIR随训练间隔增加略降,建议训练不必过频,降低计算成本。

图 8、9:验证集时间长度影响


  • 累积RankIC曲线和平均RankIC,ICIR表现对验证集时间长度较稳定,以12个月为优。


图 10:不同机器学习模型累积RankIC


  • 集成模型除神经网络外,其他模型表现相近且稳定,表明方法对模型类型敏感度低。


图 11:验证集评价与样本外表现相关系数


  • 评价期长度越长(12期),模型筛选效果(相关系数)越好。

- 反映长期验证优势。

图 12:模型横截面预测值相关系数概率密度


  • 大部分模型相关系数集中于低值(均值0.144),说明异质性强,有利于集成效果。


图 13-15:三类机器学习因子RankIC累积曲线


  • 反转因子表现最佳,但综合因子综合两者优势更实用,平衡多空头能力。


图 16-19:复合因子RankIC在不同指数的成分股表现


  • 全市场RankIC累计上升明显,沪深300及中证500表现较弱,中证1000表现较好。


图 20-21,全市场十组&中证1000五组回测


  • 显示因子分组按RankIC排序收益递增,最高组持续取得较好收益。

- 全市场年化超额收益18.6%,中证1000指数部分超额收益16.3%。

图 22:中证1000 组5超额收益归因


  • 超额回报主要来自稳定的特质回报,其次是风格回报,行业回报很小,体现量化因子选股功能。


---

四、估值分析



本报告主要围绕量化选股策略与因子有效性构建,并未涉及传统公司估值方法,无需对估值方法进行剖析。

---

五、风险因素评估


  • 市场风格变化风险:量化策略对市场结构及风格敏感,突变造成模型失效可能。

- 模型失效风险:模型过拟合或市场状态变化导致预测性能下降。
  • 数据可用性风险:财务数据或市场数据错误、缺失将直接影响模型训练和因子计算。

- 报告未详细描述防范措施,但通过动态验证筛选与多模型集成缓解个别模型失效风险。

---

六、批判性视角与细微差别


  • 报告强调保留旧模型价值,但未充分讨论过时模型长期失效对集成模型可能产生的负面影响,或模型池规模过大会带来的查询效率压力。

- 报告因子库质量的限制及数据处理简单性提醒了实际应用中因子质量的瓶颈,暗示方法虽优但依赖因子本身质量。
  • 报告中多处用RankIC指标评估表现,未充分涉及直接投资组合收益风险指标(如夏普比率等)及交易成本影响。

- 反转因子表现强烈依赖空头收益,选股频率提升到月度后空头效应弱化,提示策略对调仓频率敏感,需关注交易成本与滑点。
  • 报告采用的是历史回测方法,未说明是否对样本内外回测做严格区分,需注意潜在的历史数据过拟合风险。


---

七、结论性综合



本报告详细阐释和验证了一种创新的基于机器学习模型池的动态因子选股框架,成功结合了量化因子筛选和机器学习的优势。通过构建多模型池,动态评价模型有效性,保留历史模型的“长记忆”,避免传统的“每期重训练”方法带来的资源浪费和模型抖动,显著提升模型池整体表现。

多样化模型训练和动态筛选的集成模型在全市场和中证1000股票池里展现了显著的超额收益能力和较高的RankIC及信息比率。报告的数据图表均展现了模型稳定增长的RankIC曲线、因子筛选合理的边际贡献及验证集-样本外表现的良好相关性,验证了方法的实用性和稳健性。

然而,模型表现仍强烈依赖因子库质量和市场环境,报告指出大市值股池的表现尚有提升空间。反转因子和复合因子的对比显示,多空头能力的综合利用更具实用价值。训练频率和验证集长度的敏感性分析为实际运营提供了有价值的参数设定建议。

风险方面,报告简要明示市场风格突变及数据风险,采用模型异质性和动态筛选策略有效缓解风险。

总体而言,报告提供了机器学习量化投资领域一套优化且系统化的模型池管理策略,具有较强的理论价值和实际应用潜力,适合以日常运行维护为基础的中长线择时与选股框架,且可为未来进一步优化因子和模型合成方法提供坚实基础。[page::0]...[page::20]

---

结束语



本报告透彻剖析了当前新兴机器学习方法与传统量化因子结合的典范实践,对深化市场风格理解、提高量化因子选股效率具重要指导意义。相关专业人士可据此参考调整选股流程及模型管理体系,以适应动态变化的证券投资市场环境。

报告