`

如何用AI选出持续跑赢市场的基金?

创建于 更新于

摘要

本报告基于机器学习模型随机森林、XGBoost和LightGBM对基金选基因子进行构建,预测基金跑赢偏股混合型基金指数的概率。通过滚动训练与交叉验证构建22个关键因子并合成AI智选基金因子,回测结果显示该策略自2019年至今年化超额收益率达5.54%,信息比率显著优于线性模型,策略表现稳定且最大回撤较低,展现了机器学习在基金量化选基领域的强大应用潜力和优势 [page::0][page::3][page::6][page::9][page::13][page::15][page::17][page::18]

速读内容


机器学习选基背景与应用前景 [page::0][page::3]



  • 中国公募基金总规模超29万亿元,基金数量突破11900只,主动权益型基金规模持续扩容。

- 传统线性多因子方法难以捕捉因子间复杂非线性关系,机器学习模型具有更强泛化能力和适应性。
  • 国外文献支持机器学习能有效挖掘基金经理技能,取得显著超额收益和较高夏普比率。


机器学习量化选基流程与基金池构建 [page::4][page::5][page::6]



  • 基金池基于普通股票型、偏股混合型及灵活配置基金,基金份额类型限定为A类或无份额,成分基金由2010年323只增至3881只。

- 基准选用表现优异的万得偏股混合型基金指数,兼顾投资类型和权益占比。

因子构建与机器学习模型选择 [page::6][page::7][page::8][page::9]





  • 结合六因子模型及业绩动量、基金基础特征、资金流等多个角度构建22个基础因子。

- 采用随机森林、XGBoost和LightGBM树模型,结合滚动训练与5折交叉验证,选择特征重要性高且线性表现良好的因子。

机器学习模型训练及回测方法 [page::10][page::11][page::12]





  • 使用滚动训练和5折交叉验证防止过拟合,采用随机种子平均降低随机性影响。

- 详细介绍随机森林、XGBoost与LightGBM模型特点及训练流程。
  • 回测区间为2019年2月至2024年4月,月度调仓,采用分位数组合检验因子有效性。


机器学习因子表现及策略对比 [page::13][page::14][page::15]









  • 机器学习单因子IC表现优于线性合成因子,分位数组合呈现良好单调性。

- 综合三模型结果构建AI智选因子,IC均值3.03%,多头年化超额收益率4.82%,多空Sharpe比率达0.83。
  • 多头超额净值曲线显示策略稳健性及优越性。


AI智选基金组合构建及表现 [page::15][page::16][page::17][page::18]






| 统计指标 | 机器学习选基策略 | 万得偏股混合型基金指数 |
|--------------------|------------------|------------------------|
| 总收益率 | 100.02% | 55.20% |
| 年化收益率 | 14.35% | 8.87% |
| 年化波动率 | 20.78% | 18.32% |
| 夏普比率 | 0.69 | 0.48 |
| 最大回撤率 | 39.73% | 45.42% |
| 年化超额收益率 | 5.54% | - |
| 信息比率 | 1.02 | - |
| 超额最大回撤率 | 6.59% | - |
| 周平均换手率 (双边) | 35.41% | - |
  • 策略月度调仓,选取基金权益占比≥60%、份额类型为“A”或无且基金经理一年内无更换的基金前5%构建组合。

- 三大机器学习模型均在2019-2023年连续获得正超额收益,XGBoost与LightGBM年化收益高且最大回撤低。
  • 合成AI智选基金组合年化超额收益稳定,信息比率高,最大回撤小,优于线性因子及基准指数。

- 策略在不同市场环境中表现稳健,全年度胜率达100%,表现优于传统线性模型。

机器学习因子相关性与策略风险提示 [page::16][page::17][page::18]


  • 三大机器学习因子相关性较高 (>0.96),与线性因子相关性较低(0.72-0.76)。

- 策略风险提示强调历史回测结果不代表未来表现,模型在市场环境突变时存在失效风险,需警惕交易成本变化影响。

深度阅读

国金证券:如何用AI选出持续跑赢市场的基金?——机器学习选基详尽分析报告



---

一、元数据与报告概览


  • 标题:《如何用AI选出持续跑赢市场的基金?》

- 作者/分析师:高智威(执业S1130522110003)、赵妍(执业S1130523060001)
  • 发布机构:国金证券金融工程组

- 发布日期:2024年6月(基于内容发布日期推断)
  • 主题:运用机器学习技术构建基金选基因子,利用AI模型预测基金能否跑赢市场基准指数,进而构建量化基金组合


核心论点与目标



报告旨在展示机器学习技术(主要为Tree-based模型)在基金选基中的应用优势,重点论述通过构建多角度因子(基础特征、业绩动量、持有人结构、交易动机等),结合随机森林、XGBoost、LightGBM三大模型,预测基金短期(下月)是否跑赢万得偏股混合型基金指数的概率并转化为选基因子。

核心结论为:
  • 机器学习因子能较好克服传统线性因子捕捉非线性关系不足的缺陷;

- 三大机器学习模型构建选基策略,年化超额收益稳定且优于线性因子;
  • 基于机器学习因子的AI智选基金组合过去五年累计跑赢基准,风险调整后表现优异,信息比率达1.02。


该报告不仅构建方法细致,且搭建了严谨的滚动交叉验证训练框架,力求策略泛化能力和稳健性。[page::0,3,8,9,15,17,18]

---

二、逐节深度解读



2.1 机器学习选基研究背景



报告强调传统量化选基依赖线性因子等权合成,难以充分捕捉因子间复杂的非线性及多重共线性问题,且在不同市场环境有效性有限。

机器学习在股票领域已发展成熟,但基金数据频率低(多为季度更新),限制了机器学习的应用普及。尽管如此,由于基金数量规模显著扩大,且学术界已有积极探索(如Boosted Regression Trees和神经网络方法展现超额收益和较高夏普率),基金选基中的机器学习应用具备巨大潜力和现实意义。

报告以2010年-2024年公募基金规模和数量稳步攀升为背景,特别强调主动权益型基金扩容,为机器学习选基提供丰富标的基础。[page::0,3]

2.2 机器学习量化选基流程



详细梳理了机器学习选基的流程:
  1. 基金池及基准构建

选取A类及无份额的普通股票型、偏股混合型、灵活配置型基金,样本时间覆盖2010年至2024年。基准采用万得偏股混合型基金指数,指数数据充分反映主动权益基金表现,累计收益优于多指标宽基指数。
  1. 因子计算与筛选

基于基金基础特征、业绩动量、资金流等多维度设计因子,结合六因子资产定价模型及相关线性回归残差等指标测算因子表现。
  1. 机器学习模型选择与训练

采用树模型(随机森林、XGBoost、LightGBM),利用滚动训练和5折交叉验证方法,避免过拟合,增强泛化能力。
  1. 信号生成与策略构建

输出基金跑赢基准概率,构建机器学习因子,并进行策略回测验证。

该流程构架完整,逻辑严谨,适合基金低频且因子种类丰富的背景。[page::3,4]

2.3 因子构建及机器学习模型选择



因子设计:


  • 六因子模型拓展:包含市场风险因子(MKT)、规模因子(SMB)、价值因子(HML)、盈利能力因子(RMW)、投资风格因子(CMA)和动量因子(UMD)。

- 业绩动量因子:通过回归截距项的t统计量作为主要业绩表征,检验其对超额收益的预测能力,多个时间窗口(90、120、180、250、750交易日)并行构建,检测不同期限的基金业绩表现。
  • 其他因子类别

- 基金基础特征(TNA总资产、基金流动标准差等)
- 持有人结构(机构持有比例、员工持有)
- 交易特征(买入金额占净值比例、卖出因子)
- 业绩粉饰和财报信息(实际收益排名变动、价差收益因子等)

共筛选22个表现优异的基础因子,经特征重要性和线性表现双重标准精挑细选。

模型选择:



鉴于基金数据较小且频率低,报告认为基于树的集成模型(随机森林、XGBoost和LightGBM)相较神经网络模型更适合:
  • 训练参数较少,调参更高效;

- 解释性和泛化性能优;
  • 能捕捉因子间复杂非线性交互。


介绍了三种模型的基本原理与架构,包括随机森林的Bagging并行训练,XGBoost梯度提升及二阶导优化,LightGBM采用叶子优先分裂和高效采样技巧。

通过滚动交叉验证避免过拟合,确保模型在时间序列上的稳健性。

具体操作为:
  • 使用基金在未来一个月是否跑赢指数的二分类标签(1/0)作为预测目标;

- 样本集划分为样本内训练(94个月)和样本外测试(3个月),滚动训练更新;
  • 5折交叉验证确保模型泛化;

- 取多次随机种子模型平均增强结果稳定性;

此方法体系成熟,符合时间序列金融预测特性。[page::6,7,8,9,10,11,12]

2.4 因子表现和回测分析


  • IC(Information Coefficient)测试:计算因子值与下一期收益率的排序相关系数,绝对值越大预测能力越强;

- 分位数组合测试:按因子值划分基金为20个分位组,做多最高组,做空最低组,检验多空收益。

报告列出详细的因子IC、年化收益率、Sharpe比率、最大回撤等指标。表现突出的因子均在IC均值3%以上,部分因子t统计显著(>1.2),多头组合年化超额收益率最高可达20%及以上。

对比表明:
  • 机器学习因子整体IC、收益更优;

- 传统线性因子IC虽有优势(0.2左右),但收益、回撤表现逊于机器学习因子;
  • 三大机器学习模型因子表现相近,XGBoost和LightGBM略优;

- 机器学习因子分位组合呈明显单调递减趋势,收益稳定性突出。

机器学习因子对短期超额收益预测能力明显,线性合成因子的表现未见提升,机器学习真正捕捉了非线性关系和复杂交互。

图表展示了多头超额净值走势,机器学习因子整体跑赢线性因子。[page::13,14,15]

---

2.5 AI智选基金组合构建与表现



投资逻辑
  • 选基范围限定权益占比≥60%,基金类型限定为A类或无份额,且近一年无基金经理变更;

- 每月初调仓,按机器学习因子排序选取前5%的基金等权构建多头组合;
  • 交易成本考虑单边0.375%,30%换手率缓冲区间。


策略表现
  • 时间区间:2019年2月至2024年4月;

- AI智选基金组合实现14.35%年化收益,优于同期基准万得偏股混合型基金指数(8.87%);
  • 年化超额收益5.54%,信息比率1.02,表现稳健;

- 最大回撤39.73%,低于基准45.42%,超额回撤仅6.59%;
  • 周均换手率约35.4%,交易较活跃但可接受;

- 2019-2023年每年正超额收益率,2024年表现持稳;
  • 三大机器学习模型策略均跑赢基准,年度收益均稳定正向,XGBoost和LightGBM策略表现略优于随机森林;

- 机器学习模型因子相关性较高(0.96至0.99),而与线性因子相关性低于0.75,说明模型之间存在共性,也补充了传统方式的不足;
  • AI智选因子合成后多头组合表现更好,超额收益更加稳定。


上述结果充分证明机器学习模型在基金选基中的实用性和强预测能力,通过因子融合构建的AI智选基金组合实现了稳健的长期超额收益。

图表系统展示了净值曲线、超额净值变化及分年度收益率,视觉上清晰支持上述结论。[page::15,16,17,18]

---

2.6 风险提示



报告最后谨慎提醒:
  1. 历史结果不代表未来收益,模型可能失效;

2. 市场环境变化会影响因子有效性;
  1. 交易成本等实际情况变化将影响策略表现;

4. 报告仅为基金研究用途,非募集或宣传材料;
  1. 建议结合专业意见 使用,注意潜在风险及投资适配性。


该警示符合合规要求,提示投资者注意模型局限性及风险管理。[page::0,18]

---

三、图表深度解读



图表1 & 图表2:基金规模与数量趋势(page 3)


  • 公募基金及主动权益型基金数量与资产规模明显增长,表明市场容量提升,选基样本面广泛,有利研究模型的样本充分性;

- 自2010年以来主动权益基金数目显著扩容,2023年仍有近300只基金成立,体现市场活跃度持续。

---

图表5:基金池成分基金数目变化(page 5)


  • 2010年至2024年3月,成分基金数量由323只增长至3881只;

- 反映基金池样本量逐年激增,使机器学习模型训练更具数据基础。

---

图表6 & 图表7:基准指数编制及净值表现(page 5-6)


  • 万得偏股混合型基金指数覆盖成立3个月以上且权益占比≥50%的偏股混合基金;

- 2010年以来指数累计收益率超过107%,远超沪深300(1.71%)等宽基指数,既体现主动权益基金长期优异表现,也合理设为基准。

---

图表9 & 图表10:梯度提升和随机森林算法中截距项t统计量因子表现(page 7)


  • 因子截距t统计量越大时,夏普比率越高,展示相关因子与收益敏感性较强;

- 说明回归残差因子在测度基金超额收益中有显著作用。

---

图表12:机器学习选基因子合成流程示意(page 8)


  • 三大模型均预测基金跑赢基准概率;

- 各模型输出概率经等权合成形成AI智选基金因子,体现多模型融合减少偏差。

---

图表13 & 图表14:机器学习模型因子特征重要性与基础因子列表(page 9)


  • 各模型对因子重要性排名略有差异,但共同看重以tconst90为代表的业绩动量指标与基金流动性等;

- 22个因子覆盖基金多角度信息,基础特征、业绩动量、持有人结构、交易动机和财报信息。

---

图表15:滚动训练与交叉验证示意(page 10)


  • 固定训练-验证94个月,样本外测试3个月,以滚动方式持续更新样本和模型;

- 通过5折交叉验证调优,增强模型泛化性能和稳定性。

---

图表16~18:三大机器学习模型结构图(page 11-12)


  • 随机森林基于Bagging并行多个决策树,减少过拟合;

- XGBoost利用Boosting修正前序误差,采用二阶梯度优化,提高准确度;
  • LightGBM采用Leaf-wise拆分及梯度单边采样,加速训练、节省内存。


---

图表19:回测条件(page 13)


  • 明确回测调仓频率为月末;

- 保证基金经理稳定,期限为2019年2月至2024年4月;
  • 控制样本数据合理,确保回测结果真实性。


---

图表20:各基础因子样本外IC及收益统计(page 13)


  • 以ICP1Y_zs等动量类因子为例,IC均值3%以上,t统计显著,多空收益率高达8-12%;

- 持有人结构新工者因子(newworker)表现突出,t值高达4.85;
  • 部分因子(如业绩粉饰因子)表现负面,模型结合时提供多维度风险辅助。


---

图表21:各模型因子检验对比(page 14)


  • 机器学习因子平均IC均为约3%,标准差在18%左右;

- 多空年化收益均优于线性因子;
  • 线性因子IC看似更高0.2,但多空夏普下降,回撤表现不及机器学习因子;

- 机器学习模型综合表现优于传统线性组合。

---

图表22~30:三大机器学习因子及AI智选基金因子分位组合收益及净值(page 14-15)


  • 各机器学习因子分位效果良好,最高组合年化超额收益率5%及以上,表现单调;

- AI智选基金因子超越单个模型,年化超额收益稳定在4.8%,最大回撤维持适中;
  • 多头超额净值曲线明显优于线性因子,显示机器学习融合模型稳定的超额业绩。


---

图表31~32:三大机器学习模型与线性模型策略年度表现对比(page 16)


  • 2019-2023年三大模型均保持正超额收益,XGBoost、LightGBM收益稍优;

- 最大回撤均优于线性模型;
  • 换手率高于线性模型,体现机器学习模型对短期风格快速调整能力;

- AI智选组合表现突出,显示模型实盘可操作性强。

---

图表33:模型因子相关性(page 17)


  • 三大机器学习模型因子间相关性极高(0.96-0.99),说明捕获了相似的主要信号;

- 与线性因子相关性较低(0.72-0.76),代表挖掘了线性模型难以捕获的风险收益特征。

---

图表34~37:AI智选基金组合表现指标统计及年度超额收益(page 17-18)


  • 累计收益100%+,年化收益14.35%,优于基准8.87%;

- 超额回撤6.59%,信息比率1.02显著高于基准;
  • 2021年为线性策略相对优异年份,但整体来看AI智选组合5年内保持较稳定超额收益;

- 净值曲线显示AI智选组合明显跑赢基准,且回撤控制得当。

---

四、估值分析



报告非传统意义上的股票或基金估值研究,主要关注机器学习模型构建因子和策略表现,估值分析主要体现在模型对基金的相对表现概率预测上,即对跑赢基准概率的定量化。

机器学习模型通过树模型集成方法(随机森林Bagging,XGBoost/LightGBM Boosting)形成基金优劣排序,基于概率阈值进行投资决策,类似于因子投资的概率加权信号,实际应用中通过等权组合构建策略,未单独进入估值算法细节讨论。

---

五、风险因素评估



报告指出主要风险集中于模型自身局限及市场环境变化,包括:
  • 历史数据规律不代表未来:模型基于历史样本学习特征,未来极端行情或结构变化可能导致失效;

- 市场环境变化风险:政策、市场情绪或宏观经济变化可能使因子失效;
  • 交易及操作风险:实际交易成本、流动性变化、调仓频率调整影响收益;

- 因子数据滞后:受限于基金季度披露周期,因子更新延迟可能削弱模型实时性;
  • 非推荐材料声明:数据和观点基于公开资料,不构成投资建议,投资需谨慎。


整体风险提示专业完整,符合金融研究报告合规要求。[page::0,18]

---

六、审慎视角与报告细节



优点:


  • 报告结构清晰,方法论严谨,结合多种机器学习模型,融合多维度因子,训练设计周密,体现团队对金融工程及数据科学的深刻理解。

- 多模型融合降低单一模型过拟合风险,滚动交叉验证强化泛化能力实证。
  • 结合多维数据源(基金特征、业绩、资金流、持有人结构等)丰富因子体系。

- 详尽图表配合数据支持核心结论,论证充分。
  • 风险提示合规,充分告知模型可能失效风险,体现专业谨慎。


潜在局限及待注意点:


  • 样本内外划分时间点与公平性:虽然滚动训练和样本外测试设计合理,但未详细披露调参及模型验证防止数据泄露的全部细节;

- 换手率较高:周均换手率35%以上,频繁调仓可能导致现实操作成本高于模型设定,实际收益率或受压制;
  • 因子数据时效性限制:因基金持仓、持有人结构季度更新,模型因子的响应滞后性对极端行情依然敏感;

- 未深入探索模型融合和扩展:模型因子相关性较高,未来可探索更异质模型融合提升多样化效应;
  • 策略鲁棒性:2021年为线性因子相对优越年份,显示机器学习模型在特定市场环境下表现可能波动。


整体看,报告基于稳健科研框架进行,保证结论合理,但投资者在应用中仍需注意换手、交易成本及市场切换风险。

---

七、结论性综合



国金证券金融工程团队本报告系统地阐述了如何利用机器学习方法进行基金优选,具体逻辑为:
  • 构建了涵盖基础特征、业绩动量、持有人结构、交易动机、财务报表等22个精选因子。

- 采用随机森林、XGBoost、LightGBM三大树模型进行训练,预测基金跑赢万得偏股混合型基金指数的概率,结合滚动训练与5折交叉验证稳定模型效果。
  • 三模型因子表现优异且具有明显的预测能力,明显优于传统线性因子,且三模型融合的AI智选基金因子表现最为优秀。

- 基于机器学习因子构建AI智选基金组合,历时2019年至今,取得14.35%年化收益率,相较基准超额5.54%,信息比率达到1.02,表现稳健。
  • 策略在不同年度均实现正的超额收益,大幅超过了传统线性模型表现;换手率适中,风险调整收益突出,最大回撤低于基准。

- 机器学习模型因子在捕捉复杂非线性交互关系方面优势明显,能应对市场环境变化,提升选基因子的稳定性和持续性。
  • 报告充分展现了机器学习技术在私募基金量化优选领域的有效应用前景,具有重要的理论价值和实务参考意义。

- 同时针对模型风险和策略限制,报告给出了规范和严谨的风险警示。

综上,报告证实机器学习量化选基方法在中国权益基金市场具备显著超额收益潜力和可操作性,为量化基金研究和智能投资提供了前沿路径。

---

重点图表示范(部分示例)


  1. 图表1:公募基金规模及数量变化



  1. 图表7:2010年以来净值走势:万得偏股混合型基金指数 VS 宽基指数



  1. 图表12:机器学习选基因子计算与合成



  1. 图表29:AI智选基金因子分位数组合表现



  1. 图表34:AI智选基金组合超额净值表现




---

总结



国金证券通过详实的量化研究报告,深度挖掘了机器学习技术对基金投资组合构建的支持能力。报告论证充分,数据丰富,理论与实证并行,证明机器学习AI智选基金策略具备显著且稳定的长期超越市场的能力,为量化选基提供了具有实践意义的解决方案,体现了金融工程与人工智能跨界融合应用的前沿成果。[page::0,3,8,9,13,15,17,18]

报告