万流归宗多因子系列研究(一)——基于量价因子的多因子决策树
创建于 更新于
摘要
本报告针对量价因子的单因子失效问题,提出基于相关性、共线性和信息偏离度的多因子决策树模型,融合线性与非线性拟合方法递归构建合成因子。回测结果显示,合成因子在A股市场整体表现优异,年化收益接近40%,信息比率和胜率显著领先于等权组合和单因子,同时在沪深300、中证500及中证1000等不同样本空间均取得较好表现,展示出较强的稳定性与泛化能力[page::0][page::4][page::33][page::34][page::39]
速读内容
量价类单因子表现与多因子构建需求 [page::4][page::23]
- 选取了样本外仍有效的11个量价单因子作为因子池。
- 多数单因子存在相关性和共线性,影响线性拟合效果,非线性拟合对相关性要求较宽松。
- 因子表现参差不齐,部分因子年化收益率超40%,如SPS与STR,最高信息比率超过3。
传统多因子组合方法及绩效回顾 [page::5][page::6][page::7]


| 指标 | 等权组合 | ICIR组合 |
|------------|----------|----------|
| 年化收益率 | 39.36% | 36.43% |
| 波动率 | 13.06% | 12.53% |
| 信息比率 | 3.015 | 2.908 |
| 胜率 | 76.67% | 78.89% |
| 最大回撤 | 11.09% | 9.92% |
| 月度IC均值 | -0.084 | -0.084 |
- 等权组合简单直观,ICIR结合因子预测稳定性,但均未考虑因子相关性。
- ICIR组合在稳健性指标稍优,等权组合年化收益略高。
多因子线性及滤波方法分析 [page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17]
- 采用最小二乘法、岭回归对横截面因子值回归本期收益率,其中岭回归提升了信息比率但收益率低于等权方法。
- 引入小波滤波、卡尔曼滤波、高斯滤波对回归系数平滑处理,均改善信息比率指标但整体仍落后等权法。
- 三种滤波最新回测信息比率分别约1.88、1.99、2.05,胜率超70%。
多因子非线性模型探索 [page::17][page::18][page::19][page::20][page::21][page::22][page::23]




- 支持向量回归(SVR)、XGBoost、随机森林、神经网络(ANN)等非线性模型提升多因子预测能力。
- XGBoost及随机森林表现较好,XGBoost年化收益约32%,信息比率2.54,随机森林年化收益率26%,信息比率2.41。
- 神经网络(ANN)及SVR表现较低,但均胜过基本最小二乘线性回归模型。
因子相关性、共线性与综合得分分析 [page::24][page::25][page::26]
- 因子间存在较高相关性及共线性,构建综合得分用于划分因子类别,避免负面线性合成影响。
- 同类因子通过主成分分析(PCA)进行降维处理,提升模型稳定性和替代冗余信息。
- 典型高相关因子组包括(SPS,TPS)、(SPSTurbo,TPSTurbo)、(STR,UTR)。
多因子决策树模型构建与多层递归推演 [page::27][page::28][page::29][page::30][page::31][page::32][page::33]
- 模型基于因子相关性、共线性和信息偏离度,递归划分树杈组合,采用线性拟合、非线性拟合和PCA降维,优化合成因子效果。
- 第1层合成5个新因子,包括线性组合、随机森林非线性拟合及PCA降维结果。
- 后续层级迭代合成,逐层剔除高相关性,最终得到3个合成因子。
- 第三层因子相关度仍较高,无法继续异类组合,故等权合成最终因子。
合成因子绩效表现与优势 [page::33][page::34][page::35][page::36]

| 指标 | 多因子决策树合成因子 | 等权 | 最好单因子 (SPS_Turbo) |
|----------------|------------------|-------|-------------------|
| 年化收益率 | 39.60% | 39.36%| 32.79% |
| 波动率 | 11.83% | 13.06%| 10.79% |
| 信息比率 | 3.349 | 3.015 | 3.038 |
| 胜率 | 80.00% | 76.67%| 76.67% |
| 最大回撤 | 9.20% | 11.09%| 6.11% |
- 合成因子显著提升信息比率及胜率,回撤和波动率得到控制,整体风险调整后收益最佳。
- 分年度表现稳定持续,2023年累计收益14.6%。
- 纯净化合成因子剔除行业哑变量后胜率超过83%,最大回撤更低至5.64%。
合成因子在主要指数的应用表现 [page::37][page::38][page::39]
- 沪深300指数增强策略年化收益14.32%,信息比率0.994,最大回撤16.14%。
- 中证500指数增强年化收益16.77%,信息比率1.147,最大回撤22.58%。
- 中证1000指数增强多空对冲策略年化收益37.27%,信息比率2.865,最大回撤14.49%。
- 三大指数均体现出合成因子良好的跨市场适应性和风险收益表现。
报告总结与风险提示 [page::39][page::40]
- 报告重构了基于量价因子的多因子决策树模型,兼顾因子相关性及信息偏离度。
- 多层递归组合,综合线性和非线性方法,形成稳定高效的股票选股因子。
- 实证表明合成因子击败单因子与传统等权组合,在多个样本空间具有较强泛化能力。
- 风险提示:市场未来可能变化导致模型失效,单因子波动大需结合风险管理,数据计算存在误差不构成投资建议。
深度阅读
金融研究报告详尽分析报告
报告标题:万流归宗多因子系列研究(一)——基于量价因子的多因子决策树
作者及机构:证券分析师 高子剑,研究助理 凌志杰,东吴证券研究所
发布日期:2023年9月4日
报告主题:基于量价因子的多因子模型构建与优化研究,探讨如何利用多因子决策树模型有效合成量价因子,提升选股策略预测能力及收益表现[page::0]
---
1. 元数据与报告概览
本报告聚焦于量价因子,尤其是在多个单因子在2023年上半年出现群体失效后,如何应用多因子决策树来复合因子降低失效风险。报告通过引入线性及非线性模型,并结合因子相关性、共线性和信息偏离度,设计了一个层层递进的多因子决策树框架,最终生成的复合因子在A股市场回测中表现优异,收益率达39.60%,信息比率3.349,显示其优于传统等权组合和最佳单因子。报告强调历史回测结果不代表未来表现,提醒风险控制[page::0]
---
2. 逐节深度解读
2.1 引言与因子池介绍
报告首先介绍了东吴金工过去两年累计发布的15个量价因子。2023年上半年这些因子部分均出现失效现象,因而选取11个样本外依然稳定有效的因子作为组合基础,构筑多因子池。因子涵盖换手率均值(Turn20)、换手率标准差(STR)、换手率变化率相关因子(SPS、TPS及其Turbo版本)、高频相关性因子(CPV、RPV)、短期涨跌差因子(RCP)等,详见表1[page::4]
这些因子各自来源于前期东吴研究报告,设计理念不同但均基于量价特征,覆盖了换手率的均衡性、波动、变化率等维度,构建了较为完善的单因子体系。
2.2 传统多因子组合方法及局限
报告回顾了传统等权多因子组合方法,优点是简单、易操作,避免过拟合风险。2016-2023年回测显示等权组合年化收益39.36%,波动率13.06%,信息比率3.015(见图1和表2),但忽略因子有效性和相关性,可能导致性能受限。
然后介绍ICIR加权法,考虑因子效果的稳定性和有效性,虽然提高了风险调整后回报(年化收益36.43%,波动率12.53%,信息比率2.908),回撤和胜率表现优于等权(图2,表3),但缺乏处理因子相关性,仍可能存在组合冗余性[page::5][page::6][page::7]
2.3 横截面因子回归方法
最小二乘法(OLS)和岭回归被用作横截面回归工具。OLS在因子间多重共线性时不稳健,岭回归引入正则化改善该问题。两者回测表现均不及简单等权,多空对冲年化收益15%及16.5%左右,波动略低,信息比率均不足1.3。(图3-6,表4-7)[page::8][page::9][page::10][page::11][page::12]
拟合版技术采用回归本期因子值,以修正回归系数,效果优于预测版,但仍低于等权方法(见图5-6,表6)。滤波方法(小波、卡尔曼、高斯滤波)进一步处理时间序列噪声和平滑系数,均提升信息比率和回报至约1.8-2.1,胜率70%+,但仍落后于等权组合(图7-9,表7-10,图14-16)[page::12][page::13][page::14][page::15][page::16][page::17]
2.4 非线性多因子模型
引入支持向量回归(SVR)、XGBoost、随机森林和神经网络(ANN)等非线性模型,用带滚动窗口方法的动态训练和预测,捕捉更复杂的因子间非线性关系。
- SVR表现相对一般,年化收益11%-14%,信息比率1.4-1.5,波动较小但收益和稳定性不及其他非线性模型[page::17][page::18]
- XGBoost在窗口10时年化收益32%,信息比率2.5,胜率76%,较好平衡风险收益[page::19][page::20]
- 随机森林收益约26%,信息比率2.4,回撤仅6.68%,显示较低风险特征(图12,表13)[page::21]
- ANN收益约24%,信息比率约2.0,胜率76%+,表现介于XGBoost和随机森林之间(图13,表14)[page::22][page::23]
总体来说,非线性方法在捕捉复杂关系上效果明显优于线性回归,更适合因子组合建模。
2.5 单因子表现与因子间相关性分析
报告详细列示了11个东吴金工量价因子在2016~2023年的回测表现,优秀单因子年化收益超过40%(如SPS 44.24%,STR约40.59%),但信息比率与稳定性有差异。通过相关性和共线性分析,识别到三个高度相关因子群组:(SPS,TPS)、(SPSTurbo,TPSTurbo)、(UTR,STR),影响线性拟合效果。提出综合得分指标(相关性×共线性)评估因子适合度,帮助确定合适的组合方式[page::23][page::24][page::25]
2.6 主成分分析(PCA)应用
在三个高相关因子组,采用PCA降维处理生成中性因子。PCA合成因子信息比率介于较优和较差单因子间,且普遍优于等权组合,缓解了线性拟合中多重共线性影响,有助后续建模。相关PCA综合表现见表16-18[page::26][page::27]
2.7 多因子决策树模型构建及推演
核心创新在于结合因子相关性、共线性和信息偏离度,通过多层决策树机制分步合成因子:
- 选择测试集周期,计算因子综合得分α,将因子依据α划分类别
- 根据信息偏离度β优先选择不同类因子组合作线性拟合,若不同类组合缺失则用非线性方式或PCA处理同类因子
- 生成新因子后,将剩余单因子及新因子进入下一层决策树,反复迭代直至无法继续合成
推演过程中,东吴金工11因子被划为两类3组合+5单因子。第一层基于信息偏离度选取三个不同类组合用线性拟合,两个同类组合分别用随机森林和PCA。经整理,第一层生成5个新因子并加入剩余单因子进入第二层(图17-20)[page::27][page::28][page::29][page::30]
第二层基于6个因子进一步执行同样流程,得两个新因子合成及部分保留,进入第三层分析(图21-24)[page::30][page::31]
第三层4个因子无同类且无正信息偏离度组合,不能继续合成,采用等权相加形成最终合成因子(图29-33)[page::32][page::33]
---
3. 图表深度解读(重点章节)
图1 & 表2:等权多因子组合净值走势与绩效指标
图1展示2016-2023年间分组按等权合成因子构建的十分组净值趋势,分组1最弱,分组10最强。整体呈现上升趋势,表现稳健。
表2披露了39.36%年化收益、13.06%波动率及3.015信息比率,最大回撤11.09%,胜率76.67%。这是传统基线表现[page::5][page::6]
图2 & 表3:ICIR加权组合表现
图2为基于IC与ICIR加权组合的分组净值演进,整体高于等权组合。表3显示36.43%年化收益、12.53%波动率,胜率提升至78.89%;最大回撤降至9.92%。信息比率虽略低于等权,但风险更优[page::7]
图3-6 & 表4-7:线性回归预测与拟合表现
图3为OLS预测版表现,年化仅15.41%,信息比率仅1.20,绩效远低于等权。
图4岭回归略优OLS,年化16.5%,回撤稍小,但仍逊色于等权。
图5-6为拟合版,改用本期因子,提升收益至23.55-25.86%,信息比率提升到1.76-1.88,但仍不足等权3.01水平。
整体显示传统线性预测难以超越简单等权[page::8][page::9][page::10][page::11][page::12]
图7-9 & 表7-10:滤波方法提升拟合版
通过小波、卡尔曼、高斯滤波,分别实现了信息比率从1.76提高到约2.05的提升,胜率提升至72%以上,最大回撤改善至10.59-11.49%。仍因线性方法局限,整体表现不及等权[page::13][page::14][page::15][page::16][page::17]
图10-13 & 表11-14:非线性模型表现
SVR表现较弱,年化11%-14%,信息比率不到1.6
XGBoost显著提升,年化32%,信息比率2.53,最大回撤10.99%
随机森林稳定表现26%,信息比率2.41,最大回撤最低6.68%
ANN较均衡,年化23.6%,信息比率2.03,回撤10.21%
非线性模型提供了最佳提升路径[page::18][page::19][page::20][page::21][page::22][page::23]
图14-16 & 表15:因子相关性与共线性分析
因子之间的相关系数和共线性系数展示了三个高度相关的子因子集合,(SPS,TPS)、(SPSTurbo,TPSTurbo)、(UTR,STR),合成过程中需特殊处理。综合得分表明确了难以线性合成的问题因子组合[page::24][page::25]
图17-33 & 表19:多因子决策树分层推演
每层因子综合评分与信息偏离度决定采用线性或非线性方法合成新因子。最终层3因子合成有限,采用等权相加形成最终合成因子。
合成因子年化收益39.6%,波动11.83%,信息比率3.349,最大回撤9.2%,胜率80%优于等权与最佳单因子(SPS_Turbo收益33%,信息比率约3.04),显著提升组合质量[page::27][page::28][page::29][page::30][page::31][page::32][page::33][page::34]
图34 & 表22:纯净合成因子
排除行业哑变量和剔除Barra因子影响后,纯净因子年化收益22.21%,波动降低至6.87%,信息比率3.234,胜率升至83.33%,最大回撤压缩至5.64%。证明模型具有良好的风险调整收益能力和稳定性[page::35][page::36]
表24:多空收益拆解
空头头寸贡献的超额收益(27.91%)远大于多头(9.13%),多空收益拆解显示合成因子具有较强的空头择时能力,这对冲策略贡献了总体收益的关键部分,风险也较优[page::37]
表25-27 & 图38-39:不同样本空间测试
合成因子分别在沪深300、中证500、中证1000指数样本空间进行多头和多空策略回测。
沪深300多空对冲年化14.32%,信息比率0.99;中证500年化16.77%,信息比率1.15;中证1000多空对冲收益达37.27%,信息比率2.87。三大样本均体现合成因子较强的适应性与稳健性[page::37][page::38][page::39]
---
4. 估值分析
报告未涉及具体估值模型及目标价的讨论,聚焦于因子模型构建和投资策略回测绩效。
---
5. 风险因素评估
报告明确披露三类风险提示:
- 未来市场风险:历史统计基于过去数据,市场环境若有显著变化,模型表现或受影响。
- 单因子模型波动风险:单因子本身收益波动较大,需结合资金管理和风险控制策略实际应用。
- 测算误差风险:模型计算存在误差,不构成具体投资建议,投资决策需综合考量[page::0][page::40]
---
6. 批判性视角与细微差别
- 报告展示了多种传统与先进的方法对比,表现出研究严谨性及客观性。
- 数据相关性与共线性对模型拟合效果显著影响,报告合理采用PCA及非线性方法缓解多重共线性问题。
- 多半技术指标体验基于拟合和回测,现实中市场结构变化或导致模型失效风险,需持续验证。
- 表中部分模型参数和指标未全显示如SVR具体统计值略缺,稍微影响分析完整性。
- 纯净因子处理验证了合成因子中存在一定的风险因子成分,需持续监管行业和市场风险暴露。
- 多因子决策树模型虽复杂,但并未包含超参敏感性测试,未来有优化空间。
---
7. 结论性综合
东吴证券研究所提出的基于量价因子的多因子决策树模型,是一种结合线性滤波、非线性机器学习(SVR、XGBoost、随机森林和ANN)及PCA降维技术的系统化多因子融合框架。通过递归层层筛选和合成,充分考虑因子相关性、共线性和信息偏离度,实现了高效的因子分类和动态组合。
核心优势体现在:
- 显著提升投资业绩:合成因子年化收益39.6%,信息比率3.35,年度最大回撤9.2%,风险调整后超越传统等权组合及最佳单因子。
- 多模型融合利用:既有传统线性模型优化,也有先进非线性机器学习模型应用,保障对复杂市场关系建模能力。
- 合理处理因子相关性:运用复合打分和PCA,避免冗余因子过度拟合,提高模型泛化能力。
- 完成多层决策树结构设计:实现多因子合成的系统化和科学化,具备较好自适应能力。
- 纯净因子分析显示模型风险适度,同时保持较高信息比率,提升稳健性。
- 多样样本空间验证,涵盖主流指数,展示优秀的策略适用性和稳健性。
图33和表19清晰呈现了最终合成因子强劲的多空对冲净值走势及领先的风险调整收益;图34和表22进一步显示纯净合成因子优异表现。
报告还承认存在基于历史回测的局限以及单因子模型波动性的风险,强调需结合实际操作和风控管理。
综上,多因子决策树框架为量价类因子投资策略融合提供了一套前沿可行的技术路径,具有较高的学术及实务价值。未来进一步拓展到其他因子类型并持续优化将促进其广泛应用。
---
参考文献标注示例:
- 因子池及背景介绍[page::0][page::4]
- 等权和ICIR组合分析及优劣比较[page::5][page::6][page::7]
- 线性回归模型及滤波方法详解与回测[page::8]~[page::17]
- 非线性模型应用及比较[page::17]~[page::23]
- 因子相关性、多重共线性和PCA分析[page::23]~[page::27]
- 多因子决策树模型设计、推演及层层合成[page::27]~[page::34]
- 纯净因子分析及多空收益拆解[page::35]~[page::37]
- 不同样本空间回测结果验证[page::37]~[page::39]
- 总结及风险提示[page::40]
---
附:关键图表示例展示
图1:等权多因子组合十分组及多空对冲净值走势

图33:合成因子十分组及多空对冲净值走势

图34:纯净合成因子十分组净值走势图

以上为本报告的深入且全面分析。