万流归宗多因子系列研究(一)——基于量价因子的多因子决策树
创建于 更新于
摘要
本报告基于东吴金工量价类因子构建了多因子决策树模型,融合线性与非线性方法,对因子相关性、共线性及信息偏离度进行层层筛选与合成。回测显示,该合成因子在全市场具有显著优于等权组合及最佳单因子的风险调整收益,年化收益率达39.60%,信息比率3.349,表现稳健且抗风险能力强,且在沪深300、中证500和中证1000均体现出较好适应性,体现多因子决策树模型的有效性和应用价值[pidx::0][pidx::5][pidx::33][pidx::34][pidx::40]
速读内容
- 多因子组合框架及回测效果概览 [pidx::0][pidx::33]

- 合成因子年化收益39.60%,波动率11.83%,信息比率3.349,月度胜率80%,最大回撤9.20%。
- 合成因子表现优于传统等权组合和最佳单因子SPS_Turbo。
- 传统多因子组合方法及经典线性模型回测对比 [pidx::5][pidx::6][pidx::7][pidx::8][pidx::9][pidx::10][pidx::11][pidx::12][pidx::17]

- 等权组合年化收益39.36%,信息比率3.015;ICIR组合稳健,信息比率稍低。
- 线性回归方法(最小二乘、岭回归)回测收益及稳定性均弱于等权组合。
- 采用滤波方法(小波、卡尔曼、高斯滤波)对线性拟合系数平滑改进,提升了信息比率但仍不及等权法。
- 非线性多因子模型及应用效果 [pidx::17][pidx::18][pidx::19][pidx::20][pidx::21][pidx::22][pidx::23]

- 引入SVR、XGBoost、随机森林和ANN模型挖掘复杂非线性关联。
- 其中XGBoost和随机森林表现较优,信息比率达2.5以上,胜率均超过70%。
- 核心量价因子池概览及单因子表现 [pidx::4][pidx::23]
- 旗下量价单因子11个,涵盖换手率均值、标准差、变化率标准差、量价相关性等多角度因子。
- 单因子表现信息比率多在2以上,最佳单因子SPS信息比率3.016,年化收益超40%。
- 因子相关性、共线性与综合评分分析 [pidx::24][pidx::25][pidx::26]
- 构建因子相关性矩阵和共线性矩阵,通过乘积得出综合评分,发现在三个高相关因子组中,线性合成效果受限。
- 使用PCA对高相关组因子降维合成,中性因子表现优于等权合成,信息比率介于单因子之间。
- 多因子决策树模型构建与多层推演过程 [pidx::27][pidx::28][pidx::29][pidx::30][pidx::31][pidx::32][pidx::33]
- 模型基于相关性、共线性、信息偏离度选择组合因子,分不同类和同类处理,分别采用线性拟合、非线性拟合(随机森林)及PCA。
- 第一层合成五个新因子,第二层进一步合成新因子,第三层因组合综合评分较高而无法再合成,最终采用等权加权形成终极合成因子。
- 合成因子风险调整及纯净化处理效果 [pidx::35][pidx::36]

- 合成因子与Barra因子中流动性与残差波动率相关性较高,进行Barra纯净化处理后,仅信息比率轻微下降0.1,胜率提升至83.33%,最大回撤降至5.64%。
- 合成因子在不同样本空间表现 [pidx::37][pidx::38][pidx::39]

- 合成因子在沪深300、多头优化策略及多空对冲均表现优异,年化收益最高达14.32%,信息比率接近1。
- 中证500和中证1000中,多空对冲策略表现尤为突出,最大回撤显著降低,表现稳健。
- 合成因子多空收益拆解与贡献分析 [pidx::35]
- 空头超额收益显著高于多头,分别达27.91%与9.13%,信息比率超3,月度胜率均超69%,显示空头策略为组合主要贡献来源。
深度阅读
万流归宗多因子系列研究(一)——基于量价因子的多因子决策树 详尽分析报告
---
一、元数据与报告概览
报告标题: 万流归宗多因子系列研究(一)——基于量价因子的多因子决策树
作者及联系方式: 证券分析师高子剑(执业证书 S0600518010001021),研究助理凌志杰(执业证书 S0600123040053)
发布机构: 东吴证券研究所
发布日期: 2023年9月4日
主要研究内容:
报告聚焦于量价类选股因子的多因子组合构建,提出并验证了基于量价因子的多因子决策树框架。报告旨在通过创新方法整合内部相关的量价单因子,提升因子组合的预测稳定性与收益表现,力求超越传统等权组合及最佳单因子表现。
核心结论:
- 多因子决策树模型能够有效融合多个量价因子,优化组合表现。
- 回测结果显示,合成因子年化收益39.60%,年化波动11.83%,信息比率3.349,月度胜率80%,最大回撤9.20%,均优于等权组合和最佳单因子。
- 模型兼顾线性与非线性方法,通过递归推演完成多层因子合成。
- 风险提示明确表明所有结果基于历史数据,存未来不确定性风险等[Pidx::0][Pidx::4][Pidx::33][Pidx::40]
---
二、逐章深度解读
2.1 引言与背景
报告回顾了东吴金工过去两年发布的15个量价单因子,选取11个在样本外仍有效的单因子作为多因子组合基础。选股单因子近期均出现失效,提出采用多因子模型规避单因子失效风险。所选因子涵盖换手率均值、标准差、高频量价相关等细分量价变量,均为东吴证券研究所自主构建并发布。通过组合这些量价内因子,尝试发现更稳定的预测信号[Pidx::0][Pidx::4]
2.2 传统多因子组合方法
- 等权组合: 将各因子赋予同等权重,简单有效,但忽略因子间相关性及因子的稳定性,可能导致模型性能不稳。
- ICIR最大化: 关注因子信息系数(IC)及信息比率(ICIR),优于等权组合,但未考虑因子相关性,可能导致组合内因子冗余。
回测数据显示,2016年至2023年,等权组合年化收益39.36%,信息比率3.015;ICIR方法年化收益稍低36.43%,信息比率2.908,回撤与月度胜率均更优。图1、2和表2、3中详细展示这些组合的绩效表现,以此为基准体现新模型改进空间[Pidx::5][Pidx::6][Pidx::7]
2.3 线性多因子组合模型与滤波方法
横截面因子值回归收益率: 传统线性回归用于拟合因子和未来收益的关系,具体采用最小二乘法(OLS)和岭回归(带正则化处理)。区别在于岭回归可减轻因子多重共线性问题。
- 最小二乘法回测: 年化收益15.41%,信息比率1.203,表现不如等权方法。
- 岭回归回测: 年化收益16.50%,信息比率1.261,略优于OLS,但依然弱于等权组合。
拟合版改进: 将回归目标调整为本期收益且带入本期因子权重,模型表现有所提升,年化收益提升至23.55%(OLS)和25.86%(岭回归),信息比率分别为1.759和1.884,但仍不及等权模型。
滤波技术应用: 为处理因子时间序列噪声和异常值,引入三种滤波方法:小波滤波、卡尔曼滤波和高斯滤波。
- 小波滤波可对信号做多尺度分析,剔除噪声,提升稳健性,回测显示年化收益25.59%,信息比率1.88,优于拟合版OLS。
- 卡尔曼滤波基于递归状态估计,适用于动态系统状态跟踪,回测年化收益26.68%,信息比率1.989,表现最佳。
- 高斯滤波注重信号平滑,回测年化收益25.14%,信息比率2.055。
上述滤波方法均提升了模型信息比率,但均未能超越等权组合(信息比率3.015),显示出线性拟合方法的一定局限性[Pidx::8][Pidx::9][Pidx::12][Pidx::13][Pidx::14][Pidx::15][Pidx::16][Pidx::17]
2.4 非线性多因子组合模型
引入支持向量回归(SVR)、XGBoost、随机森林、神经网络(ANN)等非线性模型,以捕捉更复杂的因子与收益关系。
- SVR: 利用核函数映射特征空间,滑动窗口参数调节,回测年化收益11.31%至14.51%,信息比率1.397至1.533,表现不及线性滤波模型。
- XGBoost: 以梯度提升树方法,强调损失函数优化及正则化,回测年化收益32.00%,信息比率2.536,较线性滤波显著提升,胜率76.53%。
- 随机森林: 以集成多棵随机决策树实现回归,回测年化收益26.08%,信息比率2.414,最大回撤6.68%,波动率10.8%。
- ANN: 利用多层神经网络拟合非线性关系,回测年化收益23.59%,信息比率2.033,稳定性表现较好。
非线性模型表现优于线性滤波模型,但较等权简单组合仍有差距。综合来看,XGBoost和随机森林表现尤为突出,体现了非线性方法在因子组合中的潜力[Pidx::17][Pidx::18][Pidx::19][Pidx::20][Pidx::21][Pidx::22][Pidx::23]
2.5 东吴金工量价单因子分析及分类
报告详细列出东吴证券研究所15个量价单因子,结合其年化收益、信息比率及稳定性指标,选取11个表现优异且相关性合理的因子进行多因子组合。
在因子间相关性和共线性分析中发现:
- 相关性及共线性高的因子进行线性拟合后信息比率提升有限,反而可能受影响。
- 非线性拟合对相关性的容忍度更强,少部分高相关组合同样能获得改善。
- 因此提出了“综合得分”方法,用相关性与共线性加权计算,指导因子合成选型。
- 采用主成分分析(PCA)对高度相关的因子组(如SPS、TPS,UTR、STR等)进行降维处理,有效减少多重共线性,提升合成因子表现[Pidx::4][Pidx::23][Pidx::24][Pidx::25][Pidx::26]
2.6 多因子决策树模型构建与推演
该模型围绕因子相关性、共线性及信息偏离度(衡量组合与单因子信息比率差异)展开,有序分层进行因子合成:
- 第一层: 根据综合得分划分3个主要因子类别和5个单因子。例如,相关性高的SPS、TPS和UTR、STR分别形成组合,剩余单因子保持独立。根据信息偏离度选择不同类树杈组合,采用线性滤波或非线性拟合(随机森林)和PCA降维处理,生成5个新因子进入下一层。
- 第二层: 对第一层合成因子与单因子再次依据综合打分分类,形成新类别和单因子。依据信息偏离度选择树杈组合,并对高度相关组合采用PCA降维及线性组合,继续向下一层递归。
- 第三层: 进一步对第二层合成因子进行相关性、共线性和信息偏离度测试,三个因子均无同类因子。由于信息偏离度不足,无法进一步合成,最终将三因子等权相加得到最终合成因子。
整个多因子决策树框架通过递归分层筛选因子和合成方法,有效利用各因子间不同特性,并综合线性与非线性模型优势,从而实现优越的预测性能与组合稳定性[Pidx::27][Pidx::28][Pidx::29][Pidx::30][Pidx::31][Pidx::32][Pidx::33]
2.7 合成因子回测表现
- 合成因子回测期为2016年1月至2023年7月。
- 月度IC均值-0.086,年化ICIR-3.028,年化收益39.60%,年化波动11.83%,胜率80%,最大回撤9.20%。
- 显著优于传统等权组合(收益39.36%,波动13.06%,信息比率3.015)和表现最佳单因子SPSTurbo(收益32.79%,波动10.79%,信息比率3.038)。
- 分年度回测显示合成因子无显著衰退,2023年累计多头收益14.6%。
- 纯净因子(经Barra残差波动率和流动性因子处理,去除行业变量)仅信息比率小幅下降0.1左右,同时显著提升稳定性(波动率降至6.87%,胜率83.33%,最大回撤5.64%)。
- 多空收益拆解表明空头超额收益超过多头,比例约3:1,说明策略在空头选择能力上表现尤为突出。
- 合成因子在沪深300、中证500及中证1000等不同样本空间均表现稳健,信息比率和胜率均有提升[参见表19-27,图33-39][Pidx::33][Pidx::34][Pidx::35][Pidx::36][Pidx::37][Pidx::38][Pidx::39]
---
三、图表示意及深度解读
3.1 传统多因子组合及线性模型绩效图示
- 图1 & 表2(等权组合):
多空对冲净值曲线分层明显,分组1与分组10表现截然不同,差距显著。年化收益率39.36%,信息比率3.015,较高的胜率76.67%及11.09%最大回撤表明组合表现稳定。[pidx::5][pidx::6]
- 图2 & 表3(ICIR组合):
曲线整体较等权更平滑,回撤9.92%更低,胜率78.89%略高,但年化收益稍低36.43%,表明ICIR模型在风险控制上优于等权,却在收益上略逊一筹。[pidx::7]
- 图3-6 & 表4-6(最小二乘法与岭回归预测拟合版):
净值走势不及等权和ICIR组合,容易出现回撤且收益不稳定,尤其预测版基于未来收益回归,可能受噪声影响。岭回归相比OLS有细微改善,信息比率提升0.05左右,但依然低于传统组合。[pidx::8][pidx::9][pidx::10][pidx::11][pidx::12]
- 图7-9 & 表7-9(滤波拟合版):
三种滤波(小波、卡尔曼、高斯)均使模型净值曲线更加平滑,最大回撤减少,信息比率提升至近2左右,胜率达到71%-74%。尤其卡尔曼滤波表现最佳,年化收益最高,波动控制较好,验证了滤波对时间序列因子权重稳定性的改善作用。[pidx::13][pidx::15][pidx::16]
3.2 非线性模型绩效展示
- 图10 & 表11(SVR):
虽模型先进,但整体收益与信息比率落后于滤波方法,显示SVR对当前因子样本的拟合存在难度,预测稳定性不佳。[pidx::18]
- 图11 & 表12(XGBoost):
明显优于SVR及滤波方法,收益和信息比率大幅提升,胜率接近76.5%,最大回撤约11%,表现较均衡,说明XGBoost对非线性因子关系捕捉能力更强。[pidx::19][pidx::20]
- 图12 & 表13(随机森林):
提供优质风险调整收益,波动率及最大回撤均显著优于其他非线性模型,信息比率2.414,胜率73%,在提升稳定性的同时注重风险控制。[pidx::21]
- 图13 & 表14(ANN):
较XGBoost与随机森林略低,年化收益23.59%,信息比率2.033,波动率11.6%,体现了神经网络模型对因子非线性关系的理解仍有提升空间。[pidx::22][pidx::23]
3.3 因子相关性与共线性分析
- 图14-16: 展示量价因子间较明显的相关结构,如SPS与TPS、SPSTurbo与TPS_Turbo、UTR与STR等强相关因子成簇。
- 综合得分矩阵明确表示相关性高且共线性强的因子不宜直接线性合成,需采用PCA或非线性模型进一步处理。
- 图17-20: 多因子决策树测试集中相关性、共线性、综合得分、信息偏离度的动态变化,为多层因子分组及合成提供基础。[pidx::24][pidx::25][pidx::27][pidx::28]
3.4 多因子决策树各层合成效果展示
- 图21-24: 第一层合成因子间良好分隔,线性和非线性方法结合,RF和PCA等技术合理应用。
- 图25-28: 第二层整合因子持续降低共线性,集中于表现优异的组合因子及单因子。
- 图29-32: 第三层合成因子相关性依然适中,且无法实现更深层合成,最终采用简单等权合成。
- 图33 & 表19: 最终合成因子净值及绩效超越传统方法和单因子,显示决策树模型有效融合集成多种方法的优势。[pidx::29][pidx::30][pidx::31][pidx::32][pidx::33]
3.5 合成因子年度表现与纯净化改进
- 表20: 年度净收益大部分年份保持正向,2021年胜率高达83.33%,2023年至今仍有稳定正收益,波动率处于合理水平。
- 表21 & 表22 & 图34: 合成因子与Barra风险因子高度相关于流动性和残差波动率,纯净化后波动率降至6.87%,信息比率仅轻微下降但稳定性明显提升。
- 表23: 纯净合成因子分年度表现良好,体现因子纯净化后的有效性。[pidx::34][pidx::35][pidx::36]
3.6 多空收益拆解与不同样本空间验证
- 表24: 空头超额收益27.91%,显著高于多头9.13%,信息比率及胜率数据均支持空头部分贡献更大收益。
- 表25-27 & 图38-39: 合成因子在沪深300、中证500和中证1000指数上均保持良好超额表现,尤其在中证1000表现突出,年化多空对冲收益37.27%,信息比率2.865,反映模型对不同市值板块均具备较强适用性和扩展性。[pidx::36][pidx::37][pidx::38][pidx::39]
---
四、估值与模型选择分析
本报告核心不直接涉及上市公司估值,而是对因子组合的绩效衡量和优化,重点围绕因子组合的选取、处理方法和风险收益特征进行分析。组合估值体现在信息系数(IC)、信息比率(ICIR)、年化收益率、波动率、最大回撤、胜率等指标。
多因子决策树模型无明显单一固定估值方法,而是通过分层决策和递归合成优化预测准确性与组合风险收益平衡。模型兼顾线性(OLS、岭回归、滤波)和非线性(随机森林、XGBoost等)方法,结合PCA降维技术,体现了混合选择与模型监督的策略计算优势。信息偏离度作为重要指标引导因子组合及筛选,在一定程度上作为风险调整回报估值的辅助工具。
综合而言,模型结构设计灵活,以历史数据回测绩效为主要估值依据,敏感性分析表现在不同因子组合方法及层级递归试验,体现对不同市场环境及数据结构的适应能力。
---
五、风险因素评估
报告详细披露及提示以下几类风险:
- 历史数据依赖风险: 所有统计结果基于历史数据,未来市场可能发生重大结构性变化,影响模型预测与组合操作的效果。
2. 单因子计算波动: 个别单因子表现波动显著,实际应用需配合资金管理和风险控制策略稳健操作。
- 测算误差风险: 数据及模型计算存在误差空间,报告不构成具体的投资建议。
4. 模型方法风险: 不同模型选取和参数优化可能导致不同表现,在实际应用中需灵活调整。
- 市场流动性及交易成本: 报告未详细纳入交易成本及流动性风险,可能隐藏策略执行中的潜在压力。
总体,报告全面正视模型局限和应用风险,提醒投资者谨慎使用并结合自身风控实践。[pidx::0][pidx::40]
---
六、批判性视角及细微差别
- 报告整体谨慎,数据充分,模型多样但未云淡风轻地暗示未来表现无风险。
- 相关性高的因子组合线性拟合局限明显,非线性方法虽优但依旧未能全面超越简单等权组合,显示预测精度上仍有提升空间。
- 回测区间虽覆盖市场多个阶段(2006年至2023年),但以近期区间为测试集,可能存在“选择偏差”风险。
- 合成因子及纯净因子信息比率虽优,但IC仍为负值,表明因子与收益间关系存在复杂性且预测能力非正向,需深入理解负IC带来的风险。
- 多空收益拆解显示空头贡献主要收益,或暗示策略在牛市表现承压,投资者需关注策略周期适应性。
- 多样非线性模型未详细展示参数调优细节,部分模型SVR表现偏弱,或暗示训练及参数设置有待优化。
- 如后续能将交易成本和流动性风险纳入,将更完整量化策略实际收益能力。
整体上,报告数据详实,结构合理,建议在实际使用中结合多方风险控制手段及宏观市场变化。
---
七、结论性综合
本报告首次系统系统展示了基于量价因子的多因子决策树模型,成功整合东吴金工量价单因子,有效规避单因子失效风险。报告通过多层递归分类,结合线性滤波、非线性建模及PCA降维,形成一套科学且实用的多因子合成机制。
实证回测结果显示,该多因子决策树模型合成的新因子在全市场、不同市值板块均实现了超越传统等权方法及最优单因子的稳健收益表现。其中年化收益39.60%、信息比率3.349、月度胜率80%、最大回撤9.20%等指标均处于行业领先水平。纯净化处理后,因子稳定性提升明显,且在沪深300、中证500及中证1000均具良好表现,体现了优良的适用性和抗风险能力。
报告同时严谨剖析因子相关性、共线性及信息偏离度,为因子组合筛选提供量化依据。多因子决策树模型具有高度灵活性,既能处理量价类因子的内部结构,也具备向其他类别因子及跨类别多因子合成的推广潜力。
风险提示具体且全面,提醒投资者关注数据历史依赖性、单因子波动及市场结构变化等核心风险。
综上,东吴证券研究所基于量价因子的多因子决策树模型,是一套理论严谨、数据详实、工具先进、实证有效的多因子投资框架,为量化投资策略研究提供了重要示范和借鉴。后续期待该模型在更宽广的市场样本及因子体系中开展深入测试与优化,助力构建更为稳健的智能量化投资体系。
---
附录:关键图表示例
- 合成因子十分组及多空对冲净值走势
- 等权多因子组合十分组及多空对冲净值走势

- ICIR多因子组合十分组及多空对冲净值走势
- 卡尔曼滤波拟合版十分组及多空对冲净值走势

- 纯净合成因子十分组净值走势图
- 沪深300指数增强净值走势

- 中证500指数增强净值走势
- 中证1000指数增强净值走势

---
数据来源均为: Wind资讯,东吴证券研究所;所有结论均基于报告所述及公开数据分析生成。
[pidx::0][pidx::1][pidx::4][pidx::5][pidx::6][pidx::7][pidx::8][pidx::9][pidx::10][pidx::11][pidx::12][pidx::13][pidx::14][pidx::15][pidx::16][pidx::17][pidx::18][pidx::19][pidx::20][pidx::21][pidx::22][pidx::23][pidx::24][pidx::25][pidx::26][pidx::27][pidx::28][pidx::29][pidx::30][pidx::31][pidx::32][pidx::33][pidx::34][pidx::35][pidx::36][pidx::37][pidx::38][pidx::39][pidx::40]