`

机器学习残差因子表现金融工程专题

创建于 更新于

摘要

本报告基于机器学习模型构造了机器学习残差因子,以拟合线性风格因子无法解释的残差收益率非线性部分,实证表明该因子在全市场选股中具有稳定的特质选股能力,超额收益主要来自特质选股贡献,且策略容量较大,在百亿资金量规模仍保持良好超额收益表现。因子对风格、中证500和沪深300成分股选股效果较弱,主要收益来源于小市值股票池。通过机器学习残差因子与风格因子组合的双因子分组,可实现多维度选股策略优化。[page::0][page::3][page::6][page::8][page::9][page::13]

速读内容


机器学习残差因子的核心构建与金融意义 [page::0][page::3][page::4]

  • 传统多元线性回归模型受限于单调性、常数敏感性和因子非交互性,残差收益率包含非线性和交互效应。

- 采用神经网络、随机森林和提升树三类机器学习模型集成拟合残差收益率的非线性函数,得到机器学习残差因子,且对风格因子进行正交化处理,避免风格重叠。
  • 训练数据覆盖全A股及沪深300、中证500成分股,采用均匀分组和非均匀分组测试模型选股效果。


全市场分组回测显示强劲超额收益和稳健特质选股能力 [page::6]


  • 因子10组的多头股票组年化超额收益显著,因子ICIR达0.591,超额收益稳定。

- 以全市场等权组合为基准,组10表现优于其他组,显示残差因子优异的选股信号。

行业与风格归因分析表明超额收益主要来自特质选股 [page::6][page::7]


| 行业 | 平均主动暴露 | 年化超额收益率 |
|----------------|--------------|----------------|
| 多数行业 | 接近0甚至负数 | 绝大多数接近0 |
| 合计 | — | 1.13% |

| 风格因子 | 平均主动暴露 | 年化超额收益率 |
|---------------|--------------|----------------|
| 非线性市值 | -0.388 | 2.18% |
| 对数市值 | -0.058 | 0.26% |
| 流动性 | 0.132 | -0.99% |
| 其他风格因子 | 变化较小 | 多数贡献轻微 |
  • 归因分析显示行业和风格因子的贡献微小,超额收益主要来源于因子的特质选股能力并表现稳定。

- 机器学习模型能够累积非线性风格因子效应,有效规避风格因子聚集风险。


全市场股票池中小市值股票贡献最高收益 [page::8]


  • 投资组合中大部分选股为沪深300和中证500外的小市值股票。

- 小市值股票提升组合涨幅贡献最大,且超额收益稳定持续。
  • 大市值股票提供一定分散化,缓解组合波动。


策略容量测试表明策略具备百亿级资金量承载力,换手率较低利于执行 [page::9][page::10][page::11]




  • 假设每日最大可成交10%个股交易额,策略在1亿至百亿资金规模下年化收益率从24.4%至21.4%仅轻微下降。

- 换手率约35%,较低换手率利于资金调仓完成,减缓交易成本冲击。
  • 调仓完成度随着资金量提升略有下降,在高成交量阶段表现更佳。


大中市值股票池内残差因子选股能力不佳 [page::11][page::12]



  • 沪深300和中证500内,机器学习残差因子选股表现弱,非均匀分组稍好但仍不显著。

- 该现象与标的定价更有效、风格因子拥挤度高有关。
  • 使用全市场数据训练模型常优于单一指数内训练。


小市值股票池表现出显著选股能力 [page::12]


  • 小市值股票池中,残差因子具备良好单调性和选股能力。

- 均匀分组和非均匀分组均表现稳定超额收益。

双因子分组策略体现多维选股优势 [page::13]

  • 采用机器学习残差因子与风格因子二级分组构建组合。

- 高机器学习残差因子暴露组范围内风格因子的选股能力显著增强。
  • 有益风格因子包括小市值、低流动性、高贝塔、高账面市值比、高盈利及低杠杆。

- 量化构建财务质量良好的小型公司组合,提升策略收益。

| 因子 | 有益风格因子示例 |
|------------|-----------------------------------|
| 贝塔 | 高贝塔 |
| 账面市值比 | 高账面市值比 |
| 流动性 | 低流动性 |
| 盈利 | 高盈利 |
| 杠杆 | 低杠杆 |
| 市值 | 小市值 |
| 动量 | 低动量 (部分情况) |

风险提示 [page::0][page::14]

  • 海外市场波动风险。

- 宏观政策及经济数据变化风险。
  • 模型失效风险及市场适应性不可保证。

深度阅读

金融工程专题报告详尽分析



---

一、元数据与概览



报告标题:金融工程专题—机器学习残差因子表现金融工因程德邦金工机器学习专题之二
作者:肖承志(证券分析师)
发布机构:德邦证券研究所
发布日期:根据信息,回测区间截止2021年11月,报告应为2021年底或2022年初发布
主题:利用机器学习方法挖掘残差收益率中的非线性信息,构造机器学习残差因子,研究其在A股市场股票选股能力、超额收益归因、容量测试及与传统风格因子结合的表现。

核心论点
  • 传统多元线性回归模型对因子和股票回报的解释存在局限,无法捕捉因子之间的非线性及交互效应。

- 机器学习模型(神经网络、随机森林、提升树)可以拟合残差收益率中的非线性部分,构造机器学习残差因子。
  • 机器学习残差因子选股不依赖传统风格,表现出稳定且具有显著特质选股能力的超额收益,且大多数收益来自小市值股票。

- 容量测试表明,该策略在百亿规模资金量下仍具备良好超额收益和相对较低换手率,具备实际交易可行性。
  • 该因子与风格因子结合的双因子选股策略中,风格因子展现出更强的选股能力。

- 在沪深300和中证500成分股范围内的表现较弱,与成熟股票定价的有效性相关。

评级和投资建议:报告未明确给出评级、目标价等具体投资评级,但投资意义指向构建机器学习残差因子以提升选股效果,适合追求超额收益和多因子策略优化者。风险提示包括海外市场波动、宏观政策变化及模型失效等风险。

---

二、逐节深度解读



1. 前言与介绍



报告首部分强调基于上期《利用机器学习捕捉因子的非线性效应》对机器学习残差因子的初步应用,这次重点在于归因、容量测试和与风格因子的结合验证。传统多元线性回归虽然成功,但存在单调性、敏感度恒定、因子作用间缺乏交互的不足。残差收益率包含未被线性模型捕获的信息,可以视为非线性函数与噪音成分之和:

\[
\varepsilonT = G(X{T-\Delta T}) + \varepsilonT'
\]

其中, \( G(\cdot) \)是非线性函数部分,用机器学习的拟合结果表示。通过对风格因子做正交化,剔除风格信息,获得机器学习残差因子。
此部分明确了研究的理论动机及机器学习残差因子构造的数学基础,说明了残差分解的逻辑结构和拟合思想[page::0,3]

2. 方法



2.1 模型训练与选股方法


  • 集成机器学习模型包括2个神经网络、3个随机森林和3个提升树,采取交错训练减少高换手率风险。

- 数据采用全A股复权价格与10个风格因子,回测使用月频选股。
  • 训练采用两年回顾期,20日数据为一“期”,风格因子和收益用加权最小二乘法处理。

- 在沪深300、中证500股票池选股时,分别尝试两种训练方案:1)基于全市场训练;2)仅用对应指数成分股训练,讨论样本数量与数据匹配的权衡问题。
  • 分组选股时,按照因子值均匀分组,指数内选股采用均匀分组与基于全市场组的筛选两种方案[page::4,5]


2.2 风格、行业、成分归因方法


  • 基于中信2020年一级行业标准,对持仓行业进行分类。

- 通过加权线性回归将超额收益拆分为风格因子贡献、行业贡献及特质选股贡献。
  • 设定国家因子、行业哑变量及风格因子暴露权重,使用约束 \( w^T \cdot sT=0 \) 消除共线性,保证归因准确性。

- 计算主动暴露及对应超额收益的年度贡献,确保组合表现分析细致且条理清楚。[page::4]

2.3 容量测试方法


  • 现实交易中换仓受限,非理想假设下每日最大交易额为个股成交额的10%,资金规模对换股完成度影响大。

- 测试初始资金量范围从1亿元到500亿元(回测终点资金量分别达到7.02亿到565.8亿)。
  • 换仓目标股数基于市值等权,采用后复权股价计算确保拆合股等事件不影响持仓计算。

- 计算调仓完成度指标 \(\eta\),以持仓权重加权实际/目标股份数量比率衡量,反映换仓过程的完成效率。
  • 发现资金规模越大,调仓完成度下降,换仓拖累策略表现[page::5,9,10,11]


2.4 双因子分组方法


  • 机器学习残差因子与风格因子线性不相关,但可以联合分组实现投资组合多维筛选。

- 采用两级分组法,先以机器学习残差因子将股票大致分组,再细分风格因子组别,总计36个组合。
  • 此方法支持投资者在无明显风格偏好的机器学习信号基础上,再加入自身喜好的风格因子筛选[page::5,13]


3. 结果



3.1 全市场选股分组回测


  • 机器学习残差因子ICIR=0.591,表现稳健,组10表现多头,超额收益显著,且各组超额收益以等权平均计算。

- 图1显示不同组收益率与超额收益,组10净值最高且稳定优于基准。
  • 残差因子具有单调性,证明其对未来收益具有一定的预测意义,突破线性因子的限制[page::6]


3.2 全市场选股归因


  • 表1(行业归因)显示各行业平均主动暴露极小,行业超额回报近乎无显著贡献,总体贡献为1.13%。

- 表2(风格因子归因)显示长期平均主动暴露接近零,因子对收益贡献稀疏,非线性市值带来最大正贡献(2.18%),流动性负贡献(-0.99%),指标均体现机器学习残差因子已剔除或正交化风格因子。总贡献1.60%。
  • 图2分解超额收益来源,绝大部分超额收益由特质选股带来,风格和行业贡献极小,且超额收益稳定。

- 说明机器学习残差因子有效捕捉了非线性特质风险因子,能反映细微个股特质[page::6,7]

3.3 指数成分股选股能力分析


  • 在沪深300和中证500内,单独训练模型且均匀分组,机器学习残差因子无明显选股能力(图7和图8左图)。

- 采用全市场训练并非均匀分组时,选股能力有所提升但仍弱,说明大市值股票定价有效,冗余信息少。
  • 在沪深300、中证500外小市值股票上表现优异,残差因子ICIR提升(0.519-0.573),说明小市值市场非线性信息更多,机器学习模型更有效。

- 该结论支持大市值市场效率更高,并指引模型应强化原始因子输入优化以提升大市值选股能力[page::11,12]

3.4 容量测试与换仓完成度


  • 图4显示初始资金规模从1亿到500亿,资金量越大期末资金越大。

- 资金量越大,年化收益率递减(24.4%到21.4%),低换手率(单边月均≈35%)是容量表现的关键因素。
  • 图5超额收益曲线表明,资金规模较小时超额收益明显,百亿规模仍有正斜率,显示策略容量较大。资金规模巨大时表现趋稳。

- 图6调仓完成度随着资金量增大而显著下降,显示大资金换仓受限,需合理资金管理和换仓策略。
  • 换仓完成度因市场流动性不同而波动,反映真实交易环境下策略执行的难点[page::9,10,11]


3.5 双因子分组回测


  • 图10表明机器学习残差因子不同组内,风格因子表现单调性强弱不一。高机器学习因子暴露组表现尤其明显。

- 有利风格因子组合包括小市值、低流动性、高贝塔、高账面市值比、高盈利、低杠杆,实际形成了财务健康的小盘股组合。
  • 该结果体现机器学习因子搭配风格因子的协同选股效果,支持策略上以机器学习残差因子为基础,结合风格因子精细划分选择空间,提升选股质量[page::13]


4. 结论


  • 线性回归方法捕捉因子线性关联,无法表达非线性残差。机器学习模型对残差的拟合捕捉隐藏非线性风险暴露。

- 机器学习残差因子通过模型拟合并对风格因子正交化得到,作为新一类选股因子效果显著。
  • 全市场机器学习残差因子暴露最高的股票组具备稳定特质选股能力,风格和行业的贡献小。

- 该策略适合大规模资金操作,低换手率减轻交易成本,资金超过百亿仍保留超额收益。
  • 小市值市场是策略主要收益来源,沪深300、中证500内表现一般,定价有效性导致信息稀疏。

- 双因子分组显示风格因子与机器学习因子组合效果优异,财务质量较好且具小盘特征的组合收益更强。
  • 风险主要包括海外市场波动、宏观政策变化和模型失效风险[page::13,14]


---

三、图表深度解读



图1:全市场选股分组回测


  • 展示2012年12月至2021年11月,机器学习残差因子根据预测值分10组的年化超额收益率和净值曲线。组10超额收益突出,ICIR为0.591,表现优异,显示因子单调性强。

- 净值曲线各组走势稳定,组10明显领先基准,全市场等权组合表现中规中矩。[page::6]


表1:行业平均主动暴露及年化超额收益率贡献


  • 表格显示不同行业的平均主动暴露均很小,多数行业在正负0.5%以内浮动,行业超额收益贡献几乎微不足道。

- 总体行业超额收益约为1.13%,显示因子对行业选择的偏好极为有限。说明机器学习残差因子并非行业集中型因子。[page::6]

表2:因子平均主动暴露及年化超额收益率贡献


  • 风格因子平均主动暴露接近0,符合正交化设计。非线性市值因子负向暴露最大(-0.388),对应带来2.18%显著正贡献。

- 流动性正向暴露0.132,导致负贡献近-1%,反映一定流动性损失。其他风格因子贡献较小。
  • 整体风格因子贡献约1.6%,支持机器学习残差因子不带明显风格特征[page::6]


图2:全市场选股组10行业和风格归因


  • 净值曲线显示策略组合领先基准,且超额收益由选股贡献主导。风格与行业贡献稳定,略显次要。

- 超额收益净值叠加图显著显示特质选股贡献稳定增长,强调因子捕捉的超额收益来自非风格、非行业信息[page::7]


图3:全市场选股组10指数成分归因


  • 第一个子图显示投资组合中大部分股票来自非沪深300和中证500的其他小市值股票,比例达80%以上。

- 小市值股票累积净值增长最快,且贡献最大;大市值股票表现较弱。
  • 中、大市值股票虽收益较小,但提供风险分散效应,平衡组合风险。

- 超额收益图表明小市值相对基准能持续提供稳定超额回报[page::8]


图4及图5:容量测试-净值与超额收益曲线


  • 图4横跨1亿至500亿初始资金量,不同资金量组合净值均显著增长,但资金越大回报率呈下降趋势。

- 换仓受限和容量制约体现为较大资金组合无法及时完成调仓导致收益下降。
  • 图5显示超额收益净值比例,资金越小增长越迅速,500亿组合表现趋平缓,指策略容量有限但仍适合大规模资金[page::9,10]




图6:调仓完成度与资金量


  • 显示调仓完成度随资金规模和时间的变化趋势。1亿、10亿资金组合调仓完成度极高(接近100%),而较大资金(>100亿)调仓完成度波动幅度加大且整体下降。

- 调仓完成度在2015、2021年高成交时段整体较高,2018年成交低迷期下降,揭示市场成交环境对换仓效率影响显著[page::11]


图7-9:沪深300、中证500及其他股票池的选股回测结果


  • 图7与图8两指数池中,仅采用指数数据集训练且均匀分组方法表现弱。利用全市场数据训练且非均匀分组后表现略好但依然有限。表明大市值股票定价较有效,信息稀缺。

- 图9小市值池中因子单调性明显,换组方式均能显著提升ICIR。表明机器学习残差因子对小盘股信息捕捉敏感,选股能力优越。[page::11,12]




图10:双因子分组超额年化收益率


  • 双因子分组表格较大,展示不同机器学习残差因子组别和风格因子子组之间的超额年化收益率。

- 机器学习残差因子暴露高的组,相关风格因子明显展现单调性与正效应,尤其小市值等财务健康因子的组收益突出。
  • 该多维分组法增强了选股的精细度,提升策略灵活性和收益率表现[page::13]


---

四、估值分析



报告重点在于机器学习残差因子的构建与回测验证,未涉及具体公司的估值及目标价,因此无传统估值分析,如DCF、P/E等内容。

---

五、风险因素评估


  • 海外市场波动风险:全球出现非预期风险事件可能对市场行情造成剧烈波动,影响因子表现。

- 宏观数据及政策变化风险:宏观经济变化、监管政策、货币政策调整均可能影响因子表现与模型稳定性。
  • 模型失效风险:机器学习模型拟合依赖历史数据和市场结构,可能因市场环境改变、因子失效、过拟合等因素造成模型效果下降。

报告未详细解释缓解策略,但回测设计中采用交错训练等方法减轻过拟合风险[page::0,14]

---

六、批判性视角与细微差别


  • 机器学习残差因子虽捕捉非线性信号,但仍依赖输入风格因子,若输入层面因子不完备或存在偏误,模型拟合效果限制明显。

- 选股效果在大市值股票池内有限,表示模型对高效市场的适用性不足,导致策略应用需谨慎识别适合范围。
  • 调仓完成度下降及容量限制在大资金量时明显,实际操作中可能面临更大滑点和交易成本,报告中对这些现实交易阻力的讨论有限。

- 风险提示较为概括,未深入分析具体情境下模型可能失效的机制及预防建议。
  • 回测区间为2012-2021年,涵盖市场多阶段,较为全面,但是否考虑了经济周期和特殊事件的影响,报告未详细讨论。

- 报告部分表格呈现较为杂乱(如图10),解读难度较大,影响信息传递效率。

---

七、结论性综合



本报告基于机器学习理论和方法,用神经网络、随机森林、提升树等多元机器学习技术构造残差因子,弥补多元线性回归模型的非线性和因子交互作用不足。通过对全A股市场十余年数据检验,机器学习残差因子展现了显著的选股能力和稳定的超额收益,且大部分收益由股票特质(非风格、非行业部分)贡献。

图表分析证实了以下关键见解:
  • 图1和图2显示机器学习残差因子选股组10带来明显且稳定的超额收益,且超额收益主要来自特质选股,非行业和非风格因素。

- 表1、表2表明该因子对行业和传统风格因子的主动暴露极低,且行业和风格贡献边际,支持该因子是一种新的非线性风险因子。
  • 图3进一步指出,投资组合超额收益集中在小市值股票,这与机器学习残差因子在小盘股选股中ICIR较高相呼应。

- 图4至图6的容量测试展示该策略具有较强的资金可扩展性且换手率较低,适合大规模资金实盘操作。
  • 图7至图9明确不同股票池中机器学习因子表现差异,大市值指数成分股中表现有限,提示模型适应性和信息含量受限。

- 图10说明将机器学习残差因子与风格因子进行双因子分组,能够获得更具区分度和超额收益的细分组合,为投资者提供更多策略定制的空间。

整体上,报告展现了机器学习技术在因子研究和选股策略上的创新能力,特别是在捕捉传统线性模型无法识别的非线性和交互效应方面,提升了选股的多元维度和深度。报告同样提醒投资者关注模型风险和市场环境变化的影响,结合多种因子和多维策略设计,以降低单因子依赖风险。

---

参考文献:


  • [page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]


---

注:本分析基于报告全文,引用页码遵循报告页码标注,以便溯源。

报告