`

基于随机贴现模型的因子筛选法

创建于 更新于

摘要

本报告基于随机贴现模型,介绍了《Taming the factor zoo》中提出的双重选择方法,用以缓解高维因子库中遗漏变量偏差,评估新因子的边际贡献。实证表明投资能力(HXZ IA)、盈利能力(RMW、ROE)等因子具有显著贡献,且该方法对模型参数稳健。扩展应用于技术因子库时,方法能一定程度剔除高相关因子,但效果有限,提示基于资产定价模型的双重选择方法在纯技术因子库上的适用性有待进一步研究 [page::0][page::2][page::6][page::11][page::12][page::13]

速读内容


双重选择方法缓解遗漏变量偏差 [page::3][page::4]

  • 利用两阶段横截面回归结合双重LASSO,第一步精简因子库,第二步挑选与新因子相关性高的旧因子,减少遗漏变量带来的偏差。

- 双重选择后因子载荷显著不为零则说明新因子有边际贡献。

新因子边际贡献实证评估 [page::5][page::6][page::7]


  • 以2012年前135个因子为库,评估2012-2016年提出的15个新因子贡献。

- 第一重LASSO入选概率整体较低,单独一次LASSO筛选难以稳健选因子。
  • 双重选择筛选出四个主要因子(如SMB、净外部财务、流通股变化、利润率)。

- 结果显示投资能力(IA)、盈利能力(RMW、ROE)等因子贡献显著,其他大多数因子为冗余或无效。

逐年递归检验与逐步回归验证 [page::7][page::8]

  • 使用递归逐年检验,筛选出约17个显著因子。

- 逐步回归将Fama-French四因子作为起点,迭代纳入t统计量最高的新因子,最终筛选22个稳健因子。
  • 筛选因子中多为BETA、投资能力及盈利能力等核心因子。


稳健性检验显示方法参数和模型稳健性 [page::9][page::10]


  • 通过200个参数配置测试,核心因子如BETA、投资能力、盈利能力t值稳定。

- 不同资产组合和多种机器学习变量选择方法均验证了双重选择方法的稳健性。

技术因子库应用与分析 [page::11][page::12]


| 选择次序 | 技术因子 | 相关性最大值 | 原因子集相关性最大值 |
| -------- | ------------------- | ------------ | -------------------- |
| 1 | gammacorr-neut | 26.77% | 28.37% |
| 2 | vo120-neut | 17.46% | 42.01% |
| ... | ... | ... | ... |
| 19 | wr_neut | 48.25% | 64.94% |

| 绝对相关性均值 | 选择前 | 选择后 |
| -------------- | ------- | ------- |
| 因子值 | 18.44% | 17.82% |
| 因子收益率 | 36.25% | 38.00% |
  • 对66个纯技术因子进行逐步回归与双重选择,部分降低高相关性因子,但整体相关性降幅有限。

- 双重选择方法基于资产定价因子,收益解释力强,应用于技术因子因相关性较大和无核心解释因子,效果不显著。
  • 一次LASSO选择结果与双重选择方法重合约50%,显示一定稳健性。


总结思考 [page::12][page::13]

  • 双重选择方法为高维因子库中的新因子筛选提供了一个保守有效的工具,能减少遗漏变量偏差,提升因子选择的科学性。

- 投资能力和盈利能力类因子经过该方法证实具有显著贡献。
  • 方法在技术因子库的适用性有待进一步实施和改进。


深度阅读

金融工程报告详尽分析:基于随机贴现模型的因子筛选法



---

1. 元数据与概览


  • 标题:《基于随机贴现模型的因子筛选法》

- 发布机构:国泰君安证券研究所,金融工程团队
  • 主要分析师:陈奥林、杨能、殷钦怡、徐忠亚、刘昺轶、吕琪、赵展成

- 发布日期:文中未明确具体发布时间,但相关文献和数据覆盖至2017年末,结合内部参考归纳,推测为2021年左右
  • 主题:因子投资、资产定价模型中的因子筛选,特别是基于随机贴现模型(SDF)的因子边际贡献测度及遗漏变量偏差问题。

- 核心内容摘要:报告介绍与详解学术论文《Taming the Factor Zoo》提出的双重选择方法,旨在缓解高维因子计量中的遗漏变量偏差。该方法综合两阶段横截面回归与双重LASSO回归,通过精简因子库,保守评估因子的边际贡献。报告并基于此方法,对纯技术因子进行了实证检验,指出该方法在纯技术因子库中的效果有限,需进一步研究。整体上,报告致力于构建系统的因子评价体系,应对因子“海洋”带来的挑战。[page::0,1,2]

---

2. 逐节深度解读



2.1 文章背景及结论(第2页)


  • 背景

- 因子投资领域兴起,因子数量呈指数增长,学术界资产定价模型竞争激烈(如Hou等2019a对FF五因子模型抨击)。
- 现有因子筛选手段(LASSO、PCA)存在遗漏变量偏差、模型选择错误问题。
- 需要更系统且科学的方法,准确检验新因子是否提供边际贡献。
  • 核心结论

- 双重选择法通过两步LASSO回归,显著缓解遗漏变量偏差。
- 发现BETA、投资能力、盈利能力等因子具有显著贡献。
- 逐年递归应用方法可对因子库有效缩减,参数结果稳健。
- 该方法在机器学习技术因子库上的应用效果有限,有待深化。[page::2]

2.2 核心模型(第3-5页)


  • 随机贴现因子模型(SDF)

-模型基于资产回报风险调整的理论基础,定义随机贴现因子 \( m{t+1} = 1 - bt^T R{t+1} \),其中 \( R{t+1} \) 是资产超额收益, \( bt \) 是回归系数矩阵。
- \( b
t \) 进一步分解为个股因子值 \( vt \) 与时变系数 \( \lambdat \) 的乘积,进而定义因子收益率 \( F{t+1} \)。
- 利用广义矩估计(Eq.中的矩条件)推导出因子风险溢价,为评估因子贡献提供量化指标。
  • 遗漏变量偏差

- 传统回归容易因遗漏某重要因子导致载荷偏差,且偏差方向不确定 (\( bias(\tilde{\beta
1}) = \beta2 \delta1 \))。
- 在高维多因子场景中,加入所有因子简单粗暴,会导致过拟合及效率低下。
  • 双重选择方法

- 结合两阶段横截面回归,利用双重LASSO回归结构(Belloni et al. 2014),第一步筛选载荷显著的因子,第二步针对新因子计算遗漏变量偏差,进一步调整因子选择。
- 通过两个LASSO回归解决遗漏变量偏差,改进了传统单次模型选择的不足。
- 方法可推广至其他机器学习变量选择技术,但LASSO方法因线性特性易于解释被优先采用。
  • 横截面回归判断新因子边际贡献

- 在双重选择后,加入新因子与已选因子同时回归,若其载荷显著不为零,则认定该因子具有边际贡献。[page::3,4,5]

2.3 原文实证分析(第6-10页)


  • 数据

- 1976年7月至2017年12月,来自多个数据库,构造了150个多空投资组合因子收益率,最终测试资产达750个(125因子6组组合)。
- 使用投资组合数据能提高信噪比,减少数据遗漏带来的偏差。
  • 第一重LASSO回归结果(图1)

- 多因子筛选中,仅SMB因子被选中概率超过70%,多数因子选中概率在1%-20%。
- 单次LASSO对模型选择效果有限,易遗漏关键因子。
  • 第二重LASSO回归与新因子评估(图2及表格)

- 筛选到的核心因子包括SMB、净外部财务、流通股变化和利润率,与传统基准模型较为一致。
- 双重选择相比只用一次LASSO或全部因子,评估更为保守且有效,避免面积过大遗漏偏差。
- 新因子多为冗余,只有少部分如盈利能力因子(RMW、ROE)、投资能力因子(IA)较为显著。
  • 递归测试(图3及表1)

- 逐年递归检测自1994年起新因子贡献,最终确认仅17个因子贡献显著,大部分被判定冗余。
- 逐步回归进一步确认先前结论,选出的关键因子包括BETA、HXZ投资、盈利能力等,显示双重选择的筛选有效性。
  • 稳健性检验(图4、图5)

- 不同参数组合下,双重选择结果稳健,主要因子如BETA、投资能力、盈利能力显示显著一致性。
- 使用不同资产组合拆分,以及Elastic Net、PCA、逐步回归等方法替代LASSO,结果整体一致。
  • 原文总结

- 双重选择方法缓解遗漏变量偏差,能令人更保守有效地评估新因子边际贡献。
- 支持资产定价领域因子库的系统筛选,促进资产定价模型的发展。[page::5,6,7,8,9,10]

2.4 我们的实证与思考(第11-13页)


  • 技术因子实证分析

- 运用双重选择方法对66个技术因子进行逐步回归筛选。
- 筛选后因子间最大相关性有所降低(最大相关性从约70%有小幅下降),但因子间平均绝对相关性(因子值及因子收益率)几乎未变(约18%和36%-38%)。
- 与一次单纯LASSO回归结果对比,半数因子重叠,表明双重选择有一定稳健性。
- 结论:双重选择方法在技术因子库的精简效果较弱,主要原因是技术因子缺乏强经济学解释力且相关性较高,同类因子之间的相关度高,降低模型筛选的效率。
  • 我们的思考

- 新因子贡献的传统检验方法不足以衡量其高维基准库下的真正边际贡献。
- 双重选择法提供了新的思路,但受到技术因子属性限制,其应用效果需补充研究和改进。
- 文章为构建系统因子评价体系提供指导,有助于投资者更理性地识别有效因子。[page::11,12,13]

---

3. 图表深度解读



3.1 图1:第一重LASSO因子选中概率(第6页)


  • 描述:柱状图展示200次模拟中各因子被选择的概率,图注标出主要因子如SMB(超过70%)、Earnings to Price等。

- 解读
- 显示单次LASSO回归不稳定,除SMB外大多因子选中率均较低,暴露单步筛选的不足。
- 所选高频因子大致对应传统资产定价模型关键因子。
  • 联系文本:表明需多次筛选或更复杂方法(如双重选择)实现稳定有效筛因子。

- 潜在局限:未展示横轴所有因子完整排序,视觉上因子序号与文字标注未完全匹配。[page::6]

3.2 图2:新因子SDF载荷统计(第6-7页)


  • 描述:表格展示双重选择(DS)、单次选择(SS)、FF3模型、全因子模型、因子平均收益5种不同基准模型下新因子的载荷(basis points)及t-stat。

- 解读
- DS模型筛选更为保守,因子有效性检测出少数显著因子(如RMW在DS中160bp且t=4.45
)。
- 传统FF3模型及均值收益显示较多新因子显著,但可能包含遗漏变量偏差。
- 单次LASSO和无选择模型容易高估新因子贡献。
  • 联系文本:支持双重选择方法作为保守新因子贡献评估的优选技术。

-
潜在局限:因子定义未尽详尽,部分因子(如HML Devil)解释需要阅读附录及相关文献。[page::6,7]

3.3 图3:逐年递归测试表(第7页)


  • 描述:年度对应新因子ID列出,表格标明测试期间新增因子及其显著性(加下划线代表显著因子)。

-
解读
- 递归测试显示大量因子被筛除,仅少量因子被长期认可。
- 阐明筛选随时间更新对因子库缩减的有效性。
  • 联系文本:强调模型递归筛选长期优化因子库的重要性。

-
局限:表格行列信息较密集,未详尽突出显著因子的统计数值和影响大小。[page::7]

3.4 表1:逐步回归最终基准因子(第8页)


  • 描述:列出逐步加入模型的22个基准因子及其排序和ID。

-
解读
- 多因子由盈利能力、投资能力、规模、流动性及行业指数组成,融合多维风险维度。
- 验证前述双重选择筛选出核心因子的一致性。
  • 联系文本:体现逐步回归作为辅助筛选工具,加强双重选择结果的信服力。

-
局限:未给出因子具体载荷或增益贡献度,难以量化排序含义。[page::8]

3.5 图4:参数稳健性热图(第9页)


  • 描述:多因子在不同第1和第2重LASSO参数组合下的t统计量热力图,红叉为平均参数值。

-
解读
- 明显可见BETA、投资等核心因子在参数调整下依旧保持显著正载荷(黄色区域)。
- 其他因子表现波动明显,表明变量选择对某些因子敏感。
  • 联系文本:论证方法对参数选择较稳健,核心因子可持续被识别。

-
局限:需读者有较强统计背景,热图色彩解释对非专业受众较复杂。[page::9]

3.6 图5:多资产及正则化方法稳健性检验(第10页)


  • 描述:多重资产组合(3x2,5x5,202组合)及多种机器学习方法对因子t值的对比表。

-
解读
- 主要因子(RMW、ROE、IA等)在不同组合和方法中均表现良好,支持其稳健性。
- 某些因子在不同方法间表现分化,反映方法选择对检测结果影响。
  • 联系文本:提供多角度验证双重选择方法的适用性和可靠性。

-
局限:因篇幅限制未能展示所有因子,局部因子的波动可能被弱化。[page::10]

3.7 表2-4及技术因子分析图表(第11-13页)


  • 描述

- 表2列举技术因子经过双重选择后相关性及选择顺序。
- 表3展示因子库相关性均值选择前后相比无显著提升。
- 表4展示一次LASSO回归的因子及系数,比较两方法的重叠及差异。
  • 解读

- 双重选择未显著降低技术因子的相关性,因子库精简效果有限。
- 两种模型屏选出一定交集因子,暗示双重选择的稳定性。
- 可能由于技术因子的内在属性及计算方法导致筛选效果受限。
  • 联系文本

- 体现双重选择在资产定价因子上的成功难以直接复制到技术因子。
- 强调方法的领域适用性,提示未来改进空间。
  • 局限

- 未提供技术因子具体因子定义及经济含义解释,需参附录进一步理解。
- 相关性计算方法及准确度未详细阐述,可能影响结论强度。[page::11,12,13]

---

4. 估值分析



报告主要聚焦于因子筛选方法及实证技术,未涉及标的公司的具体估值分析,因此无估值模型(DCF、P/E等)讨论内容。

---

5. 风险因素评估



虽然报告并未明确列风险因素专节,但从内容可以推断主要风险包括:
  • 遗漏变量偏差依然存在:即使双重选择方法减弱遗漏偏差,复杂市场环境和因子多样化可能仍引入偏差。

-
因子数据质量和选择偏差:数据采集偏差、投资组合设计选择等可能影响结果。
  • 技术因子适用性问题:方法在纯技术因子库上的效果不佳,可能限制实际应用范围。

-
模型参数及方法选择风险:参数调整可能对结果产生影响,尽管稳健性测试表明方法较稳定。
  • 市场结构及因子效应变化风险:因子表现可能随市场环境变化而变化,导致方法预测效力下降。


报告对这些问题保持了一定的客观审慎,强调参数稳健性并对机器学习其他方法做对比,为风险缓释提供了间接支持。[page::3,4,9,11]

---

6. 批判性视角与细微差别


  • 方法本身的适用局限

- 双重选择法基于随机贴现模型理论,是为了多因子资产定价问题而设计,对经济学解释力明确的因子比较有效。
- 纯技术因子与经济含义较弱,相关性高且重复度大,导致该方法无法显著精简因子库。
- 这表明模型转移应用需谨慎,方法并非通用万能。
  • 模型选择的偏保守性

- 双重选择更保守地筛选新因子,可能遗漏某些潜在边际贡献,但换来较高辨识度和模型稳定性。
- 这种保守态度适合学术研究与稳健投资,但对激进投资者有局限。
  • 数据样本及时间窗口

- 实证基于1976-2017年数据,不同市场结构变迁可能导致模型效果有时限性。
- 数据质量、因子构建方式的变化可能影响对比与结论稳健性。
  • 图表信息过于密集

- 例如图3递归表、因子列表表格繁琐,缺少直观的关键指标汇总,影响信息提取效率。
  • 报告文本中个别位置文字问题

- 有轻微排版/文字误拼(如"vol1ume"、"neut"),可能影响阅读体验,但未损害学术严谨性。

综合来看,报告非常严谨,反映了因子投资领域复杂的实务和理论挑战,建议结合实际策略灵活运用。[page::11,12,13]

---

7. 结论性综合



本报告详细剖析了国泰君安证券金融工程团队针对学术论文《Taming the Factor Zoo》的全面解读和应用扩展。报告核心贡献在于:
  • 引入并阐释了随机贴现模型基础的双重选择方法,解决传统高维多因子模型中遗漏变量偏差难以避免的问题,提升因子边际贡献检验的准确性和保守性。

-
通过实证检验确认核心经济学含义明确的因子如BETA、投资能力(IA)、盈利能力(RMW、ROE)等因子贡献显著且稳健,从而为学术界和实务提供了有价值的因子筛选技术工具。
  • 递归方式逐年检测新因子贡献,实现因子库逐步科学缩减,减小噪声及过拟合风险

-
多种稳健性测试包括不同资产组合划分和多机器学习模型验证,增强了该方法的可信度和适用性范围
  • 在纯技术因子领域的实证探讨发现,当前方法对技术因子相关性高和缺乏强经济解释力的局限,使得双重选择精简效果不显著,暗示该方法需结合因子特性调整或辅助其他技术手段使用。

-
报告图表详实,结合可视化和统计量验证突出方法优势和适用边界,提升实证说服力
  • 本文系努力构建一个科学、系统的高维因子评价框架的尝试,对于资产定价研究和因子投资实践具有较大指导价值,提醒市场参与者务必关注因子筛选的统计和经济学本质,避免因子泛滥的误区。


综合来看,该报告基于立体的数据分析和理论建模,从方法论创新到实证示范,有效对接了金融工程与机器学习技术,推进了因子投资策略的理性设计及优化实践。[page::0-20]

---

附录引用图片展示



图1:第一重LASSO因子选中概率




图4:不同参数下因子显著性热图




---

结束语



本报告内容详实,贯彻了系统因子筛选的前沿理念,既有理论高度也兼顾实操意义,对于投研人员理解资产定价中的因子筛选挑战、选择合适方法具有很强参考价值。建议结合行业具体环境和因子构造特性,动态调整方法以最大化因子库的信息效率。

报告