【国君金工 学界纵横系列】基于随机贴现模型的因子筛选法
创建于 更新于
摘要
本报告基于随机贴现模型,介绍并应用《Taming the factor zoo》提出的双重选择方法,解决高维因子库中的遗漏变量偏差问题。实证验证表明,该方法能较保守地评估近年来新因子贡献,突出投资能力和盈利能力因子的显著性。同时,方法递归测试和多模型稳健性检验支持其有效性。将方法推广至纯技术因子时,发现因技术因子间相关性大且缺乏强解释力,双重选择精简效果有限,需进一步研究[page::0][page::1][page::5][page::8][page::11][page::13]。
速读内容
- 《Taming the factor zoo》提出基于随机贴现模型的双重选择因子筛选方法,通过两阶段LASSO回归精简因子库,减小遗漏变量偏差,从而更准确地检验新因子的边际贡献[page::3][page::4][page::5]。
- 双重选择方法第一步为高惩罚LASSO甄别解释横截面预期收益率的显著因子,第二步通过回归因子协方差矩阵,检测新因子与已选因子相关性,进一步剔除冗余因子,改进模型选择偏差[page::4][page::5]。
- 实证数据覆盖1976-2017年,涵盖125个旧因子和15个2012-2016年新因子。第一重LASSO选中概率普遍较低,除SMB外多数低于20%,显示单步LASSO不足以准确筛选模型
[page::6]
- 使用双重选择方法对比其他基准模型,显著贡献的新因子主要包括:盈利能力因子(RMW,ROE)、投资能力因子(HXZ的IA)、中介风险因子及质量因子(QMJ)。相比传统FF3模型,双重选择结果更为保守,避免了新因子贡献的过度估计[page::7]。
- 递归逐年应用双重选择法,识别出17个具有持续贡献的因子,绝大多数新因子为冗余或无效因子。逐步回归选择过程与双重选择筛选结果基本一致,确认了BETA、HXZ投资和盈利能力等因子的核心地位[page::7][page::8]。
- 稳健性检验涵盖参数调整、多种机器学习方法(弹性网、PCA+LASSO、正向逐步回归)及不同资产组合划分,主要结论保持稳健,表明双重选择方法对不同条件和模型参数均适用[page::9][page::10]。
- 本报告将双重选择方法应用于纯技术因子(66个因子)库。通过逐步回归方式筛选因子集,发现虽能剔除部分相关性较高因子,但整体因子相关性未显著降低,说明该方法在技术因子库中的因子精简效果有限[page::11][page::12]。
表2:筛选后的技术因子相关性未明显改善
| 绝对相关性均值 | 选择前 | 选择后 |
|---------------|--------|--------|
| 因子值 | 18.44% | 17.82% |
| 因子收益率 | 36.25% | 38.00% |
- 一次LASSO回归模型与双重选择模型的筛选结果半数重叠,表明双重选择方法具有一定稳健性,但在技术因子应用中因缺乏强经济解释的核心因子,回归精简效果受限[page::12][page::13]。
- 研究认为,双重选择方法作为基于资产定价模型提出的因子筛选新框架,为高维因子库的新因子筛选提供有效途径,但在技术因子量化应用层面仍有改进空间,未来研究可进一步拓展[page::13]。
深度阅读
报告分析解构 —— 《基于随机贴现模型的因子筛选法》国君金工研究报告
---
一、元数据与报告概览
报告标题: 【国君金工 学界纵横系列】基于随机贴现模型的因子筛选法
作者: 陈奥林、杨能
发布机构: 国泰君安证券研究所
发布日期: 2021年8月5日
主题: 资产定价模型中的因子筛选方法,尤其基于随机贴现因子(Stochastic Discount Factor, SDF)模型的双重选择方法;以及该方法在高维因子库中筛选有效因子的应用与实证分析。
核心论点概述:
- 资产定价领域因子泛滥,导致“因子海洋”(factor ocean)现象,需要系统化的方法去筛选有信息增益的因子。
- 《Taming the factor zoo》一文提出基于随机贴现模型,融合双重LASSO选择的创新方法,有效解决了遗漏变量偏差(omitted variable bias)问题,从而更精准地评估新因子的边际定价贡献。
- 通过实证,该方法在资产定价高维因子库中筛选出贡献显著且稳健的新因子,尤其是投资能力(HXZ的IA)、盈利能力因子(Fama-French的RMW、HXZ的ROE)和Beta因子。
- 报告进一步将方法应用于技术因子库,但效果表现不显著,表明方法在不同类型的因子库上的适用性存在差异,需要针对性研究。
---
二、逐节深度解读
1. 引言及研究背景
报告指出,近年来FF五因子模型遭到q-factor 等新模型的挑战,因子数量爆炸性增长形成“factor ocean”,迫切需要方法甄别因子是否增加边际信息。已有传统降维技术(LASSO、PCA等)存在变量遗漏和模型选择错误的隐患,单纯应用传统技术难以准确筛选有效因子。
《Taming the factor zoo》尝试引入双重选择方法,结合两阶段横截面回归和双重LASSO,目标是减小遗漏变量偏差,提升在高维情况下的因子筛选准确性。报告指出将在技术因子中尝试该方法的适用性扩展。[page::0][page::1]
2. 核心随机贴现因子模型(SDF)
通过随机贴现模型定义,因子多维向量载荷 \(bt\) 表述为因子特征矩阵 \(vt\) 与时变系数 \(\lambdat\) 的线性组合,从而构建因子收益 \(F{t+1}=vt^T Rt\)。SDF的定义式约束了因子回报与价格的无套利关系,经济意义为:因子的SDF载荷 \(\lambda_t\) 是理想的因子定价指标,具有重要的经济解释力。
SDF载荷与风险溢价的分离方便模型识别和参数估计,且因模型内生无套利结构,更符合定价逻辑。以此作为因子筛选的核心指标具有理论优势。[page::2]
3. 遗漏变量偏差问题及双重选择方法创新点
遗漏变量偏差指由于关键因子被遗漏,导致模型估计因子载荷出现偏差且符号不确定。报告通过典型多元线性回归偏差表达式清晰说明偏差源于遗漏因子载荷与遗漏因子与包含因子的相关关系的乘积。常规方法不易避免这一点,尤其高维因子库中更易遗留重要因子。
《Taming the factor zoo》应用双重LASSO方法解决此问题:
- 第一重LASSO: 识别和筛选出与收益显著相关的因子,降低因子库维度。
- 第二重LASSO: 将新因子与第一步筛选因子回归,检测遗漏变量偏差。若新因子载荷对已有因子存在线性解释,则该新因子贡献有限;反之说明遗漏变量偏差存在。
- 双阶段设计: 致力于利用已有因子信息减少遗漏变量偏差,进而更稳健保守地评估新因子贡献。
该设计最大创新在于将遗漏变量偏差的计量问题纳入高维模型选择流程,通过两次惩罚回归减少因子冗余与误判。[page::3][page::4]
4. 实证分析及数据说明
数据涵盖1976年7月至2017年12月的因子收益,投资组合标准为top 30%-bottom 30%的市值加权,形成共计750个投资组合,充分保证信噪比并避开资产级别遗漏。
报告特别强调因子评估以因子投资组合为单位,适当缓解个股噪声与数据缺失。筛选因子库包含过去文献提出的135个因子(2012年前提出),新因子从2012年至2016年提出的15个因子进行边际贡献检验。[page::5]
5. 因子筛选结果与新因子评估(图表详解)
图1(因子选中概率)
- 图1展现了第一重LASSO回归中各因子被选中的概率分布,最多被选择的SMB因子(选中概率超过70%),其他大多在1%~20%波动。说明单次LASSO回归难以准确识别全部显著因子。
- 报告指出第一重LASSO回归注重模型简洁,惩罚较强,容易遗漏边际信息较小但仍有价值的因子。第二重LASSO则在此基础上弱化惩罚,保留更多关联因子以减少遗漏偏差,故选中因子个数更多(20-80个),体现方法对不同阶段目标的敏感区分。[page::6]
图2(新因子SDF载荷统计)
- 由表格可见以双重选择方法(DS)评估后,只有少部分因子如盈利能力因子(RMW、ROE)、投资能力因子(HXZ IA)、质量因子(QMJ)及不可交易中间资本因子显示出统计显著性和经济重要性。
- 与基准FF三因子模型与使用全部因子的结果相比,双重选择方法呈现更为保守的筛选标准,显著因子数量减少,体现模型有效避免过拟合和假阳性。
- 这强调基准模型选择对因子贡献定性影响关键,双重选择方法能充分利用因子库信息,同时避免遗漏偏差的同时不陷入模型过度复杂。[page::6][page::7]
6. 递归测试与逐步回归
逐年递归检验新因子贡献,采用双重选择方法以固定时间点以前的因子库作为基准,观察新引入因子能否在模型中产生剩余贡献(图3及表述)。结果显示,1994年以来仅17个因子认定为具有持续贡献,绝大多数因子冗余。
逐步回归方法进一步固定基准模型(FF四因子)初始节点,以迭代方式加入t统计量最高的新因子,直至无新增因子统计显著,最后选出的因子组与递归筛选较为一致,确认了BETA、投资和盈利能力因子的主导地位。[page::7][page::8]
7. 稳健性检验详解(图4、图5)
参数稳健性(图4)
- 使用200个随机种子调整双重LASSO参数网格,t统计量的热图显示,BETA、投资能力及盈利能力因子在参数变化区间均表现稳健,统计显著性稳定。
- 其他因子如机构投资、CMA因子存在较大波动性,说明部分新因子的识别相对敏感,可能受参数选择影响较大。
资产组合与模型稳健性(图5)
- 替换资产组合为不同分组(如5x5组合、202投资组合)、不同机器学习变量选择方法(Elastic Net、PCA-Lasso、逐步回归)下重复验证,发现核心结论保持一致。
- 表明双重选择方法对于资产划分和变量选择技术具有较好的稳定适用性,保证结论的普适性。[page::9][page::10]
8. 报告作者结论总结
核心总结重新强调双重选择方法能够应对高维度、多冗余因子库,克服遗漏变量偏差,筛选出边际贡献显著的新因子。投资能力和盈利能力因子表现最佳,且方法对递归分析及多参数调整稳健。不同机器学习算法对比表明,双重选择方法的推断结果一致且可靠。
整体给出了资产定价因子筛选的一条有效且系统化途径,为未来因子研究提供规范.[page::10]
9. 技术因子实证与思考(4.1节)
报告将双重选择方法应用于66个纯技术因子库,采用递归筛选。实证重点在剔除高相关因子、精简因子库。结果显示,筛选后最大因子相关性有所降低,但相关性均值并无显著变化,部分高相关技因子依旧被选中(例如vpin和volume类因子),表明方法在技术因子库缩减上的效果有限。
与单次LASSO回归比较,双重选择模型与LASSO的因子选择存在约一半交集,说明一定程度的稳健性,但整体精简效果不佳,因技术因子本身缺乏对收益的强解释力,且存在参数构造导致相关性高的问题。报告认为,双重选择方法本质基于资产定价逻辑,在无明显核心因子存在的技术因子库中,应用效果有限,表现不显著,需要进一步针对性研究和方法扩充。[page::11][page::12][page::13]
---
三、重要图表和表格深度解读
图1 因子选中概率分布
- 直方图中大部分因子选中概率极低,说明单次LASSO回归对多数因子无法确认其重要性。SMB作为一个经典因子被选中概率最高,为超过70%,其他多在1%-20%。
- 支持双重LASSO设计理念,第一重LASSO保守筛选,避免冗余但可能遗漏,第二重LASSO补充恢复相关重要因子。[page::6]
图2 新因子贡献统计表
- 表格按5种基准模型分别计算新因子SDF载荷及t值。
- 双重选择方法(DS)下,RMW、HXZ ROE等因子t值达到显著(4.45、3.37),显示强边际定价能力。
- 相比全因子、不筛选模型,DS方法抑制虚假信号,对新因子贡献判定更严谨。[page::6]
图3 因子逐年递归选出明细
- 清晰展示每年引入因子编号及显著与否,表明仅少数因子持续获得认可,绝大多数新因子被逐渐剔除。
- 突显长期积累的核心少数因子的主导地位。[page::7]
表1 逐步回归选出基准因子序列
- 包含了HXZ盈利能力、投资能力、行业调整规模、流动性等多种因子,验证两步选因子方法筛选结果的代表性及经济含义深度。[page::8]
图4 参数稳健性热图
- 多张t值热力图显示某些因子(Beta、盈利能力、投资能力)的稳定性强,参数选择对结论影响有限。其他因子则敏感度高。
- 这为后续因子的筛选和应用提供了稳健参数区间参考。[page::9]
图5 不同资产组合及机器学习模型稳健性表
- 多维验证说明文章方法及主因子发现结论不因样本划分或变量选择技术变化而改变,增强结果的外推性。[page::10]
表2~4 技术因子筛选结果与对比
- 表2展示逐步筛选后的技术因子及其与原因子的相关性,整体改进有限,仍存在较高相关因子入选。
- 表3显示相关系数均值微降,未显著精简相关性结构。
- 表4比较单次LASSO结果与双重选择法筛选,因子约一半重叠,证明模型选择过程稳健但技术因子集未必适合该方法。[page::11~13]
---
四、估值分析
本报告核心并非对某企业进行估值,但其对资产定价模型的因子效用评价类似于对“模型”的估值。
双重选择方法基于广义矩估计和随机贴现因子模型整体框架,寻找因子载荷\( \lambda \),视因子作为解释收益率的“价值”,因而实质估值体现为因子对横截面收益的解释贡献及其边际增量。
惩罚参数(LASSO正则化参数)及新旧因子集合的确定是估值模型中关键的“输入假设”,影响最终因子贡献判定。方法兼容其他机器学习迭代筛选技术,不同方法对因子权重评估略有差异,但总体估值结构一致。[page::4][page::9][page::10]
---
五、风险因素及方法局限评估
- 遗漏变量风险:传统因子选取方法容易遗漏关键因子,导致估计偏差,双重选择方法有效缓解此风险但不能完全排除。
- 模型过拟合风险:高维因子库易导致模型过度拟合,选出虚假显著因子。双重LASSO设计兼顾模型简约性及冗余恢复平衡缓解相关风险。
- 参数敏感性:部分新因子贡献在参数选择上敏感,存在不稳健风险。跨参数稳健性检验帮助减弱此影响。
- 技术因子方法适用性:在纯技术因子库中效果有限,或因技术因子无明显强解释因子、数据相关性较高,提醒用户该方法须视具体因子类型调整或结合其他方法补充。
- 外推限制风险:实证基于美国市场,有待检验其他市场或资产类别中表现情况。
- 过度保守风险:双重选择方法对新因子边际贡献评估偏保守,可能漏选部分潜力因子。[page::11][page::13]
---
六、批判性视角
本报告基于随机贴现模型,强调新因子在已有因子体系中的边际贡献,方法严谨且对遗漏变量偏差研究深入,但有以下注意点:
- 双重选择方法及LASSO回归均假设线性关系,复杂非线性因子效应可能被忽略,尽管可结合其他机器学习方法,但本质差异未完全解决。
- 技术因子实证显示方法应用的局限,反映不同类型因子特性差异,提示纯技术因子可能需要其他专门设计的筛选或降维方法。
- 报告较少涉及因子经济学基础和机制解释,更注重统计筛选,缺少对因子经济意义深度剖析。
- 递归与稳健性实验说明方法稳定,但市场结构及因子效用可能随着时间变化,需动态跟踪调整。
- 报告及原文均强调本方法对新因子贡献评估更保守,使用者应权衡保守性带来的潜在机会成本。
---
七、结论性综合
报告从理论建模、创新方法设计、实证检验及稳健性验证等多个维度全面解析了以《Taming the factor zoo》为代表的基于随机贴现模型的双重选择因子筛选法。核心贡献在于:
- 通过两阶段LASSO方法系统缓解因子遗漏偏差,科学评估新因子在高维因子库中的边际贡献。
- 实证结果表明,投资能力(HXZ IA)、盈利能力(FF RMW、HXZ ROE)、Beta等因子持续显示显著贡献,且双重选择方法相较于传统一次筛选更保守、更稳健。
- 稳健性检验涵盖参数调整、资产组合替代和其他机器学习变量选择,增强结论普适性。
- 递归和逐步回归检测确认少数核心因子在历史上的持续贡献,并有效剔除大量冗余因子。
首次将该方法应用于纯技术因子库的实验显示,受限于技术因子间高度相关性及缺乏核心解释因子,双重选择方法对因子精简效率有限,反映方法适用环境的差异性,提示需结合因子本质调整方法或开发新工具。
该研究不仅为学术界资产定价模型的因子筛选提供了严谨工具,也为实务中因子库管理提供了有效筛选思路,增强了因子投资策略的科学性和实证基础。同时提示未来研究需聚焦方法的跨领域适配性与因子微观经济解释性,推动因子研究进一步深化。[page::0至13]
---
备注
本文所有分析均严格基于国泰君安证券研究所发布的《基于随机贴现模型的因子筛选法》报告内容,引用页码详见每段尾部标注。全文全面覆盖了报告的内容脉络、数据、图表及结论,兼顾技术深度和经济学解释,旨在提供专业且深入的报告解读。