`

Overparametrized models with posterior drift

创建于 更新于

摘要

本文研究了后验漂移(posterior drift)对过参数化线性机器学习模型外样本预测精度的影响,特别是在股票超额收益预测中的应用。结果显示,后验漂移会导致模型性能在不同子区间和模型复杂度控制参数(带宽)间表现出显著差异。小带宽对应的高复杂度模型虽能带来较高收益,但收益高度波动且风险较大;大带宽则收益更稳健但风险调整后表现较差,建议对大规模线性模型持谨慎态度。该结论通过理论推导、蒙特卡洛模拟及实证数据(宏观经济指标及CRSP市场回报)验证。[page::0][page::4][page::7][page::12][page::15][page::16]

速读内容


过参数化线性模型在有后验漂移时的风险定义及影响 [page::3][page::4]

  • 本文扩展并量化了 Hastie 等(2022)对过参数化线性模型的预测误差分析,首次引入了训练和测试样本中系数差异(后验漂移)。

- 证明预测误差由两部分构成:模型限制造成的风险和因参数漂移额外增加的偏差。
  • 这种误差随着训练和测试系数的偏差平方范数增加而增强。


市场时机策略在后验漂移影响下的理论预期收益 [page::4][page::5]

  • 通过假设协方差矩阵为单位阵(同方差独立),给出后验漂移下市场时机策略的极限定理表达式。

- 预期收益和训练及测试参数向量夹角的余弦相似性成正比,漂移越大,收益越差。
  • 明确指出带宽参数(正则化强度)对策略敏感,带宽越小,收益变动越大。


蒙特卡洛仿真验证理论结论 [page::7]


  • 不同复杂度比例(cφ)、带宽(z)和训练-测试系数相似度对策略年化收益进行模拟。

- 模拟结果与理论曲线高度一致,确认了预期回报与参数对齐度正相关。

实证分析:经济变量与股票超额收益的时间变异beta估计 [page::8][page::9]


  • 以15年移动窗口估计的回归系数beta呈现显著时间变动,多次跳变点通过多元非参数变化点检测(changeforest算法)识别。

- 表明预测模型训练和测试阶段的系数存在结构性漂移。

量化策略实证效果与带宽敏感性分析 [page::12]


  • RFF特征下策略收益对核带宽参数极其敏感,不同子区间最高收益对应不同带宽,且表现波动幅度大。

- 与直接用原始特征线性回归做对比,发现高复杂度模型并不稳定,同时高正则化模型更稳健但收益率下降。
  • 年化夏普比也受带宽波动高度影响,整体水平低于经典市场指数。


量化策略带宽选择的动态调整及表现对比 [page::13]


  • 基于前期最优带宽的“可行”带宽策略与事后最优策略对比,发现事后最优始终优于可行策略。

- 存在时期内简单线性模型表现优于复杂RFF策略,强调复杂模型非无条件优越。

回归中后验漂移的损失定量:无漂移的反事实策略收益 [page::14][page::15]


  • 构造假设无后验漂移的反事实回报样本,归一化以符合实证均值方差。

- 对比实测回报,显示后验漂移明显削弱市场时机策略收益,且低带宽下损失尤为严重。
  • 反事实收益曲线为各子区间表现提供理想上限,验证理论中的漂移负面影响。


量化因子/策略总结:无直接策略构建,但基于线性回归的神经随机特征扩展方法实证分析 [page::11][page::12][page::14]

  • 以Kelly 等(2024)提出的以随机傅里叶特征(RFF)扩充宏观变量构建过参数化模型。

- 分析了模型复杂度(c=50)、正则化强度(z)和核带宽(γ)的交互对股票超额收益预测的影响。
  • 强调带宽参数非稳态且需动态调整,否则策略容易过拟合且收益大幅波动。

- 反事实收益计算展示模型性能受漂移影响显著,提示谨慎应用高复杂度非稳态方法。

深度阅读

金融研究报告详尽分析报告——《Overparametrized models with posterior drift》



---

1. 元数据与概览


  • 标题:《Overparametrized models with posterior drift》

- 作者:Guillaume Coqueret 和 Martial Laguerre
  • 发布机构:未明确,但文献引用多指向机器学习及金融学术界

- 发布日期:2025年7月1日
  • 主题:研究后验漂移(posterior drift)对过度参数化线性机器学习模型在股权溢价预测中表现的影响,尤其关注金融市场的 regime 转变对模型预测能力的影响。


核心论点
论文重点探讨在训练和测试数据之间数据生成过程(DGP)参数(即回归系数)发生变化时,过度参数化模型的外样本预测性能递减。将理论与蒙特卡洛仿真及实际股权溢价预测实证结合,揭示策略对期限和模型复杂度调节(带宽参数)的高度敏感性。结论强调对基于复杂线性模型进行金融预测应保持谨慎,特别是在存在后验漂移时的性能不稳定风险。

---

2. 逐节深度解读



2.1 引言与背景


  • 主要内容

引入机器学习领域的“双下降”现象,即参数数目超过样本数的线性模型可能实现优越的外样本性能性。但此类理论多基于训练与测试数据分布恒定的假设,金融市场常伴随结构性 regime 变动,使该假设不再成立。分布变化包含协变量漂移(covariate shift,输入变量分布变化)和后验漂移/posterior drift(条件分布 $P{y|X}$ 变化),本文聚焦后者。引用近期重要文献指出高维模型在金融预测中表现飘忽不定,并存在结构性批评(如Equilibrium consistency问题、噪声放大、带宽选择问题等)。
  • 作者核心观点

把后验漂移视为另一个导致过度参数化模型预测准确率不确定和衰减的关键因素,特别是在股市溢价预测时,模型所拟合的关系随时间和外部冲击发生剧烈变化,带来性能下降。

2.2 理论框架详解


  • 数据生成过程定义(方程(1)):

$$
y
i = xi^\prime \beta + wi^\prime \theta + ei
$$
其中 $x
i$ 是可见的预测变量,$wi$ 是不可见的潜变量,模型为“错配”模型(misspecified),只用 $x$ 预测 $y$。
  • 关键假设和记号

- 训练用 $\beta
{is}, \theta{is}$,测试数据用 $\beta{oos}, \theta{oos}$,两者可能不同体现后验漂移。
- 估计器使用岭回归,包含正则化参数 $z=\alpha / n$。
  • 第1个主要命题(Proposition 1)给出带后验漂移的模型外样本预测风险:


\[
R
X^m(\hat\beta{is}, \beta{oos}, \theta{oos}) = RX(\hat\beta{is}, \beta{oos}) + M(\theta{oos}),
\]
其中 $M(\theta
{oos})$ 是由未观测变量导致的偏差。
  • 理论极限结果

风险随样本数和参数数同时趋向无穷的比例参数 $c=p/n$ 不同,在 $c<1$(欠参数化)和 $c>1$(过参数化)两种情形下有具体不同收敛形式,风险包含额外项反映 $|\beta{is} - \beta{oos}|^2$,即后验漂移带来的距离。
  • 对市场时机策略的期望收益分析(Propositions 2&3):

将预测结果用于调整资产权重,策略回报表达为
$$
r{t+1}^{(s)}(z) = \hat{\pi}t(z) r{t+1},
$$
其中$\hat{\pi}
t$基于训练估计的$\hat{\beta}{is}$和带宽等参数调整。

- 证实策略期望收益依赖于训练与测试系数的内积 $\langle \beta
{is}, \beta{oos} \rangle$,两者一致性(即标量积)越高,策略效果越好。
- 该期望收益随正则化参数 $z$ 单调性依赖系数内积符号。
- 在特定条件下若后验漂移使得 $\langle \beta
{oos} - \beta{is}, \beta{is} \rangle < 0$,策略期望收益降低。
  • 模型复杂度与错配程度的定义

用 $c = (p+q)/n$ 表示总复杂度,$\phi = p/(p+q)$ 为模型可见变量比例,模型有效复杂度为 $c \phi$。

2.3 相关仿真验证


  • 通过蒙特卡洛模拟验证理论表达,固定参数向量大小但调整 $\beta{oos}$ 与 $\beta{is}$ 之间的相似度(缩放因子 $k$),观察策略收益与参数向量内积间的线性关系。

- 图1显示不同正则化强度和错配比下,预期收益随系数内积线性变化,仿真点与理论曲线吻合。

3. 实证分析



3.1 数据简介


  • 使用Goyal等(2024) 数据集,含CRSP标普全市场加权收益减去无风险利率(T-bill),作为因变量,采用14个宏观经济指标及其滞后项作为预测变量。

- 估计时间窗口为15年滚动窗口,月度频率估计预测系数(betas)。

3.2 时间变化的预测系数分析


  • 多变量非参数变点检测方法(changeforest算法,基于随机森林分类器)检测预测系数的时间不稳定性。

- Figure 2呈现具有明显变点时段的20个回归系数时间序列,红线标记检测到的变点(如1963年、1982年等),证实预测系数存在显著时变,支持模型中后验漂移假设。

3.3 模型设定与验证过程


  • 模型使用随机傅里叶特征(Random Fourier Features, RFFs)扩容原始特征空间,维度扩增至600,复杂度$c=50$远高于文献推荐$c=10$。

- 权重计算采用岭回归,惩罚项$z$不同,控制过拟合,选取多组$\gamma$(带宽参数)测试影响。
  • 比较基准为直接使用原始特征的基础线性策略。


3.4 实证结果:带宽和时间段敏感性


  • Figure 4显示,不同历史子区间(15年)和带宽选取导致策略年化收益大幅波动,某些段收益靠近0甚至为负。

- 低惩罚($z=0.01$)下带宽小,收益高,但时间稳定性极差(如1975-1989收益近乎归零),带宽增大则收益下降但稳定性提升。
  • Figure 5呈现年化Sharpe比率随带宽变化,确认带宽约为2时表现最佳,但整体Sharpe水平偏低且伴随高波动,实际操作风险较高。

- 带宽最优值以及策略表现随时间变化,现实中难以选取恒定带宽。
  • “事后最优带宽”(hindsight)策略表现优于“可行带宽”(前期最佳带宽)策略,但后者更加现实,暴露出实际调参困境(见表1)。


3.5 反事实分析


  • 构造无后验漂移的反事实预测回报(基于历史估计系数而假设系数不变),对比实际收益,发现无后验漂移的收益显著更高且更稳定(Figure 6),证实后验漂移对预测策略收益有实质性负面影响。

- 反事实回报在高带宽和强正则化条件下逐渐减少,映射理论中复杂度与收益的折中。

---

3. 图表深度解读



图1(页7):


  • 三个子图对应不同模型错配程度$c\phi$(0.5、2、3),横轴为内积$\langle \beta{is}, \beta{oos}\rangle$,纵轴为策略收益。

- 线条(理论值)与散点(模拟均值)紧密贴合,验证理论收益线性依赖内积。
  • 正则化参数$z$取0.01和0.1,前者对应更逼近无正则化,表现较优。

- 证明了后验漂移程度低时收益明显,随着内积下降(漂移加剧),收益显著降低。

图2(页9):


  • 滚动窗口估计的25个预测系数时间序列,钜细交错显示各系数动态波动特征。

- 竖红线标记多重非参数检测出的变点,分割系数序列为多个稳定子区间。
  • 图示验证了实证中后验漂移的存在,即回归系数随时间变化的现实基础。


图3(页10):


  • Changeforest算法对系数时间序列进行递归分割的增益曲线,在不同分割层级找出最优变点位置。

- 顶层变点为1982年,后续则是1963年和2002年,更多层次下发现了更多变点。
  • 变点检测的统计学证据充分,不是随意分割,保证后验漂移分析的可信度。


图4(页12):


  • 左、右分图分别为轻惩罚、重惩罚条件下,不同历史子区间的策略收益随带宽变化曲线。

- 30年代到近现代子时段,收益表现差异显著,如1975-89期收益逼近0甚至负。
  • 横虚线为未扩展特征基准线,显著较低,说明RFF扩展模型理论上能获益但带宽参数调优关键。

- 重惩罚情形收益整体较低,且对带宽的敏感性更弱。

图5(页13):


  • 各时间区间年化Sharpe比率曲线对应与图4。

- 大多数时期最佳带宽集中于$\gamma \approx 2$,此带宽为Kelly et al.(2024)的选取标准。
  • Sharpe比率不高,且特定时段(如1975-89)甚至为负,表明策略风险调整后表现不稳定。


表1(页14):


  • 不同学习策略比较,涵盖“线性基础”、“RFF合理带宽选择”和“RFF事后调参”三类。

- “事后调参”表现最好,且均优于“T合理带宽”,体现调参信息优势,但不可操作性限制其实用性。
  • 某些区间基础线性模型收益优于RFF合理策略,印证复杂模型潜在过拟合风险和局限。


图6(页15):


  • 展示实测收益(有后验漂移,实线)与反事实无漂移的收益(虚线),显示后者收益均显著更好。

- 不同时间段均如此,兼顾多种带宽,实证后验漂移对收益影响直观且显著。

---

4. 估值分析



本报告核心内容为机器学习过度参数化模型对股票收益预测的影响,侧重策略预测性能与风险的数学解析和统计估计,并非直接投资估值模型定价分析,故不存在传统意义上的现金流贴现法(DCF)、市盈率等估值方法。

报告中“估值”部分实为对预测模型的误差风险、预期策略收益进行定量估计,利用线性或随机特征映射的岭回归理论推导,辅以随机矩阵理论与谱分布分析,得到了策略收益的渐近上界和收敛特性。模型复杂度$c$、正则化参数$z$、带宽$\gamma$等均作为输入变量,影响实时估计性能。换言之,报告的“估值”偏统计学意义的性能估计,并未对标资产本身进行估值。

---

5. 风险因素评估



报告中认定三个主要风险因素:
  1. 后验漂移(Posterior Drift)风险:训练和测试期模型回归系数变化导致预测信号衰减,显著提升外样本误差和策略波动性。

2. 模型错配风险:由于不可见特征$wi$的存在,模型导致系统性偏差$M(\theta{oos})$,不可避免影响预测精度。
  1. 参数调优风险(带宽与正则化参数选择):带宽参数显著影响策略收益和稳定性,选取不当可能导致模型在特定时间段表现极差,且策略风险大幅增加。


风险影响评估:
  • 后验漂移是核心导致策略收益不稳定和整体预期收益降低的机制。

- 错配风险通过未观测变量造成不可控误差,增大模型预测风险。
  • 带宽和正则化参数调优难度高,加入时间变动考虑,现实中很难稳定获得最优性能。

- 高模型复杂度不一定带来稳定回报,过度拟合及噪声放大效应制约策略稳健性。

缓解策略:
  • 报告未明确给出具体风险缓解方法,但实证和仿真结果暗示采用较大带宽和强正则化可以提升收益稳定性,尽管会牺牲部分预期收益。

- 强调模型选择时需严格考察后验漂移影响和策略在多子区间上的表现。

---

6. 批判性视角与细微差别


  • 报告客观诠释后验漂移对过度参数化模型性能的影响,基于随机矩阵理论与机器学习的理论贡献之上具有较强数学严谨性。

- 潜在偏差:样本大小与参数数量很大程度上决定适用理论,可实际样本限制(如15年短期滚动窗口)可能使理论落地存在困难。
  • 矛盾点:尽管理论证明复杂模型或高参数维度能够提高预测性能,但现实数据分布变动(后验漂移)造成明显收益波动,反映过度参数化在金融时间序列上的局限。

- 模型假设:独立同分布特性假设(IID)及协方差矩阵正定性等数学前提,现实金融数据可能存在异方差、自相关等问题,模型健壮性有待验证。
  • 带宽选择敏感性:虽报告指出最优带宽集中于2左右,但不同时间段和参数调整策略收益存在剧烈变化,模型对这种调优异常敏感。

- 实证回报波动异常大,表明现实应用时需要考虑交易成本和市场摩擦等因素,模型预期效益可能高估。

---

7. 结论性综合



本文详尽探讨了后验漂移现象对过度参数化线性机器学习模型在股市溢价预测中的影响。通过理论推导、蒙特卡洛仿真及实证分析,明确了以下几个重要发现:
  • 后验漂移导致训练样本所估计的回归系数$\beta{is}$与未来测试期的真实回归系数$\beta{oos}$失配,进而使预测策略的预期收益率与风险调整后的表现受到严重削弱。这一损失正比于两组系数的对齐程度(内积),内积越小,损失越大。

- 过度参数化模型的优势在理想情况下(无漂移)确实存在,但现实金融市场中经济环境和风险溢价的时变使得这些优势难以持续,导致策略收益时空不稳定。
  • 带宽参数$\gamma$和岭回归正则化强度$z$是关键的调节因子,适当增加带宽可以减少收益的周期波动,但会牺牲部分收益率,方差与偏差的权衡复杂,且对带宽选择异常敏感。

- 实证中利用非参数变点检测技术,检测到预测系数存在明显时间变点和后验漂移,实证证据支持模型假设并提示投资者应关注时间稳定性和模型鲁棒性。
  • 反事实分析显示若不存在后验漂移,策略能带来较近期显示明显优异且更稳定的收益,进一步印证后验漂移对市场时机策略的负面冲击。


目标价与评级:报告无传统证券估值指标和评级,重心放在理论和实证对比,强调模型复杂度的双刃剑特性与现实应用的谨慎。

---

8. 专业术语与模型解析


  • 过度参数化模型(Overparametrized Models):参数数量超过样本数,传统统计学认为风险高,但近年来机器学习揭示在特定条件下可实现良好泛化。

- 后验漂移(Posterior Drift):训练和测试间条件分布$P(y|X)$的变化,区别于协变量漂移。造成预测器在新的测试集失效。
  • 岭回归(Ridge Regression)ridgeless回归:岭回归为参数估计引入$L_2$正则化防止过拟合,ridgeless为无正则化极限情况。

- 随机傅里叶特征(RFFs):非线性核近似技术,将有限随机映射后的高维特征供线性模型回归,增加拟合能力和表达力。
  • 谱分布与随机矩阵理论:分析样本协方差矩阵特征值分布和极限性质,用于证明大维度模型下统计量的收敛性。

- 带宽参数(Bandwidth):RFF核函数中用于控制非线性映射的尺度参数,调节模型复杂度和拟合能力。
  • 市场时机(Market Timing)策略:根据预测的未来收益调整资本权重,期待突破“买入并持有”策略的业绩。


---

9. 总结语



本文从多维度证明,金融市场预测模型的预测性能并非单纯由模型复杂度驱动,环境稳定性和模型选择的时变敏感性更具决定作用。后验漂移是引起过度参数化模型稳定性下降的重要原因,联合带宽和正则化调整构成实际中的折中取舍。投资者在实际操作中应重视预测模型的时变性,避免对过度复杂模型的盲目依赖,谨慎调整带宽与正则以适应市场结构变化。

---

10. 关键图表示例


  • 见附件页7图1:



  • 见附件页9图2:



  • 见附件页12图4:



  • 见附件页14图6:



  • 见附件页13图5:




---

参考



所有引用数据和模型公式均来源原文中具体页码,详情见正文中[page::x]标注。

报告