`

你看到的不一定是你所想的:解密 R 方

创建于 更新于

摘要

本报告系统解析了多因子模型中回归拟合优度$R^{2}$的计算及其含义,分别阐述了加截距与不加截距回归对于$R^{2}$的影响,并介绍了总$R^{2}$与相对$R^{2}$的差异及如何选择。通过实证数据分析,报告揭示股票市场中不同类别因子的贡献及模型在不同指数样本中的拟合效果。此外,还综合展示了A股市场近期的行情回顾、风格因子收益表现及指数风险预测,为量化模型应用和风险管理提供有益参考 [page::2][page::4][page::5][page::8][page::9][page::11][page::12].

速读内容


1. 回归模型中 $R^{2}$ 的真实含义及误区 [page::2][page::3]

  • $R^{2}$ 并不总介于0和1之间,不加截距的回归模型中$R^{2}$可为负。

- 包含截距的回归模型中,$R^{2} = \frac{\mathrm{SSE}}{\mathrm{SST}}$,且SST=SSR+SSE满足恒等式。
  • 建议模型统一加截距项,除特定场景(如中性化处理)外。

- 加权最小二乘回归中$R^{2}$为加权残差平方和比例的转换量。

2. 总 $R^{2}$ 与相对 $R^{2}$ 的区别及应用 [page::4][page::5]


  • 总 $R^{2}$ 和相对 $R^{2}$ 计算公式不同,总$R^{2}$基于因变量总方差计算(市场波动),相对$R^{2}$基于因变量相对均值的方差。

- 实证显示,2008-2019年总$R^{2}$平均约43%,相对$R^{2}$约22%。
  • 市场高波动时,$R^{2}$显著提升,表明模型拟合能力受市场行情影响较大。

  • 三类因子(国家、行业、风格)各自提升模型$R^{2}$,市场因子贡献最大,随后依次为行业和风格因子。


3. 模型回归权重对 $R^{2}$ 的影响及样本差异 [page::6][page::7]


  • 回归权重从普通最小二乘、市值平方根加权到市值加权,$R^{2}$逐步提升,体现大盘股票权重变动对拟合优度的显著影响。

  • 多因子模型在沪深300拟合效果最佳(相对$R^{2}$均值达42%),中证500和Wind全A次之,反映样本量和风格一致性对拟合能力影响明显。


4. $R^{2}$ 与单因子IC的数学关联和经济含义解析 [page::7]

  • 在一元线性回归中,$R^{2}$ 等同于自变量与因变量相关系数的平方,单因子测试中的IC值的平方即为$R^{2}$。


5. 一周行情与市场风格解析 [page::8][page::9][page::10]


  • 上周中小板、成长类指数涨幅明显优于大盘价值类,市场更偏好中小成长股。

  • 行业方面非银金融和通信表现最为突出,非银金融涨幅达13.47%。

- 市场风格因子中,高Beta和波动率因子表现优异,规模因子连续两周为负,显示偏爱小盘股。
表1:上周纯风格因子收益(2019.2.18-2019.2.22)

| 日期 | Beta | 规模 | 长期动量 | 波动率 | 非线性规模 | BP | 流动性 | 盈利 | 成长 | 杠杆 |
|------------|-------|--------|----------|---------|------------|-------|--------|--------|--------|--------|
| 上周累计收益 | 1.16% | -0.27% | -0.02% | 1.32% | 0.13% | 0.60% | -0.05% | -0.42% | -0.32% | 0.17% |



6. 风格因子净值和累计收益表现趋势分析 [page::10]



  • 大盘价值因子(规模、Beta)稳健带来正收益,波动率因子先跌后涨,成长、盈利因子波动较大。


7. 指数未来风险预测与样本覆盖比例 [page::11][page::12]


  • 预测未来一月指数年化波动率介于15%-24%,中小板及成长指数波动较大,大盘价值股票较稳健。

  • 模型拟合所用股票数和权重均超93%,数据质量较高。


8. 指数成分收益归因分析 [page::12][page::13]



  • 表现优异的创业板指数因低规模暴露、高Beta和波动率暴露获得收益,表现不佳的主要为大盘价值指数,规模和动量暴露度偏高拖累走势。

表2:各大指数风格因子暴露程度截选

| 指数名称 | Beta | 规模 | 长期动量 | 波动率 | 非线性规模 | BP | 流动性 | 盈利 | 成长 | 杠杆 | 实际收益 |
|------------|-------|--------|----------|--------|------------|------|--------|-------|-------|-------|-----------|
| 中小成长 | 1.103 | -0.059 | -0.541 | 0.535 | 0.828 | -0.945| 1.032 | -0.669| 0.069 | -0.268| 8.11% |
| 深证成长 | 1.078 | 0.279 | -0.118 | 0.384 | 0.161 | -1.042| 1.100 | -0.657| 0.127 | -0.037| 7.29% |
| 创业板指 | 0.727 | -0.263 | 0.005 | 0.557 | 1.198 | -1.210| 1.243 | -1.167| 0.266 | -0.497| 7.25% |
| 中证500 | 0.443 | -0.806 | -0.335 | -0.039 | 2.132 | -0.163| 0.510 | -0.396| -0.006| 0.026 | 6.10% |
| 沪深300价值| 0.162 | 0.750 | 0.209 | -0.072 | -0.835 | -0.098| 0.311 | 0.191 | -0.061| 0.051 | 5.43% |

深度阅读

金融研究报告详尽分析报告


——《你看到的不一定是你所想的:解密 R 方》——

---

一、元数据与概览


  • 报告标题:你看到的不一定是你所想的:解密 R 方

- 作者:陶勤英(分析师),张宇(联系人)
  • 发布机构:财通证券研究所(财通金工)

- 发布日期:2019年2月24日
  • 主题:多因子模型中的拟合优度指标 $R^{2}$ 的正确理解与应用,A股市场行情回顾、市场风格分析、指数风险预测及收益归因分析。


核心论点及目标:
报告主要针对统计学和计量经济学中常用的拟合优度指标 $R^{2}$ 进行系统性解读,揭示市场中常见的误解及不同计算方法带来的区别,特别强调实际投资中是否加截距项对 $R^{2}$ 取值的影响,阐释总 $R^{2}$ 与相对 $R^{2}$ 的本质差别,并介绍 $R^{2}$ 与信息系数(IC)的内在联系。此外,报告结合多因子模型对一周行情动态、市场风格演变、指数风险及指数成分收益归因进行实证分析,辅以丰富图表数据支撑,帮助投资者科学理解多因子顶层方法及其市场表现。报告不设明确评级或目标价,属研究与方法论剖析性质,旨在提升市场参与者对因子模型性能指标的理解和应用效率。[page::0, page::2]

---

二、逐节深度解读



1. 你看到的不一定是你所想的:解密 $R^{2}$



1.1 $R^{2}$ 不一定总在0到1之间


  • 关键论点

传统印象中,$R^{2}$ 均在[0,1]区间,但在无截距项的线性回归中,$R^{2}$ 可为负值。建议模型默认包含截距项除非有充分理由认为因变量在自变量为零时期望亦为零。
  • 推理依据及理论基础

通过定义回归模型 $Y=X\boldsymbol{\beta}+u$,并从线性假定、严格外生性、非多重共线性、扰动项性质四大经典假设出发,详细推导了含截距项回归中总平方和(SST)、解释平方和(SSE)与残差平方和(SSR)关系。含截距项时,残差与拟合值的协方差为零,身份关系 $SST = SSE + SSR$ 成立,保证了 $R^{2}=\frac{SSE}{SST}=1-\frac{SSR}{SST}$ 在0至1之间。
不含截距项时,定义的SST为因变量相对于零而非样本均值的平方和,容易导致负值 $R^{2}$,除非因变量均值接近零。报告引用Wooldridge (2015) 指出该逻辑,强调正确计算$R^{2}$的前提条件。
  • 关键数据点

$$
R^{2}=1-\frac{\sum{i=1}^{N}(yi - \hat{y}i)^2}{\sum{i=1}^{N} (yi - \bar{y})^2} \quad \text{含截距}
$$
$$
R^{2}=1-\frac{\sum
{i=1}^{N}(yi - \hat{y}i)^2}{\sum{i=1}^{N} yi^2} \quad \text{不含截距}
$$
  • 应用建议

未见足够证据时,统一添加截距项。某些特殊场景下,如Alpha因子中性化不加截距项以避免共线性,但影响残差不大。
  • 调整后$R^{2}$

为避免过拟合,采用修正$R^{2}$计算方法,通过对因子数量加惩罚,避免因子过多导致$R^{2}$虚增。
$$
\bar{R}^2 = 1 - \frac{SSR/(n-k)}{SST/(n-1)}
$$
其中$k$为含截距的解释变量数。

1.2 总 $R^{2}$ 和相对 $R^{2}$ 区别解析


  • 核心内容

总 $R^{2}$ 关注因子对股票收益总波动的解释能力,分母基于收益的平方;相对 $R^{2}$ 关注股票相对于市场均值的波动,分母为收益相对均值的平方。
总 $R^{2}$ 同不加截距模型对应公式,且对市场整体波动更敏感。相对 $R^{2}$ 视角更贴近主动投资者的实际需求。
  • 计算公式

$$
RT^2 = 1 - \frac{\sumn wn un^2}{\sumn wn rn^2}
$$
$$
R
R^2 = 1 - \frac{\sumn wn un^2}{\sumn wn (rn - \bar{r})^2}
$$
  • 实证对比(图1)

2008至2019年滚动12个月平均值显示,总$R^{2}$均值43%,相对$R^{2}$为22%,差距明显,且市场波动剧烈时总$R^{2}$随之上升。
  • 因子类别对$R^{2}$提升贡献(图2)

分别加入国家因子(截距)、行业因子、风格因子梯度,$R^{2}$分别提升至约27%、37.5%、43.2%,反映市场因子主导解释能力,其次行业与风格。
  • 权重选择影响(图3)

市值加权回归 $R^{2}$ 显著高于市值平方根加权和普通最小二乘,原因在于大市值股票权重放大使拟合效率提高。
  • 样本股差异(图4)

多因子收益模型在沪深300股票拟合效果最佳,相对$R^{2}$平均42%,中证500与全A分别为24%和21%,体现股票样本大小及风格一致性对模型拟合的影响。

1.3 $R^{2}$ 与 IC 的本质连接


  • 核心观点

在一元线性回归中,$R^{2}$ 等于自变量与因变量相关系数的平方;在单因子测试中,相关系数对应因子IC(信息系数),因此$R^{2}$ 即 IC 的平方。
  • 数学推导:基于相关系数的定义,通过对SSE和SST的拆分,得到:

$$
R^2 = \left( \frac{\sum{i=1}^n (xi - \bar{x})(yi - \bar{y})}{\sqrt{\sum{i=1}^n (xi - \bar{x})^2 \sum{i=1}^n (y_i - \bar{y})^2}} \right)^2
$$

---

2. 一周行情回顾 (2019年2月15日至2月22日)


  • 市场主要指数普遍上涨,中小板及成长类股票表现更强,典型指数如中小成长上涨8.11%,深证成长7.29%。大盘价值指数涨幅相对较低,如上证180价值3.22%,沪深300价值3.52%。

- 行业内,所有29个中信一级行业均实现正收益,非银金融和通信行业表现最佳,非银金融行业上涨13.47%,其中券商股集体涨停刺激市场情绪。
  • 图5和图6提供详细主要指数和行业指数涨幅分布,凸显市场倾向成长及中小盘股。[page::8]


---

3. 市场风格解析及指数风险预测



3.1 风格因子表现


  • 使用Beta、规模、动量、波动率、非线性规模、BP、流动性、盈利、成长和杠杆率10大风格因子构建收益-风险模型。

- 表1与图7的数据表明,上周高Beta和高波动率股票收益显著,规模因子连续两周负收益,说明市场近期偏爱小盘股。不同换仓频率(日度vs周度)因子收益接近,稳健性较好。
  • 最近一个月(图8、图9)大盘价值股表现优于小盘股,Beta与规模因子累计收益领先,波动率因子波动较大但近期回升。

- 因子定义详见附录二,统计方法严谨,流动性与波动率相关因子做了因子正交处理,保证多因子无共线性带来的估计偏误。[page::9-10, 14]

3.2 指数风险预测


  • 基于多因子模型,将风险拆分为共同风险与特质风险,结合成分股权重形成整体指数波动率预测。

- 图10显示未来一个月预测年化波动率集中于15%-24%区间,中小板、成长类指数波动性较大,大盘价值类指数风险较小。
  • 图11核验了用于回归的样本股票在指数成分股中的覆盖比率,均在93%以上,表明模型覆盖全面,预测结果可信。[page::11-12]


---

4. 指数成分收益归因


  • 对上周表现最好(创业板、中小成长、深证成长)与最差(三只大盘价值类指数)进行因子暴露度比较。

- 表2与图12、13揭示:表现最好指数的规模因子暴露偏低,Beta和波动率暴露较高,有利于收益;表现最差指数规模与动量因子暴露过高,拖累表现。
  • 该结论验证了风格因子收益的实际驱动作用,有助于在投资决策与风险管理中对因子暴露进行动态调整。[page::12-13]


---

三、图表深度解读



图1:总$R^{2}$与相对$R^{2}$滚动12月均值(2008-2019)


  • 内容说明:展示了两类$R^{2}$指标月度滚动均值走势。

- 数据趋势:总$R^{2}$(红线)总体高于相对$R^{2}$(蓝线)约20个百分点,表现出明显的数量级差异。总$R^{2}$在市场剧烈波动(如2015年)时暴涨,说明其更受宏观系统性波动影响。相对$R^{2}$则更稳定,更能反映主动风险暴露解释情况。
  • 联系文本:支持报告主张两者计算分母不同,适用场景和解释侧重点亦不同。[page::5]



图2:不同类别因子对$R^{2}$影响(2008-2019)


  • 说明:蓝线为仅含国家因子,棕线加行业因子,红线再加风格因子。

- 趋势:三个曲线均呈周期性波动,风格因子加入后$R^{2}$提升最明显,行业因子其次,国家因子独立解释能力最低。
  • 对应章节:说明不同数据类别在模型解释能力中的边际贡献及因子重要性排序。[page::5]


图3:回归权重选择对$R^{2}$影响


  • 说明:比较市值加权回归(红线)、市值平方根加权回归(蓝线)、普通最小二乘回归(绿线)三者$R^{2}$表现。

- 趋势:市值加权回归最高,表明更重视大市值股票的权重,有助提高拟合度。普通最小二乘最弱,说明未加权会降低模型表现。
  • 指导意义:权重设计对模型性能影响重大,应注意选择合理权重。[page::6]



图4:多因子模型在不同样本股中相对$R^{2}$比较


  • 展示:沪深300(红线)、中证500(棕线)、Wind全A(蓝线)的相对$R^{2}$。

- 趋势:沪深300拟合度明显高于其他指数,反映成分股数量较少且风格偏统一增强因子解释能力;中证500和全A表现较弱。
  • 管理启示:样本选择和指数结构会影响模型稳定性和拟合效果。[page::6]



图5-6:主要指数与行业收益(周度)


  • 图5显示2019.2.15-2.22主要指数收益差异,突出中小成长的领先地位。

- 图6展示29个中信一级行业全部正收益,非银金融优势明显,反映券商股上涨带动行业表现。
  • 反映市场风险偏好和风格趋势,更侧重创新成长板块。[page::8]




图7-9:风格因子收益及净值走势


  • 图7月累计收益显示上周风格因子表现,以Beta和波动率最优,规模负面持续。

- 图8展示最近一个月因子净值走势,高波动率因子经历波动后逐渐恢复。
  • 图9积累收益排名Beta和规模领先。

- 图表验证了模型中因子重要性和近期市场关注点。
page::9-10]<br>
<br>
<h3>图10-12: 指数风险预测及收益归因</h3><br>
<ul><li>图10展示未来1个月指数年化波动率预测,创成长和中小板风险偏高,大盘价值稳健,符合市场风险偏好与因子暴露。  </li></ul><br>
- 图11确认样本覆盖充分(>93%),验证模型输入数据完整性。  <ul><li>图12与13指示收益最高指数在Beta、波动率暴露较高,规模暴露较低;表现最差指数规模暴露与动量暴露较高导致拖累。  </li></ul><br>
- 结合表2多指数因子暴露详细数据,提升了对收益驱动力的理解。  <br>
![page::11-13]<br>
<br>
---<br>
<br>
<h2>四、估值分析</h2><br>
<br>
报告核心为多因子模型解读与市场表现分析,无直接传统估值(DCF、P/E等)部分,但通过多因子回归模型测算的$R^{2}$、因子暴露度、风险预测等间接反映了各指数或股价表现,具备因子驱动的内生估值暗示。<br>
<br>
---<br>
<br>
<h2>五、风险因素评估</h2><br>
<ul><li><strong>模型风险</strong>:  </li></ul><br>
  依赖历史数据及假设(线性关系、误差独立同分布、无多重共线性等),一旦市场结构或波动模式改变,模型有效性下降(模型失效风险)。  <br>
<ul><li><strong>数据风险</strong>:  </li></ul><br>
  股票因停牌、退市或缺失数据造成样本不完整,尽管覆盖率较高,仍有数据偏差可能。  <br>
<ul><li><strong>市场风险</strong>:  </li></ul><br>
  风格波动剧烈时,因子暴露带来极端波动及收益不稳定风险。  <br>
<ul><li><strong>过拟合风险</strong>:  </li></ul><br>
  过度追求$R^{2}$可能导致模型对异常收益拟合,削弱样本外预测能力。  <br>
<ul><li><strong>投资风格风险</strong>:  </li></ul><br>
  不同指数风格因子暴露差异引发收益差异,容易受行业政策、宏观因素影响。  <br>
<br>
报告明确风险提示历史数据不代表未来,风格变化可能导致模型失效,提醒投资者审慎使用。[page::0, 4, 12]<br>
<br>
---<br>
<br>
<h2>六、批判性视角与细微差别</h2><br>
<ul><li>报告对$R^{2}$在无截距模型负值风险的警示具有重要性,但在实际操作中部分Alpha挖掘场景仍采用无截距回归,存在一定技术权衡和特殊约束策略,报告虽提及但对其限制条件未深讨。  </li></ul><br>
- 该报告对样本选择的影响做了介绍,但细节上对因子之间潜在共线性、异方差的影响讨论较少,可进一步补强。  <ul><li>对于加权法选取,如采用市值加权提升$R^{2}$,说明大市值股票波动趋同性强,但此策略可能弱化中小盘因子信号,权重选择暗藏偏好。  </li></ul><br>
- 风险预测基于样本指数成分股,未涉及宏观经济变量,可能局限预测能力多样性。  <ul><li>报告整体较为客观,数据详实,结构逻辑清晰,部分定量模型与实证部分解释充分,方法论与市场应用结合紧密,实用性强。</li></ul><br>
<br>
---<br>
<br>
<h2>七、结论性综合</h2><br>
<br>
报告以多因子模型拟合优度指标$R^{2}$为切入点,深入剖析了传统观念中的误区,明确指出:<br>
<ul><li>含截距项与不含截距项回归对$R^{2}$取值区间的本质影响,揭示无截距模型可能出现负$R^{2}$的数学原因和实际问题。  </li></ul><br>
- 总$R^{2}$与相对$R^{2}$的差异不仅是名称差异,更是计算基准的本质不同,分别反映了因子对总波动和相对基准波动的解释力。  <ul><li>$R^{2}$与因子信息系数(IC)平方的联系深化了因子模型指标内涵的理解。  </li></ul><br>
<br>
结合丰富的实证数据,报告清楚地展现了A股市场2019年初期的行情特征及风格演变:<br>
<ul><li>中小成长股和高Beta高波动率因子股票领先,市场短期偏好波动性大及小盘股。  </li></ul><br>
- 非银金融和通信行业涨幅突出,券商行业贡献最大。  <ul><li>多因子模型在沪深300拟合度最佳,反映大盘股的风格一致性强。  </li></ul><br>
- 风险预测显示中小及成长风格指数风险偏高,大盘价值更稳健。  <ul><li>收益归因分析明确表现好的创业板和成长指数因子暴露的特征,差指数则受大规模及动量因子负面影响。  </li></ul><br>
<br>
图表充分支持上述论断,提供模型性能与市场实际的可视化关联,帮助投资者和研究者更科学地理解因子模型的适用范围与限制。<br>
<br>
该报告作为“拾穗”系列第二期,体现了财通金工对多因子模型细节的深入探索和市场研究的结合,旨在提升量化投资者对统计指标的认知,避免误用,增强量化策略构建的有效性和稳健性。[page::0-13]<br>
<br>
---<br>
<br>
<h1>附:重要图表引用</h1><br>
<ul><li>图1:总$R^{2}$和相对$R^{2}$滚动12月均值对比  </li></ul><br>
  ![
  • 图2:不同类别因子对$R^{2}$的影响


  • 图3:回归权重对$R^{2}$的影响


  • 图4:多因子模型不同股票样本相对$R^{2}$


  • 图5及图6:主要指数及行业收益图示



  • 图10:未来一月指数波动预测


  • 图11:收益回归样本覆盖比例


  • 图12与图13:表现最好及最差指数因子暴露度




---

(全文完)

报告