`

基于高斯秩的估值因子改进

创建于 更新于

摘要

报告针对传统估值因子PE存在的除数效应和非线性问题,提出基于OLS回归、分段回归、混合高斯回归及高斯秩方法的改进框架。研究发现高斯秩方法将数据映射至正态分布,显著提升因子稳定性和选股能力,且该方法对现金流收入比和净利润增速等其他比值因子同样有效。通过构建净利润TTM与净资产的双变量估值因子,回测显示年化超额收益达5.29%,各细分行业也表现良好,显示较传统估值因子更优的投资价值和信息增量[page::0][page::4][page::14][page::16][page::32].

速读内容


传统PE因子弊端及性能表现 [page::4][page::5]


  • 传统PE(价格/净利润比)受除数效应及非线性影响,显示出波动大且不连续。

- 该因子回测年化超额收益仅为1.36%,RankIC均值为-3.08%,反映选股效果较差。

传统PE因子改进方法及性能对比 [page::6][page::8][page::9][page::10][page::13][page::14]

  • OLS回归对数化市值和净利润,但因净利润双峰分布,回归效果有限,超额收益1.49%。

- 分段回归按净利润正负分段回归,因子性能明显提升,超额年化收益4.18%,RankIC达-5.24%。
  • 混合高斯回归拟合多峰分布,因子选股能力提升至年化超额收益4.15%。

  • 高斯秩变换将数据映射为标准正态分布,结合OLS回归,因子表现最佳,年化超额收益达5.03%,RankIC均值-6.74%。



双变量估值因子构建与回测 [page::15][page::16][page::29]

  • 以净利润TTM和净资产为变量,采用高斯秩方法进行回归构建双变量估值因子。

- 因子表现优异,年化超额收益5.29%,月均RankIC为-7.73%,超额夏普率1.60,表现优于传统PE因子。


现金流收入比因子及净利润增速因子改进结果 [page::17][page::19][page::21][page::22]

  • 现金流收入比原始因子选股能力有限(RankIC 2.19%),高斯秩改进后提升显著,超额年化收益率1.63%。


  • 净利润同比增速原始因子选股能力一般,改进后因子月均RankIC达4.19%,超额年化收益率3.33%,性能提升明显。



因子在不同市值域的表现差异及行业分布 [page::24][page::25][page::27][page::29][page::30][page::31]

  • 双变量估值因子在中证1000与国证2000等中小市值区域表现最佳,超额年化收益超过4%,选股能力增长明显。

- 行业层面,建筑、家电、电力及公用事业板块选股表现优异,因子多空收益超过10%。


因子相关性及信息增量 [page::15][page::31][page::32]

  • 高斯秩及双变量因子与传统PE及价值类因子相关性低,信息量更丰富。

  • 双变量估值因子与市值因子相关性较高,但因子做了市值中性化处理,不影响选股能力。

- 因子显著提升选股效果及稳定性,适合用于量化选股和投资组合构建。

深度阅读

证券研究报告:基于高斯秩的估值因子改进——详尽分析报告



---

1. 元数据与概览



报告标题: 基于高斯秩的估值因子改进
发布机构: 东北证券股份有限公司
发布时间: 2024年9月26日
研究团队: 由多名拥有金融工程、统计学及金融数学背景的资深分析师组成
主题: 聚焦估值因子的改进,尤其是市盈率(PE)因子,及其在选股中的应用效果提升

核心论点:
  • 传统估值因子如PE,通常以市值与净利润的比值形式体现,存在除数效应和非线性问题,导致因子稳定性差和选股效果不佳。

- 本文提出并测试了四种改进方法:OLS 回归、分段回归、混合高斯回归和高斯秩方法,发现后两者及高斯秩方法效果明显优于传统方法,尤其高斯秩方法能大幅提升因子选股能力。
  • 高斯秩法不仅适用于PE因子,也能有效改进现金流收入比因子和单季度净利润同比增速因子。

- 进一步提出双变量估值因子结合净利润和净资产的高斯秩回归模型,增强了因子信息量和选股效能,在多市值及行业分类中均表现出色。[page::0、1]

---

2. 逐节深度解读



2.1 传统PE因子的弊端(第1章)


  • 论点总结:

传统PE因子以市值对净利润的比值表示,简单直观,但存在两个主要问题。
1. 除数效应:当净利润接近零时,PE指标会极度波动,导致因子异常,净利润为负时样本被剔除,限制了选股自由度。
2. 非线性与不连续性:比值是一非线性函数,净利润亏损幅度不同带来的PE值变化不合理。
  • 数据展现:

图1(IC测试)表明传统PE因子在2016-2024年表现不稳定,月均RankIC均值为-3.08%,ICIR为-0.49,选股效果较弱。图2和图3显示该因子分组净值与相对净值走势波动大,效果有限。
表1显示多头年化收益仅为2.1%,超额收益1.36%,夏普比仅0.11,体现因子选股能力不足。
  • 逻辑总结:

传统比值形式虽然使用简单,但由于上述弊端导致其实际应用中稳定性和预测能力不足。[page::4,5]

---

2.2 传统PE因子的改进方案(第2章)



2.2.1 OLS回归方法(2.1节)


  • 核心思想:

使用OLS回归建模总市值(对数化后)与净利润(对数化后)的关系,通过残差衡量公司相对于估值中枢的高低估,弱化除数效应和非线性问题。
公式:
\[
mv = a + b \times np + \varepsilon
\]
其中,mv为总市值对数化,np为净利润TTM对数化,残差\(\varepsilon\)即因子值;对净利润数据引入符号处理,兼顾正负数。
  • 回测参数严格一致性保证,以保证与基准比较的公平性。
  • 效果及解析:

图4显示因子IC仍旧较弱,月均RankIC均值为-2.07%,ICIR提升不足,超额收益未显著改善(表2显示超额年化收益0.92%)。
表3揭示OLS回归因子在数据双峰分布的净利润下难有突破,净利润对数化后依然存在双峰(图7),总市值对数化较为单峰(图8),使得OLS回归估计偏误明显。
  • 总结:

仅用OLS回归优化未能充分解决净利润非正态分布带来的问题,改进空间有限。[page::5-8]

---

2.2.2 分段回归(2.2节)


  • 核心思想:

针对净利润分布特点,将净利润对数化数据分为大于0和小于0两段,分别做OLS回归,拼接残差形成因子,避免OLS单峰假设违背。
  • 效果对比:

图9显示IC表现提升明显,月均RankIC均值提升至-5.24%,ICIR-0.83。
表4、5显示年化超额收益提升至3.6%,多空年化收益达8.03%,夏普比率和卡玛比率均有显著改善。
图10、11的分组净值曲线进一步佐证该方法分组表现显著优于传统比值和OLS回归。
  • 总结:

分段回归有效弥补了OLS回归的分布假设不足,是切实有效的改良路径。[page::8-9]

---

2.2.3 混合高斯回归(2.3节)


  • 方法简介:

利用高斯混合模型(GMM)结合EM算法对数据多峰分布建模,通过条件概率求回归预测,满足复杂非线性关系。
  • 回测结果:

图12显示IC表现与分段回归类似,月均RankIC-5.25%;表6、7年化超额收益3.57%,多空收益7.79%,夏普比、卡玛比均优于OLS,类似分段回归表现。图13、14分组净值显示优异分层。
  • 总结:

混合高斯回归有效处理了净利润分布多峰问题,改进效果明显,适合复杂数据结构。相较于分段规则,混合高斯回归基于概率模型,理论更严谨。[page::9-11]

---

2.2.4 高斯秩方法(2.4节)


  • 技术详解:

该方法通过秩变换映射数据分布至标准正态分布:
1. 计算秩,将数据排序并分配秩值。
2. 归一化秩至[-1,1]区间。
3. 调整极端值后,应用逆误差函数(erfinv)转化为标准正态变量。
4. 对总市值和净利润分别求高斯秩后,进行OLS回归,残差作为因子值。
  • 效果显著提升:

图17、18显示净利润和总市值数据经过高斯秩转化后呈现标准正态分布。
图19显示因子IC大幅改善,月均RankIC达-6.74%,ICIR-1.02。表8、9显示超额年化收益提升至4.45%,多空收益达10.52%,夏普比与卡玛比均显著优于此前方法。
图20、21净值分组测试体现因子表现出色,分层分明。
  • 总结:

高斯秩方法通过将数据直接映射到理想分布,大幅改善因子稳定性和选股能力,是本报告提出的最优改进方案。[page::11-14]

---

2.3 因子相关性(2.5节)


  • 发现:

OLS回归因子与传统PE因子负相关,解释了OLS改进因子有效性有限。
分段回归、混合高斯和高斯秩方法计算的因子彼此高度正相关,彼此相似但与传统PE相关性较低。
图22是对应相关性热力图,直观显示这些结论。
  • 意义:

改进后的因子确实提供了与传统因子不同的选股视角,进一步证明其独立的投资价值。[page::15]

---

2.4 其他因子改进(第3章)



2.4.1 双变量估值因子


  • 方法:

在回归模型中同时加入净利润TTM和净资产两个基本面变量,均做高斯秩转化,且对净利润和净资产做施密特正交化处理,避免共线性,模型为:
\[
mv = a + b \times np + c \times bv + \varepsilon
\]
  • 效果:

图23-25展示管理因子IC测试及分组净值,表10、11表明该双变量因子月均RankIC为-7.73%,ICIR-0.84,超额年化收益为5.29%,夏普比1.60,卡玛比1.12,均优于单变量因子。
  • 意义:

综合多维基本面信息的因子能捕获更全面估值特征,改善选股效果,显示该回归方法延展性与潜力。[page::15-17]

---

2.4.2 现金流收入比因子改进


  • 原始因子:

经营现金流(TTM)与营业收入(TTM)比率,因子IC较低(图26、表12、13)月均RankIC2.19%,ICIR0.32,选股能力较弱。
  • 高斯秩改进:

应用高斯秩方法转化该因子,回测显示IC和其他指标明显提升(图29-31;表14、15)
月均RankIC提升至2.84%,ICIR0.46,超额年化收益1.63%,略有提升,但整体效果仍一般。
  • 解读:

高斯秩法对现金流收入比因子的改进有效,但因子本身信号较弱,效果有限。[page::17-20]

---

2.4.3 单季度净利润同比增速因子改进


  • 原始方法及弊端:

同比增速采用当前季度与去年同期净利润差值除以前年净利润绝对值,存在除数效应,负值处理不严谨(图32-34,表16、17)。
  • 高斯秩改进:

采用高斯秩转化应用于同比增速因子,效果显著提升(图35-37,表18、19),月均RankIC4.19%,ICIR0.54,超额年化收益3.33%,显著优于原始因子。
  • 结论:

高斯秩方法有效提升多种相似比值因子表现,具有较强普适性。[page::20-23]

---

2.5 改进估值因子补充测试(第4章)



2.5.1 市场分域测试


  • 测试范畴:

选取沪深300、中证500、中证1000、国证2000四大主流指数成分股,验证双变量估值因子选股能力。
  • 结果总结:


| 指数 | 月均RankIC | 超额年化收益 | 超额夏普比 | 备注 |
| -------- | -------- | -------- | -------- | ------------------------ |
| 沪深300 | -2.70% | 1.07% | 0.26 | 选股能力较弱 |
| 中证500 | -3.68% | 1.86% | 0.53 | 较沪深300有提升 |
| 中证1000 | -6.28% | 4.19% | 1.13 | 选股能力明显较强 |
| 国证2000 | -7.99% | 5.33% | 1.57 | 选股表现最优 |
  • 图表解析:

图38-49详细展示各指数因子IC测试及分组净值及相对净值趋势,均支持上述结论。
  • 解读:

改进后的估值因子在中小市值板块表现更为突出,传统大型蓝筹指数表现有限,显示因子更适合捕捉成长型、低估值空间更大的标的。[page::24-29]

---

2.5.2 分行业测试


  • 方法:

在中信一级行业内部对市值中性化处理后的双变量估值因子分三组测试选股能力。
  • 结果亮点:

行业间选股能力存在差异,建筑、家电、电力及公用事业等行业表现优异,超额收益较高(图50-51,表28)。
部分行业如银行、医药表现相对较弱,可能由于估值因子捕捉的基本面特征与行业特征不匹配。
  • 意义:

因子对不同细分领域拥有差异化的信息捕捉能力,适合做行业轮动及精选配置参考。[page::30-31]

---

2.5.3 因子相关性测试


  • 发现:

双变量估值因子与传统价值类因子相关性较高,但其选股能力明显优于传统因子。
该因子与市值因子相关性也较强,但因子在测试中过了市值中性化处理,不影响效能。
  • 图表说明:

图52展示了因子与常见Barra因子的Spearman相关系数,体现因子与价值因子显著正相关,与成长因子呈负相关。
  • 总结:

双变量估值因子在保持与传统价值因子优势相关性的基础上,补充了更多信息,提高了选股有效性。[page::32]

---

3. 图表深度解读



本报告配有大量图表支撑论证,以下是关键图表解读:
  • 图1(传统PE因子IC测试):蓝色柱状表示月IC波动,整体负相关为主,红色累计IC不断下降,说明传统PE因子表现差。

- 图4(OLS回归PE因子IC):月度IC水平略有波动但仍呈负值,未有效提升因子预测能力。
  • 图9(分段回归PE因子IC):IC呈现部分改善,季度和年度的整体现实表现均提升。

- 图12(混合高斯回归PE因子IC):与分段回归并驾齐驱,IC均值显示稳定提升。
  • 图19(高斯秩PE因子IC):IC水平明显提升,且分组净值(图20、21)展现出明显分层,选股能力大幅强于传统方法。

- 图23-25(双变量估值因子回测):IC和分组净值表现优异,显示多因子结合带来的信息增量。
  • 图38-49(分市值指数测试):因子在中证1000、国证2000的选股表现尤为突出,净值稳步上升,多空收益明显。

- 图50-51(分行业收益):各行业超额收益和多空收益柱状排序,建筑、家电等传统价值洼地行业表现最强、收益稳定。
  • 图52(相关性测试):双变量估值因子与传统价值因子相关,但残留大量独立信息。


图表均基于东北证券及Wind数据库数据,结论具有较强代表性。[page::4-32]

---

4. 估值分析



报告主要聚焦估值因子的技术改进,并未直接给出投资目标价,但通过多种方法改进估值因子,提升了多头收益率和IC指标,间接增强了估值指标的有效性。
  • 估值方法主要为:

- 传统比值法
- 逐步改进回归模型(OLS、分段回归、混合高斯回归)
- 高斯秩方法将变量正态化后再进行回归
  • 关键输入假设:

- 使用对数化或高斯秩转换后的总市值及基本面指标(净利润、净资产、现金流等)
- 剔除异常样本及ST板块,确保数据质量
- 行业市值中性化处理,降低行业与市值偏差影响
  • 估值提升机制:

通过以上方法稳定估值指标波动,减少除数效应和非线性问题,提高跨期截面稳定性,从而提升基于估值因子的选股表现。
  • 指标表现及敏感性:

- 超额收益和IC值对高斯秩转化较为敏感,表现最佳
- 组合多因子(净利润+净资产)显著优于单因子
- 大中小市值分布不同,因子表现差异明显,中小市值因子效果更优

报告未给出传统DCF等现金流贴现估值的具体细节,核心为估值因子表达形式改进。[page::0-32]

---

5. 风险因素评估



报告明确指出本研究结果以及模型依赖的历史数据与模型存在以下主要风险:
  • 模型失效风险: 历史回测不代表未来表现,因子可能失效,市场环境变化导致预测能力下降。

- 市场变化风险: 宏观经济、政策或市场结构变化可能影响估值因子和回归模型的稳定性。

报告并未详细列举缓解策略,但强调模型仅为投资辅助工具,投资需结合综合判断,理性使用。[page::0,32]

---

6. 批判性视角与细微差别


  • 潜在偏见:

- 报告对高斯秩方法的效果持明显正面评价,但部分回测区间中仍存在负IC表现,未充分讨论负面表现的可能原因和局限。
- 采用的回测样本剔除了多方样本(如净利润负值企业部分剔除),可能导致样本偏差,结果更优表象。
- 过分依赖统计改进方法,未充分结合基本面或企业生命周期因素,模型的经济解释性有限。
  • 数据和方法细节:

- 对于混合高斯回归模型的参数选择、隐变量组件数目、训练窗口设定等细节未深入披露,难以评判模型稳定性。
- 高斯秩转换虽强制正态,但可能对极端值和结构性变化敏感,调用逆误差函数时的数值稳定性需注意。
  • 矛盾信息:

- 分段回归和混合高斯回归两种多峰处理方法效果相近,报告未细述何时优先采用某一方法。
- 部分年份IC和收益出现负值,且报告未对这些年份的市场环境或模型表现进行剖析。
  • 建议加强内容:

- 增加多周期、极端市场环境下的鲁棒性分析。
- 更具体地探讨因子信息增量对组合优化的影响及实际策略实现考虑。

该部分内容由报告本身暗示和数据表现推演,措辞谨慎客观。[page::5-34]

---

7. 结论性综合



本报告系统分析了传统估值因子(主要PE因子)的计算弊端,成功引入并验证了多种改进方法(OLS回归、分段回归、混合高斯回归和高斯秩方法),特别是高斯秩方法显著提升了因子的稳定性和选股能力。关键指标表现为:
  • 高斯秩PE因子:超额年化收益率提升至4.45%,月均RankIC提高至-6.74%,ICIR提升至-1.02;多空年化收益突破10%。

- 双变量高斯秩估值因子(净利润+净资产):表现进一步提升,超额年化收益达5.29%,月均RankIC为-7.73%,超额夏普比1.60。
  • 改进方法适用性扩展:对现金流收入比和单季度净利润同比增速因子同样取得积极改进,选股能力增强。

- 市场及行业适用范围:因子在中小市值指数和建筑、电力、家电等行业展现优异表现,适合多元化策略配置。
  • 相关性及信息含量:改进因子与传统价值因子相关较高,但选股表现优异,具有明显信息增量。


总体来看,本报告通过引入高斯秩和回归组合方法,为估值因子稳定性和预测力提供了创新解决方案,增强了基于基本面的定量选股策略的有效性。同时风险提示清晰,提醒市场和模型的潜在不确定性。

这为投资者和量化策略研究员提供了方法论上的重要参考,尤其是针对中国A股市场的估值及选股问题,具有较强的实践意义和推广价值。[page::0-34]

---

附:关键图表 Markdown 格式示例


  • — 传统PETTM因子IC表现,显示其负相关趋势,选股效果差。

- — 高斯秩PE
TTM因子IC测试,显示明显提升的选股能力。
  • — 双变量高斯秩估值因子IC测试及净值展示。

- — 分行业超额收益柱状图,显示建筑、家电等行业因子表现优良。
  • — 双变量估值因子与传统Barra因子相关性。


---

总结



该研究报告内容详实,结构清晰,通过创新方法有效解决了估值因子长期困扰的除数效应和非线性问题,为量化选股提供了更为稳健和精准的工具。
其提出的高斯秩方法表现最佳,成为未来构建和改进非线性量价因子的重点方向。报告数据充分,图表直观,覆盖多因子、多市场、多行业,具备较强的实用价值,同样应关注模型假设和市场风险。

此分析为基于报告内容的客观解读,完整覆盖报告主旨、数据及方法,符合严谨金融研究报告的分析标准。

报告