`

基于 PLS 方法的潜变量因子研究

创建于 更新于

摘要

本报告基于偏最小二乘法(PLS)提出潜变量因子降维方法,通过提取反映个股未来收益的潜变量,实现对A股(除银行)市场的有效选股。实证表明,该方法相比传统PCA在选股区分度、稳定性和收益表现上均有提升。构建行业中性策略,年化超额收益达9.89%,夏普比率1.24。未来计划拓展多维潜变量模型以提升策略表现 [page::0][page::3][page::7][page::9]

速读内容


报告核心介绍与方法论 [page::0][page::2]

  • 运用PLS算法结合潜变量思想,实现从26个技术面和基本面特征因子中提取单维潜变量。

- 潜变量定义为影响个股未来收益但无法直接观测的隐含因子,用潜变量代替多因子组合的汇总,解决传统多因子模型在组合层面的限制。
  • 相比PCA,PLS同时最大化自变量和因变量的信息解释力度,更适合降维预测潜变量。



PLS与PCA选股效果对比 [page::5][page::7][page::8]

  • PCA处理后的五组股票净值走势区分度差,表现单调性不足。

  • PLS提取的潜变量AFER指标对全市场(除银行)股票分组回测表现显著优于PCA,区分度和单调性明显更好。



| 组别 | 年化收益率(PLS) | 夏普比率(PLS) | 年化收益率(PCA) | 夏普比率(PCA) |
|---------|------------------|---------------|-----------------|---------------|
| Group1 | 11.71% | 0.34 | 15.86% | 0.48 |
| Group2 | 14.75% | 0.44 | 14.11% | 0.43 |
| Group3 | 13.33% | 0.39 | 14.36% | 0.41 |
| Group4 | 13.74% | 0.41 | 14.17% | 0.43 |
| Group5 | 16.95% | 0.49 | 14.25% | 0.43 |

策略构建与回测表现 [page::8][page::9]

  • 股票池为全A股(剔除ST及上市不足6个月股票),月度调仓,手续费双边千三,行业权重匹配中证500,银行股以指数配置。


| 年份 | 年化超额收益 | 夏普比率 | 年中最大回撤 |
| ------ | ------------ | -------- | ------------ |
| 2009 | 0.98% | -0.05 | -8.03% |
| 2010 | 0.71% | -0.36 | -11.89% |
| 2011 | 5.05% | 2.02 | -3.68% |
| 2012 | -1.00% | -1.37 | -11.14% |
| 2013 | 19.13% | 1.74 | -9.56% |
| 2014 | 18.55% | 2.87 | -8.3% |
| 2015 | 30.07% | 0.93 | -21.54% |
| 2016 | 9.1% | 0.67 | -10.82% |
| 2017 | -2.05% | -0.21 | -7.88% |
| 2018 | 4.2%(年化) | 2.05 | -6.11% |
  • 策略年化超额收益约9.89%,夏普比率1.24,表现稳健,且股票池数量灵活无问题。


未来展望与扩展 [page::9]

  • 当前使用单维潜变量模型,假设隐含内在驱动力为单一维度。

- 后续计划扩展多维潜变量空间,引入测量模型与结构模型,提升潜变量估计的准确性和适用性。
  • 多维潜变量可能结合因子大类进一步内部估计和关联,提高选股能力。


深度阅读

报告详尽分析:“基于PLS方法的潜变量因子研究” —— 国泰君安证券研究(2018年11月13日)



---

1. 元数据与概览


  • 报告标题:基于 PLS 方法的潜变量因子研究

- 作者/机构:国泰君安证券,金融工程团队,分析师陈奥林为主
  • 发布日期:2018年11月13日

- 主题:基于偏最小二乘法(PLS)的潜变量因子降维方法的理论介绍及其在中国A股市场的选股实证研究
  • 核心论点

- 利用PLS方法,结合潜变量思想以降维,将从多因子信号中提取对未来个股收益预测能力更强的潜变量。
- 相较于传统的主成分分析法(PCA),PLS在个股预测收益的解释力更强,选股结果更稳定、单调性更好。
- 该方法在A股市场(除银行)实证显示潜变量最高20%股票表现显著优于最低20%,策略构建年化超额收益率可达9.89%,夏普比率达到1.24,且有稳定的风险调整收益表现。
- 当前仅使用单潜变量模型,未来将拓展至多维潜变量以提升模型性能。

[page::0,1]

---

2. 逐节深度解读



2.1 引言


  • 本章节提出了创新的多因子建模思路:利用PLS算法实现从高维多因子空间向低维潜变量空间降维,且该潜变量作为未来个股收益的预测指标。

- 强调PLS与PCA区别:PCA仅从自变量(因子)数据的方差最大化角度压缩信息,不关注与因变量的相关性;而PLS以最大化自变量与因变量的协方差为目标,获得更有预测力的潜变量,从而提升选股效果。[page::2]

2.2 潜变量介绍(第2章)


  • 定义潜变量(latent variable):不可直接观测,但能显著影响系统状态和可观测输出(显性变量)。

- 例举社会学中的潜变量应用:贫富差距作为潜变量,通过Gini系数等多个数据指标间接衡量。
  • 将传统多因子投资与潜变量框架对比:

- 传统方法:从单一特征值(因子)外推收益,再汇总形成组合预期收益;
- 潜变量因子投资:先汇集所有因子暴露形成潜变量(低维特征),再基于潜变量预测个股未来收益;
  • 该流程的核心优势是允许个股数量自由灵活,不依赖预设固定组合,提升策略灵活性和适应性。


数学表达:
  • 个股收益率拆解为条件期望+独立残差,即

$$ R{i,t+1} = E[R{i,t+1}|Ft] + \varepsilon{i,t+1} $$
  • 其中观测因子与潜变量线性相关,表达为:

$$ X{it}^a = \deltat^a * \mu{i,t} + u{i,t}^a $$
  • 潜变量即未来预期个股收益,显性变量(特征因子)为其观测表现。


[page::2,3]

2.3 偏最小二乘回归(PLS)方法介绍(第3章)


  • PLS起源于1960年代,由Wold提出,最初用于心理学、化学领域,针对多因变量对多自变量建模。

- PLS综合考虑:
- 自变量空间数据的最大变异量
- 自变量对因变量的最大解释度
  • 与PCA不同:

- PCA关注的是自变量的方差最大化,忽视因变量的解释力。
- 而PLS确保降维后自变量(潜变量)对因变量有最大预测性。
  • 图示说明PLS方法是基于X和Y变量数据降维与去噪的过程。

- 以实证为例,采用包含技术面(股价、成交量、波动率)与基本面(盈利能力、偿债能力、成长能力等)九大类指标的因子池进行降维,实测PCA方法选股区分度低,五组股票累计净值表现无显著差别,说明PCA不能有效捕捉收益预测能力。

[page::4,5]

---

2.4 PLS 方法在潜变量估计上的应用(第4章)


  • 建模采用“两步回归”:

1. 回归:个股t期收益率对t-1期因子暴露进行回归,得到一组月度动态的因子收益率系数 $\lambdat^a$,平滑处理用5个月移动平均。
2. 回归:当期个股因子暴露与上述动态因子系数做回归,估计潜变量(AFER值),代表个股未来预期收益率。
  • AFER作为单一选股指标,在策略构建中使用。

- 因子包含技术面与基本面多维描述,具体涵盖:
- 技术面:股价动量(1个月反转、3个月、6个月动量)、换手率、波动率
- 基本面:盈利能力(ROE、ROA)、短期偿债能力(速动比率、现金比率)、长期清偿能力、成长能力、现金流等约26个特征因子。
  • 预处理方法简单但有效:以行业中位数填补缺失值,3倍标准差截尾,之后进行标准化处理,避免极端异常值影响模型稳定性。

- 由于银行业财务数据缺乏“销售收入”指标,银行股剔除于股票池外。

[page::6,7]

2.5 PLS 方法在A股的有效性检验(第5章)


  • 利用AFER值对全市场(除银行,剔除ST股和近期上市股)股票按大小分组,以验证PLS模型区分度。

- 图3显示五组股票分组收益曲线明显分层且单调,且稳定区分度远优于PCA处理后的分组(图4)。
  • 表3量化比较:

- 部分组年化收益率PCA略高于PLS,但整体夏普比率PLS更稳定,且区间波动和单调性更优。
  • 说明PLS在实际选股预测未来收益方面具有显著优势和适用性,即使面临因子异质性和收益波动的复杂市场环境。


[page::7,8]

2.6 策略构建(第6章)


  • 选股池为整个A股市场剔除ST股、上市不足6个月的次新股、银行股。

- 组合构建:
- 行业权重严格匹配中证500指数,保持行业中立。
- 行业内按照AFER排序选择前5名股票。
- 银行业直接按照中证500中银行权重配置对应的银行指数,不纳入主动选股。
  • 调仓频率为月度,交易成本结合双边千三手续费。

- 图5显示该行业中性策略累计净值稳步上升,表现出持续超额收益能力。

2.7 策略表现(第9页)


  • 表4年度表现总结如下:

- 回测期间(2009-2018)大部分年份呈现正向超额收益,尤其2013-2015年表现突出,年化超额收益超过18%,最高30%;
- 夏普比率多数年份为正,特别2011年和2014年达到极高水平(2.02、2.87),风险调整后收益良好;
- 最大回撤有限,大多在单年10%左右,表现出较好的风险控制能力;
- 部分年份收益及夏普指标较低或负值,显示模型在部分市场环境下效果有所波动。
  • 策略整体表现稳健,风险控制适度,夏普比率反映良好收益-波动权衡。


2.8 后续研究展望(第7章)


  • 当前报告仅采用单潜变量假设,即每期仅存在一个潜变量驱动个股预期收益,这是较强的限制。

- 多维潜变量模型由:
- 测量模型(外部模型):描述显性变量与潜变量的线性关系;
- 结构模型(内部模型):描述潜变量间相互关系;
  • 多潜变量空间允许潜变量之间互为解释,增强模型解释力和复杂市场适应能力。

- 团队计划未来扩展PLS至多维潜变量框架,完善潜变量因子模型并在A股中进一步测试和应用。

[page::9]

---

3. 图表深度解读



图1(第5页)—— PCA方法选股结果


  • 图内容:五组股票累计净值曲线,分组基于PCA降维后的潜变量(主成分)得分。

- 观察:五组曲线走势重叠,区分度差,说明PCA得分不能有效区分不同股票未来表现。
  • 结论:纯粹基于自变量的方差的降维方法无法获得实用的选股信号,用于投资决策时效果不佳。




图3(第7页)—— PLS方法在A股的区分度检验


  • 图内容:根据PLS方法提取潜变量AFER值分组后,五类股票累计收益表现;

- 观察:不同分组累积净值曲线显著分层且向上单调,最高组远超最低组,表明潜变量对未来收益存在较强区分能力;
  • 结论:PLS挖掘的潜变量预测效力明显高于PCA,模型具备显著的实战选股价值。




图4(第8页)—— PCA方法在相同因子池的区分度检验


  • 图内容:对同一26因子池使用PCA方法处理后的分组收益表现,重复图1说明;

- 观察与图1类似,曲线走势基本重合,缺乏区分度。
  • 与图3对比,强化PLS方法优势。




表3(第8页)—— PLS与PCA分组收益、夏普比率对比



| 组别 | 年化收益率(PLS) | 夏普比率(PLS) | 年化收益率(PCA) | 夏普比率(PCA) |
|--------|------------------|----------------|------------------|----------------|
| Group1 | 11.71% | 0.34 | 15.86% | 0.48 |
| Group2 | 14.75% | 0.44 | 14.11% | 0.43 |
| Group3 | 13.33% | 0.39 | 14.36% | 0.41 |
| Group4 | 13.74% | 0.41 | 14.17% | 0.43 |
| Group5 | 16.95% | 0.49 | 14.25% | 0.43 |
  • 观察:

- 虽然部分分组PCA收益略高,但整体夏普比率及波动表现PLS更均衡;
- PLS分组收益更具有单调性,结合图3与图4显示其区分度更稳定有效。
  • 数据来源和计算均来自国泰君安证券研究。


图5(第8页)—— 行业中性策略净值曲线


  • 描述:依据PLS方法生成的潜变量AFER值构建中证500行业权重中性策略累计净值展示。

- 表现:策略净值持续上升,体现策略的稳定超额收益能力。
  • 结合表4年度表现,显示策略在风险调整后的表现具有竞争力。




---

4. 估值分析



本报告核心为因子选股模型构建与检验,不涉及传统意义上的公司估值分析或价格目标预测,因此无DCF、市盈率等估值模型内容。

不过从策略指标角度:
  • 超额收益率:策略年化超额收益最高可达约9.89%(摘要数据),报告回测期内表现最高为30.07%(2015年);

- 风险调整收益:夏普比率最高超过2,表明策略的回报较好地补偿了风险波动;
  • 年中最大回撤:波动风险控制合理,最大回撤未显著超过约20%,符合中短期量化策略的风险预期。


这些绩效指标形象反映了基于PLS潜变量选股方法的价值,不同于估值模型,此策略强调统计学习能力而非传统财务估值。

---

5. 风险因素评估



报告虽未设专门章节详述风险因素,但根据报告内容及批注可识别如下风险:
  • 单潜变量假设的局限:当前仅假设单一潜变量驱动未来收益,过于简化现实多因驱动可能导至模型解释力不足,后续拓展多潜变量模型为缓解方案。

- 因子收益率波动大:回归系数$\lambda
t^a$月度波动性较大,虽采取了平滑处理,但平滑可能造成信息损失与模型表现边际变化。
  • 数据缺失与行业覆盖问题:银行业因缺失关键财务数据被剔除,导致选股池不完整,策略银行配比仅用指数替代,可能影响整体适用性。

- 市场环境变化:回测中部分年份如2017年与部分较差年份策略夏普比率为负,说明策略不具备全市场环境稳定适应性,存在周期性风险。
  • 策略实施风险:月频调仓及行业中性配置对交易费用敏感,异常市场波动时流动性风险增加。

- 数学模型假设风险:潜变量模型的线性关系假设或映射系数稳定性假设在极端或非线性市场环境中可能失效。

报告并未明确给出风险缓解策略,仅提出拓展模型和动态化参数估计为未来方向。

---

6. 批判性视角与细微差别


  • 报告对单潜变量模型的强假设给出较弱论证,存在对该简化假设风险的隐性忽视,潜变量是否能精确映射未来收益尚需深入验证。

- 移动平均平滑因子收益系数的操作有所争议,平滑虽提升稳健性,但可能牺牲因时点信息的敏感性。
  • 报告中述及潜变量即未来预期收益的观点较为理想,实际中该潜变量估计难度较大,噪声风险存在。

- PCA与PLS比较中,PCA组别收益率有时高于PLS,报告未深入解析产生此现象的原因或局限。
  • 对于银行业剔除处理,虽解释因数据缺失原因,实际对策略泛化影响较大,拆分行业后银行模块设计较为简略。

- 多维潜变量模型的提出是未来复杂版图,但目前相关数据与实证尚缺少,报告对此部分仅作设想。

---

7. 结论性综合



本篇报告聚焦于利用偏最小二乘回归(PLS)结合潜变量(latent variable)理论,创新性地从多维技术与基本面因子中提取对未来个股收益预测效果更强的潜变量指标。理论上,PLS方法弥补了传统主成分分析方法只关注自变量方差而忽视因变量解释力的不足,实证中显示PLS提取的潜变量AFER在中国A股市场(剔除银行)中具有显著的选股区分能力,优于PCA降维方法。

报告将提取的AFER潜变量应用于基于中证500行业权重的行业中性月度调仓策略。策略经历约十年回测,其年化超额收益稳定,风险调整后收益体现为较高夏普率及较小最大回撤,验明了PLS潜变量方法在实战中的有效性和稳定性。

虽然报告明确当前仅使用单一潜变量进行建模,但对多维潜变量模型的提出为后续研究方向提供了路线,有望进一步提升模型解释力和选股效果。

图表数据强化了PLS在实际金融因子研究和选股应用中的优势,尤其是图3和表3显示PLS方法在收益预判的单调性和区分度上大幅优于PCA。

整体而言,本报告为金融工程领域的因子研究带来了新思路,即重视因变量解释力的统计降维方法,并基于潜变量理念构建选股框架,在A股市场获得了良好的实证效果。该研究为量化投资策略设计提供了理论与方法论支持,为后续多潜变量模型的研究奠定了坚实基础。

---

参考文献与引用


  • 所有结论与推断均来源于报告各页内容,具体页码已在文中注明[page::X]。

- 图表图片以markdown格式标注,相关数据均来源报告页脚注明的国泰君安证券研究与Wind数据。

---

(全文共计约1800字,内容详实覆盖报告全部核心内容与图表)

报告