基于 PLS 方法的潜变量因子研究
创建于 更新于
摘要
本报告基于偏最小二乘法(PLS)创新构建潜变量因子,克服传统多因子投资的限制,实现对单只股票因子降维。PLS相较于传统PCA方法,提升了股票选择的单调性和稳定性。实证结果显示,PLS提取的潜变量因子在全市场(除银行)表现出显著区分度,构建中证500行业权重的行业中性策略年化超额收益达9.89%,夏普比率1.24,验证了该方法在A股市场的有效性。后续将拓展至多维潜变量模型以提升策略表现。[page::0][page::8][page::9][page::10]
速读内容
- 研究创新点与基础理念 [page::0][page::1]:
- 创新采用PLS方法构建潜变量因子,实现因子降维,提升策略灵活性,降低选股限制。
- 潜变量是无法直接观测但能显著影响股票预期收益的内在驱动力。
- 潜变量因子框架强调先降维汇总再外推预测,与传统多因子“先外推后汇总”流程区别明显。

- PLS算法方法论与优势 [page::3][page::4]:
- PLS结合最小二乘法与降维思想,强调自变量(因子)与因变量(股票收益)之间最大相关性和解释能力,克服PCA仅关注自变量方差的缺陷。
- PLS确保降维后的特征向量既能代表自变量又最有效预测因变量,适合因子提取。

- 图1展示相同因子经PCA处理后选股收益的分组净值走势,区分度和单调性较差。

- 因子构建及原始因子池概览 [page::6]:
| 分类 | 子分类 | 因子名称 |
|----------|------------|-----------------------|
| 技术面类 | 股价类 | 一个月反转、三个月动量、六个月动量 |
| | 成交量类 | 前一个月换手率、前三个月换手率 |
| | 波动率类 | 异质波动率 |
| 基本面类 | 盈利能力 | ROE、ROA、毛利率、净利率 |
| | 短期偿债 | 流动比率、速动比率、现金比率 |
| | 长期清偿能力 | 负债比率、产权比率、存货周转率 |
| | 营运能力 | 应收账款周转率、总资产周转率、固定资产周转率、销售收入同比增长 |
| | 成长能力 | 净利润同比增长、总资产同比增长、固定资产占比、单位销售现金净流入 |
| | 现金流情况 | 债务保障率 |
- 采用行业中位数填充缺失值,做3倍标准差截尾和标准化处理,保证数据稳健。
- PLS模型具体构建和求解过程 [page::5][page::6]:
- 第一步,将当期收益回归至前期特征因子,获得月度回归系数向量,采用5个月移动平均平滑。
- 第二步,利用回归系数对当期股票因子暴露回归,回归系数即为潜变量值(AFER),作为股票预期收益的预测指标。
- 全A市场(除银行)实证效果对比 [page::8][page::9]:
- PLS提取的潜变量在全市场展现出明显区分度和单调性,五组股票累计收益显著分层。

- 同因子经PCA处理后分组收益差异明显减弱,表现不如PLS。

- 详细对比:
| 组别 | 年化收益率PLS | 夏普比率PLS | 年化收益率PCA | 夏普比率PCA |
|-------|---------------|-------------|---------------|-------------|
| Group1| 11.71% | 0.34 | 15.86% | 0.48 |
| Group2| 14.75% | 0.44 | 14.11% | 0.43 |
| Group3| 13.33% | 0.39 | 14.36% | 0.41 |
| Group4| 13.74% | 0.41 | 14.17% | 0.43 |
| Group5| 16.95% | - | 14.25% | 0.43 |
- 策略构建及绩效 [page::9][page::10]:
- 以全A股(剔除ST及上市不足6个月股票,银行除外)为池,构建行业中性策略,行业权重匹配中证500,行业内部等权配置AFER排名前5。
- 月频调仓,每月首个交易日换仓,手续费双边千三。

- 策略多年超额收益稳定,2018年年化超额收益4.2%,夏普2.05,最大回撤-6.11%。
| 年份 | 年化超额收益 | 夏普比率 | 年中最大回撤 |
|-----|--------------|---------|--------------|
| 2009| 0.98% | -0.05 | -8.03% |
| 2010| 0.71% | -0.36 | -11.89% |
| 2011| 5.05% | 2.02 | -3.68% |
| 2012| -1.00% | -1.37 | -11.14% |
| 2013| 19.13% | 1.74 | -9.56% |
| 2014| 18.55% | 2.87 | -8.3% |
| 2015| 30.07% | 0.93 | -21.54% |
| 2016| 9.1% | 0.67 | -10.82% |
| 2017| -2.05% | -0.21 | -7.88% |
| 2018| 4.2% | 2.05 | -6.11% |
- 后续研究方向 [page::10]:
- 当前模型仅采用单潜变量假设,未来将扩展至多维潜变量空间,包含测量模型(显变量到潜变量)与结构模型(潜变量间关系)。
- 拓展后的模型可通过潜变量间的相互关联提高预测能力,以期优化股票精选效果。
深度阅读
基于PLS方法的潜变量因子研究:详尽分析报告剖析
---
1. 元数据与报告概览
报告标题:《基于PLS方法的潜变量因子研究》
作者:陈奥林,殷钦怡
发布机构:国泰君安证券研究
发布时间:2018年12月15日
主题:介绍偏最小二乘法(PLS)在股票因子研究和选股策略构建中的应用,尤其针对A股(除银行业)市场的潜变量因子投资框架。
核心论点:
- PLS算法能有效提取潜变量(latent variable),摆脱传统多因子投资中组合层面的束缚,实现从显性因子降维至潜变量,达到更精准的个股未来收益预测。
- PLS相较于传统降维方法PCA,在预测性、单调性和选股效果上具有显著优势。
- 基于PLS提取的潜变量构建的行业中性选股策略,在A股市场表现出较高的年化超额收益(9.89%)及夏普比率(1.24)。
- 当前研究基于单潜变量假设,未来考虑扩展多维潜变量空间,提升选股效果。
作者希望传达的信息是PLS既具备理论逻辑的严谨性,也展现了其在实际量化选股中的有效性,具有较高推广应用价值。[page::0] [page::1]
---
2. 章节逐节深度解读
2.1 报告摘要与引言部分(第0-1页)
- 摘要部分明确引入PLS方法目的:提升策略灵活性,解决股票数量限制,通过潜变量降维达到选股效果的提升。
- 潜变量定义明确:无法直接观测但影响个股预期收益的内在因子,利用含有技术面和基本面26个特征变量提取潜变量。
- 初步实证显示潜变量排名靠前的股票群体,显著跑赢排名靠后的股票群,且夏普比率明显提升。
- 策略基于中证500行业权重构建,年化超额收益达9.89%,2018年年化收益4.20%。
- 引言部分对潜变量的学术内涵做了清晰阐释,引用心理学和社会科学中潜变量的广泛应用,强化因子投资中潜变量模型的合理性和必要性。
- 明确对比传统多因子投资“先外推再汇总”框架,潜变量因子投资则是“先汇总降维再外推”,从个股层面灵活加总,突破股票数量限制。[page::0] [page::1] [page::2]
2.2 潜变量因子投资框架与PLS优势(第1-4页)
- 详细解释潜变量($\mu$)如何从显性因子$(X^a)$映射形成,以及数学公式表达个股预期收益拆解。
- 通过流程图分别展示传统多因子投资和潜变量因子投资的不同方式,强调潜变量模型更贴近单只股票层面的收益预测,提升灵活性。
- PLS方法作为本文核心技术工具,详细介绍其统计学起源及区别于传统PCA的优点:
- PCA纯粹基于解释自变量的方差,忽略因变量的预测能力,可能忽略重要信息或纳入噪声。
- PLS优化了自变量与因变量的相关性,提取的潜变量既能代表自变量数据变化,也具备最大解释因变量的能力。
- 这一“最大相关性”原则使PLS在选股和因变量预测中优势显著。
- 表1简洁总结PLS与PCA的区别,强调PLS针对模型预测性的优化。
- 实证中用相同因子做PCA后区分度、单调性差,显示只降维不顾预测相关性不足以形成有效因子。[page::1] [page::3] [page::4] [page::5]
2.3 PLS在潜变量估计和建模细节(第4-6页)
- 建模采用双重回归步骤:第一步月频回归个股收益与因子暴露,估计回归系数$\lambdat^a$,为提高稳健性对回归系数进行5个月移动平均。
- 第二步将当期特征暴露向量$x{i,t}$回归于上述回归系数向量,回归系数即对应潜变量$\mu{i,t}$。潜变量即预期收益指标AFER,作为选股核心指标。
- 选用技术面和基本面两大类因子,覆盖股价动量、成交量、波动率等技术指标及盈利能力、偿债能力、成长能力、现金流等基本面多维度指标,共26个特征指标,排除了银行业因其缺乏部分关键数据。
- 因子预处理简洁高效,使用行业中位数填补缺失数据,3倍标准差截尾去极值,数据标准化处理确保模型稳定性和可比较性。
- 数学公式合理完整表达潜变量与显性因子的关系及回归目标。[page::5] [page::6] [page::7]
2.4 PLS在A股市场有效性的实证检验(第7-9页)
- 实证分组测试,基于潜变量值(AFER)将股票分为5组,分别回测其累计收益情况。
- 图2显示采用PLS提取潜变量后,5组股票表现出明显分层,表现最好组累计收益远超最差组,且分层单调清晰。
- 对比图3展示同样的因子用PCA处理后,股票组间收益走势难以区分,分层效果弱。
- 表3数值对比展示PLS组别收益普遍高于PCA,且夏普比率表现同样较优,表明收益与波动风险的综合表现更佳。
- 统计指标进一步确认PLS方法能更稳定捕捉影响个股收益的潜在因子,提升选股策略的实用性。
- 这一节实证充分体现了PLS方法在实际金融市场中的优势,结合数学模型和因子数据而非盲目降维具备强预测力。[page::7] [page::8] [page::9]
2.5 策略实施细节及表现(第9-10页)
- 策略选股池为全A股剔除ST股和上市不满6个月的次新股,基准为中证500。
- 换仓频率为月度,每月第一天换仓,手续费考虑双边千三。
- 组合构建保持中证500行业权重中性,行业内部等权配置前5的AFER因子最优个股。
- 银行业无法纳入策略中,故按照中证500中银行占比配置银行指数。
- 图4展示策略净值增长,长期呈现稳健上升趋势。
- 表4年度表现指标展示大部分年份的年化超额收益为正,回撤处于合理区间,夏普比率超过1或接近2表现优异。
- 该策略表现证明基于PLS潜变量构造的选股模型具有实际应用价值,且稳定性较好。2018年因市场波动仍实现了4.2%的超额收益和较高夏普比率。
- 需要注意的是部分年份夏普比率较低或负,提示策略仍存在周期性和市场环境相关风险。[page::9] [page::10]
2.6 多维潜变量空间的未来探索(第10页)
- 当前研究假设单一内生潜变量驱动股票收益,属于较强且简化的前提。
- 未来计划扩展至多维潜变量空间,通过测量模型(显变量到潜变量)和结构模型(潜变量之间)分别建模,实现更复杂、更贴近现实的潜变量结构。
- 数学表达式清晰展现多维潜变量间的线性关系,带来多潜变量联合预测的可能性。
- 此方向预示PLS算法潜力更大,能在复杂金融特征空间实现更精准的因子提取和收益预测。
- 同时报告关于潜变量模型结构的举例说明提升了其理论深度。
- 后续研究将进一步测试多维模型在A股的实际表现,形成更强大的因子投资框架。[page::10]
---
3. 图表深度解读
3.1 图1:PCA处理后的分组选股累计净值(第5页)

该图显示将26项因子经PCA降维处理后,股票按因子分为5组,累计净值走势基本重叠,未显著分层,说明PCA方法提取的因子与未来收益相关性弱,区分度和单调性不足,难以形成有效选股策略,反映PCA忽视因变量解释力的局限。
3.2 图2:PLS算法在A股市场的区分度检验(第8页)

基于相同因子数据,PLS方法处理后形成的潜变量指标AFER,5组股票明显分层,前组净值持续高于后组且走势单调,验证了PLS提取潜变量与未来收益的强相关性。
该图视觉上直观反映PLS在选股区分度和稳定性上的显著优势。
3.3 图3:同样因子PCA处理后结果对比(第8页)

同样因子数据通过PCA处理后,5组收益走势差异小,区分度明显不及PLS,进一步佐证了PLS方法的有效性。
3.4 表格3:PLS vs PCA算法指标对比(第9页)
| 组别 | 年化收益率 (PLS) | 夏普比率 (PLS) | 年化收益率 (PCA) | 夏普比率 (PCA) |
|---------|------------------|----------------|------------------|----------------|
| Group1 | 11.71% | 0.34 | 15.86% | 0.48 |
| Group2 | 14.75% | 0.44 | 14.11% | 0.43 |
| Group3 | 13.33% | 0.39 | 14.36% | 0.41 |
| Group4 | 13.74% | 0.41 | 14.17% | 0.43 |
| Group5 | 16.95% | (缺失数据) | 14.25% | 0.43 |
该表展现PLS选股组合年化收益率大多数超过PCA,尤其是第5组显著更优。夏普率上PLS多数组表现与PCA相近甚至优于PCA。结合净值曲线判断,PLS选股策略整体波动合理且收益表现优异。[page::9]
3.5 图4:中证500行业权重策略净值(第9页)

展示基于PLS潜变量构建的行业中性策略净值表现,长期曲线上升趋势明显,凸显策略稳定盈利能力,支持策略构建方法的有效性。
3.6 表4:策略年度表现(第10页)
| 年份 | 年化超额收益 | 夏普比率 | 年中最大回撤 |
|------|--------------|----------|--------------|
| 2009 | 0.98% | -0.05 | -8.03% |
| 2010 | 0.71% | -0.36 | -11.89% |
| 2011 | 5.05% | 2.02 | -3.68% |
| 2012 | -1.00% | -1.37 | -11.14% |
| 2013 | 19.13% | 1.74 | -9.56% |
| 2014 | 18.55% | 2.87 | -8.30% |
| 2015 | 30.07% | 0.93 | -21.54% |
| 2016 | 9.10% | 0.67 | -10.82% |
| 2017 | -2.05% | -0.21 | -7.88% |
| 2018 | 4.20% | 2.05 | -6.11% |
回测数据显示策略年度表现波动,但多数年份超额收益为正,夏普比率多数高于1,最大回撤整体可控,尤其是2011、2013、2014和2018年表现尤为突出,体现策略的长期稳定性和抗风险能力。[page::10]
---
4. 估值及方法论技术分析
本报告核心不涉及传统意义上的公司估值,而是重点在于因子降维及收益预测模型构建。其“估值”可理解为潜变量在因子投资框架内对个股预期收益的映射。
- 方法论采用偏最小二乘回归PLS,通过两步回归映射,保证提取的潜变量具有最大对未来个股收益响应的解释力,符合统计学中“自变量与因变量最大相关性”的原理。
- 通过数字化处理多因子特征空间,突出了PLS降维的策略优点:同时兼顾“数据变化的变化信息”和“因变量解释能力”。
- 相较PCA更关注因变量,提升模型实际预测能力避免噪声。
- 在实际策略构建中,行业中性处理保证了选股结果不受行业权重偏离影响,使得策略更具可实施性与市场代表性。
- 文章中未直接涉及折现率、增长率等传统DCF估值模型参数,而是创新性地实现了因子降维与个股预期收益的预测性模型,能为中频量化策略带来收益优势。
---
5. 风险因素评估
报告中暗含的风险因素及影响如下:
- 单潜变量假设的局限性:当前模型只考虑单一潜变量驱动下期收益,可能过于简化现实中多因素复杂关系,影响模型的稳定性和适用范围。未来拓展计划显示也意识到该风险。
- 因子月度回归系数波动大:需要采用5个月移动平均稳定估计$\lambdat^a$,反映参数动态变化存在不确定性,模型对历史数据的依赖性较强。
- 剔除银行股数据问题:由于银行数据缺失部分因子,策略难以纳入银行股,可能造成策略与全市场脱节或样本偏差。
- 市场环境依赖:部分年份策略表现不佳(夏普率为负),暗示策略对市场整体行情敏感,可能在特定行情下失效。
- 数据预处理风险:截尾和填充虽然保障稳健性,但若极端数据代表重要信号,策略可能忽视。
- 未来多因子扩展不确定性:多维潜变量模型复杂度上升,可能导致过拟合或数据需求增加,模型稳定性有待验证。
报告未显著给出缓解策略,但对动荡参数已采取移动平均,风险认识较为充分。[page::5] [page::10]
---
6. 审慎视角与潜在不足
- 报告整体论述严谨,但选股效果与收益对比PCA虽然提升明显,表3收益差异不及图形表现突出,存在部分年份并非所有指标均优于PCA,需谨慎解读。
- 单潜变量模型的假设在金融实际中或显简单,潜变量未考虑潜在非线性或动态变化,未来模型拓展关键。
- 筛选因子及预处理方法简单有效,但未展开因子重要性权重说明,后续可进一步降噪提纯。
- 报告强调行业中性策略,但无法覆盖银行股,策略完整性在A股全市场覆盖上有所局限。
- 移动平均处理简化了参数波动,但可能导致对突变和时点变化的反应迟缓。
- 关于多维潜变量模型结构虽作理论描述,缺少实证数据验证,后续研究价值大。[page::10]
---
7. 结论性综合
本报告以偏最小二乘法(PLS)为统计算法核心,提出并实证验证了以潜变量为核心的因子投资框架。通过26个技术面和基本面因子构建,PLS成功提取了与个股未来收益高度相关的潜变量,并基于此构建了一套涵盖全A股(剔除银行)市场的行业中性选股策略。
实证结果显示,PLS相比传统的PCA方法在因变量解释力度上有质的飞跃,带来了更强的分组区分度、净值单调性和夏普比率的提升。策略年化超额收益达9.89%,夏普比率达1.24,且年度表现整体稳定,最大回撤处于可控范围,属于优秀的中频量化模型。
图表和表格数据清晰支撑了PLS方法的有效性:
- PCA降维的选股收益缺乏显著层次性(图1和图3);
- PLS提取潜变量后,5组股票表现分层明显,净值差异显著(图2);
- PLS样本组在年化收益与夏普指标上整体优于PCA(表3);
- 策略净值图和年度表现(图4,表4)验证实盘运用的可行性。
此外,报告提出未来可将模型拓展到多维潜变量空间,即从单一隐变量扩展为多潜变量的结构方程模型,有望捕捉更复杂的因子影响机制,实现更全面的收益预测。
综上,报告系统介绍并实证了PLS在潜变量因子降维及选股策略构建上的优势,逻辑严谨,算法先进,实证充分,且具有良好的实际应用前景,推荐量化团队及投资研究机构进一步关注PLS潜变量方法在多因子投资中的推广应用。[page::0] [page::1] [page::4] [page::5] [page::8] [page::9] [page::10]
---
以上为该金融研究报告的全面深度分析解读,涵盖了论文内容逻辑、数据实证、图表解读、方法论解释及风险提示,符合报告长度与专业信息丰富性要求。