多因子报告之一:因子测试框架和估值因子初测
创建于 更新于
摘要
本报告系统构建了多因子测试框架,重点实证分析了四个估值因子(BP、SP、EP、CFP)的有效性和单调性。结果显示,BP(市净率倒数)因子表现最佳,具有最高的t值、IC值及稳定的单调性,适合纳入多因子模型;SP因子次之,EP因子表现较弱,CFP因子效果最差且存在较高换手率。行业分析显示PB因子在传媒、房地产等多个行业表现优异,在钢铁、金融等行业表现不佳。整体结论为BP为最优估值因子,值得多因子投资策略重点关注[page::0][page::12][page::24]。
速读内容
多因子测试框架构建及数据处理方法 [page::7][page::8][page::9]

- 先确定样本,剔除ST股、停牌股。
- 采用MAD、3σ、调整boxplot去极值结合处理不同分布数据。
- 对因子数据缺失超过10%不采用,缺失用行业中位数或邻时段均值填充。
- 标准化采用Z-score或max-min方法。
- 针对行业和市值做中性化处理,行业用哑变量,市值用截面回归残差。
估值因子测试及回测结果概览 [page::12][page::14][page::16][page::19][page::22][page::24]
| 因子 | t值均值 | t值>0占比 | 平均IC | IR值 | IC累计 | 单调性表现 | 换手率 | 备注 |
|------|---------|-----------|--------|------|-------|-------------|--------|-------|
| BP | 1.816 | 68.1% | 0.0061 |0.036|516.98%| 优秀 | 较低 | 最佳估值因子,长期稳定 |
| SP | 1.159 | 69.7% | 0.015 |0.103|355.03%| 良好 | 最低 | t值和IC均较好 |
| EP | 0.608 | 55.5% |-0.003 |-0.023|255.29%| 一般 | 中等 | 显著性较弱,参考性有限 |
| CFP | 0.971 | 63.9% |-0.012 |-0.071|-49.64% | 较差 | 极高 | 换手率波动大,效果差 |
- BP因子在绝大多数时间显示显著超额收益,IC右偏,信息比率中等偏上,分组回测单调性强且行业适用面广。
- SP因子表现稳定,行业适用性较强,换手率为所有因子最低,适合实盘操作。
- EP因子在传媒、钢铁等个别行业参考性较强,但整体有效性和稳定性不及BP和SP。
- CFP因子表现最差,IC累积为负,单调性差,建议谨慎使用。
估值因子在行业中的表现差异[page::15][page::18][page::21][page::24]
- BP表现优异行业包括传媒、房地产、电气设备、国防军工、化工、汽车等,表现不佳行业有钢铁、金融、家电。
- SP因子在传媒、农林牧渔、钢铁等行业效果明显。
- EP在传媒、钢铁、汽车等个别行业内有效,家电、银行等负相关。
- CFP对行业适用性弱,无明显参考价值。
量化因子构建与测试核心总结 [page::0][page::12][page::24]
本报告构建的因子测试框架包含回归检验(OLS、WLS、RLM)、因子IC值及IR分析、因子分层回测,严格处理行业和市值混淆,通过多维数据清洗与标准化确保因子有效性。BP因子因其稳定的财务指标表现出最佳适用性,建议纳入多因子选股体系以提升投资组合表现。

深度阅读
山西证券多因子报告之一:因子测试框架和估值因子初测 — 详尽分析报告
---
一、元数据与概览
- 标题:多因子报告之一:因子测试框架和估值因子初测
- 作者及机构:麻文宇 CFA(策略分析师),翟子超 FRM(金工研究助理),山西证券股份有限公司金工研究所
- 日期:2020年11月20日
- 主题:针对A股市场多因子选股模型的因子测试框架搭建及估值因子的实证分析,重点关注因子的有效性、稳定性和单调性。
- 主要信息:
- 报告系统阐述了因子测试在多因子量化选股策略构建中的关键角色,特别是估值类因子的测试与表现评估。
- 重点测试了BP(市净率倒数)、EP(市盈率倒数)、SP(市销率倒数)及CFP(市现率倒数)四类估值因子。
- 实证结果表明BP因子表现最佳,CFP效果最差。
- 报告还介绍了因子测试流程,包括市值和行业中性处理、多回归方法、IC和IR的计算以及分层回测。
- 本系列后续报告将涵盖更多风格因子及创新复合因子,持续完善多因子策略框架。
---
二、逐节深度解读
2.1 报告引言及背景(页0,4-7)
- 报告开篇指出多因子模型的本质是量化人类逻辑思维,并强调通过建立严谨的假设和流程,实现对金融变量的量化判别能力。
- 引述资本资产定价模型(CAPM)及Fama-French三因子模型,阐述市场因子和风格因子的形成机制和回归方法,提出三因子模型扩展了CAPM,增加了市值(SMB)和账面市值比(HML)因子。
- 重点指出SMB和HML因子带来的主观性和时序结果偏差,影响模型效果。
- 引入套利定价理论APT,以及基于其的多因子定价模型,强调多因子模型可以用来解释市场的alpha收益,且是风险归因的重要工具。
- 报告设计了多步骤框架,涵盖样本确定、数据清洗、因子测试及模型构建,当前报告主要聚焦因子测试框架的前几步,为后续模型构建提供量化依据。
2.2 数据准备与预处理(页8-10)
- 样本数据:涵盖全部A股,剔除ST股、上市不足两年及长期停牌股票,测试区间为2010年至2020年。
- 数据清洗:
- 针对极值,结合3σ法、MAD法和调整boxplot法按数据分布特征灵活选择,保证数据无异常拖尾影响回测准确性。
- 缺失值根据具体因子特征替换,如行业中位数、临近时间均值等,缺失比例超10%则弃用因子。
- 因子标准化:普遍采用Z-score,对均匀分布数据采用min-max标准化,适合生成因子暴露数据。
- 市值与行业中性处理:
- 行业因素采用哑变量方法处理,方便模型运算且可区分行业差异。
- 市值因素采用截面回归剔除市值带来的收益影响,确保因子效应独立于市值因素。
- 图4显示2020年各申万一级行业PE及PB差异,计算机、传媒行业PE最高,银行最低,行业估值差异明显。
- 图5为2015-2019年市值分组PE水平,显示市值越小因子值越高,反映规模效应对因子的影响。
2.3 因子测试方法(页11-12)
- 采用三种回归方法:
- OLS(最小二乘回归):易受异方差影响,赋予极端值过大权重。
- WLS(加权最小二乘回归):以市值平方根作为权重,降低低市值股票极端值影响。
- RLM(稳健回归):迭代加权,减轻异常值影响,主要采用对此类金融数据效果显著的M-estimator。
- 因子有效性检验:
- 通过因子收益序列均值及其t值考察因子是否显著优于零。
- 统计因子收益的t值时间序列,考察因子稳定性。
- 计算信息系数(IC):因子暴露与未来收益相关系数,反映因子对收益的解释力度。
- 计算信息比率(IR):IC均值除以标准差,反映因子预测收益的稳定性。
- 分层回测:
- 每月按因子值进行行业内分层排序,组成组合回测,考察收益单调性(分组排行是否与收益对应)。
- 采用夏普比率、最大回撤等指标评估组合表现。
2.4 估值因子实证分析(页12-24)
- 选取4个估值因子:EP(市盈率倒数)、BP(市净率倒数)、SP(市销率倒数)、CFP(市现率倒数)。
- 详述分析如下:
2.4.1 EP因子(市盈率倒数)
- 回归显著性低,t值均值0.61,IC均值-0.0028,表现较弱,IR为负。
- IC值序列波动较大,IC分布轻度左偏,滚动累计IC净值呈上升趋势,2019年累计超过255%。
- 分组回测中,最高组年化收益率为13.77%,夏普比例0.56,表现较好,但波动和最大回撤较大。
- 行业表现差异明显,钢铁、传媒、小PE股票表现好,家电、银行板块PE效果负面。
- 换手率较高,说明交易活跃。
- 图示:图6-11展现了EP的t值变化、IC值动态、分层回测收益及行业表现。
2.4.2 BP因子(市净率倒数)
- t值平均1.82,因子收益均值0.0073,显著优于EP。
- IC均值0.006,IR为0.036,IC分布向右偏,累计IC值达到517%,表现稳定且强烈。
- 分组回测年化收益率第一组11.11%,夏普比率0.49,波动率较高但单调性良好。
- 行业表现突出,特别是房地产、传媒、化工等行业,小PB股票回报明显。
- 换手率处于合理区间,交易活跃但较为稳定。
- 图示:图12-17展示BP因子各项指标及行业分层回测。
2.4.3 SP因子(市销率倒数)
- t值均值1.16,因子收益均值0.0049,表现次于BP。
- IC均值为0.015,IR为0.10,IC分布偏右,累计IC净值355%,显示稳定性有所保证。
- 分组回测中1组表现最佳,收益和夏普比率良好,渗透行业较广,传媒、小盘股收益显著。
- 换手率最低,适合结构较为稳健的投资策略。
- 图示:图18-23展示了SP因子相关测试结果。
2.4.4 CFP因子(市现率倒数)
- t值均值0.97,因子收益均值仅0.0040,显著性较低。
- IC均值为-0.0117,IR为负,IC分布集中尖峰,表现不稳定,累计IC净值为负(-49.64%)。
- 分组回测单调性较差,但小市值组合收益较好,但整体参考价值有限。
- 换手率极高,显示频繁交易或策略操作难度大。
- 各行业分类中,CFP因子普遍表现欠佳,缺乏显著的选股效果。
- 图示:图24-29分析了CFP因子的弱势表现。
2.5 综合因子测试结果分析(页24)
- BP因子综合表现最优:最高平均因子收益、最大的累计IC、正向IR及良好的单调性。
- CFP因子最差:IC负值,单调性差及较高换手率降低其实用价值。
- EP和SP因子表现居中,SP因子稳健性略好于EP。
- 估值因子内在差异原因:净利润、销售额和现金流波动大且易被操纵,而账面净值相对稳定,导致PB作为价值因子表现更佳。
- 行业影响显著:BP指标在房地产、传媒、电气设备、国防军工、化工、汽车、建筑装饰等行业效果显著,不适用于钢铁、金融和家电行业。
- 后续报告将拓展更多因子,包括规模、成长、质量、波动、行业、杠杆、动量等多个维度,搭建更细致的多因子策略体系。
---
三、图表深度解读
3.1 市场回归与因子暴露图(页5)
- 图1展示了市场个股收益与市场市场超额收益关系,散点图中的点聚集于一条从无风险利率开始并显示beta值的回归线上,直观表明个股不同的市场风险暴露。
- 图2显示了样本股票000002.SZ基于OLS方法的历史回归,点状散布体现了股票收益与标的指数收益率的对应关系,黑色回归线呈现较弱正斜率,表明该股beta接近正值。
- 两图辅助说明CAPM及Fama-French模型计量基础,强调beta作为风险暴露的核心变量。
3.2 行业及市值估值差异(页10)
- 图4:显示申万一级行业2020年6月的平均PE和PB,计算机、传媒行业PE显著高于平均值,反映不同板块成长预期和估值模式显著不同。
- 图5:2015-2019年市值五分组的PE值,表明小市值公司PE总体偏低(或估值低),因规模与成长预期驱动差异显著。体现需做市值中性处理的重要原因。
3.3 估值因子测试见图(页13-24)
- 对EP、BP、SP、CFP因子分别以多层时间序列图(t值、IC值、IC分布)、滚动累计IC净值及分组回测收益(总体及行业分层)、换手率等多维角度呈现,系统展现因子表现的稳定性、显著性和单调性。
EP因子(图6-11,页13-15)
- t值时间序列波动较大,表现有限。
- IC值集中于零附近且偏左,IC纯量呈现波动趋势。
- 分层回测收益曲线有阶梯状递减趋势,但2015年前单调性不足。
- 行业层面差异显著,传媒和钢铁表现最好,房地产及银行反向表现。
BP因子(图12-17,页16-18)
- t值序列稳定,均值较高且大半时间为正,IC值右偏且均值为正,累计值增长显著。
- 分组回测年化收益及其他风险指标表现佳,小PB组合优势明显。
- 行业分层回测显示该因子对多数行业均适用,部分行业如钢铁金融表现弱。
SP因子(图18-23,页19-21)
- t值及IC时间序列稳健,IC分布右偏。
- 分层回测整体单调性较好,但部分组别表现不稳。
- 行业偏向传媒、农林牧渔等。
CFP因子(图24-29,页22-24)
- t值表现尚可,IC值均值和累计IC负,表现不佳。
- 单调性较差,行业整体缺乏有效选股能力。
- 换手率极高,交易成本和波动加大策略难度。
---
四、风险因素评估
- 数据质量风险:因历史数据的缺失、极端值及人为操纵(如现金流数据)会影响因子表现,CFP因子即受此影响明显。
- 模型假设局限:多因子模型基于线性回归及市场均衡假设,实际市场存在非线性、结构变化风险。
- 市场结构变化:行业快速变革及宏观经济周期波动可能导致因子表现周期性波动,EP因子在2015年前后的表现差异即反映此风险。
- 因子稳定性风险:部分因子(如CFP)IC值负、单调性差,说明过去数据的因子有效性不保证未来。
- 交易成本与策略执行风险:高换手率因子(CFP)意味着交易成本高,可能侵蚀收益。
- 因子间多重共线性:报告提及需检验多重共线性,若处理不当,回归效应和因子权重分配可能失真。
- 行业与市值中性处理风险:虽然报告采用行业哑变量和市值中性处理,但由于部分因子在特定行业表现极端,可能无法完全剥离行业和规模对因子效应的影响。
---
五、估值分析与方法论
- 本报告主要进行的是基于回归分析(OLS、WSL、RLM)和分层回测的因子有效性评估和排序,并未直接进行估值模型构建,但因子的选取和权重优化为后续多因子投资策略的估值和优化提供基础。
- 回归方法重点考虑了解决金融时间序列的异方差和异常值问题,WLS和RLM使用求得稳健估计。
- 信息系数(IC)、信息比率(IR)等指标为多因子模型中因子预测能力和稳定性的量化表现。
- 分层回测保证因子收益单调性,辅助验证因子筛选能力。
- 报告展望后期将结合多因子优化,形成完整多因子投资组合构建和估值方法。
---
六、批判性视角与细微差别
- 报告在实证数据的描述上较为客观,但少部分因子如EP、CFP的表现弱被较明显指出,可能隐含对这类因子的谨慎态度。
- BP因子虽然表现最好,但报告也指出其账面净值受市场影响较小,且相对稳定性较强,暗示其理论逻辑基础较为坚实。
- 由于测试样本限定于A股且为2010-2020年数据,因子效能仍有区域和周期适用性的局限,未来结果需结合更多市场和更长周期验证。
- 报告承认个别假设(例如因子暴露和收益呈线性关系)的简化,强调后续报告中将进行更丰富模型的深入讨论。
- 行业内差异表现较大,未来多因子模型需结合行业特征进行个性化调整而非“一刀切”。
---
七、结论性综合
本报告由山西证券金工研究团队编写,系统阐述了A股多因子选股模型中因子测试的框架与方法,尤其聚焦估值因子的定量测试。
报告通过扎实的理论基础介绍及详实的实证数据分析,阐释了因子测试的必要流程:样本确定、数据清洗(去极值、缺失处理)、因子标准化、市值及行业中性处理、回归分析(OLS/WLS/RLM)、信息系数(IC)与回测单调性检验。
估值因子实测结果显示,BP(市净率倒数)因子表现优异,具备最高的显著性指标(平均t值1.82、因子收益均值0.0073)、良好的信息系数分布(IC均值0.006,累计超过500%)和较强的分层回测收益单调性。其行业适用面广泛,尤其在房地产、传媒、化工等多个行业表现著称。相比之下,常用的EP(市盈率倒数)虽有一定收益预测能力,但稳定性和显著性较BP差,特别在不同行业的表现分歧较大。SP(市销率倒数)数据表现次于BP,兑现金融市场的应用价值仍被认可;而CFP(市现率倒数)因数据波动及人为因素影响,指标表现不及其他三因子,且换手率过高导致实用性不足。
图表群(图6-29)生动呈现了因子测试的多个维度,从t值与IC时间序列的波动,到行业和分组回测中不同因子组合的收益差异及风险特征,为后续构建稳健的多因子量化选股策略提供了坚实证据。
报告明确指出多因子模型的持续迭代方向,将囊括规模、成长、质量、波动、技术指标和宏观因子等多领域指标,致力于形成更具预测力和适应性的多维度因子体系。
总体来看,本报告为山西证券金融工程研究奠定了坚实的理论与数据基础,为投资者提供了科学分析和策略工具的初步框架及估值因子筛选方向。报告最终确认BP因子为当前估值因子体系中“最优选”,建议多因子模型优先考虑其权重配置。
---
重要图表与数据引用(部分举例)
- 市场个股beta暴露图(图1,图2)说明回归量化方法[page::5]。
- 行业估值差异(图4)及市值分组PE(图5)直观表现因子研究须考虑行业与规模中性的必要性[page::10]。
- EP因子IC累计净值255.29%(图9)、BP因子IC累计净值516.98%(图15)、SP因子IC累计净值355.03%(图21),CFP因子IC累计净值-49.64%(图27)显示各因子稳定性差异[page::14,17,20,23]。
- 分层回测结果表明BP小组合优势显著(表4、图16)且行业表现更均衡(图17),CFP因子表现最差(图28,图29)[page::17,23,24]。
- 换手率数据显示CFP最高达2000%以上,意味着策略交易频繁,相比之下BP、SP较为稳定[page::15,18,21,24]。
---
综上,报告以严谨的量化方法验证了估值因子在A股市场的表现差异,并明确指出BP因子作为多因子投资策略的重要基石。该报告对量化投资研究者和资产管理者在构建和优化多因子模型时具备重要参考和指导意义。[page::0,4-25]
参考文献和附录
- 报告全文结尾提供了投资评级说明、免责声明和分析师职业承诺,保证研究的独立性和客观性。[page::26]