`

基本面财报因子的构建框架初探 — 中银量化多因子选股系列(一)

创建于 更新于

摘要

本报告系统梳理了基于中证500成分股的财报基本面因子构建框架,提出构建不易操纵的纯粹财务指标,采用跨报表验证和结合市场定价进行因子改进。报告创新性运用无监督机器学习算法(KMeans及凝聚层次聚类)对大量相似逻辑因子进行聚类优选,成功筛选出7个优质单因子。基于筛选因子采用Zscore与Rank等权复合策略,回测显示复合因子显著优于单因子,年化IC最高达12.1%,多头组超额收益高达13.4%,多空收益为16.8%。报告还对因子稳健性和报表项目重分类方法进行了详细阐述,为量化因子选股提供实证支持和方法论创新 [page::0][page::3][page::4][page::6][page::11][page::14]。

速读内容


因子构建三大核心思想 [page::4][page::6][page::7]



  • 思路一:基于企业业务类型重分类财务报表项目,构建“不易操纵”的纯粹财报指标,改造传统营业利润指标,剔除非经营性因素,提升指标信息质量。

- 思路二:基于“跨报表验证法”构建指标体系,如细化ROA的分子分母口径,衍生出多类ROA指标,提升了指标的针对性和解释力。
  • 思路三:结合基本面与A股市场定价因素(PB因子)进行因子中性化,提高因子预测能力和稳定性。


传统财报指标改造效果显著提升 [page::5]


| 财报因子 | IC | 多头组G1超额收益 | 多空组 L/S 超额收益 |
|----------------------------|------|----------------|--------------------|
| 营业利润原始指标TTM | 7.1% | 3.8% | 6.6% |
| 营业利润2015BallTTM | 6.3% | 4.4% | 5.5% |
| 核心利润张新民TTM | 6.6% | 4.5% | 5.9% |
| 核心利润张新民YoY_MRQ | 5.3% | 7.3% | 8.0% |
  • 改造后的核心利润类因子在IC和超额收益表现均优于原始营业利润指标,验证了指标纯粹性提升带来的有效性增强。

- 研发费用的对待方法在两个改造方案中存在差异,反映了理论与实际处理的不同视角。

财报因子聚类优选方法及实证 [page::9][page::10][page::11][page::12]





  • 利用无监督学习的K-Means和凝聚层次聚类算法对65个IC>3%、多头组超额>5%的财报因子进行分类。

- 采用轮廓系数指标确定最优聚类数量,样本内测试显示k=7为最佳聚类数。
  • 在每一簇中选择多头组收益最高的因子作为代表,构成精选因子池。

- 选出的7个因子类别涵盖ROA变形、现金与资产匹配、盈利增长、企业扩张四大逻辑方向。

结合PB因子强化中性化效果 [page::8]


  • 引入PB因子进行回归中性化处理,使因子在信息比率和超额收益上均得到提升。

- PB-ROE框架明确低估值与高ROE的股票更有投资价值,优化了选股质量。

财报复合因子构建与回测表现 [page::14]




  • 采用单因子Zscore等权和Rank等权两种复合方式,实证显示Rank等权组合表现更佳。

- Rank等权组合:IC达12.1%,多头组年化超额13.4%,多空超额16.8%。
  • 2021年下半年因子收益集体回撤,提示因子拥挤风险,建议后续通过多维度因子对冲提升稳健性。


附录:基于公司业务属性的报表项目重分类 [page::15][page::16][page::17]




  • 针对2017年前后报表规则调整,详细梳理资产负债表核心明细的生产资产、经营资产、投资资产分类。

- 负债与所有者权益按照经营性负债(无息)与融资性负债(有息)分类。
  • 明细项目的结构调整为因子构建提供更精准的财务原数据支持。


风险提示 [page::0][page::18]

  • 投资者需关注模型失效风险,特别是因子过度拥挤带来的阶段性回撤风险。

深度阅读

中银国际证券“基本面财报因子的构建框架初探”详尽分析报告



---

一、元数据与概览


  • 报告标题:基本面财报因子的构建框架初探——中银量化多因子选股系列(一)

- 作者与机构:证券分析师郭策,中银国际证券股份有限公司(具备证券投资咨询业务资格)
  • 发布日期:未明示,内容覆盖2010年至2022年7月底数据

- 研究领域与主题:量化投资中财报基本面因子的构建、筛选、优选及复合方法,针对中国A股市场中证500指数成分股的应用和实证
  • 核心论点与目标

- 通过三个核心思想提出并批量改进传统财报因子,提升因子解释力与实证表现。
- 引入基于无监督机器学习的因子聚类优选框架,甄别表现和逻辑相似的因子池中的优质单因子。
- 采用ZScore和Rank等权复合方式,实证显示复合因子在IC(信息系数)和多空策略下超额收益表现显著优于单因子。
- 目标是为 A 股中证500范围内的多因子策略研发提供稳健、可操作的基础财报因子构建和筛选框架。
  • 关键业绩指标亮点

- Rank等权复合因子实现年化IC12.1%,多头组较中证500年化超额13.4%,多空超额16.8%
- ZScore等权复合因子年化IC10.2%,多头组超额10.3%,多空超额13.1%
  • 风险提示:关注模型失效风险,因子拥挤导致超额收益侵蚀,需多维度因子对冲增强[page::0,3,14]


---

二、逐节深度解读



1. 中证500指数增强回测框架



报告定义了测试区间(2010-2020年样本内,2021-2022年7月样本外)及股票池(中证500),验证财报因子的有效性。采用10组分组回测,周度换仓,规则合理也特别考虑了ST股、涨跌停牌及停牌的交易约束处理,体现实际交易中的执行难点[page::3]。

该部分框架为后续因子整体对比提供基准,确保所有因子均能在统一、合理参数下做公允比较。

---

2. 财报因子构建与实证(三大核心思想)



思路一:构建“不易操纵”的财报指标


  • 以企业业务属性(生产经营、投资、融资及其他业务)为基础,重新归类三大财报(资产负债表、利润表、现金流量表)关键项目,排除或调整利润操纵敏感的模糊项目。

- 利润表中的“营业利润”指标口径不纯粹,包含投资收益、政府补贴、资产处置收益等非经营业务利润。参照国内外学者张新民(2014)和Ball教授(2015)对利润指标的改造策略,打造“核心利润”等概念指标。
  • 实证显示改造后的指标在IC和超额收益表现优于原始“营业利润”指标。


图表1-3展示了资产负债表和利润表的业务分类框架、营业利润改造逻辑及改造前后因子回测收益差异。

重要数据点
- 改造后的核心利润指标IC提升至最大约6.6%,多头组超额收益提升明显,相较原始指标提升约1-3个百分点。

该策略有效剔除非经营业务干扰,提高了因子信号的纯净度和稳定性[page::4,5]。

思路二:跨报表验证方式设计指标


  • 从三大表之间的指标关联性切入,如ROE/ROA计算从利润和资产口径精细化调整,区分生产性资产、有形资产、投资资产匹配利润类型;

- 关注利润、现金流、资产匹配关系,设计如经营现金流净额/归母净利润等现金匹配指标;
  • 通过精细测算衍生出大量“类ROA”指标体系,提升因子多样性和针对性。

- 实证数据(图表5)显示优异的财报单因子IC均在3%以上,多头组年化超额收益高于5%,核心利润ROA绩效突出,达到IC 5.8%,年化超额8.0%等。
  • 对资产负债表中有形资产和投入资本定义特别说明,有助准确计算分母。


通过跨报表验证,避免单一财报表或项目盲点,增强因子抗风险能力[page::6,7]。

思路三:结合市场定价因素中性化因子


  • 传统先行做市值和行业中性化未充分考虑市场估值形成的价差。

- 采用PB估值作为额外维度对因子进行中性化回归调整,公式体现了同时控制市值、一级行业和PB。
  • 该方法将盈利能力指标和市场估值结合,捕捉低估优质股的额外alpha。

- 实证(图表7)表明加入PB中性化,所有因子IC及多空超额收益均有明显提升,如ROA相关因子IC一般提升2-3个百分点,超额收益提升1-4个百分点。

体现了把市场定价因素纳入财报因子处理中性化框架的创新,对选股准确性提升明显[page::7,8]。

---

3. 相似因子的聚类优选框架



困境与方法论


  • 面对大量相似逻辑及表现的财报因子,传统遍历法计算量大且易过拟合。

- 引入无监督学习算法(K-Means、层次聚类)来完成因子之间表征相似性聚类,甄选各类代表因子。

算法细节与选择


  • K-Means:简单高效但对初始化质心敏感。

- 凝聚层次聚类(自下而上):先将因子视为单簇逐渐合并,根据距离定义(连接法、平均法、Ward法)调整合并策略,稳定性较好。
  • 图表8-10直观展示了这两类聚类算法原理,突出轮廓系数作为聚类优劣评价指标的计算与解释。


聚类数选定


  • 轮廓系数综合考虑聚类内聚度和分离度,数值越接近1聚类效果越优。

- 样本内数据(2010-2020)实证聚类数k最优为7,支持7个代表因子的划分。
  • 提议用中位数替代平均数,90%分位点替代最小距离,提高轮廓系数对异常值的稳健度,解决k突变风险。


实证结果


  • 65个IC>3%且超额收益>5%的财报单因子经聚类筛选出7个因子,涵盖ROA变形、现金与资产匹配、盈利增长、战略扩张四类,部分因子经过PB中性化处理。

- 这些因子在样本内外表现均优,相关性较低,有利于复合构建。
  • 相关系数分析(图表13)建议赋予相关系数高的因子更大权重。


该框架不仅科学解决了因子冗余问题,也有效增强了模型的泛化能力和稳定性[page::9-13]。

---

4. 财报复合因子的构建和实证


  • 采用ZScore等权及Rank等权两种复合方法,基于7个精选因子构建多因子组合。

- 测试结果显示,两种方式均明显优于单因子。
- ZScore等权组合IC 10.2%,多头组超额10.3%,多空超额13.1%
- Rank等权组合IC 12.1%,多头组超额13.4%,多空超额16.8%
  • Rank方法稍优,推测因其对异常值处理更鲁棒,更不易被极端值扰乱。

- 多头组累积超额收益及多空对冲效果(图表15、16)清晰反映出复合因子在历史上的显著超额表现。
  • 2021年下半年整体回撤提示因子拥挤风险,强调应通过更多维度因子完善组合,防范模型和因子失效风险。


复合因子方法提升了策略表现的稳定性和风险调整能力,是多因子模型实用性的重要保证[page::14]。

---

5. 附录:基于公司业务属性的报表项目重新分类


  • 以“企业战略结构”为视角,对资产负债表资产负债项目重分类,将传统“流动/非流动资产负债”分为生产资产、经营资产、投资资产,以及经营性负债(无息)与融资性负债(有息)等类别,反映企业资源战略投向。

- 多图表(图17-21)细致对比2017年前后的会计科目项目变动,保证因子构建中的会计口径一致与逻辑统一。
  • 资产类别的科学划分提高了真是经营活动财务指标的准确性和稳定性,有利于挖掘因子信号的核心动力来源。


此部分为理论和数据层面构建提供稳定基础,为量化组合管理中的因子构造提供保障[page::15-17]。

---

6. 风险提示


  • 模型失效风险,为因子拥挤带来的阶段性超额收益侵蚀需要多维度因子对冲。

- 投资过程重视策略的动态调整与风险管理[page::18]。

---

三、图表深度解读



1. 图表1:“基于企业业务类型,构建更纯粹、不易操纵的财报指标”


  • 展示资产负债表分解为“战略扩张”(生产+经营资产、投资资产)和“战略引资”(经营与金融负债,股东入资和利润积累)。

- 利润表和现金流表部分,则对应经营净利润、投资净利润等独立核算。
  • 体现了作者基于业务属性的财务数据整合思路,意在避免利润估计受非经营行为干扰,为因子构建打下坚实基础。


2. 图表2:“营业利润项目口径不够‘纯粹’”


  • 利润表结构箭头演示营业利润项包含销售商品、提供劳务等经营收益,也混入投资收益、公允价值变动等条目。

- 体现了作者指出A股营业利润指标混合属性,需调整为核心利润等更纯粹经营性收益指标的必要性。

3. 图表3:“因子分组回测较中证500年化超额收益统计”


  • 表格罗列改造前后的营业利润相关因子IC和不同分组超额收益表现。

- 重点数据是张新民核心利润因子IC达到6.6%,多头G1组超额收益4.5%以上,显著好于原始指标。
  • 说明财务因子改进对应股价预期回报有提升。


4. 图表4:“基于跨报表验证思路构建指标”


  • 以三大财报表相互验证关系展示因子构建思路的系统性。

- 收益表的利润口径与资产表对应资产口径现金流表对应现金流口径相匹配,逻辑严谨。

5. 图表5:“财报因子分组较中证500年化超额收益统计”


  • 该表是因子单维度IC和分组收益的详细统计,多个因子年化超额收益超5%,IC多在4%-7%区间,验证了提出的构建思路和指标体系有效。

- 包括多种ROA、ROIC、核心利润和现金流指标,覆盖主流行业多因子维度。

6. 图表6:“结合基本面与A股市场定价的因子中性化思想”


  • PB与ROE的二维估值坐标图,展示低估高业绩与高估低业绩不同估值状态,对于优化因子信息设置了直观认知框架。


7. 图表7:“PB-ROE框架下单因子表现进一步增强”


  • 表格指出PB中性化前后因子IC及超额收益改变,整体均提升1%-3%,说明加入估值因素有助因子信息的纯净与收益预测能力。


8. 图表8、9、10:“K-Means算法原理”和“自下而上的层次聚类”


  • 通过流程图和步骤说明两种无监督学习算法的关键原理。

- 直观展示质心计算、簇的合并过程,及如何计算轮廓系数评价聚类效果。

9. 图表11:“基于凝聚分层算法对单因子的IC序列进行聚类”


  • 折线图展示轮廓系数随着聚类K数变化趋势,明显峰值在K=7,表明7为最优聚类类别数,使因子单元划分最具判别力。


10. 图表12、13:“优选因子绩效统计”及“超额收益与IC相关系数”


  • 表格综合展示7个聚类精选因子样本内外IC及超额收益指标,均保持良好表现。

- 相关系数表明因子之间相关性不高,适合构建复合因子获得分散化收益。

11. 图表14、15、16:“复合因子分组超额收益”及累积超额净值


  • 复合因子分组图显示Rank等权组合各分组均优于ZScore,最高组G1多头超额达14%左右。

- 多头组累计净值和多空对冲净值均呈持续上升态势,且Rank等权优于ZScore,说明复合因子稳定且表现更佳。

12. 图表17-21:资产负债表项目重新分类明细对照


  • 多图细致列出2017年前后A股财报中流动/非流动资产与负债项目的具体条目及其对应的生产、经营、投资类别。

- 支持因子构建中的会计项目归类调整,提高基础数据的稳定性和科学性。

---

四、估值分析



本报告核心并非传统的公司估值,而是财务因子的构建和选股系统设计。所涉及“估值”部分主要体现在因子中性化处理阶段:
  • 通过引入PB(市净率)作为控制变量,中和因子表现与估值偏离的关系,避免估值差错对因子贡献的干扰;

- 该方法不是直接估值目标价的计算,而是一种统计层面剔除估值异质性的手段,提升基本面因子解释力。
  • 使用线性回归模型:

$f{i,t} = \beta1 \ln 市值 + \sum \betaj 行业虚拟变量 + \betak B/P + \varepsilon$
  • 通过该回归后的残差或系数分析得出中性化因子,提升因子在中证500成分股范围内的预测一致性。

- 该等级因子表现测试中,加入PB中性化后IC和超额均有明显提升,说明此“估值调整”是实证有效的因子优化手段[page::7,8]。

---

五、风险因素评估


  • 模型失效风险:报告多次提醒因子存在拥挤风险,2021年下半年因子的超额收益大幅回撤,实际策略及因子可能失效。

- 异常值影响风险:因聚类算法中轮廓系数对部分异常样本敏感,可能导致非稳健的簇数选择和因子筛选。
  • 数据口径变动风险:2017年报表口径变更对指标计算构成挑战,报告通过重新分类和对照缓解对因子稳定性的冲击。

- 风险提示简要但切中要害,建议综合多因子、多维度因子对冲进一步提升稳健性[page::0,13,14,18]。

---

六、批判性视角与细微差别


  • 报告侧重财报数据和无监督机器学习对因子池的筛选,理论扎实。

- 但受限于市场和会计数据变动(如报表口径调整)、样本时期单一性,聚类结果对样本选取敏感,实际应用需动态调整。
  • 文章承认因子拥挤和过度拥堵带来的策略短期失效风险,体现了分析的客观修正。

- 估值中性化仅引用PB,对其他可能影响估值(如成长、风险等多因子)的考虑尚可进一步拓展。
  • 因子复合虽然效果显著,但复合权重均为等权,未详述基于相关性或预测贡献的加权优化可能。

- 相关系数分析提供了一定依据,但具体建模和动态调整未展开,可能存在过简化风险。
  • 未来报告若能加深不同因子动态权重调整、非线性模型及市场环境适应性调整,将更完善。


整体而言,报告框架严谨,实证数据充足,方法创新且透明度较高,适合量化团队进一步研发,但实际应用仍需注意上述潜在局限[page::0,13,14,19]。

---

七、结论性综合



本报告系统梳理和创新构建了一套适合中国A股市场,尤其是中证500成分股范围内的财报基本面量化因子框架,主要贡献和结论如下:
  • 三大核心因子构建思想有效提升了传统财报因子的“纯粹性”、“真实性”和“市场评估适应性”:

- 基于企业业务属性重整财报项目,提炼出用于量化的“不易操纵”财务指标;
- 通过跨报表的验证思路设计指标,形成一套系统的财务效率、盈利和现金流匹配类指标体系;
- 在因子处理中引入PB估值中性化,将基本面因子与市场定价更精准结合,实证提升了因子预测力。
  • 因子优选采用数据驱动的无监督学习技术,通过凝聚分层聚类和轮廓系数选定最优聚类数量(K=7),科学有效减少因子冗余,提升模型稳定性,选出7个各类别代表因子。相关系数较低体现分散风险和组合潜力。
  • 财报复合因子以Z-score和Rank等权方式复合优选单因子,实证结果显示复合因子在IC和年化超额收益方面远超单因子,其中Rank复合的表现略优于Zscore,导致更稳健,无异常扰动。
  • 实证覆盖时间充分,模型合理,考虑了停牌、涨跌停、ST等多项实际交易限制规则,增强了策略回测的现实导向性。
  • 报告详细附录了基于企业战略资产负债结构的项目分类和2017年前后财报科目变动对比,保证数据一致性和因子的科学来源。
  • 风险提示突出模型失效风险和因子拥挤,强调需通过多维因子对冲,体现了研究的理性谨慎态度
  • 整体来看,报告 represents a robust and innovative approach to constructing and screening fundamental financial report factors for China's A-share market quant investing. The multi-dimensional improvements to traditional accounting indicators, combined with clustering and composite factor design, yield statistically significant enhancements in alpha generation and stability.


本框架为量化投资者提供了一个系统、实证支持且易于推广的财报因子构建及优选流程,兼具理论深度和实操价值。建议投资者和量化研发团队关注后续系列报告,结合其他因子和市场状态,持续优化多因子算法体系,以应对未来市场环境的变化和模型动态失效风险。

---

参考图表索引



| 图表编号 | 内容描述 | 页码 |
|----------|-------------------------------------|-------|
| 图表1 | 企业业务类型财报指标归类框架 | 4 |
| 图表2 | 营业利润项目口径不纯粹分析 | 5 |
| 图表3 | 营业利润改造前后因子分组回测超额收益 | 5 |
| 图表4 | 跨报表验证构建指标思路示意 | 6 |
| 图表5 | 财报因子单因子表现统计(IC、超额收益) | 7 |
| 图表6 | 结合PB估值的因子中性化思想图 | 8 |
| 图表7 | PB估值中性化前后因子表现对比表 | 8 |
| 图表8 | K-Means算法原理示意图 | 9 |
| 图表9 | 凝聚层次聚类原理示意 | 10 |
| 图表10 | 基于簇内中位数字段的轮廓系数示意 | 11 |
| 图表11 | 不同聚类数量K对应轮廓系数实证图 | 12 |
| 图表12 | 优选财报单因子绩效统计表 | 12 |
| 图表13 | 优选因子超额收益与IC相关系数 | 12 |
| 图表14 | 复合因子分组超额收益条形图 | 14 |
| 图表15 | 多头组累计超额净值曲线 | 14 |
| 图表16 | 多空组累计超额净值曲线 | 14 |
| 图表17-21| 资产负债表项目按企业战略重分类及科目对比 | 15-17 |

---

本次分析基于中银国际证券《基本面财报因子的构建框架初探》报告全文内容,详尽剖析了报告的结构逻辑、论据、数据与图表,提供了深度且专业的理解和解读。[page::0-19]

报告