`

“逐鹿”Alpha专题报告(十五):基于领域知识生成的基本面因子挖掘框架

创建于 更新于

摘要

本报告提出基于领域知识结合遗传规划和枚举法的基本面因子挖掘框架,通过进化算法快速生成因子领域知识,批量构造并筛选有效基本面和估值因子。利用2010-2019年样本数据,针对沪深市场因子IC及相关性进行检验,获得多组表现优异的多空因子组合,展现良好的收益特征和风险控制能力,为股票量化因子挖掘提供系统思路与实践路径 [page::0][page::2][page::3][page::6][page::20].

速读内容


因子挖掘框架介绍 [page::0][page::3][page::6]

  • 因子挖掘采用“Expand & Reduce”思路:先通过启发式算法(遗传规划)扩展因子空间,再用枚举法结合领域知识批量生成并筛选因子。

- 领域知识指专家对因子基因和结构的理解,用于指导因子构造。
  • 采用遗传规划作种群进化,实现个体变异与交叉,提升因子适应度以IC(未来20日相关性)衡量。

- 因子复杂度控制及剪枝,保证生成因子结构合理,减少过拟合风险。

数据样本和因子构成 [page::9][page::10]

  • 主要数据来源:Wind及中信建投整理的财务指标,共150+基本面因子,分量纲元指标与无量纲比率指标。

- 算子仅使用加减和保护性除法,确保因子量纲统一和无量纲表达。
  • 初代种群体量为2500,进化10代,遍历约40万个因子结构。

- 因子训练与检验区间为2010-2019年,IC计算周期20日。

优秀因子结构与基因特征分析 [page::13][page::14][page::16]

  • 优秀因子一般高度不超过4,结构等效于4种基本形式(加减乘除组合)。

- 高频出现基因包括归属母公司净利润同比增长率、盈余公积金、营业利润同比增长率、销售费用比等关键财务指标。
  • 基本面与估值因子分别形成稳定的基因集合,结构相似,体现财务逻辑一致性。


量化因子回测表现(多空组合净值与收益) [page::20-27]

  • 提炼了6组基本面因子多空组合和2组估值因子多空组合,展示近年来净值增长曲线,普遍呈现稳步上升趋势,显著跑赢基准。

基本面因子一多空净值
| 时间 | 多空组合(LS) | 空头(S) | 多头(L) |
|------------|---------------|--------------|--------------|
| 2011/12/31 | 15.37% | -34.11% | -23.94% |
| 2012/12/31 | 18.08% | -1.57% | 16.27% |
| 2013/12/31 | 5.72% | 6.69% | 12.82% |
| 2014/12/31 | -1.07% | 51.3% | 49.7% |
| 2015/12/31 | 13.15% | 25.13% | 41.86% |
| 2016/12/31 | 2.26% | 9.19% | 11.66% |
| 2017/12/31 | 28.22% | -27.73% | -7.29% |
| 2018/12/31 | 11.99% | -40.39% | -33.16% |
| 2019/12/31 | 18.33% | 3.01% | 22.03% |
| 2020/12/31 | 14.08% | -10.73% | 1.88% |
  • 组合中,净利润同比增长率、营业利润同比增长率、销售费用占比、财务费用占比等指标反复出现,确认其因子有效性。

- 估值因子以现金流、净利润及市值比率构建,同样表现稳定,衰竭风险较小。

结论与风险提示 [page::28][page::29]

  • 基于遗传规划结合领域知识的因子挖掘框架能有效发现具有预测能力的基本面因子。

- 报告强调模型统计特性,提示未来可能存在风格切换风险,且模型结果存在一定随机性和统计误差,不构成投资建议。

深度阅读

证券研究报告分析报告



1. 元数据与概览



报告标题: “逐鹿”Alpha专题报告(十五):基于领域知识生成的基本面因子挖掘框架
作者: 丁鲁明、王超
发布机构: 中信建投证券股份有限公司
发布日期: 2023年7月23日
研究主题: 围绕金融工程领域中基于领域知识的基本面因子挖掘框架的构建及其应用,针对基本面和估值因子进行自动生成、筛选和验证。

核心论点:
  • 在量化选股中,如何结合领域专家知识与机器学习技术,构建有效的基本面因子挖掘框架。

- 通过遗传规划(GP)等启发式算法生成初始个体种群,利用基因以及结构的领域知识进行剪枝和优化,结合枚举法批量生成大量候选因子。
  • 使用统计学手段评估因子的有效性(信息系数IC),并剔除相关性过高的因子,最终保留对投资有用的独立因子。

- 报告强调领域知识在因子构建及筛选中的重要性,提高了因子的解释性和稳定性。
  • 展示了若干精选因子的结构、表现以及长期投资收益验证。


本报告系统阐述了一个整合领域知识与机器学习技术的方法论,提供了从因子生成、进化、筛选到验证的完整流程,展示了强实证支持的因子框架和实际的投资回报数据。分析师团队具备丰富量化与金融数学背景,报告面向量化投资研究人员和金融工程师。[page::0,1]

---

2. 逐节深度解读



2.1 框架介绍



报告明确采用“Expand & Reduce”(扩展与缩减)因子挖掘框架,简述了因子生成和筛选的逻辑(见图1)。
  • Expand阶段:利用枚举式与启发式方法生成因子集合,分别采用OPENFE和进化森林方法。

- Reduce阶段:通过线性和非线性模型对因子进行筛选和压缩。
  • 估算因子空间巨大(约10^{20}),全因子遍历不可行,因而激励使用启发式和领域知识引导搜索。

- 详细比较了三类算法(深度学习、启发式、枚举式)在因子数量单次生成能力、解释性、效率等方面的优缺点,启发式在解释性和效果中间权衡较好。[page::2,3,4]

2.2 领域知识与领域知识生成


  • 报告强调领域知识(专家经验)如财务报表解读等对构造优秀因子的基因(指标)和结构至关重要。

- 结合进化算法思想,将因子视为由基因和结构组成的个体,优秀因子来源于优质基因与结构组合,专家知识用于指导构造。
  • 通过类比“瓜农挑瓜”的专家方法,揭示将领域知识嵌入算法进行因子搜索的策略:先通过启发式方法进化产生适应度高的部分因子集合,再总结这些因子的共性,利用领域知识进行批量枚举生成,最终筛选。[page::5,6,7]


2.3 数据来源与基础技术细节


  • 因子样本主要基于WIND与ASHAREFINANCIALINDICATOR提供的150余种财务因子(财务指标与比率),训练区间为2010年-2019年,采样频率为10日,IC计算周期20日。

- 使用遗传规划算法构造个体(因子)。个体由基础数据和运算算子组成的树状结构,运算符包括+、-、protected divide(除法),保证无量纲输出。
  • 进化机制包括锦标赛筛选、个体变异与交叉变异。运行参数为总个体数2500,进化10代,重复10次不同随机种子。

- 共产生约40万个因子,记录结构及未来20日IC。[page::9,10,11,12]

2.4 因子筛选与领域知识提炼


  • 选取适应度(IC)较高的个体,剪枝树形结构去除冗余基因,保留高度不超过4的紧凑树状结构。

- 对高适应度个体中基因频率和结构进行统计分析,总结领域知识,形成因子构成的先验规则。
  • 可视化展示了典型因子树状结构和基因结构,体现了因子生成的随机性和规则性结合。

- 注意剪枝规则如A/A=1、A-0=A等,简化结构以提升泛化能力。
  • 对基本面因子的基因分别进行了逐一解释,如净利润同比增长率、营业利润同比增长率、长期债务比例等,重点体现了盈利能力、成长性和财务风险相关变量。[page::13,14,15]


2.5 估值因子分析


  • 类似方法应用到估值因子,因子基因涉及净利润、现金流、股利派发、盈余公积、应付职工薪酬等关键财务指标。

- 估值因子的构造多元化但结构紧凑,提供了基于现金流及盈利质量的估值信号。
  • 图示因子结构与基因对应表清晰呈现了主要构造范式。[page::16,17]


2.6 因子生成与相关性筛选


  • 构建基因和结构后,采用枚举法遍历所有深度不超过3的可能因子组合,约45万个候选因子。

- 对所有因子逐一计算IC得分,选出IC表现较好的候选因子。
  • 进一步计算因子间两两相关性,去除高度相关但IC较低的因子,确保因子池多样性和独立性。

- 过程中的因子结构以树形图例展示,凸显了基本的加减法结构为主。[page::18]

2.7 因子表现及收益回测


  • 选中基础面表现优异的5-6个因子,展示其多空净值曲线、收益表现(LS、S、L分别为多空仓位收益、空仓收益和多仓收益)。

- 多数因子表现为多仓收益显著,空仓收益表现负面,整体多空净值长期呈现显著正收益,表明因子具有长期选股能力。
  • 具体因子涵盖净利润同比增长率、营业利润同比增长率、净资产同比、财务费用比率、销售费用比率、长期债务比例等多维度综合财务指标。

- 估值因子部分表现更为突出,多空净值累积增长较快,最高达到8倍,表明估值类因子在选股中贡献明显。
  • 表格数据详细列出2011-2020年每年的收益率,体现因子收益波动性和持续性。从图示可观察到因子在2014-2015年市场波动中表现分化。[page::20-27]


2.8 风险提示与展望


  • 明确指出模型基于历史数据,存在未来风格切换导致因子失效的风险。

- 随机性影响模型运行结果,单次结果可能有偏差,且参数、样本区间选择影响显著。
  • 计算资源不足可能造成欠拟合,所有模型结果带有统计误差,不保证未来有效性。

- 展望强调未来提升物种多样性和因子结构的复杂度,引入图嵌入(Graph Embedding)等更先进技术。[page::28,29]

---

3. 图表深度解读


  • 表1(页2)因子挖掘算法比较表

三种方法(深度学习、启发式、枚举法)比较了因子生成速度、复杂度、可解释性和效果。启发式算法位于中间,在可解释性和效率上均有优势,作为本文主推方法合适。
  • 图1(页3)因子挖掘框架示意图

直观展示Expand阶段枚举式和启发式算法生成因子,Reduce阶段通过线性和非线性方法筛选因子,体现算法组合创新。
  • 表和图(页9,10,11)财务因子列表及遗传规划个体结构

提供详细指标列表和因子构造的树状表达形式。遗传规划算子包括加减除,确保生成因子维度规整,便于后续统计分析。
  • 图4与图5(页11)交叉与变异操作示意图

演示遗传规划中个体交叉与变异的具体执行方法,体现算法内部多样性维持及搜索能力。
  • 图6(页12)进化流程图

显示遗传规划的迭代进化流程,包括初始化、适应度评估、迭代交叉变异直至停止,保证解空间高效遍历。
  • 图7(页13)基因结构示意

展示剪枝后个体的基因和结构视图,给出复杂度控制措施,便于理解因子内部逻辑。
  • 图8与9(页14,16)因子结构示意图

几何形态的树结构图象征因子内部运算关系,多见简单加减组合,符合财务指标解释需求。
  • 图10(页18)因子生成示意

通过加法节点组合基本因子,体现数学表达式的结构化生成。
  • 图11至27(页20-27)因子多空净值曲线及收益表

图表有蓝(多空净值)、红(空仓)、绿(多仓)三条线,形态显示多空策略收益表现和波动,整体趋势向上,验证因子长期有效性。
年度收益数据详尽,还原因子策略在不同时期的表现,方便对比和历史情况分析。[page::2,3,9-18,20-27]

---

4. 估值分析



本报告主要聚焦因子挖掘与筛选,未涉及传统估值模型(如DCF)细节,但对估值因子构造进行了细致阐述:
  • 采用多因子模型,估值因子主要基于净利润、现金流、股本、盈余公积、应付职工薪酬等财务指标,通过遗传规划自动组合形成表达式。

- 关键输入包括净利润(含与不含少数股东损益)、经营现金流、盈余公积等,财务指标对分母市值进行无量纲标准化。
  • 设计的估值因子结构简洁明了,利于解释,有效性通过信息系数(IC)及历史收益体现。

- 报告没有体现传统估值方法参数设定,更多强调量化财务因子的创新自动挖掘和验证。[page::16,17,26,27]

---

5. 风险因素评估



报告明确列出如下风险:
  • 因子失效风险: 市场风格变化可能导致基于历史数据建模的因子失效,风险系数不可忽视。

- 模型随机性: 遗传规划带有随机初始化,单次运行结果可能受随机数影响,存在波动和不确定性。
  • 参数与样本区间风险: 不同参数设定和样本时间长度对因子表现有显著影响。

- 计算资源风险: 资源不足有可能导致模型欠拟合,影响因子质量。
  • 统计误差风险: 研究结果基于统计模型,存在一定程度的误差,不保证未来表现。

- 报告未提具体缓解措施,但展示多次重复运行及剪枝,保证一定稳健性。[page::29]

---

6. 审慎视角与细微差别


  • 报告方法论科学,利用领域专家知识增加因子可解释性和有效性,兼具创新性和实用性。

- 但遗传规划本质随机,参数敏感,单次结果具有偶然性,需多次稳定性验证。
  • 因子筛选考虑IC及相关性,但未详述对宏观经济及行业变化的适应,未来可增强因子动态调整能力。

- 报告中因子收益表现表明波动明显,如2014-2015年期间空头收益极端波动,可能因行业分布不均或市场极端行情。
  • 领域知识生成部分虽有启发式结合专家验证,但部分过程较抽象,具体效率与稳定性依赖领域知识质量。

- 未展示与其他因子库的横向比较,无法从报告内部判断本方法优劣度与行业领先性。[page::4,28]

---

7. 结论性综合



本报告全面系统地展示了基于领域知识生成的基本面因子挖掘框架,方法创新地结合遗传规划启发式算法与专家经验、差异化剪枝和枚举法批量生成因子,显著提升了因子挖掘的效率及有效性。

报告通过对大量财务数据的深度处理和因子结构分析,提炼出多个稳定且有解释力强的基本面及估值因子,历史回测表现出较好的多空收益能力,验证了方法论的实用性。

图表数据呈现出因子多空净值长期持续增长的趋势,访谈不同因子在市场多轮震荡中的表现差异,证明筛选因子具备较强的抗风险和适应能力。

报告同时讲明了因子生成及验证环节存在的主要风险,如模型随机性和风格切换风险,并提出进一步提升方向,体现了较为完善的风险意识和研发愿景。

整体而言,报告确立了领域知识与自动算法融合的因子挖掘范式,为量化投资中的基本面多因子模型建设提供了坚实的技术和实证基础。报告的主要贡献在于指明了一条结合传统财务理解与现代机器学习技术的因子构造路径,适合金融工程与量化研究人员深入参考和应用。[page::28]

---

溯源注记: 本分析基于报告全文内容编写,引用页码明确指向原始数据和论述来源,确保可追溯性。[page::0-31]

---

附录:重要图表链接示例


  • 因子挖掘框架示意图(图1)


  • 领域知识生成示意图(图6)


  • 进化流程图(图6)


  • 多空净值示例图(图11)



(此处仅列示部分重要示意图,详见报告中各章节内容及图表分析部分)

报告