`

“逐鹿”Alpha专题报告(十五):基于领域知识生成的基本面因子挖掘框架

创建于 更新于

摘要

本报告提出基于领域知识生成的基本面因子挖掘框架,结合遗传规划与枚举法高效挑选投资因子,通过对基本面与估值因子的基因和结构分析,批量生成有效因子并进行相关性筛选。实证显示多种基本面因子和估值因子构建的多空组合表现优异,策略具有良好的历史收益及稳定性,为量化投资提供科学因子挖掘思路与方法 [page::0][page::3][page::6][page::14][page::26].

速读内容

  • 因子挖掘算法比较 [page::2]:

| 类型 | 代表算法 | 单次因子数量 | 复杂度 | 可解释性 | 效果 | 效率 |
|--------|--------------------------|--------------|---------|----------|---------|--------|
| 深度学习 | RNN, CNN, Transformer | 10⁰-10¹ | >10阶 | 最差 | 最好 | 最快 |
| 启发式 | GP, ALPHAZERO | >10³ | <10阶 | 一般 | 较好 | 较快 |
| 枚举式 | Alpha360, OPENFE | >10⁴ | <5阶 | 最好 | 较好 | 最慢 |
- 启发式方法结合领域知识,可平衡复杂度与可解释性,实现较好的因子挖掘效果。
  • 因子挖掘框架(Expand & Reduce)[page::3]


- 采用枚举式方法扩展因子(Expand),通过启发式(遗传规划)方法进行因子筛选和剪枝(Reduce)。
- 多层层级方式构建,因子空间巨大无法全遍历。
  • 领域知识生成与应用 [page::5][page::6][page::7]



- 领域知识来自专家经验与进化算法结合。
- 通过遗传规划演化产生适应度较高种群,提取优秀个体的结构和基因特征,形成领域先验信息。
- 根据领域知识用枚举法大规模生成近似结构的因子集。
  • 遗传规划进化机制 [page::10][page::11]




- 个体由基础财务数据和算子构成树形结构。
- 进化操作包括筛选(锦标赛法)、变异(单点和子树变异)、交叉。
- 适应度以未来20日IC衡量。
- 运行参数:种群数量2500,进化轮数10,运行10次随机种子。
  • 基因与结构分析,筛选优秀因子 [page::13][page::14]



| 基因 | 解释 |
|-----------------------------|------------------------------------------|
| sqfayoynetprofit | 单季度归属母公司股东净利润同比增长率(%) |
| sqfayoyprofit | 单季度净利润同比增长率(%) |
| sqfayoyop | 单季度营业利润同比增长率(%) |
| sfayoyequity | 净资产同比增长率 |
| s
faroa2yearly | 年化总资产报酬率 |
| sfalongdebttoworkingcapital | 长期债务与营运资金比率 |
- 基本面因子结构多样且稳定,基因组合复杂但有共性。
  • 估值因子分析 [page::16][page::17]


| 基因 | 解释 |
|---------------------------------|----------------------------------------------|
| cashpaydistdpcpintexp | 分配股利利润或偿付利息支付的现金 |
| net
cashflowsoperact | 经营活动产生的现金流量净额 |
| cash
paybehempl | 支付给职工及为职工支付的现金 |
| netprofitexclminintinc | 净利润(不含少数股东损益) |
| net
profitinclminintinc | 净利润(含少数股东损益) |
- 等效结构多样,估值因子构建丰富。
  • 因子生成与筛选流程 [page::18]


- 遍历基因和结构组合,深度不超过3,约45万因子。
- 计算IC进行筛选,剔除相关性过高的因子,保留效力较好因子。
  • 主要基本面因子多空组合回测表现 [page::20][page::21][page::22][page::23][page::24][page::25]

- 多个基本面因子组合净值稳步上涨。






- 收益率均在正区间,非持仓(S)组合表现波动较大。
- 因子多由净利润增长率、营业利润同比增长率、净资产同比增长率、财务费用等基因组合构成。
  • 估值因子多空组合表现 [page::26][page::27]



- 估值因子基于现金流、利润、股本及分红等指标构建,表现稳健。
- 部分估值因子结构与经典OPENFE方法结构类似。
  • 总结及未来展望 [page::28]

- 领域知识结合启发式遗传规划,配合枚举法实现高效因子挖掘。
- 未来计划增强因子多样性,应用图嵌入等技术实现更优因子结构。
  • 风险提示 [page::29]

- 历史数据和模型结果不代表未来表现,存在模型过拟合、风格切换风险。
- 模型随机性和参数设定影响结果,需谨慎应用。

深度阅读

证券研究报告分析:“逐鹿”Alpha专题报告(十五):基于领域知识生成的基本面因子挖掘框架



---

一、元数据与概览(引言与报告概览)


  • 报告标题:“逐鹿”Alpha专题报告(十五):基于领域知识生成的基本面因子挖掘框架

- 分析师:丁鲁明,王超
  • 发布机构:中信建投证券股份有限公司(含国际部分)

- 发布日期:2023年7月23日
  • 报告主题:从量化金融角度,围绕基本面因子的挖掘,构建一套基于领域知识融合遗传规划与枚举方法的因子生成和筛选框架,挖掘有效的基本面和估值因子,展示结果及性能分析。

- 核心论点:传统生成因子方法效率与搜索空间的限制促使采用领域知识指导的启发式遗传规划,结合枚举法进行因子空间有效剪枝与搜索,提升因子挖掘效率和质量。报告通过系统化框架结合大量历史财务数据,挖掘高效且具解释性的基本面因子。
  • 目的:展示所提框架的构建方式、因子生成与筛选流程,分析主要因子结构及基因组成,并通过历史回测验证因子表现,促进量化投资策略的应用发展。


报告未给出投资评级或目标价,重点为方法论和因子发现,其主要价值在于投资策略研发层面,通过深入理解因子构成提升Alpha生成能力[page::0,1,28]。

---

二、逐节深度解读



2.1 因子挖掘框架与方法论


  • 框架介绍

- 报告提出“Expand & Reduce (E&R)”框架:
- Expand阶段通过枚举式和启发式算法(如演化森林、OPENFE)大量生成因子(因子构造包括基因与结构),覆盖复杂的多阶因子空间(深度可超过10阶);
- Reduce阶段采用线性与非线性模型优化(如遗传规划筛选、线性回归剪枝),剔除冗余与效果差因子,实现空间降维。
- 枚举法覆盖广但计算量大且结构限制,启发式方法虽局限搜索空间但效率高,融合两者以弥补缺陷。此框架平衡了效率和效果[page::2,3,4,7]。
  • 领域知识引入

- 因子挖掘纳入金融领域专家的先验知识来限定和指导因子基因(具体财务指标)和结构(公式形式),避免无效结构浪费资源。
- 以“好瓜判定”为比喻,表达通过系统测试不同因子(“瓜”)组合,提炼共有的有效特征。这种归纳总结有效因子的共性是因子挖掘关键,提高挖掘效率和成功率。
- 图示揭示领域知识生成过程,两边分别是“判断好瓜”和“判断因子”,强调相互验证和演进[page::5,6].

2.2 算法细节:遗传规划与基因/结构分析


  • 个体与种群设计

- 基础数据与算子组成树型结构个体,算子仅包含加、减、除(protectedDiv 即保护除法,避免除以零),保证量纲一致性,生成无量纲因子。
- 种群初始为随机生成,演化中通过锦标赛法筛选,个体间的交叉变异(图4、图5示例)保证多样性并探索空间。
- 运行设置为2500个种群个体,10代演化,10次实验使用不同随机种子,生成因子约40万个,记录IC(信息系数,衡量因子未来20日表现)用于适应度评估。
- 搜索过程中剪枝算法严格,剔除低效基因和结构(如A/A=1、A-0=A等简化),保持结构高度不超过4层,提高可解释性和稳定性[page::10,11,12,13].
  • 因子组成统计与基因解释

- 优秀个体种群中,频繁出现的基因和结构被统计用作领域知识,如某财务指标的同比增长率、净资产回报率、长期负债率等关键变量。
- 基因由多种基本面财务指标组成如净利润同比增长率(sqfayoynetprofit)、总资产净利润(sqfaroa)、长期债务营运资金比等;估值因子基因包含盈余公积、净利润(含少数股东损益)、支付给职工的现金等;均代表财务健康与盈利能力。
- 因子结构多为加减组合,表3/表6展示九种主要基因结构模板,包括对部分指标的加权组合和减法差异,强调对财务指标间关系的挖掘[page::13,14,15,16,17].

2.3 因子生成与筛选


  • SEMI-自动化枚举生成基于提炼的高效基因和结构,限制深度不超过3,生成约45万个因子,计算周期20日IC指标,经筛选剔除相关性过高的候选,保留高IC且低相关性因子集合,为后续验证和实盘策略提供基础[page::18].


2.4 因子实证分析(回测表现与收益)



报告重点展示了六个基本面因子和两个估值因子的多空净值(净收益)曲线及年度收益率对比,细节如下:
  • 多空净值曲线图(图11-图16,图17-图18)

- 纵坐标为净值,横坐标时间跨度约为2010年至2020年,曲线分为多头(蓝色)、空头(红色)、多空收益(绿色)。多头曲线多呈现稳健增长,空头防守表现不佳,且多空收益曲线体现出alpha能力(持续上升则说明因子有效)。
- 基本面因子多空净值均表现较好,尤其部分因子在2014-2015年股市大波动时出现峰值,验证了因子在周期波动中的稳定性和识别能力。
- 估值因子同样有效,且与传统估值结构类似,验证机制合理性[page::20-27].
  • 收益率表

- 各因子均表现出不同程度的正收益,多空收益多数为正,表明因子具备一定的超额收益能力。
- 多头(LS)年化收益区间大多在10%-30%,少数年份出现回撤,空头收益负向,符合预期。
- 因子解释说明从定量财务指标入手,涵盖净利润增长、资产回报率、长期负债、财务费用和现金流相关指标,体现财务质量和盈利能力判断[page::20-27].

2.5 总结与风险提示


  • 总结

- 利用遗传规划快速生成领域知识并结合枚举法批量产生有效因子,随后筛选出相关性低且表现较好的因子。
- 计划未来引入更加丰富的因子结构搜索算法和机器学习嵌入方法(Graph Embedding)以提升物种多样性和因子质量[page::28].
  • 风险提示

- 历史数据并不保证未来有效,因子可能因市场风格切换失效。
- 模型随机性、参数选择、样本区间敏感,计算资源限制导致欠拟合风险。
- 报告非投资建议,投资者需自行判断和风险承担[page::29].

---

三、图表深度解读



3.1 表1 因子挖掘算法对比(页2)



| 算法类别 | 代表算法 | 单次生成因子数量 | 因子复杂度 | 可解释性 | 样本内效果 | 算子要求 | 效率 |
|----------|--------------------|------------------|------------|----------|------------|----------------|--------|
| 深度学习 | RNN, CNN, Transformer | 1e1-1e2 | >10阶 | 最差 | 最好 | 严格(可导) | 最快 |
| 启发式 | GP, AlphaZero | >1e3 | <10阶 | 一般 | 较好 | 无 | 较快 |
| 枚举式 | Alpha360, OPENFE | >1e4 | <5阶 | 最好 | 较好 | 无 | 最慢 |

该表对比了三类因子挖掘方法,启发式方法兼顾了效率和质量,重要的是结合领域知识,报告方法属于启发式与枚举的结合,实现了效率和效果的平衡[page::2].

3.2 图1 因子挖掘框架(页3)



示意展示框架两个核心步骤:Expand(生成)和Reduce(筛选),生成的因子由枚举式和启发式两类生成方法产生,而筛选则包含线性与非线性两种方式,充分利用算法与统计检验保证因子质量。这一体系有助于从庞大因子空间中提炼优质因子[page::3].

3.3 遗传规划相关图示(页10-12)


  • 图3 说明因子基因与结构构成的树形模型示范,展示算子和基础财务指标结合,形成复杂表达式的概念。

- 图4 和图5 展示了遗传规划中的交叉变异与单点/子树变异示例,说明个体间基因片段如何重组以形成新的因子,有助于种群多样性和搜索效率。
  • 图6 展示遗传规划的整体流程,包括初始化、适应度评估、期望与停止条件判定、迭代进化等,保证工程化可执行性[page::10-12].


3.4 因子结构与基因频率示意(页13-16)


  • 图7和图8分别展示优秀因子基因组成和等效结构,因子常见结构为两层加减乘除的算子树,基因是具体财务指标如净利润同比、总资产回报率等。

- 表3和表6列示关键基因及对应的财务指标名称及解释,如“单季度净利润同比增长率”、“年化总资产报酬率”、“财务费用/营业总收入”等,风险与成长指标兼具,提供因子在财务分析中的深刻金融含义[page::13-17].

3.5 因子多空净值与收益表现(页20-27)


  • 图11至图18各因子多空净值曲线显示,蓝线多头呈持续上升趋势,绿线多空收益曲线稳定高于1,表明因子整体具有较强的预测能力和收益稳定性。

- 与图对应的表7-14 量化展示了因子在不同年份的多空、空头和多头收益率,均显示因子可带来显著正收益,且空头亏损明显,进一步验证因子的alpha生成能力。
  • 这些图表充分佐证了报告第一部分提出的基于领域知识的因子挖掘框架的有效性和实际应用价值[page::20-27].


---

四、估值分析


  • 报告中因子挖掘主要基于遗传规划和枚举生成因子,未提供传统意义上针对公司估值(比如DCF或市盈率多重法)详细估值。

- 估值因子选取了以财务指标和市值为分母的比率因子,经过算法挖掘产生有效的市值相关因子 (如分配股利现金与净利润的比值等),通过历史IC和多空表现验证有效性,辅助量化投资决策。
  • 算法层面通过IC(信息系数)评价因子未来表现,作为估值因子遴选的核心标准。

- 因子相关性去重确保估值因子集具备互补性,提升综合投资组合表现[page::16,26-27,28].

---

五、风险因素评估



报告明确列出多方面风险:
  • 历史数据的局限性,风格转变或宏观经济变化可能使因子失效。

- 模型随机性与参数敏感性:遗传规划的随机种子和模型参数不同会带来结果波动。
  • 样本区间选择风险:训练范围(2010-2019年)对因子表现有影响。

- 计算资源限制可能导致对因子空间未充分探索,存在欠拟合风险。
  • 统计误差与未来有效性不保证,提醒投资者对模型结果持谨慎态度,不构成投资建议。


整体风险提示详尽明确,反映量化模型本身固有的不确定性,以及量化投资策略的局限性[page::29].

---

六、批判性视角与细微差别


  • 潜在偏见与不足

- 虽然采用领域知识指导,因子体系仍高度依赖历史数据及遗传规划搜索,可能错过未出现的潜在有效因子。
- 遗传规划限制树深和算子可能限制了因子复杂度,部分金融现象可能难以模型捕捉。
- 随机性和参数敏感性或导致结果不稳定,单次执行可能有较大差异,长期稳定性需进一步验证。
- 缺乏对行业、风格轮动等外部市场因素的系统考量,可能影响因子跨周期的鲁棒性。
- 报告中未提供因子组合的实证检验与策略表现(如夏普率、回撤控制),评估仍局限于IC和多空收益层面。
  • 分析细节

- 因子基因相关的财务指标解释详实,但部分基因逻辑组合的经济学解释尚可加强,有助于促进理解和实际运用。
- 报告未深入说明因子组合去相关性具体算法细节,后续可披露以支持结果真实性。
  • 整体结构清晰流程性强,图表丰富,易于验证主题思想,体现严谨的研究态度。


---

七、结论性综合



中信建投证券丁鲁明、王超发布的这份“逐鹿”Alpha专题报告(十五)系统展示了一套融合领域知识、启发式遗传规划与枚举法的基本面因子挖掘框架。通过对庞大因子空间的智能生成与有效筛选,结合大量历史财务数据(2010-2019年),成功挖掘出多个基于财务指标的优质因子,并通过IC评估及多空收益率回测验证了因子良好的稳定性与预期表现。

报告中的关键贡献包括:
  • 创新的因子挖掘框架:“Expand & Reduce”实现高效搜索和空间压缩,兼顾大规模因子生成与因子解释性。

- 领域知识的引入有效指导因子基因与结构定义,提升生成因子质量并避免无效探索。
  • 严格的遗传规划设计确保无量纲性和财务合理性,采用变异、交叉、筛选机制保证进化质量。

- 丰富的因子实证分析显示财务指标同比增长率、资产收益率、长短债务结构等基因在多空收益表现上均有较好表现,增强了投资者对量化因子的信心。
  • 风险提示完整,确保投资者知悉模型局限和使用风险


图表中,因子多空净值曲线直观体现其Alpha能力,收益率表展示各年度因子的稳健表现,基因表深入揭示构成因子的财务逻辑。

总体来看,该报告理论结合实证,强化了基于领域知识的因子自动化挖掘,推动量化选股策略的深化和应用。报告结构严谨,数据完整,图表辅助说明充分,是量化研究领域的高质量参考文本。

---

主要引用



[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,20,21,22,23,24,25,26,27,28,29]

---

报告中关键图表示例:



图1 因子挖掘框架示意图(页3)





图4 遗传规划交叉变异示意(页11)





图11 基本面因子一多空净值趋势(页20)





图17 估值因子一多空净值趋势(页26)



报告