`

逐鹿 Alpha 专题报告(十五):基于领域知识生成的基本面因子挖掘框架

创建于 更新于

摘要

本报告提出了一种基于遗传规划启发式算法结合枚举法的基本面因子挖掘框架,通过生成高效稳定的无量纲因子并对其结构与基因进行剪枝和分析,筛选出效果优异且相关性低的基本面及估值因子。基于行业先验领域知识构建因子结构与基因组,再利用遗传规划快速搜索,显著提升因子搜寻效率与多样性,最终通过因子IC及相关性验证成果稳健,具备较好实用价值[page::0][page::2][page::3][page::5][page::7][page::9][page::10]。

速读内容

  • 因子挖掘方法及比较[page::1]:

- 传统枚举法因子复杂度低、可解释性好但效率最慢;
- 启发式算法(如遗传规划)效率较快,可生成中等复杂度因子,效果较好;
- 深度学习方法效率最高但因子复杂且可解释性最差。
  • 因子挖掘框架设计[page::2][page::3]:

- 采用“Expand & Reduce”框架,结合领域知识启发,先利用遗传规划生成因子种群(个体),再剪枝简化成高效结构;
- 每个因子个体由基因与结构组成,基因包括基本财务指标与成熟因子,结构则以树状表达式体现;
- 通过分析高适应度个体的基因频率和结构模式,确定有效基因组和结构,随后结合枚举方法批量生成新的因子。

  • 遗传规划详细机制[page::4][page::5]:

- 个体由财务指标和算子构成的树结构,算子包括加、减、保护型除法,保证输出无量纲;
- 种群规模约2500个个体,进化10代,重复运行10次以增加随机种子多样性;
- 适应度以未来20日IC值评价,筛选高IC个体进行剪枝,剔除冗余结构,保留结构高度不超过4的个体;
- 进化过程包括锦标赛选择、交叉变异及单个节点变异。
  • 优秀个体基因与结构分析[page::5][page::6]:

- 基本面因子聚焦利润增长(如净利润同比增长率)、盈利质量(ROA、ROE、销售费用比),共5种等效结构,15个高频基因组;
- 估值因子侧重现金流及利润相关指标,如分红现金流、经营现金流加总利润,4种结构,15组基因,PE指标突出;

  • 因子生成与筛选[page::7]:

- 基于有效基因与结构,枚举所有可能的深度不超过3的因子(约45万),计算因子20日IC,筛选高IC并剔除高相关因子组合;
- 多个基本面因子及估值因子的多空净值表现稳健,显著优于对照组,且收益率数据良好。

  • 量化因子示例(基本面第一因子)[page::7][page::8]:

- 因子表达式包括净利润同比增长率、净资产同比增长率、营业利润同比增长率、销售费用比的复合组合;
- 该因子在2010-2020年期间展现持续的多空净值增长,年化收益率稳定正增长。
  • 量化策略效果总结[page::9][page::10]:

- 多个基本面及估值因子对应的多空策略均表现出较好收益表现,尤其是在牛市阶段;
- 估值因子引入现金流量及利润分配相关指标,增强了因子在不同市场环境下的适用性;
- 历史回测存在随机性及区间局限,模型参数和计算资源影响模型有效性,风险因素需重点关注。
  • 报告结论与风险提示[page::10]:

- 结合遗传规划与领域知识枚举,能够高效发掘高质量基本面和估值因子;
- 因子结构多样、解释性较强,效果稳定,可为智能选股及量化策略提供有力支持;
- 注意模型的历史数据依赖、随机性以及计算资源风险,不构成具体投资建议。

深度阅读

深度专题125:逐鹿 Alpha 专题报告——基于领域知识生成的基本面因子挖掘框架详尽分析



---

1. 元数据与报告概览



报告标题:《逐鹿 Alpha 专题报告(十五)——基于领域知识生成的基本面因子挖掘框架》
作者及分析师:丁鲁明(执业证书编号:S1440515020001),王超(执业证书编号:S1440522120002)
发布机构:中信建投证券股份有限公司
发布日期:2023年7月23日
研究主题:通过结合领域知识与算法技术,构建和挖掘稳定有效的基本面因子,提升因子挖掘框架的效率与性能。具体涉及遗传规划算法、枚举法与因子剪枝技术,用于探寻A股市场的基本面和估值因子。

报告核心论点及信息传递
  • 传统因子挖掘方法在因子空间庞大时难以高效找到最优因子。

- 利用遗传规划(Genetic Programming,GP)启发式算法生成领域知识,通过枚举法批量生成潜在有效因子,并经过严格检验,能够有效筛选出高质量因子。
  • 领域知识的提炼聚焦在因子基因(基于财务指标)及结构共性,尤其涵盖利润增长、盈利质量(如ROA、ROE、销售费用/营业收入)与其复合结构,以及估值因子中的PE类调整。

- 最终因子经过相关性分析剔除冗余,确保筛选出的因子既效果显著又互补性强。
  • 报告同时披露因子挖掘算法的分类比较,以及各种算法(深度学习、启发式、枚举式)在不同维度的优势与不足。


总体上,报告呈现了一个创新性且融合专家经验与现代算法的因子筛选框架,以提升量化选股模型的基本面因子质效。[page::0,1]

---

2. 逐章节深度解读



2.1 报告引言与核心结论(页0)


  • 重点强调因子空间极其庞大,传统方法难以全搜索。

- 采用遗传规划算法模拟进化过程,视因子为“个体”,通过交叉、变异产生新因子,持续优化提升因子适应度(使用20日IC作为适应度标准)。
  • 培训集时间跨度长达十年(2010-2019年),每10天采样一次,保证因子稳定性与泛化能力。

- 对优秀因子进行剪枝,剔除冗余部分,分析“基因”和结构共性,发现五种基本面因子结构、十五个基因组合,其中盈利相关基因占比高。
  • 基于这些领域知识,结合枚举法生成所有可能因子,进行效果与相关性检验,筛选优异因子。此步骤显著提升了因子挖掘的效率和质量。[page::0]


2.2 因子挖掘框架与算法分类(页1)


  • 因子挖掘算法分为三大类:深度学习(RNN、CNN、Transformer)、启发式(GP、AlphaZero)、枚举式(Alpha360、OPENFE)。

- 对比各算法关键特点,包括单次生成因子数量、因子复杂度、可解释性、样本内效果、算子要求、效率。
  • 深度学习因子复杂度最高、效果最好但解释性差且对算子要求高。

- 启发式算法效果较好、可解释性一般、效率中等,无算子限制。
  • 枚举法效率最低,但因子可解释性最佳,因子复杂度较低。

- 报告结合启发式与枚举法优点,提出一种“扩展-缩减”(Expand & Reduce)框架,借助领域知识指导因子结构生成,提高枚举效率。[page::1,2]

2.3 因子挖掘框架的设计思想(页2-3)


  • 因子空间庞大,纯枚举不可行,启发式算法随机性强且易过拟合,仅能搜索局部子空间。

- 领域知识作为先验,类似“选好瓜”的经验,提供判别标准和共性色彩,指导因子构建和筛选。
  • 结合遗传规划与枚举法:遗传规划模拟进化生成高适应度因子种群(专家扮演类似启发式算法角色),提炼种群中优秀因子基因与结构,即领域知识;随后以领域知识为基础,进而枚举大量潜在因子并挑选有效因子。

- 该策略通过“专家知识+高效枚举”结合,兼顾了效率和因子质量。
  • 图示解释领域知识生成过程:专家从实际中总结有效因子特征,启发式算法模拟“生产”,两者互通促进。[page::2,3]


2.4 遗传规划算法的具体实现(页4-5)


  • 数据源:基础财务报表和150+常用基本面财务指标,样本时间2010-2019,每10日采样,20日IC为适应度指标。

- 个体与种群构造
- 个体建模为树结构,节点为算子(add, subtract, protecteddiv)或财务指标(终端)。
- 算子需满足量纲一致性规则,确保输出无量纲。
- 初代种群随机生成,种群规模2500,进化轮数10,运行10次(不同随机种子)。
  • 进化操作:变异(单点变异、子树变异)、交叉,每代通过锦标赛法筛选高适应度个体。

- 实践:训练过程中产生约40万因子,记录其结构和IC。
  • 剪枝与共性提取:对所有高适应度因子(基本面IC≥0.04;估值IC≥0.05)进行递归剪枝,剔除冗余基因,保证结构高度≤4,统计基因片段和结构频率。

- 图形辅助说明:流程图、交叉变异示意、个体结构示意,均有助理解进化动态。[page::4,5]

2.5 领域知识提炼:基本面因子与估值因子基因及结构分析(页5-6)


  • 基本面因子

- 总结5种等效结构,15个常见高频基因片段。
- 高频基因涉及利润增长指标(如净利润同比增长率、营业利润同比增长率)、盈利质量指标(ROA、销售费用率等)和其复合结构。
- 具体指标包括单季度净利润同比增长率,ROA,净资产同比增长率,长期债务与营运资金比率等。
- 结构多以加减法组合,符合财务逻辑。
  • 估值因子

- 分类为4种结构,15个基因片段。
- 主要集中在现金流、利润项目及市值相关指标,如经营现金流,净利润(含少数股东权益/不含),支付给职工现金等。
- 结构较简单,突出PE类因子需要现金流校正,体现估值指标的修正必要性。
  • 以上基因和结构形成领域知识支撑后续枚举法因子生成。[page::5,6]


2.6 基于领域知识的因子枚举生成与筛选(页7)


  • 利用上述基因和结构知识,以三阶结构限制生成全部可能的因子,组合约45万条因子。

- 计算每个因子的20日IC,训练样本同样为2010—2019年,采样频率提高至1日。
  • 对因子两两进行相关性检测,剔除相关性过高且IC较低的因子,确保因子组合的多样性和互补性。

- 此步骤保证了最终筛选因子既有效又分散风险。
  • 因子生成示意图(图10)形象展示了递归加法结构。

- 其中基本面因子展示多空净值曲线(图11-16)及相应历年收益统计数据(表7-12),均显示出良好的收益表现和稳定性。
  • 估值因子相关结果(图17-18,表13-14)同样表现出优异的多空策略收益。[page::7]


2.7 结果展示分析(页7-10)


  • 多空净值趋势图揭示,所筛选的多个基本面与估值因子能够带来持续稳定的多空策略累计净值增长。

- 具体收益统计表提供了2011-2020年间每年对多头(LS)、空头(S)及净多空(L)组合的年度收益率,显示因子在不同市场环境下的表现差异与整体正向收益的稳健性。
  • 描述性复盘所选因子核心逻辑,如:净利润同比增长率、营业利润同比增长率、销售费用率、净资产同比增长率等,通过加减组合形成的各因子,不仅具备财务解释力,也验证了其统计上的有效性。

- 估值因子大致反映现金流和利润的修正指标,且因子收益表现稳定,有助于补充基本面因子的选股能力。
  • 报告明确说明所提因子均基于过去历史回测结果,未保证未来表现且留有不确定性警示。[page::7-10]


2.8 风险提示(页10)


  • 该因子框架所有数据和因子效果均基于历史统计,不保证未来各时期因子依旧有效。

- 风格切换风险导致因子失效的可能性存在。
  • 算法执行的随机性使得单次运行结果存在差异。

- 区间选择、训练参数与运算资源限制可能影响结果表现,存在欠拟合风险。
  • 模型本身存在统计误差,不构成实际投资建议。

- 报告中明确限制读者群体及披露条款,提醒风险和免责事项。[page::10]

---

3. 图表深度解读


  • 图1(页2)因子挖掘框架图

展示“Expand & Reduce”双阶段策略,左侧扩展阶段以枚举式和启发式方法生成复杂多样的高阶因子,右侧缩减阶段通过线性和非线性方法进行因子压缩和筛选。强调域知识连接启发式生成与枚举式扩展,突破单方法局限,提升全局搜索效率。
  • 图2(页4)个体结构示意图

展示遗传规划中一个典型因子树结构,内部节点为函数(如加减法、保护除法),叶子节点为变量(财务指标),树状结构使得因子能够灵活组合计算,体现个体代表因子的数学表达。
  • 图4-5(页4)进化操作示意图

形象说明交叉变异和个体变异的过程,包括子树交换与节点替换,以增加种群多样性,防止早熟收敛,提高搜索因子的全局能力。
  • 图6(页5)遗传规划进化流程图

展现因子生成的循环过程:初始化种群→适应度评价→满足终止条件则保存,否则产生下一代。表示遗传规划的迭代优化机制。
  • 图7-9(页5-6)基因结构与因子结构图

图7细化基因和结构组成,图8与9分别展示基本面和估值因子的5种及4种等效结构图形,均为加法树状结构。反映因子结构简洁,易于解释和组合。
  • 图10(页7)枚举生成示意图

展现多层加法因子结构“(a+b)+(c+d)”示意,说明枚举法通过简单结构不断组合输入基因以生成完整因子。
  • 图11-18(页7-10)多空净值累计趋势图

多个因子对应的多空策略累计净值线明显上行,表明因子在回测期间盈利能力较强。颜色区分多头、空头、组合收益。
几乎所有图表反映对市场走势有稳定预测能力,其中部分因子在2015年A股高峰期间呈现尖峰,指向该时期因子的强烈alpha信号。
收益表格数据验证图形观察,为每年策略收益的详细展现,便于对收益的时间连贯性与稳定性评估。

综上,图表紧密配合文本,数据与图形充分说明了遗传规划+领域知识+枚举法因子挖掘框架的实际有效性。[page::2,4,5,7-10]

---

4. 估值分析



报告中并未采用传统的DCF或P/E估值公式进行标的估值,而是专注于因子挖掘框架的构建和有效因子筛选。
估值因子作为因子组合的一部分,主要基于企业现金流、利润及负债指标体系,生成结构清晰、带量纲调整的指标,用于后续量化策略信号。

估值因子构造的重点是通过财务数据归一化处理,剔除市值变化造成的偏差,避免仅以传统PE或PB衡量,引入现金流调整以提升估值指标对未来业绩的敏感性。

通过遗传规划和剪枝筛选出多个估值因子结构,有助弥补基本面因子对估值信息的捕捉,有效提升模型的预测力和稳健性。[page::6,9,10]

---

5. 风险因素评估



报告详细指出以下风险:
  • 历史有效性不等于未来有效性,因风格切换或市场环境变迁,历史优良因子可能失效。

- 随机性风险,遗传规划算法因随机初始化而存在不确定的运行结果,可能影响因子稳定性。
  • 样本区间选择风险,不同时间段数据特征存在差异,影响因子表现。

- 参数设置风险,模型参数不同带来的结果差异。
  • 计算资源限制,不充分导致模型欠拟合,降低挖掘效果。

- 统计误差及解释风险,因模型基于历史统计,存在误差和未知变量影响,不构成投资建议。

此外,报告未附缓解策略,但其方法本身通过多次运行、剪枝和相关性筛选部分降低了过拟合及冗余因子风险。[page::10]

---

6. 审慎视角与细微差别


  • 报告聚焦于算法框架和因子挖掘技术,未给出具体股票/行业的投资建议,符合专业纪律规范。

- 遗传规划算法虽然在提高因子挖掘效率方面具有优势,但随机性和结构复杂性仍是挑战,报告多次强调随机种子对结果影响,体现了对不确定性的审慎态度。
  • 领域知识的引入减少盲目搜索,使得算法追踪更有逻辑的因子结构,但领域知识本身也带有专家主观色彩,可能限制因子创新。

- 由于量纲限制与算子规则,生成因子结构较为简单,复杂非线性关系未必充分挖掘。
  • 图表和收益表现重点突出因子回测收益,但未详细展示风险指标(如最大回撤、夏普比率等),未来研究可以补充。

- 报告未提供因子选择的敏感性分析或稳健性测试,如跨样本验证,留有进一步完善空间。
  • 某些表格排版不够规范,部分基因逻辑表达略带语义残缺,需结合上下文理解。


整体上,报告在方法论设计和数据展示方面具备高度专业性,视角均衡,符合金融工程领域的学术与实务标准。[page::0-10]

---

7. 结论性综合



本报告以创新性的“领域知识+遗传规划+枚举法”结合因子挖掘框架,系统解决传统因子挖掘在极大因子空间中的效率和效果瓶颈。其主要贡献包括:
  • 提出并论证遗传规划算法作为启发式因子生成方法的优势,利用进化思想快速迭代高适应度因子,初步筛选出大量潜力因子,从而获得稳定的领域知识。

- 构建基于因子“基因”和“结构”的领域知识体系,明确五种基本面因子结构、15个高频基因组合,及四种估值因子结构,提炼出因子有效生成的核心要素。
  • 借助领域知识指导的枚举法,批量生成约45万因子,以20日IC和相关性为筛选指标,保证因子的有效性与多样性。

- 实现因子的量纲统一和结构简化,确保因子数学表达合理、无量纲便于后续组合和解释。
  • 回测结果显示,多数筛选后的因子具备稳定的多空收益表现,体现因子在历史样本内的强预测能力和风险对冲潜能。

- 报告充分披露风险和模型限制,提醒模型结果基于历史数据,存在变动性和统计误差,不构成投资建议。

图表方面,多幅因子净值走势图及收益统计表佐证了因子优良的历史表现;多张结构图形阐释了因子生成原理及遗传规划算法的操作流程,使技术细节透明可审。

综上,报告呈现了一个高度系统和创新的因子挖掘框架,为A股市场的基本面量化选股提供了切实可行的技术路线,具有重要的应用价值和推广意义。其评级倾向于支持该方法作为基本面因子构建的新方向,但仍需关注模型随机性和未来有效性的风险,倡导持续跟踪和验证。

---

总结



本份报告通过结合遗传规划启发式算法与领域专业知识提炼,并辅以枚举法进行因子批量生成和筛选,成功搭建了一个能够有效挖掘、优化、解释且性能稳定的基本面因子框架。该框架在传统单一方法因子搜索效率低和效果不稳定的难题上实现突破,提供了理论与实践上均具前瞻性的解决方案。图表和实证数据充分支持核心论断,讨论有理有据,风险提示详尽,既具学术深度,也具应用指导性,值得业内深入研究和借鉴使用。[page::0-10]

---

重要引用



- [page::0,1,2,3,4,5,6,7,8,9,10]

报告