`

“逐鹿”Alpha 专题报告 (二十二)——Factor oo I 基本面因子挖掘统一框架

创建于 更新于

摘要

本报告构建了一个集成多种因子生成技术的基本面因子挖掘统一框架,通过自动化处理数据频率与量纲,并引入相关性惩罚机制优化因子筛选,有效提升了因子多样性和计算效率。采用Cython与流式计算技术显著提升因子计算速度,结合随机法、枚举法和领域知识生成因子池,并利用锦标赛法和惩罚机制筛选优质因子。报告最终展示了三个表现优异且相关性低的基本面因子,兼顾可解释性和预测能力,为量化多因子模型提供坚实工具支持 [page::0][page::2][page::6][page::10][page::16]

速读内容


一、研究框架与技术汇总 [page::0][page::5][page::6]


  • 构建了涵盖因子生成、计算、验证、筛选与进化的统一因子挖掘框架,处理多频率、多量纲数据的融合问题。

- 生成方法涵盖随机法(种群初始化)、枚举法(OPENFE)、领域知识(专家经验与启发式算法结合)。
  • 采用Cython与流式计算技术,对复杂时序算子如滚动回归斜率进行加速,计算效率提升至原方法的100倍以上。

- 因子验证主要基于因子信息系数(IC)评价,辅以非线性特征重要性评估。

二、量纲与算子设计 [page::7][page::8]


| 算子 | 说明 | 量纲要求 |
|---------------|----------------------|---------------------------------|
| add/mul/div | 元素加减乘除运算 | 保证输入量纲合理,输出量纲规范 |
| tsmean/std/delay | 时间序列算子 | 输出量纲保持或无量纲 |
| cs
norm/rank | 横截面标准化与排序 | 输出无量纲 |
  • 制定算子输入输出的严格量纲规则,确保基本面因子的金融含义和计算合法性。

- 采用pandas灵活处理数据频率转换及多频数据融合,解决四大财务报表及一致预期等数据的时序和截面特性。

三、高效的因子筛选与相关性惩罚机制 [page::10][page::11]

  • 因子筛选采用锦标赛法,参数k=3,实现筛选效率与多样性的平衡。

- 在适应度计算中引入相关性惩罚项,公式:fitness = IC (1 - μ (1 - max_corr)), μ取0.5,平衡因子有效性与多样性。
  • 相关性采用因子IC时间序列相关性,大幅提升计算效率(约5000倍),并更准确反映市场表现的因子相似度。

- 进化算法使用树状表达式编码因子,结合热启动策略和缓存机制,提高进化效率和搜索质量。


四、代表性基本面因子表现 [page::14][page::15][page::16]

  • 因子一:12期波动率,包含归属母公司股东权益YOY、单季度营业利润率与同比增长,IC约-0.0467,IR 1.96。



  • 因子二:4期回归残差,结合经营现金流、企业自由现金流及权益市值与营业成本收入环比指标,IC 0.0567,IR 1.45。



  • 因子三:8期平均盈余公积金除以总市值,作为类似PE估值因子,用盈余公积代替净利润,IC 0.0537,IR 1.27。


  • 三者均为低相关性且具备较强预测能力的基本面量化因子适于实战因子库扩充。


五、风险提示 [page::17]

  • 历史业绩不代表未来表现,因子存在风格切换风险。

- 模型结果存在统计误差,算法随机性及初始化影响结果稳定性。
  • 计算资源限制可能带来欠拟合风险,投资决策需谨慎。


深度阅读

深度剖析报告:“逐鹿”Alpha专题报告(二十二)——Factor Zoo I 基本面因子挖掘统一框架



---

1. 元数据与概览


  • 报告标题:“逐鹿”Alpha专题报告(二十二)——Factor Zoo I 基本面因子挖掘统一框架

- 作者:姚紫薇(金融工程及基金研究首席分析师)、王超(量化多因子选股)
  • 发布机构:中信建投证券股份有限公司,金融工程研究组

- 发布日期:2024年8月6日
  • 研究主题:构建并优化基本面因子挖掘的统一框架,涵盖因子生成、计算、验证、筛选及进化,实现自动化、多样性及高效性,提升基本面因子的挖掘能力。

- 核心信息:本报告综述并整合了先前系列多个因子挖掘方法(AlphaZero启发式算法、OpenFE枚举法、领域知识融合),提出了一个全面且自动化的基本面因子挖掘框架。该框架通过处理数据量纲与频率异构性,结合因子相关性惩罚机制,实现高效且多样的基本面因子生成和筛选,最终经多因子验证得到一批优质且低相关因子。

---

2. 逐节深度解读



2.1 简介与背景(第0-2页)



报告说明“Factor Zoo”系列的目标是系统性挖掘Alpha因子,继承以前“Model Zoo”系列从模型层面的大规模研究。先前报告分别采用AutoML-Zero基础的AlphaZero启发式算法、OpenFE枚举法,以及领域知识引导的合成方法,为多样化因子挖掘提供了技术基础。
  • AlphaZero优化点

- 量纲标准化:确保最终因子无量纲,提升可解释性
- 严控因子复杂度:防止过拟合
- 进化策略优化:热启动、退化变异、灾难算法,促进物种多样性和演化效率
  • OpenFE基于枚举法,结合特征重要性逐步筛选出优质风格因子,形成较为系统的特征构造规则。
  • 领域知识聚焦专家经验,在自动化挖掘基础上结合剪枝、基因结构分析与人工合成优化因子池。


总体而言,这是由经验驱动与数据驱动结合的多元挖掘体系,面向多频率、多量纲异构财务数据,实现系统化因子构建管理。[page::0,1,2]

2.2 相关工作的回顾(第2-5页)



明确AlphaZero、OpenFE、领域知识三大代表方法构成因子生成的基础手段。
  • AlphaZero借鉴AutoML-Zero的进化机制,编码以程序结构为核心,利用正则化进化保证算法完整性和多样性。

- OpenFE采用Expand-And-Reduce两步筛选,实现从70万枚构造因子缩减至最具预测能力因子的过程。
  • 领域知识法主张基因与结构分析,提炼核心因子基因形态,并结合人工合成进一步创新。


针对数据差异、频率冲突、缺失情况,报告批判传统因子构建方法的局限,提出必须处理好以下问题:
  • 数据格式和频率差异

- 缺失值普遍性
  • 因子高相关性带来的冗余

- 发布信息和公告时间错配

提出新的统一框架涵盖因子生成、计算、验证、筛选和进化,聚合多技术优势,并强调自动化量纲与频率处理,提升因子生成严谨性和多样性。[page::2,3,4,5]

2.3 基本面因子挖掘统一框架详解(第5-9页)



因子生成


  • 随机法:追求启发式算法的种群多样性,限制结构复杂度以控制解释性。

- 枚举法:基于预设因子结构空间作全局搜索,模拟OpenFE。
  • 领域知识:导入专家筛选出的高频基因结构,结合剪枝优化后再生成候选因子。


因子计算


  • 双层结构:


- 第一层:对财务报表原始数据(资产负债表、利润表及现金流量表)进行处理,转换为季度维度,包含时序算子(同比YOY、环比QOQ、滚动TTM等)。
- 第二层:解决不同频率数据交互问题,如日频市值与季度财务指标的融合,采用隐性频率转换(PIT算法)以保证数据匹配合理。
  • 量纲管理:为避免出现无意义运算,将数据分为货币量纲(元、市值等)和无量纲指标(ROE、同比增长等),明确支持的运算形式并严格限制跨量纲非合理操作。
  • 算子定义详见表2:种类涵盖元素操作(加减乘除)、时间序列统计(均值、标准差、延迟、变化率等)、回归算子(斜率、残差、R平方)以及横截面算子(标准化/排序)。不同算子对量纲有严格要求,保证运算合理性。
  • 性能优化:针对时序滚动计算量大、groupby+rolling计算复杂度高,底层采用Cython与流式计算减少复杂度116倍,极大提升了计算速度和扩展性。
  • 示例:tsregressionslope滚动回归算子,代码实现提供,说明技术实现细节。[page::6,7,8,9]


2.4 因子验证与筛选(第9-11页)


  • 验证指标

- 重点使用因子信息系数(IC)衡量因子对未来收益的线性预测能力。
- 也用非线性特征重要性(如基于树模型的SHAP值)作为辅助。
  • 筛选策略

- 按适应度用最优个体法、轮盘法、锦标赛法评估,最优个体法效率高但降低多样性,轮盘法反之。
- 本文采用锦标赛法,k=3,平衡效率与多样性。
  • 相关性惩罚机制

- 适应度函数调整为 \(fitness = IC \times (1 - \mu \times (1 - max\corr)) \),其中 \(\mu\)为惩罚系数(取值0.5),
- \(max\
corr\)为个体与因子池及种群中最大相关性(基于IC的序列相关性,计算复杂度较低且实际表现更佳),
- 该方法有效提升种群多样性,防止因子高度冗余。
  • 强调只关注因子值相关性可能忽视市场实际风险分散效果,因子IC的相关性更能反映实际投资组合风险暴露状况。


2.5 因子进化(第11-14页)


  • 表达结构

- 采用树状表达式构建因子结构,树形结构使因子层次和逻辑清晰。
- 其他表达形式:

- 逆波兰结构:处理简洁,搜索空间小
- 程序表达式:最灵活,搜索空间广,但计算复杂度极高
- 本文选树状结构权衡灵活性与计算效率。
  • 进化机制

- 采用交叉(概率0.6)和变异/突变(0.3)更新种群。
- 利用缓存避免重复适应度计算,提升效率。
- 结合热启动策略,将历史优异因子作为初代种子,缩短收敛时间。
  • 实验设计参数

- 种群规模1000,运行20轮避免结构过度复杂。
- 中间保存IC>0.04的优异因子,最后筛除相关性超过0.6的低IC因子构建候选池。
- 对候选池和现有因子池进行整合,存在优质替代因子则更新因子池,否则保持稳定。[page::11,12,13]

2.6 关键实验数据属性(第13页)


  • 共计201个字段,覆盖:


- 三大财务报表
- 财务指标
- 一致预期
- 市值
  • 字段缺失值要求不超过20%,保障数据质量。

- 频率涵盖日频和季频,量纲明确标识,保障自动处理。
  • 因子有效性评估基于第2天开盘价至第21天收盘价期间的收益率,实现交易策略上的实用性和可交易性分析。[page::13]


2.7 实验结果与因子展示(第14-16页)



报告精选了三个具有代表性的基本面因子,均经过严格筛选,低相关性并具有实际市场解释力。
  • 因子一

- 结构:12期滚动波动率,覆盖权益同比增长率、单季度营业利润率与营业收入同比。
- 以波动率大小反映成长和盈利的稳定性,波动越小,未来表现越好
- 因子IC为-0.0467,IR为1.9615,体现了信息比率表现优秀,尽管IC为负,绝对值和回报稳定
- 图9展示因子IC时序波动,图10展示不同分组累计收益走势,反映分组回报差异显著。[page::14]
  • 因子二

- 结构:4期回归残差,回归指标涉及经营现金流、固定资产总额、股东权益、市值,以及同期营业成本和营业收入变化。
- 反映估值指标可解释性,表现出现金流和盈利能力增长。
- 因子IC为0.0567,IR为1.4513。
- 图11和12分别展示因子IC趋势和分组收益,表现稳健。[page::15]
  • 因子三

- 结构:盈余公积金8期均值除以总市值
- 类似PE估值因子,但用盈余公积金替代净利润,提高稳定性和估值合理性
- 因子IC为0.0537,IR为1.2734
- 图13和14展示对应因子IC和分组收益走势,证明该因子具有信息价值和市场有效性。[page::16]

2.8 结论总结(第16页)



全报告总结了该统一框架的优势:
  • 多样化因子生成方法融合,提升挖掘潜力。

- 自动处理频率与量纲,保证因子严谨性。
  • 引入常用算子及底层技术,使计算效率大增。

- 采用相关性惩罚,促进因子多样性,防止高相关冗余。
  • 通过实验获得若干低相关且有效的基本面因子。


框架为未来因子和策略开发奠定了扎实基础,具有良好扩展性。[page::16]

2.9 风险因素(第17页)



作者明确指出:
  • 历史数据统计特征不保证未来有效,因可能出现风格切换导致因子失效。

- 模型随机性可能带来单次结果偏差。
  • 区间选择和模型参数调整对输出结果影响大。

- 高计算需求可能导致模型欠拟合风险。
  • 模型结果仅供参考,不构成投资建议。


该风险提示体现了研究透明度与谨慎态度。[page::17]

---

3. 重要图表解读



3.1 市场表现图(第0页)


  • 描述:线图显示2023年7月至2024年6月间,上证指数与国债指数表现。上证指数呈现波动且多处下跌趋势,国债指数则稳定呈上升态势(0%-7%左右)。

- 解读:图形显示股票市场波动明显且整体承压,而国债市场相对稳健,体现当前投资环境中权益资产持久性较弱,市场避险情绪较强。
  • 关联文本:支持因子需要在复杂市场环境中保持信息价值的论述。[page::0]


3.2 AutoML-Zero算法示意图(第3页)


  • 描述:显示了AutoML-Zero通过代码变异和进化优化ML模型流程的算法演进,线性模型逐渐演化为复杂神经网络。

- 解读:展现自动算法搜索能力基础,为AlphaZero框架提供动力,有效证明进化算法适用与金融因子挖掘。
  • 关联文本:AlphaZero优化基于此框架的发展逻辑。[page::3]


3.3 OpenFE框架图(第4页)


  • 描述:数据流图示从基础数据集出发,结合运营特征和算子集合,生成候选特征并通过模型预测和评价进行筛选。

- 解读:体现枚举法全局搜索和逐步筛选的技术路线,突出特征生成与评估的结合。
  • 关联文本:OpenFE为枚举法因子生成基础。[page::4]


3.4 领域知识因子挖掘框架图(第5页)


  • 描述:两大蓝色模块“启发式+线性”、“权举式+线性”,以及专家的剪枝与基因结构分析构成整个领域知识驱动框架。

- 解读:阐明专家经验与自动化算法的结合,体现因子结构提炼与设计智慧。
  • 关联文本:领域知识方法核心流程说明。[page::5]


3.5 因子挖掘框架流图(第6页)


  • 描述:展示从因子生成,到计算、验证,筛选、最后进化的闭环流程,关键步骤模块化。

- 解读:突出流程自动化特征,且将空间关系和计算技术细节融入结构,为读者直观认识整体系统化框架功能。
  • 关联文本:为报告主旨框架示意图。[page::6]


3.6 tsregressionslope Cython+流式计算代码(第9页)


  • 描述:源代码片段展示基于滚动回归的高效计算实现。

- 解读:证明计算效率大幅提升背后的技术细节,量化技术的底层实现方案。
  • 关联文本:解释性能提升及技术优势。[page::9]


3.7 因子表达式示意图(第12页)


  • 描述:树状表达式(图6)、逆波兰表达式与程序表达式(图7、8)的结构实例对比。

- 解读:直观展示因子表达多种存储结构,树状结构被选中主要因其表现力和便捷操作优势。
  • 关联文本:因子进化模块的表达设计。[page::12]


3.8 关键三个因子IC和分组收益图(第14-16页)


  • 因子一 IC(图9)呈现负IC值波动趋势,但IR显著;

- 因子一收益分组(图10)显示不同分组累积收益显著分化。
  • 因子二与因子三IC图和收益图(图11-14)均体现因子的有效性和稳健性,呈现累积正收益与回撤抵抗力。

- 三个因子整体表现稳定,说明挖掘框架有效实现了优质因子筛选。
  • 关联文本:说明最终因子池性能,展示实用性与研究成果。[page::14,15,16]


---

4. 估值分析



本报告核心为金融工程与量化研究,并未涉及传统的公司估值分析或目标价评估。研究聚焦于系统的因子挖掘方法论与性能,而非直接投资标的的估值。因此,无估值方法、参数输入及相关敏感性分析。

---

5. 风险因素评估


  • 因子失效风险:历史表现不保证未来,有风格切换风险。

- 模型不确定性:随机性及参数选择影响结果,存在统计误差。
  • 数据风险:缺失值较多字段剔除,数据完整性影响模型。

- 算力风险:计算资源不足可能带来欠拟合。
  • 非投资建议声明:模型结果仅做研究演示,不构成投资建议。


未详细论述缓解策略,但透示团队谨慎对待数据和模型局限,保持研究透明度。[page::17]

---

6. 批判性视角与细微差别


  • 报告技术架构严谨,将多种切分、算子定义细致,体现专业水准。

- 进化算法采用惩罚机制解决因子多样性,很好避免了传统筛选中的相关性泛滥问题。
  • 采用IC相关性替代直接因子值相关性,体现了对金融实际投资组合风险识别的洞见。

- 但因因子复杂度限制与进化轮数限制,仍可能遗漏更复杂但有效的因子结构,未来可考虑进一步扩展搜索空间。
  • 因子效果指标如IC多数偏低(因子一-0.0467),但报告以IR、分组收益补充验证,表明重视因子稳定性与实际投资表现而非单一指标。

- 报告未涉及宏观经济、市场环境变化对因子表现的动态调整,弱化了对外生冲击风险的分析。
  • 模型较依赖计算资源,实际落地成本和技术门槛较高,需考虑商业推广难度。

- 综上,在严谨和全面之间取得合理平衡,同时保留了合理保守性,有较好的学术与实用参考价值。

---

7. 结论性综合



本报告系统梳理并创新了基本面因子挖掘的统一框架,针对量化投资中数据异构性和因子多样性难题,提出了一套集因子生成、量纲和频率自动处理、计算效率提升、适应度评价及相关性惩罚筛选于一体的高效解决方案。通过AlphaZero启发式与OpenFE枚举结合及领域知识整合,该框架实现了高效提取多样低相关的基本面Alpha因子,为量化选股和策略开发提供了坚实基础。
  • 计算技术创新(Cython+流式计算)使原本耗时复杂的时序回归算子计算提速约116倍,显著扩展了框架的实际应用可能。

- 相关性惩罚机制有效避开因子多重共线性,促进了因子池多样性,有助于构建稳健投资组合。
  • 最终挑选出的因子IC虽数值本身不高,但结合因子信息比率和分组收益表现,展示了良好稳定的预测能力,为实盘应用奠定基础。

- 报告充分披露了模型相关风险及假设限制,体现出对数据和模型本质的谨慎处理态度。

整体上,该报告不仅丰富了Alpha因子挖掘的理论体系,也在技术上实现了多方面突破,是量化研究领域具有重要参考价值的前沿成果。

---

附:报告引用的部分关键图片展示


  • 市场表现图


  • AutoML-Zero算法流程


  • OpenFE结构


  • 领域知识挖掘框架


  • 因子挖掘框架全貌


  • tsregressionslope代码片段


  • 因子表达树状图与程序表达式示意



  • 因子一IC与分组收益



  • 因子二IC与分组收益



  • 因子三IC与分组收益




---

# 综上所述,本报告以严密的学术与量化方法论为基础,融合先进的计算技术,打造了基本面因子挖掘领域的领先框架。其研究成果不仅有助于深化量化选股模型的理论理解,也为实际投资策略提供了有力工具和新的思路。[page::0-19]

报告