`

【光大金工】分域法改进因子的新尝试 量化选股系列报告之十五

创建于 更新于

摘要

本报告聚焦因子分域在因子计算阶段的应用,以截面分域和时序分域为核心方法,结合遗传规划算法,从多个经典因子中挖掘改进版本。实证结果显示,改进后的因子在样本外表现显著优于原始因子,平均周频Rank IC提升明显,显示了分域法在改进因子表现上的有效性和前景广阔 [page::0][page::1][page::12][page::18]。

速读内容

  • 因子分域的基本逻辑与分类 [page::0][page::1][page::4][page::5]

- 分域法根据股票特征将股票划分为不同分域,差异化计算因子,提高因子表达效力。
- 分域一般应用于因子计算和因子合成,本报告聚焦于因子计算。
- 分域法主要分为截面分域(行业、市值等划分)和时序分域(时间上的不同表现)。
  • 估值因子市值分域修复与加权改进 [page::1][page::2]




- 估值因子在小市值股票中依然稳健表现,分域后因子有效提升。
- 采用市值加权方法提升小市值权重,随着权重参数n从0增至4,因子周频Rank IC由3.84%提升至4.67%。
  • 早盘收益动量因子的时序分域改进 [page::3]



- 原始早盘收益因子无明显动量,采用阈值2%极值调整进行时序分域处理后,因子表现稳定且动量特征明显。
  • 分域因子研究框架与遗传规划算法应用 [page::5][page::6][page::7][page::8]


- 通过遗传规划算法自动生成分域因子,寻找最佳目标因子-分域因子组合。
- 遗传规划通过进化选择、交叉和变异提升公式适应度,最终找到高表现因子公式。

  • 多因子分域改进实证—截面分域案例如下: [page::12][page::13][page::14]

- 营收同比因子(SalesYOY) [page::12][page::13]
- 分域因子为8日最高价标准差减成交笔数。
- 改进后样本外Rank IC从0.8%提升至6.68%。


- 净利润同比因子(ProfitYOY) [page::13][page::14]
- 分域因子为成交笔数与换手率之和。
- 改进后Rank IC从1.25%提升至8.31%。


- 反转因子(5DR) [page::14][page::15]
- 分域因子为14日开盘价最小值的5日变化率减成交笔数。
- 改进后Rank IC从3.77%提升至8.03%。

  • 多因子分域改进实证—时序分域案例如下: [page::15][page::16][page::17][page::18]

- 15日反转因子改进 [page::15][page::16]
- 以过去15日内收益最大5日的均值减最小5日均值构建分域因子,显著提升Rank IC从4.96%至8.45%。

- 尾盘收益因子改进 (TAIL_RET) [page::16][page::17]
- 以过去15日内尾盘收益最大5日均值构建分域因子,Rank IC从4.89%提升至7.85%。

- 振幅因子改进 (SWING) [page::17][page::18]
- 以振幅最大与最小5日均值差作为分域因子,Rank IC从6.12%提升至6.92%。
  • 量化因子分域改进总结与风险提示 [page::0][page::18]

- 因子分域通过差异化处理不同分域内股票因子值,有效提升因子表现。
- 遗传规划算法辅助发现更优分域与组合方式,显著提升因子稳定性和有效性。
- 报告结果基于历史数据和模型,存在失效风险,投资需谨慎。

深度阅读

【光大金工】分域法改进因子的新尝试—量化选股系列报告之十五 深度分析报告



---

1. 元数据与概览


  • 报告标题: 《分域法改进因子的新尝试 量化选股系列报告之十五》

- 作者/分析师: 祁嫣然(执业证书编号S0930521070001)、张威(执业证书编号S0930524070004)
  • 所属机构: 光大证券金融工程研究团队

- 发布日期: 2024年10月27日
  • 研究主题: 因子分域方法在量化选股中的应用与改进,重点探讨通过遗传规划算法进行因子分域的尝试,提升因子有效性。


报告核心论点及信息:

报告主要论述了基于因子分域思想,针对传统因子尤其是估值因子与动量因子的性能失效问题,提出截面分域与时序分域两种分域方式的应用;特别引入遗传规划算法进行分域自动挖掘和因子重构,从而显著提升因子的预测能力。报告展示了多个代表性的因子改进案例,并用实证数据证明了方法的有效性,表明因子分域无论是传统的行业/市值截面分域,还是基于时间序列的分域都有广泛应用前景以及可观的收益提升。

---

2. 逐节深度解读



2.1 报告摘要与背景(第0~1页)


  • 论述了因子分域的市场历史及广泛应用,定义了分域思想为在不同市场环境通过差异化处理因子信息以提升表达效果。

- 介绍了经典的截面分域(如按市值大小划分行业风格)和较少研究但潜力巨大的时序分域(时间维度上的分域效应)。
  • 本次研究创新地引入遗传规划算法辅助自动寻找分域函数,克服人工挖掘的局限,提升了因子性能,具体案例以估值因子和早盘收益因子为例进行了实证验证。

- 透露关键提升方向:诸如营收同比、净利润同比、反转因子在截面上,反转、尾盘收益、振幅因子在时序上,因子IC值均有显著提升。
  • 风险提示表明,模型和历史数据存在固有失效风险,这是市场量化研究的共性问题。[page::0,1]


---

2.2 因子分域建模逻辑(第1~2页)


  • 详细阐述因子分域在多因子模型中的两大核心应用场景:因子计算阶段和因子合成阶段。

- 因子计算分域包括典型的按行业、板块、风格分组;若因子在某组表现不佳,往往设置为中位数,避免噪声干扰。
  • 报告重点关注截面分域(基于股票间横截面差异)与时序分域(基于时间序列变换调整)两大范式。

- 针对估值因子,实证显示市值作为分域因子区分大市值和小市值股票,能修复估值因子失效,尤其小市值股票池内表现更稳健,辅助以市值加权进一步强化效果。
  • 提供了多个图表(图1、图2)和表格(表1)直观展示估值因子分域后的净值表现和业绩指标对比,侧面证实了分域策略有效提升因子表现。[page::1,2]


---

2.3 动量因子时序分域修复(第3页)


  • 复盘了早盘收益因子的计算方式,包括成交量加权价格(VWAP)用于早盘涨幅计算,排除一字涨停板影响以严谨定义动量。

- 发现原始早盘收益因子未显示预期的稳定动量效应,原因归结于早盘收益在极值状态下表现异常。
  • 提出了具体的时序分域方法:以2%极值为阈值,将绝对值超过阈值的收益取反,形成极值调整,保证温和且稳定的动量效应输出。

- 通过图4~7系列图,呈现了调整前后的多组分布及多空组合净值曲线,改进后的因子呈现出单调且明确的动量收益特征。
  • 表3中业绩指标对比数据进一步佐证改进因子优于原始因子。[page::3]


---

2.4 分域法研究框架(第4~6页)


  • 提出了截面分域和时序分域的定义与数学表达:

- 截面分域包括离散型分域(基于一定准则划分具体域组,如两组划分)和连续型分域(通过权重函数对因子作连续变换如市值权重),图8、图9分别示意这两种模式。
- 时序分域的示例为极值调整、算子如tsmaxmean的应用,图10对时序数据的操作做了详细解读。
  • 提出了用遗传规划自动挖掘分域因子的创新方法,包括:

- 目标因子与分域因子来自不同数据池、本报告重点改进已失效或表现较弱因子。
- 设定效果评价标准通过Rank IC比较新旧因子,如果新因子IC更高则认定该分域有效。
  • 图11说明了遗传规划算法在分域因子挖掘中的流程框架,包括生成新因子,评估,挑选最优因子,回测验证等关键步骤。[page::4,5,6]


---

2.5 遗传规划算法详解(第6~9页)


  • 遗传规划作为因子挖掘工具的优势在于利用计算机搜索能力,从数据和算子中发现难以由人力建模的隐藏特征,属于一种归纳法特征工程。

- 描述了遗传规划的基本过程,包括:
- 随机初始化种群
- 个体适应度计算(如使用回测IC或收益衡量)
- 筛选适应度最高个体作为父代
- 进化操作诸如交叉、子树变异、点变异、Hoist变异等以保证多样性和简化表达(图12-17详细示例图解)
  • 通过二叉树结构以及S-表达式进行公式表达和变异,方便搜索优化复杂数学表达式。

- 这些操作使其可以不断挖掘新型复杂的分域因子公式,改进传统因子计算方式。[page::6,7,8,9]

---

2.6 分域算子的设计与应用(第9~11页)


  • 设计了将时序分域与截面分域融合到遗传规划中的一套算子体系:

- 时序分域算子tsmaxmean(X,Y,window1,window2):选取过去window2天内Y最大的window1天对应的X均值。
- 截面分域算子multiply(X,sigmoid(standardize(winsorize(Y)))):对因子Y经去极值、标准化和非线性变换后做权重,乘以因子X实现加权连续分域。
  • 引入多个时序和一般算子保证分域因子构建的多样性和灵活性(表4、表5、表6,详细内容在报告中)。

- 通过上述算子组合,能够构建复杂的因子分域公式,如报告给出的时序分域方程和截面分域方程示例。
  • 原始数据与参数选择详见表7、表8,保证分域因子构建的丰富输入以及遗传规划算法配置合理性。[page::9,10,11]


---

2.7 典型截面分域因子改进案例(第12~14页)


  • 营收同比因子(SalesYOY)

- 原始因子近年失效明显。
- 设计的分域因子Y为过去8日最高价标准差减去成交笔数,构建分域因子后,改进因子显著领先原始因子,样本外多空组合差距巨大,周频Rank IC由$0.8\%$提升至$6.68\%$。(图18~21,表9)
  • 净利润同比因子(ProfitYOY)

- 采用成交笔数与换手率相加做为分域因子。
- 改进因子样本外多空组合领先,Rank IC由$1.25\%$提升至$8.31\%$,但近期多头组出现回撤风险需关注。(图22~25,表10)
  • 反转因子(5日反转5DR)

- 采用14日开盘价最小值5日变化率减成交笔数分域。
- 业绩指标表现优异,样本外多空组合明显优于原始因子,Rank IC从$3.77\%$提升到$8.03\%$。(图26~29,表11)[page::12,13,14]

---

2.8 典型时序分域因子改进案例(第15~18页)


  • 15日反转因子(RETURN均值)

- 采用过去15天中的5大收益平均值减5小收益平均值的时序分域方式。
- 改进因子多空组合和多头组表现均显著优于原始因子,Rank IC从$4.96\%$提升至$8.45\%$。(图30~33,表12)
  • 尾盘收益因子(TAIL_RET)

- 分域为15日内尾盘收益率最大5个交易日均值。
- 改进因子在样本外期表现稳定上升,Rank IC从$4.89\%$提升到$7.85\%$。(图34~37,表13)
  • 振幅因子(SWING均值)

- 设计分域因子为15日内最高价开方后振幅最大5日均值减最小5日均值。
- 尽管年初出现一定回撤,整体表现远优于原始因子,Rank IC从$6.12\%$提升到$6.92\%$。(图38~41,表14)[page::15,16,17,18]

---

2.9 风险提示与报告总结(第18页)


  • 风险提示:因子策略基于历史回测模型,存在模型失效风险和历史数据不可重复验证风险,投资者应谨慎参考。

- 总结重点:
- 因子分域(横截面与时序)是解决因子表现异质性和失效的重要手段。
- 结合遗传规划算法,可以自动挖掘更优的分域结构和因子组合,显著提升经典因子的有效性。
- 实证数据清晰表明该方法提升多因子模型的预测能力,分域后因子Rank IC平均提升5~6个百分点,且收益表现优异。
- 报告建议投资者关注因子分域的新动态,结合遗传算法辅助因子构建,可能成为量化投资策略优化的有效路径。[page::18]

---

3. 重要图表深度解读


  • 图1-2:估值因子净值表现与分域净值(大市值vs小市值)


图1显示传统估值因子的多空组合净值曲线在2019-2021年间回撤明显,且空头组表现恶化。图2区分大市值和小市值股票后,小市值股票净值增长稳健且超越大市值,表明市值分域有效修复估值因子表现。
  • 图3:市值加权估值因子净值


多条净值线分别对应不同权重参数n(表示权重对小市值倾斜程度),随着n从0(原始因子)增加至4,净值表现持续改善,体现连续型分域的潜力。
  • 图4-7:早盘收益因子调整前后分组净值


图4和5反映原始早盘收益因子无法稳定产生动量效应,净值曲线波动剧烈。经过极值调整后(图6和7),多空组合及分组净值表现出良好单调增长,验证时序分域在动量因子修复中的作用。
  • 图18-21等多个因子分域前后对应多空组合和Rank IC示意


多个案例均显示,分域后因子的多空组合净值远超原始因子,且Rank IC在样本内外的累计值明显更高,表现出因子定价能力的提升例如:

- 营收同比因子:Rank IC从$0.8\%$提升至$6.68\%$
- 净利润同比因子:Rank IC从$1.25\%$提升至$8.31\%$
- 反转因子(5DR):Rank IC从$3.77\%$提升至$8.03\%$
- 其他时序分域因子均有显著提升

图21、图25、图29等曲线中,累计Rank IC曲线的稳定向上趋势及越过历史波动性的清晰上扬,说明了改进因子的显著有效性。
  • 图12-17:遗传规划操作流程和变异示例


直观展示了遗传规划的核心遗传算子:交叉、子树变异、点变异及Hoist变异,解释其如何扩大因子搜索空间,保持多样性,同时控制公式复杂度。
  • 图8-10:分域示意图


形象说明离散型分域(将指标分组)与连续型分域(权重乘积调整)及时序分域(时间窗口内按照分域因子极值调整)三种关键方法,帮助理解本文技术框架。

---

4. 估值分析



报告主要聚焦因子改良效果,未直接展开因子估值的DCF或市盈率估值分析,核心估值体现在:
  • 利用因子IC(Information Coefficient)作为因子表现的重要衡量指标,IC衡量因子预测回报的相关性,IC越高因子信息含量越大。

- 通过遗传规划算法搜索权重结构和分域因子,对因子进行加权和分段变换,相当于进行非线性因子提纯和信号增强,提升IC实际上即为因子隐含价值的提升。
  • 没有明确的传统估值模型运用,但IC及收益曲线即为因子价值的量化体现。


---

5. 风险因素评估


  • 模型失效风险: 因子表现源于历史数据和模型假设,不保证未来有效。

- 数据风险: 历史数据包含错误或被市场结构变迁所影响,带来不一致性。
  • 算法复杂度与过拟合风险: 遗传规划在搜索庞大因子空间时,可能造成模型对历史过拟合,降低未来泛化能力。

- 适用环境局限: 尤其分域法可能依赖于市场结构,在非常规市场环境下效果可能不佳。

报告未详细提出具体缓解措施,建议投资者结合其他稳健策略和风控体系使用。

---

6. 批判性视角与细微差别


  • 报告一方面充分展示了遗传规划在因子分域上的创新应用,提升确实可观;但也存在:

- 透明度与解释性不足: 遗传规划生成的复杂分域函数,部分难以直觉理解,可能难以解释其经济意义。
- 过拟合疑虑: 虽然使用了样本外测试,但高频调整参数及进化得到的非线性权重,存在一定过度拟合风险。
- 多因子联合表现缺失: 报告聚焦单因子表现,未披露改进后因子与其他多因子组合在实盘环境的整体表现及协同效应评估。
- 环境敏感性: 估值市值分域、时间序列极值调整等方法依赖于稳定市场环境,面对突发风险事件可能表现折扣。

整体报告框架和方法较为严谨,提供合理的实证支持,建议结合更严格的验证手段与实际投资过程以防范风险。

---

7. 结论性综合



本报告通过系统研究因子分域在量化选股中的应用,创新性地引入遗传规划算法帮助自动构造分域因子和权重算子,结合截面分域和时序分域两种维度的分域框架,有效修复了传统因子(尤其是失效显著的估值及动量因子)在A股市场的弱化表现。
  • 通过对多个因子如营收同比、净利润同比、5日反转、尾盘收益、振幅因子等分别进行分域改进,实证结果表明改进后因子在样本内外均实现显著性能提升,多空组合净值和Rank IC均有明显迈升,平均周频Rank IC提升范围在约5~7个百分点,有效性强且稳定。

- 报告明确区分了离散型和连续型截面分域,及基于算子设计的时序分域,并设计了丰富的时序与一般算子辅助因子生成,保证模型的灵活性和解释能力。
  • 遗传规划算法作为一种强大的搜索工具,不仅提升了因子多样性,也扩大了因子空间的深度,降低了研究者选取因子的局限性。

- 虽存在模型失效和过拟合的风险,但报告风险提示明确,提醒投资者注意投资策略的稳健性问题。

综上,报告体现了因子分域尤其是分域法应用结合遗传规划算法进行量化因子优化的极大潜力,有望为未来量化投资模型因子构建带来新思路和方法论。

---

参考文献及数据来源说明


  • 本分析基于光大证券金融工程研究团队2024年10月27日发布的《分域法改进因子的新尝试 量化选股系列报告之十五》。

- 所有图表(净值曲线、Rank IC曲线、算法流程、示意图及表格)详见原文及报告页码标记。
  • 数据来源主要由Wind及光大证券研究所提供。


---

溯源标注示例:
本分析的所有具体结论和数据均明确标注原报告页码,如因子性能提升的Rank IC数据均来自第12页至17页的实证回测部分[page::12,13,14,15,16,17]。

---

(全文完)

报告