基于遗传规划的对传统量价因子的优化思路
创建于 更新于
摘要
本报告系统阐述了遗传规划优化传统量价因子的方法,通过对中证500指数2016-2023年数据回测,发现遗传规划挖掘的因子在复杂市场中预测能力更优,日频和周频测试均显著优于原始因子。基于新因子构建的多因子策略在不同手续费水平及调仓频率下均实现了平均6%的年化超额收益,且信息比率优于传统技术指标。该方法通过模拟自然选择进化机制,自动生成复杂公式,解决传统量价因子滞后性及稳定性不足的问题,显著提升量化选股效果[page::0][page::4][page::8][page::9][page::10][page::11][page::7]
速读内容
遗传规划与传统量价因子比较 [page::2]
- 传统量价因子如MACD基于简单假设和历史均线,信号易滞后,表现依赖市场环境。
- 遗传规划利用进化算法随机组合市场数据与数学函数,挖掘复杂非线性因子,适应能力强但存在过拟合风险。
- 公式树和基本流程图示说明了遗传规划从随机生成公式到筛选最优预测因子的过程。


基础因子拆解与相关性筛选 [page::5][page::6]
| 基础因子 | 含义 |
|----------|------------------|
| U | 股价上升变化 |
| D | 股价下跌变化 |
| aveU | 股价上升变化过去2周平均数 |
| aveD | 股价下跌变化过去2周平均数 |
| volratio| 5日成交量/22日成交量 |
| std20 | 20日波动率 |
| LSratio| 长短均线比值 |
- 经过标准化和中位数去极值后,选取相关性较低因子进入模型,避免多重共线性。

遗传规划挖掘的新因子表达与测试结果 [page::7][page::8][page::9]
- 生成了5个新因子(alpha1~alpha5),结构复杂,结合多个基础因子表达式。
- 单因子回测表明,新因子在训练集和测试集均优于原始因子,特别是在多空收益表现上优势明显。
- 不同频率(日频、周频)和不同手续费(1‰,3‰)条件下,新因子策略均表现稳定。
| 因子 | 原始因子RankIC | 新因子RankIC | 原始因子多空收益 | 新因子多空收益 |
|---------|----------------|--------------|-----------------|---------------|
| 日频平均 | 3.03% | 3.83% | 5.18% | 13.34% |
| 周频平均 | 2.87% | 3.45% | 8.40% | 13.33% |
| 周频3‰手续费| 2.87% | 3.45% | -1.92% | 2.55% |
多因子策略构建与实证分析 [page::9][page::10][page::11]
- 基于新因子加权合成综合因子,按照行业分类选股,构建投资组合。
- 日频1‰手续费年化收益率在10.58%~负20.64%区间波动,整体优于RSI和基准,年化超额收益约6%。
- 信息比率稳定在0.84以上,最大回撤较低,波动率控制合理。
- 周频不同手续费水平下表现类似,超额收益及风控指标均优于传统策略。



改进空间与风险提示 [page::11]
- 关注数据中性化、抑制因子共线性、扩大样本数据、调整适应度函数及提升计算能力。
- 风险来自潜在过拟合及策略对不同市场行情适用性差异,投资者需做好风险管理和分散配置。
深度阅读
基于遗传规划的对传统量价因子的优化思路——详尽分析报告
---
一、元数据与概览
报告标题:《基于遗传规划的对传统量价因子的优化思路》
作者:陆豪(执业证书编号:S0590523070001)
发布机构:国联证券股份有限公司
发文时间:2024年(具体日期未见标注)
主题:结合遗传规划(Genetic Programming, GP)技术优化传统技术分析中的量价因子,通过复杂公式挖掘提升因子的预测能力及量化选股策略的绩效表现。
核心论点:
- 详细介绍遗传规划的算法机制及其在金融量价因子优化中的应用;
- 以中证500指数历史数据为样本,回测标准量价因子和遗传规划优化因子,多频率、多手续费标准下验证优化后的因子优于传统因子;
- 基于优化因子构建多因子选股策略,在实测中获得6%年化超额收益;
- 指出改进方向如数据库中性化处理及因子共线性降低。[page::0,1]
---
二、逐节深度解读
1. 遗传规划简介
1.1 传统量价因子与遗传规划因子挖掘的比较
- 传统量价因子:如MACD,基于市场行为假设(趋势跟随、均值回归),通过短期与长期指数移动平均线差异捕捉买卖信号。优点包括易理解、易实现及历史验证的经验支持,缺陷在于信号滞后、对高波动市场适应性差且依赖历史数据,不能全然反映未来市场变化。
- 遗传规划因子:以自然选择模拟演化过程生成复杂公式树,合成数学函数和市场数据变量,经过选择、交叉和变异迭代优化,挖掘隐藏于海量数据中的非线性复杂模式。优势在于捕获深层市场关系和提高预测性能,尤其在复杂市场环境下效果显著;短板是可能过拟合且生成公式常缺乏直观解释性。[page::2,3]
1.2 遗传规划核心技术
- 公式树表达:算法通过树状结构表达每个公式,节点为运算符,叶子为变量(价格、成交量等),增强表达复杂性和灵活性。
- 进化流程涵盖初始随机种群、适应度评估、优选继承、交叉杂交、变异生成子代、迭代更新,最终选出最优预测因子。[page::3,4]
2. 优化思路
- 识别传统量价因子存在预测能力有限及回测收益不佳问题;
- 将传统因子公式拆解成基础因子,通过遗传规划算法重新组合和进化生成新公式因子;
- 数据样本锁定中证500指数,回测区间2016年至2023年,设日频与周频模型分别构建与测试。[page::4,5]
3. 遗传规划模型
3.1 基础因子获取与处理
- 选定原始因子包括相对强弱指数(RSI)、量比、20日波动率、长短均线比等;
- 针对这些因子拆解形成一系列基础变量(如股价涨跌变化U、D,平均上涨跌aveU/aveD等);
- 进行中位数去极值、标准化和因子相关性测试,以剔除高度共线因子,最终选出七个低相关因子进入模型:U、D、aveU、aveD、volratio、std20、LSratio。[page::5,6]
3.2 基础因子相关性矩阵分析(图表5)
- 相关性矩阵显示,部分因子如成交量相关(v5与v22)高度相关(超过0.9),标准差类因子std20与ma5/ma20波动率高关联,剔除冗余因子避免多重共线性;选择相关性相对较低的因素确保模型稳定性。
- 该步骤保障了后续遗传规划的鲁棒性和因子的独特信息贡献。[page::6]
3.3 挖掘结果
- 日频模型和周频模型使用拆解的基础因子构建出5个遗传规划生成的新因子(alpha1至alpha5),具体公式复杂难以直观理解,但结构基于部分基础因子的组合和延迟函数组合,体现了遗传规划的复杂适应表达能力。
- 具体示例:alpha1(日频)为LSratio减去两次D的值,周频alpha1为LSratio与aveU-D的取最小值,体现多变量交互探究。
- 这些新因子为后续单因子和策略测试提供基础。[page::7]
4. 单因子测试
4.1 策略构建方法
- 采用Rank IC及分层回测法验证新因子预测准确度;
- 回测分别覆盖训练集(2016-2020年)和测试集(2021-2023年);
- 手续费1‰为基准,验证样本外因子稳定性和新因子相对传统因子表现;
- 周频模型引入手续费3‰封顶测试手续费敏感性。[page::7,8]
4.2 测试结果解读
- 日频(手续费1‰)结果显示,新因子在Rank IC及多空收益均显著优于原始因子,尤其多空收益提升明显,比如alpha2达到21.01%,远超原因子平均5.18%多空收益,平均新因子多空收益为13.34%,优势突出。
- 训练集与测试集间表现仍稳健,表明新因子过拟合风险有限。
- 周频(手续费1‰)结果同样表现优于传统因子,多空收益平均13.33%,稳定提升;
- 周频高手续费(3‰)测试中,新因子仍体现优势,平均多空收益2.55%相比老因子的-1.92%明显更好,但总体收益和IC降低,手续费效果显著。[page::8,9]
5. 多因子策略
5.1 策略构建方法
- 采用加权法将5个遗传规划因子基于夏普率合成为复合信号;
- 根据申万一级行业分类,分行业挑选前10%优质股票组成选股池,且以RSI作为对比基准;
- 设计多频率、多手续费条件下长短期调仓策略回测。
5.2 策略绩效分析
- 日频(1‰手续费)年化收益表现优异:2021年组合收益10.58%,超RSI基准9.42%,尽管2022年和2023年市场波动较大带来负收益,但组合相对跑赢基准,整段期间超额收益9.12%。信息比率达0.84,表现稳健。
- 从图表14策略业绩曲线可见,复合因子组合(红线)始终跑赢RSI(棕线)及等权组合,超额收益曲线稳定向上增长,说明模型优化有效提升收益。
- 周频同样趋势明显,手续费1‰下组合年化超额收益均超过5%,同时最大回撤控制较好,波动率低于日频,显示较好风险调整后收益表现(见图表15,16)。
- 手续费提高至3‰后,组合收益率和信息比率均有所下降,但依旧优于基准,表明鲁棒性较强(图表17,18)。[page::9,10,11]
6. 改进空间
作者明确表示,未来模型需在以下方面加强:
- 数据中性化处理,剔除市场共振因素,以增强因子独立性;
- 降低新因子之间潜在共线性,防止冗余信息导致模型效率下降;
- 扩大使用数据范围和样本容量,提高模型适用性及泛化能力;
- 适应度函数调整,更精准地指导遗传规划搜索优质公式区域;
- 算力提升以支持更复杂模型和更长迭代周期。[page::11]
7. 总结与风险提示
- 遗传规划因子挖掘技术通过模拟自然选择演化发现交易信号,能够有效提升传统技术指标预测能力,实测中证500基准获得6%年化超额收益;
- 新老因子比较,遗传规划优化因子在Rank IC、多空收益及组合表现上均优于传统因子;
- 投资者应针对不同市场状况和策略需求合理选择因子,重视风险管理与投资组合多元化。
- 研究对过拟合风险、新因子解释性差等有限性指出警示,提醒审慎使用。[page::0,11]
---
三、图表深度解读
图表1:公式树(Page 3)
- 展示遗传规划因子的树状结构表达,左子树为“add(x4, x6)”,右子树为“max(x8, x13)”,整体公式为y = (x4 + x6) * max(x8, x13)。
- 该结构体现公式的模块化构造,通过运算符分层组合变量,展现遗传规划的表达能力。
- 该图说明了遗传算法操作的基本单元,为后续演化提供基础。[page::3]
图表2:遗传规划的基本流程(Page 4)
- 流程图系统描述了遗传规划的关键步骤:从随机初始化公式群体开始,到计算适应度、选择优良个体、对子代进行交叉和变异,再回到新一代公式的形成,循环执行直到满足终止条件。
- 图中配合具体公式树的演变,充分体现了遗传规划动态优化的技术特征。
- 通过该流程保证最终因子在预测性能上的提升和多样性维持。[page::4]
图表3:拆解基础因子计算公式(Page 5)
- 展示了RSI的计算公式及其拆解基础因子解释,如股价上涨变化U、下跌变化D及其两周平均数。
- 该拆分确保原始因子得以细粒度处理,便于遗传规划算法灵活调用,增强挖掘多样性能。
- 为基础因子构建过程提供数学依据,夯实模型计算支撑。[page::5]
图表4:基础因子含义(Page 6)
- 表格明确列出每个基础因子名称和详细解释,包括价格上涨/下跌变化、成交量比、波动率和长短均线比等。
- 该解释帮助理解后续因子组合和遗传规划中变量的经济含义。
- 使后续模型及结果更具可解释性和信服力。[page::6]
图表5:基础因子相关性矩阵(Page 6)
- 该热力图色阶及数值体现了不同基础因子间相关强度。例如v5和v22高度相关(0.93),表示成交量相关指标信息重复;而U与D负相关(-0.38),符合价格上涨与下跌的互斥特性。
- 基于此矩阵筛选相关性较低因子以避免共线性问题。
- 该图是因子预处理的关键支撑,保障模型稳健。[page::6]
图表6:挖掘结果(日频、周频)(Page 7)
- 通过表格形式罗列遗传规划生成的alpha因子对应的S-表达式及其对应的数学公式表述。
- 日频alpha1通过LSratio和D的组合表达市场价格趋势和成交量变化交互,周频版alpha1通过最小函数组合,更加捕捉变量间微妙非线性关系。
- 该图深入展示了遗传规划挖掘出的新因子公式结构,揭示了创新性的量价因子设计思路。[page::7]
图表7至12:原始因子与新因子单因子测试对比及训练测试集对比(Page 8-9)
- 多表格展示新因子在不同频率(日频、周频)及手续费环境下,Rank IC指标及多空收益表现。
- 新因子普遍在IC和多空收益上胜出原始因子,体现了预测力加强。特定alpha2及alpha4因子多空收益达到20%以上为突出亮点。
- 训练集至测试集表现稳定,模型泛化能力较好;手续费增加时,收益降低显示交易成本敏感性。
- 通过图片或表格对比,读者可直观理解遗传规划优化后的优势。[page::8,9]
图表13至18:多因子策略绩效统计与业绩曲线(日频与周频,手续费不同)(Page 9-11)
- 表格详细统计年度组合收益、基准收益、超额收益、信息比率、最大回撤及波动率,全面展现策略风险收益特性。
- 综合因子构建的策略持续实现超额收益,且在不同手续费级别和交易频率下均具备稳定表现。
- 对比RSI基准,新策略信息比率及风险控制能力更强,表明优良的风险调整后业绩。
- 业绩曲线图直观描绘复合因子的累积收益跑赢基准表现,超额收益曲线稳步上升或保持优势,具备策略可操作性的视觉证据。
- 视觉和数据结合,完整支撑策略价值主张。[page::9-11]
---
四、估值分析
本报告本质属于因子研究及量化策略构建,没有涉及传统的企业估值分析(如DCF、市盈率等)。报告核心聚焦于技术分析因子效果和量化选股策略回测结果,故无估值模型及估值输入假设部分。[page::全报告]
---
五、风险因素评估
作者识别并提示了以下风险:
- 适用性风险:传统量价因子和遗传规划因子在不同市场环境和投资策略中的适用性不同,投资者需要结合自己的需求和市场状况合理选择。
- 过拟合风险:遗传规划模型若训练数据不足或市场频繁变化,可能导致过拟合,降低因子泛化能力。
- 解释性风险:遗传规划生成公式往往较为复杂,缺乏直观逻辑支持,影响策略透明度和风险控制。
- 交易成本敏感性:手续费水平变化对策略效果有显著影响,高交易成本可能削弱收益优势。
- 缓解措施涉及增加数据中性化处理、降低因子共线性和调整适应度函数,加强模型的稳健性和实用性。[page::0,2,11]
---
六、批判性视角与细微差别
- 优化因子解释性不足:遗传规划因子公式过于复杂且通常不具备简单的金融逻辑解释,可能影响投资者信心和监管接受度。
- 回测区间有限风险:回测数据截至2023年10月,主要样本区间涵盖2016年后期行情,市场主题周期变化可能带来数据偏差。
- 模型透明性:遗传规划生成的因子难以直观理解,可能增加策略维护难度。报告中未深度探讨动态调参或模型演进机制。
- 手续费选择偏低:主要手续费设置1‰,相对现实中部分市场更高交易成本,回测结果可能高估策略净收益。尽管测试了3‰手续费,但更高成本区间缺乏验证。
- 改进方向相对宽泛:改进部分包括“提高算力”等技术层面,缺少具体方案或实施路径,未来工作需进一步细化。
- 潜在隐含假设未充分说明:如因子稳定性假设、市场连续性等未透彻阐述,投资者应注意理解基础条件。
整体来看,报告方法论清晰但对复杂因子的可操作性和实务应用风险警示不足。[page::2,3,8,11]
---
七、结论性综合
本报告系统阐述并实证了利用遗传规划技术对传统量价因子进行优化的思路和效果。通过将传统技术指标拆解为低相关基础因子,结合遗传规划的复杂公式生成与进化演化能力,成功挖掘出在中证500指数样本上表现优异的创新因子。多频率、多手续费条件下的单因子测试均显示新因子在预测准确度(Rank IC)和策略收益能力上显著优于传统因子。基于遗传规划因子构建的多因子选股策略自2021年至2023年期间实现持续的年化超额收益(约6%),且信息比率和最大回撤均优于传统基准。
图表的柱状数值与业绩曲线相辅相成,有力佐证了遗传规划优化对选股策略性能提升的贡献。基础因子相关性矩阵的展示和因子拆解的细致做法增强了模型设计的科学性和有效性。区间内训练集与测试集的对比分析展现了因子具有一定泛化能力和抗过拟合特征。
风险提示提醒投资者理性使用遗传规划技术,关注市场环境与手续费波动对策略的影响,以及新因子解释性不足可能带来的管理和信任难题。报告同时强调未来在数据处理、因子稳定性和模型性能方面存在改进空间,表明该研究处于不断进阶阶段。
综上,报告整体呈现出充分的理论深度和实证力度,为量价因子优化提供了一条创新且有效的路径,具有较高的学术和实际应用价值,为投资研究领域注入了新的技术工具和思考方式。[page::0-11]
---
附:关键图片展示
- 图表1:公式树

- 图表2:遗传规划基本流程

- 图表14:日频多因子策略业绩曲线

- 图表16:周频多因子策略业绩曲线(手续费1‰)

- 图表18:周频多因子策略业绩曲线(手续费3‰)

---
本分析基于报告全文内容,页码引用明确标识,确保内容溯源与严谨性。