`

深度学习赋能交易行为因子 | 开源金工

创建于 更新于

摘要

本报告系统介绍了基于LSTM模型的深度学习因子挖掘与改进方法。通过引入财务数据,构建了RankIC达到9.17%的月频因子LSTM_pro,提升了多头端的分层效果。对比遗传算法Alpha185与人工因子,深度学习因子在多头超额收益表现最优。进一步通过LSTM改进理想反转因子,显著提升了收益率和IC表现。回测结果显示,深度学习因子在中证1000指数增强上取得15.74%的超额收益,展现较强实用价值。[page::0][page::2][page::4][page::7][page::10]

速读内容

  • 遗传算法Alpha185因子挖掘流程:涵盖个体初始化、种群构建、选择、交叉、变异五步骤,采用创新“切割算子”提升有效挖掘概率。[page::1]


- Alpha185自2017年至2024年回测表现优异,RankIC达到12.14%,多空年化收益34.79%,样本外表现同样稳健。
  • LSTM框架因子挖掘结构与输入层变量:[page::2][page::3]

- 输入层包括三大类变量:大小单资金流、分钟频量价、日频量价,经过时序标准化、去极值等预处理。

- 主体模型采用2层LSTM并结合Self-Attention,损失函数采用负IC。
- LSTMinit因子RankIC为8.08%,年化多空收益30.16%,但多头分层较弱。
  • 财务数据融合及因子性能提升:[page::4][page::5]

- 财务指标涵盖成长、盈利、偿债能力等9大类,转化为分位点后与量价指标拼接。
- LSTM
pro因子RankIC提升至9.17%,年化多空收益35.14%,收益波动率和回撤明显降低,多头分层显著改善。

- 多输出LSTMpromulti因子输出3个低相关因子,综合后绩效稍低于单输出版本,但波动率有所下降。

| 因子名称 | RankIC | RankICIR | 年化多空收益(%) | 收益波动比 |
|--------------|---------|----------|----------------|------------|
| LSTMinit | 8.08% | 3.99 | 30.16 | 3.37 |
| LSTM
pro | 9.17% | 4.49 | 35.14 | 3.99 |
| LSTMpromulti | 8.94% | 4.27 | 34.11 | 4.07 |
  • 模型在不同样本空间表现:[page::6]

- LSTMpro在沪深300、中证500和中证1000分别实现不同的多空年化收益,中证1000中表现最佳,年化31.29%。
  • 深度学习因子在中证1000指数增强应用:[page::7]

- 组合约束严格,表现稳定,超额年化收益15.74%,长期收益持续为正。
  • 人工因子、遗传算法因子与深度学习因子比较:[page::8][page::9]

- 人工因子包含理想反转、APM等8大因子,综合RankIC达11.10%。
- 遗传算法Alpha185因子RankIC最高为12.14%。
- 深度学习因子LSTM
pro在多头超额收益表现最优,适合指数增强。


  • 基于LSTM的理想反转因子改进应用:[page::10][page::11]

- 原始理想反转因子年化收益23.37%,收益波动比2.84,多头超额收益4.61%。
- 新增损失函数考虑与原因子相关性,改进后RankIC提升至-9.03%,多空对冲和多头超额收益显著提升。


| 因子 | RankIC | RankICIR | 年化多空收益(%) | 多头超额收益(%) | 收益波动比 |
|--------------|------------|----------|----------------|--------------|------------|
| 原始理想反转 | -7.6% | 2.84 | 23.37 | 4.61 | 2.84 |
| 改进理想反转 | -9.03% | 4.13 | 显著更高 | 显著更高 | 略无差异 |

深度阅读

深度学习赋能交易行为因子 —— 开源证券金融工程团队深度量化研究报告详尽分析



---

1. 元数据与报告概览


  • 报告标题:《深度学习赋能交易行为因子 | 开源金工》

- 作者及机构
- 主笔为开源证券金融工程首席分析师魏建榕,复旦大学理论物理学博士、券商顶尖量化专家;
- 开源证券金融工程高级分析师盛少成(联系人)主要负责基本面量化与深度学习研究;
- 团队专注量化投资、行为金融学和市场微观结构,具备丰富实证与实战经验。
  • 发布日期:2024年5月24日发布,系列研究总结并推进深度学习因子挖掘与改进技术。

- 研究主题:深度学习(特别是LSTM神经网络)在交易行为因子挖掘与改进中的应用,结合传统遗传算法和人工因子,构建多层次交易因子体系。
  • 核心结论

- 通过改进遗传算法创新出“切割算子”生成Alpha185,表现稳健优异;
- 基于LSTM框架挖掘深度学习因子,尤其引入财务数据后,多头端分层和表现显著提升;
- 多输出LSTM因子训练成本高且收益提升有限,故推荐单输出因子 LSTMpro;
- 深度学习因子在中证1000指数增强上的表现优于传统人工因子和遗传算法因子,在多头超额表现最优;
- 基于LSTM实现理想反转因子改进,综合绩效明显优于原始因子;
- 风险提示聚焦历史数据有效性的限定与模型适应未来市场变化的限制。

---

2. 逐章节深度剖析



2.1 遗传算法绩效回顾



核心观点
开源金工团队基于改进遗传算法,通过“切割算子”等创新手段,完成一次10代遗传算法迭代,挖掘出Alpha185因子。其从2017年-2024年表现出色:
  • 合成因子RankIC为12.14%,说明因子排序能力较强;

- RankICIR (RankIC信息比率)高达4.45,表明稳定性极佳;
  • 10分组多空年化收益高达34.79%,信息比率3.16,反映出超额收益明显;

- 样本外测试也表现良好,稳健性好;
  • 遗传算法步骤涵盖个体初始化、选择、交叉、变异,通过控制变量相关度、引入“父子代替换”等机制保证效率和多样性(详见图1,遗传算法三大阶段流程)[page::0,1,2]


推理及假设:算法依托历史回测数据为评估标准,信息系数(IC)作为损失函数核心,定量化遗传算法每代的表现。

2.2 基于LSTM框架的因子挖掘



因子挖掘分为4部分(图3):
  • 输入层涵盖三大类变量:日频量价、分钟频量价、大小单资金流(资金流细分多档,包含主动超大单等);

- 预处理对变量时序做标准化、去极值等操作;
  • 中间主体采用 2 层 LSTM 结合自注意力机制(Self-Attention)建模未来20天收益率;

- 融入财务数据(分位形式)在输出层前共同全连接,提升多头端表现;
  • 输出包括单输出和多输出方案,其中后者引入因子间相关性惩罚以降低因子相关性。


输入层设计
通过覆盖多维时序指标全面捕捉交易行为,且采用层级预处理确保数据的时序与横截面稳定性。

LSTM模型参数细节
  • 回看4个月数据预训练,滚动窗口固定6年,模型每年更新;

- 使用IC的负数为损失函数,保证模型优化直接对应因子IC;
  • 考虑模型过拟合的监控机制早停(Early-stopping)。


关键数据点
  • 单输出模型 LSTMinit 因子RankIC 8.08%,RankICIR 3.99,10分组多空年化收益30.16%,波动比3.37(收益/波动比,指投资效率);

- 加入财务数据后形成 LSTMpro,RankIC提升至9.17%,ICIR提升至4.49,多空年化收益35.14%,波动比提升到3.99;
  • 多输出LSTMpromulti虽然复合分散风险,但反而导致RankIC和ICIR轻微下降,且相关性未能降低到理想水平(约46%),训练成本较高,不被本报告推荐[page::2,3,4,5,6]


解释
财务数据因其季频变化,加入输出层前能更好与量价因子融合,改善多头端股票分层能力和收益波动表现。

2.3 多样本空间下的LSTMpro表现及指数组合应用


  • 在沪深300、中证500、中证1000等不同指数空间检测时,LSTMpro在中证1000表现最好(多空年化31.29%,信息比率3.10),说明在中小市值股票中捕捉alpha能力更强;

- 以中证1000指数增强组合为例,自2019年至2024年4月,未超过50%换手率、个股权重及风格行业暴露控制严格条件下,组合超额年化净收益达15.74% ;
  • 各年均录得正超额,说明稳定性良好,包括2024年也维持正收益[page::6,7]


2.4 人工因子、遗传算法因子与深度学习因子对比


  • 人工因子体系中,基于日频、分钟级量价及资金流构造8大因子(理想反转、APM、聪明钱等)等权组合,综合RankIC 11.10%,表现优异;

- 遗传算法Alpha185因子RankIC 12.14%,ICIR 4.45,竞争力显著;
  • 深度学习因子LSTMpro与遗传算法指标相近,ICIR 4.49,尤其多头超额方面表现最佳;

- 多因素表现对比(表7)显示,人工因子多空对冲优,深度学习多头超额最突出;
  • 2024年初以来,深度学习因子表现有所弱化,略逊于其他两类因子(图10)[page::0,8,9]


逻辑关联:人工因子来源于经验,遗传算法提供系统化搜索,深度学习则利用非线性建模深度挖掘特征。

2.5 基于LSTM框架的因子改进应用


  • 在对典型人工因子理想反转进行改进过程中,利用LSTM输入日频量价、分钟量价及资金流3大变量,同时设损失函数兼顾选股能力和与原始理想反转因子相关性;

- 改进后理想反转RankIC -9.03%,ICIR -4.13(绝对值显著高于原始因子的7.6%负IC),与原因子相关度约为53%,正负向更明确,选股能力提升明显;
  • 多空对冲和多头超额收益远超原理想反转,信息比率略无优势(相近水平);

- 改进说明深度模型擅长通过深度非线性关系捕捉传统因子未覆盖的信息,提高反转因子效果[page::9,10,11]

---

3. 图表深度解读



图1:遗传算法整体流程(page 1)


  • 展现遗传算法包括个体初始化、初始种群构建、选择、交叉、变异和代替换机制(父子代替换);

- 具体例子包括赋予变量和算子、最大深度限制、RankIC门槛>2和相关系数限制;
  • 体现流程严格控制变量复杂度和多样性,提高演化效率。


图2:Alpha185因子合成后10分组表现(page 2)


  • 不同分组(1-10)表现稳健,多空对冲显著;

- 样本内外均优异,尤其从2022年样本外表现验证;
  • 说明改进遗传流程稳定、泛化能力强。


图3:LSTM因子挖掘整体流程(page 2)


  • 清晰分层步骤突出数据预处理、LSTM主模型、财务数据并入及因子输出调整;

- 结构合理,涵盖了深度因子挖掘的关键环节。

图4:$LSTM{init}$ 因子10分组表现(page 3)


  • 多空收益明显,满足基础选股功能;

- 多头端分层表现较弱,属于纯量价类因子通病,为后续引入财务数据铺垫。

图5:财务数据并入后的 $LSTM{pro}$ 因子表现(page 5)


  • 多头端表现明显改善,10分组分层差异进一步拉大;

- 多空对冲稳健,因子波动与回撤明显减少;
  • 证实财务层面信息整合增强因子稳定性。


表1、表2:变量构成及财务指标分类(page 3和4)


  • 三大输入变量类多维细化,确保因子输入的丰富性和多元性;

- 财务指标涵盖成长、盈利、质量、偿债、资本结构等9大类别,增加覆盖面的深度。

表3:多输出因子绩效(page 5)


  • 三个输出因子RankICIR均超过3,绝对收益良好;

- 合成为$LSTM{pro\multi}$后表现不强于单输出,说明多因子复杂扰动训练提高成本、降低收益。

图6:多输出 $LSTM{pro\multi}$ 10分组表现(page 6)


  • 多空对冲收益波动比提升,但RankIC稍下降;

- 反应多输出模型表现稳定性有所提升,但选股精准度有小幅折损。

图7:$LSTM{pro}$ 在中证1000指增净值表现(page 7)


  • 组合稳健上行;

- 多年持续正超额收益,说明因子在实际投资组合中有效。

图8:人工因子、遗传算法和深度学习因子挖掘流程对比(page 8)


  • 框架图明确不同因子挖掘的差异来源与方法逻辑;

- 有利理解不同因子体系构建的理念差异。

图9:人工因子单因子RankIC统计(page 8)


  • 各因子RankIC高低差异明显,综合因子达11.1%,验证因子组合效应。


图10:三类因子中证1000指增超额净值对比(page 9)


  • 深度学习因子整体领先于人工和遗传算法因子,2024年表现略降;

- 说明深度学习因子在多头选股仍有领先优势,但面临市场环境变化风险。

图11:理想反转因子原始表现(page 10)


  • 多空净值稳定上升,收益波动比2.84,基础选股能力明确。


图12:改进理想反转因子净值表现(page 11)


  • 清晰领先于原始理想反转;

- 表明LSTM改进可显著提升传统因子表现。

---

4. 估值分析



报告并未涉及公司估值模型,重点聚焦量化因子性能与其在指数增强组合的实证表现。

---

5. 风险因素评估


  • 历史数据依赖风险:模型均基于历史数据训练与测试,未来市场结构或微观行为可能变化,造成功效下降;

- 高维复杂模型过拟合风险:尤其多输出的LSTM模型,训练成本高且可能隐含过拟合隐患;
  • 数据质量风险:分钟与逐笔交易数据时序预处理及缺失数据填充可能影响模型准确性;

- 市场流动性限制:资金流指标需结合实际交易流动性,否则策略面临执行风险;

报告强调以上风险,但未提供具体的缓解策略,是当前量化研究领域普遍难点[page::11].

---

6. 审慎视角与细微差别


  • 报告强调深度学习因子优势,尤其多头选股,但2024年以来表现有所弱化,表明市场信号可能出现阶段性噪声或模型需持续更新;

- 多输出模型设计旨在提高多样性,但实际相关性未达预期,或因惩罚权重设置未优化,说明模型设计尚有提升空间;
  • 报告将理想反转因子改进视为示范,虽表现优越但相关性仅 moderate(约53%),存在信息替代或重叠效应,需注意解释因果关系的复杂性;

- 报告展现了细致的技术实现与实证对比,但对投资管理层面(如实际交易成本、滑点、宏观调整策略)讨论较少,属于理论与实战结合可深化的领域;
  • 遗传算法因子与深度学习因子间,且看多空对冲表现与多头超额收益权衡,提示策略多样化组合发挥更佳潜力。


---

7. 结论性综合



本报告系统展示了开源证券金融工程团队在交易行为因子构建上的技术创新与实证成果,核心亮点体现在:
  • 利用遗传算法创新带“切割算子”的Alpha185因子,表现稳健、样本内外均优;

- 基于LSTM深度学习框架设计因子,从三大类复杂的时序量价和资金流变量挖掘因子,加入财务数据大幅提升多头端分层和收益稳定性;
  • 多输出因子虽在风险控制和多样性上略有优势,但训练成本高且总体优越性未达预期,故最终推荐单输出因子 LSTMpro;

- LSTMpro因子在中证1000等中小盘样本空间表现最优,适合进一步增强指数投资;
  • 深度学习因子整体在多头超额收益表现优于人工因子和遗传算法因子,但人工因子多空对冲表现更佳,提示结合应用价值;

- 针对经典人工因子理想反转实施深度学习改进,选股能力和多空收益明显提升,展示深度学习在因子改进上的广泛潜能;
  • 报告详实利用多组图表(合成因子回测曲线、RankIC统计、多头分组表现等)直观展现了因子性能与改进轨迹;

- 风险提示明确历史数据依赖、模型过拟合和市场变化风险,强调模型动态维护的重要性。

综上,开源证券金融工程团队在微观结构与行为金融领域结合深度学习技术,打造具有实战潜力的交易行为因子体系,显示了量化投资技术的深度创新路径,为市场提供了科学、系统且可验证的因子构建框架和实操案例,为量化策略开发及优化提供了重要参考与借鉴。[page::0-11]

---

图表索引(部分)


  • 图1:遗传算法整体流程示意

- 图2:Alpha185因子10分组回测表现
  • 图3:LSTM因子挖掘整体流程

- 图4:LSTM
init因子10分组表现
  • 图5:加入财务指标后的LSTMpro因子表现

- 图6:多输出LSTM
promulti因子10分组表现
  • 图7:LSTMpro因子中证1000指增净值表现

- 图8:人工因子、遗传算法与深度学习因子挖掘流程
  • 图9:人工因子单因子RankIC分析

- 图10:三类因子中证1000指增超额净值对比
  • 图11:理想反转原始因子10分组表现

- 图12:改进后理想反转因子净值表现

---

免责声明



本报告基于开源证券认为可靠的信息和历史数据进行研究分析,不构成投资建议。投资者应理解模型和因子在未来可能受市场变化影响而失效。具体投资决策需结合自身风险承受能力及投资目标谨慎判断。

---

此份金融科研报告内容高度丰富、技术含量高、配合严谨的多维回测与演示图表,是深度学习与遗传算法融合微观结构交易因子研究的经典范例,具有极高的专业参考价值。

报告