`

多任务学习选股模型的改进

创建于 更新于

摘要

本报告围绕多任务学习选股模型改进展开,提出引入夏普比率作为预测目标、采用腾讯PLE架构提升网络结构以及多周期组合优化策略,显著提升了因子和指数增强组合表现。回测显示,在周换手不超过20%的条件下,中证500增强组合年化超额收益18.1%,信息比率3.05,中证1000增强组合年化超额收益28.7%,信息比率4.24,表明模型具备稳健超额收益与风险控制能力 [page::0][page::2][page::15]。

速读内容


多任务学习选股模型架构及改进方向概述 [page::0][page::4][page::6]

  • 基线模型基于单层和双层GRU网络,分别对日K线、周K线和分钟K线进行收益预测并等权合成因子。

- 改进方向一:引入夏普比率作为预测目标,包含风险信息提升预测质量。
  • 改进方向二:采用腾讯2020年提出的PLE网络,利用多层专家和门控机制改善特征表征。

- 改进方向三:应用多周期组合优化,融合10日和20日收益预测,最大化长期与短期收益并限制换手率。

基线模型与多任务学习模型网络结构示意 [page::4][page::5][page::6]



  • 单任务和多任务区别在于多任务预测未来10日和20日收益率,采用动态加权平均多任务损失函数DWA,促进不同任务同步学习。

- PLE网络引入额外任务共享和特异专家层,多层门控网络动态融合特征,实现渐进式分层特征提取。


多任务学习+PLE+多周期优化模型示意及组合约束介绍 [page::8][page::9][page::6]


  • 多周期优化目标在于同时最大化短期(10日)和长期(20日)预期收益,加入当期及下期换手惩罚限制,降低组合换手率波动。

- 组合约束包括行业、市值偏离,下限控制等,周调仓频率,换手率单边上限20%。

回测绩效汇总与超额收益表现 [page::2][page::3][page::10][page::11][page::12][page::13][page::14][page::15]

  • 多任务学习和多任务+PLE模型均优于单任务基线,PLE模型优势明显,信息比率和Calmar比率有所提升。

- 多周期组合优化进一步减缓回撤,保持较优超额收益和信息比率。
  • 中证500增强组合多周期优化:年化超额收益18.1%,信息比率3.05,Calmar比率3.22。

- 中证1000增强组合多周期优化:年化超额收益28.7%,信息比率4.24,Calmar比率6.93。









量化因子构建及多任务学习因子效果总结 [page::10][page::11][page::12]

  • 日K线和周K线GRU因子均显示多任务学习+PLE模型以平均预测值方式表现最佳,RankIC均值和年化超额收益均优。

- 组合因子由日、周、分钟K线等权合成,PLE模型在选股能力和信息比率指标领先。
  • 回测显示,PLE结合多周期优化模型在信息比率和回撤控制表现优异,且换手率稳定。


| 模型 | 年化超额收益率 | 信息比率 | 最大回撤(Calmar比率) | 换手率 |
|----------------------------|----------------|----------|------------------------|---------|
| 单任务学习基线 | 16.19% | 2.80 | 6.11% (2.65) | 20.33 |
| 多任务学习基线 | 16.46% | 2.77 | 5.73% (2.87) | 20.30 |
| 多任务学习+夏普比率 | 17.57% | 3.00 | 5.44% (3.23) | 20.37 |
| 多任务学习+PLE | 17.89% | 3.00 | 6.08% (2.94) | 20.31 |
| 多任务学习+PLE+多周期优化 | 18.11% | 3.05 | 5.63% (3.22) | 20.29 |
  • 指标说明:年化双边换手率维持在20%左右,超额收益和信息比率持续提升,显示多任务学习及PLE、周期优化三项改进有效。

深度阅读

多任务学习选股模型的改进报告详细分析



---

一、元数据与报告概览


  • 标题:《多任务学习选股模型的改进》

- 作者/研究员:林晓明、何康
  • 发布机构:华泰证券股份有限公司研究所

- 发布日期:2024年5月6日
  • 研究主题:基于深度学习的多任务学习模型在选股策略中的应用改进,聚焦预测目标、网络结构与组合优化三个关键维度,围绕中证500及中证1000指数成分股的增强组合构建和回测。

- 核心论点和讯息
- 本文在现有多期限收益率预测基础上,分别从三个方面进行创新改进:引入夏普比率作为新的风险调整型预测目标;引入腾讯PCG团队2020年提出的先进多任务学习架构PLE(Progressive Layered Extraction)提升模型表征能力;采用多周期优化组合方法,实现多期限收益的协同优化并加以换手率约束。
- 测试结果显示这三项改进均带来模型预测及组合表现的提升,其中PLE架构优于仅引入夏普比率,结合多周期优化的PLE模型在指数增强组合的超额收益表现方面领先多数对照组,兼具较好的回撤控制。
- 中证500增强组合年化超额收益达18.1%,信息比率3.05,Calmar比率3.22;中证1000增强组合年化超额收益达28.7%,信息比率4.24,Calmar比率6.93,均体现了优异的收益风险特征。
  • 主要结论:基于多任务学习的深度模型通过结构创新与目标函数优化,显著提升选股因子有效性与组合表现,尤其PLE结合多周期优化策略,兼顾收益和风险控制,实现选股模型向“通才”智能迈进。


---

二、章节深度解读



2.1 研究导读



报告说明,之前华泰金工团队的多任务学习研究表明,多任务机制相比单任务学习带来性能提升。此文基于此进一步从三个维度改进:
  • 引入夏普比率作为风险调整型的预测目标;

- 参考腾讯2020年提出的PLE模型引入多层专家和门控机制;
  • 采用多周期组合优化,融合不同期限收益预测。


改进显著提升模型表现,回测覆盖2016-12-30至2024-04-30,涵盖行业、市值及行业偏差控制约束,换手率每周不超过20%。引入PLE结合多周期优化模型超额收益明显优于其他对照组,尤其在风险调整能力上表现突出。[page::2]

---

2.2 基线模型及多任务学习基础


  • 基线架构

- 单任务学习基线采用两层GRU分别处理日线与周线数据,预测未来10日收益率形成单因子;
- 分钟线构造50个人工因子,基于最大化10日ICIR的合成方法得到单因子;
- 日、周、分钟因子等权合成作为最终输入。
  • 多任务学习基线模型改为双任务(预测未来10日和20日收益率),取10日预测或两者均值作为因子;

- 多任务学习相比单任务,利用任务共享层(硬共享参数)及任务特定层,促进信息迁移和泛化,损失函数采用动态权重平均(DWA)方法,提升各任务训练平衡。[page::4][page::5]

---

2.3 改进方向一:引入夏普比率作为预测目标


  • 基线模型仅用收益作为预测目标,风险因素未直接纳入,存在只考虑收益的局限;

- 改进做法是增加20日夏普比率预测任务(﹣因10日窗口太短易受异常值影响),即新增收益风险权衡的任务;
  • 结构为多任务GRU三输出,分别预测10日收益、20日收益和20日夏普比率;

- 该改进尝试将风险调整收益作为学习目标,有望缓解过拟合并提升风控能力。[page::6]

---

2.4 改进方向二:引入PLE网络架构


  • 传统硬共享结构简单但局限性明显,因共享所有任务层参数对个别任务不够灵活,可能导致“顾此失彼”;

- PLE由腾讯2020年提出,是一种分层式多任务学习架构,核心创新包括:
1. 专家网络分离:任务共享专家与任务特定专家网络分开,分别提取共性与个性特征;
2. 门控网络机制:动态融合专家输出,依据样本动态加权,突出个体差异;
3. 多层级专家:多层专家逐层提取浅层至深层信息,层层递进优化表示;
  • 本文将PLE架构具体引入多任务双层GRU网络:

- 第一层输入为统一原始K线,浅层任务共享和任务特异专家分别独立提取后门控融合;
- 第二层输入为下层已处理数据,继续深层提取后门控融合;
- 门控单元为单层GRU,Softmax输出融合权重;
- 后续任务特异层维持与基线一致;
  • 该设计有效缓解硬共享限制,提高模型的特征表征灵活性和精准度。[page::6][page::7]


---

2.5 改进方向三:多周期组合优化


  • 基线多任务模型对多期限收益预测简单取均值,缺乏投资层面的明确语义;

- 多周期优化引入Boyd等人2016年凸优化框架,目标函数结合短期和长期预测收益同时最大化,并包括换手率惩罚降低交易频率;
  • 优化目标:


$$
\max{w,w2} w^\top u1 - \lambda1 \|w - w^-\| + w2^\top u2 - \lambda2 \|w2 - w\|
$$

其中:
- $w$: 当前持仓权重;
- $w^-$: 上期持仓;
- $w2$: 下一期持仓预期;
- $u
1$: 短期收益率预测;
- $u2$: 长期收益率预测扣除短期部分,用公式计算;
- $\lambda
1$, $\lambda2$:当前期与下期换手惩罚系数,均设为0.2(可调优)。
  • 该目标兼顾收益最大化与换手抑制,组合整体持仓更合理,体现提前规划换手率。

- 结合多任务学习模型不同期限收益预测,多周期优化输出风险调整更优的股票权重分配方案。[page::8][page::9]

---

2.6 模型测试与表现分析



因子层面


  • gru1day(日K线因子)gru_5day(周K线因子)指标均显示:

- 多任务学习优于单任务;
- 多期限预测取均值优于单一10日预测;
- 夏普比率和PLE改进均优于对应基线,同组内无显著优劣排序;
  • 对应Top层相对净值曲线中,多任务学习+PLE取平均模型表现最佳,明显跑赢基线。[page::10][page::11]


合成因子和指数增强组合层面


  • 合成因子(等权日、周、分钟因子)表现与单因子趋势一致;

- 中证500指数增强组合回测:
- 多任务学习+PLE及引入夏普比率模型均优于基线,多任务学习+PLE略优夏普比率模型;
- 取均值方案优于单10日预测方案;
- 相关指标:年化超额收益率、信息比率、Calmar比率均有提升。[page::11]
  • 中证1000指数增强组合回测:

- 多任务学习+PLE取平均模型在年化超额收益和Calmar比率方面领先;
- 多任务学习+夏普比率取平均模型信息比率最佳;
- 换手率及月胜率均维持于较优水平,合规控制换手。[page::12]

多周期优化组合层面


  • 多周期优化模型将多任务学习+PLE预测10日及20日收益输入优化器:

- 在超额收益、信息比率略弱于单独20日预测方案,但Calmar比率表现更佳,回撤控制优势明显;
- 换手率惩罚参数设定较小,实际换手率与基准相近,提升换手率调节灵活度;
- 通过调节惩罚参数可实现在换手率和收益间的权衡;
  • 中证500及中证1000指数增强组合均体现以上特征,累计超额收益呈线性持续增长,最大回撤受控。[page::13][page::14]


---

三、图表深度分析


  • 图表1与图表3(累计超额收益与最大回撤)


- 以中证500和中证1000指数为基准,红线(多任务学习+PLE+多周期优化模型)累计超额收益长期领先蓝线及黑线(基线模型),侧面印证改进有效。
- 最大回撤(右轴)波动明显缩小,尤其对应多周期优化模型,说明回撤管理能力改善。
  • 图表2与图表4(回测绩效表)


- 明确量化年化超额收益、跟踪误差信息比率、最大回撤Calmar比率、月胜率、年化换手率各指标;
- 多任务学习+PLE+多周期优化模型综合表现最优,换手率未显著增加,体现风险控制和交易成本考量。
- 例如中证500模型年化超额收益达到18.11%,信息比率3.05,Calmar比率3.22;
  • 图表7与图表8(多任务学习模型网络结构)


- 显示日K线及周K线采用双层GRU任务共享层,分支到任务特定层形成两目标输出,多个任务用DWA动态加权损失函数训练,突出现代多任务学习设计思想。
  • 图表11与图表12(PLE模型结构)


- 形象展示任务共享专家与任务特异专家分层设计,门控网络动态加权融合,采用两层专家网络逐级提取特征,增强模型灵活性和表达能力。
  • 图表13(多周期优化示意图)


- 结合多期限因子输入,展示短期与长期预测分别合成后进入多周期优化模块,体现投资组合长期及短期收益和换手率双重目标。
  • 绩效曲线图(图表15、17、19、23、26)


- 不同因子的Top层相对净值曲线和最终增强组合累计超额收益曲线均呈现长期单调上升趋势,且改进模型(PLE,多周期优化)普遍跑赢基线。

---

四、估值分析



由于本报告属于选股策略及模型改进研究,未涉及公司财务估值,故无传统估值模型(DCF、市盈率等)分析。报告重点聚焦模型预测精度和组合收益风险表现。

---

五、风险因素评估


  • 模型的主要风险和限制包括:

- AI模型基于历史数据总结市场规律,历史规律未来可能失效;
- 深度学习存在过拟合风险,模型表现受训练时随机数种子影响较大;
- 回测的假设条件理想化(如假设以vwap价格成交,忽略其他交易成本与市场冲击),实际应用可能面临更多复杂交易执行风险;
- 模型调仓频率较高,可能增加实际交易成本和市场影响;
- 对PLE及夏普比率引入的机理理解尚不充分,未深入分析各改进方法带来的具体性能提升来源。

报告对这些风险有明确提示,但未提供具体的缓解或防范措施,建议未来研究中强化相关环节。[page::0, page::16]

---

六、批判性视角与细节


  • 报告在实验框架上严谨,覆盖因子层面和组合层面,多重指标证明改进有效性;

- 不过对引入夏普比率和PLE架构的“改进原理”缺乏深入解释。例如,引入夏普比率是否仅缓解过拟合,而非显著提升风险预判?PLE是否仅因模型复杂度上升带来效果,还是提升了特征表达?
  • 换手率惩罚参数设定较小,实际换手率接近上限,未来可探索如何平衡收益与交易成本优化更为理想;

- 多任务学习与多周期优化结合效果虽好,但测试全部基于中证指数成分股,行业及市场环境多样性尚未验证,实用推广应注意该点;
  • 图表中部分表内容存在排版及文字错误(如部分表标题与内容错配),建议排版更规范。


---

七、结论性综合



本报告以多任务学习为主体框架,针对股票市场短中期收益预测问题,从预测目标(引入风险调整指标夏普比率)、神经网络结构(采用腾讯PLE多层专家门控网路架构),以及构建层面组合优化(多周期优化兼顾多期限收益及换手率控制)三方面进行了系统改进和深度测试。

主要发现包括
  • 多任务学习模型优于单任务学习,不同期限收益的多目标学习提升了模型泛化和预测能力;

- 引入夏普比率作为预测任务,实现风险信息的直接建模,虽然提升有限但有益于控制风险;
  • PLE架构通过任务共享专家和任务特异专家分工及动态门控,优化了特征提取效率和精度,取得比夏普比率更稳定的提升效果;

- 多周期组合优化策略联合短期与长期收益预测并纳入换手约束,不仅提升组合年化超额收益(中证500达到18.1%,中证1000达到28.7%),同时显著改善组合的风险指标和回撤控制(Calmar比率分别3.22和6.93);
  • 测试回测期长达7年多,结果具有较强的统计说服力;

- 报告图表充分,细节丰富,具体模型结构和测试指标清晰展示,便于理解和复现。

总结而言,报告通过多层专家和门控机制提升多任务学习选股模型的内在表征能力,同时融合包括收益、夏普比率的多元预测目标和多期限信息,实现了选股因子预测性能与组合实盘表现的提升,是人工智能量化投资领域技术与方法创新的重要实例,对类似多任务学习与组合策略研究具有指导价值。[page::0, page::2, page::6, page::8, page::10, page::13, page::15]

---

以上为对《多任务学习选股模型的改进》报告的详细系统解析,内容涵盖报告各章节核心信息、技术方法、数据结果、图表解读与批判,旨在为读者完整深入理解报告提供帮助。

报告