华泰金工 | 多任务学习选股模型的改进
创建于 更新于
摘要
本报告从预测目标、网络结构和组合优化三方面改进多任务学习选股模型。创新引入夏普比率作为风险调整收益预测目标,采用腾讯PLE架构提升模型表征能力,并结合多周期优化实现不同期限收益预测融合。回测结果显示,PLE结合多周期优化的增强组合在中证500和中证1000指数上均获得优异的年化超额收益和信息比率,表现超越多种对照模型,且在回撤控制上具备优势 [page::0][page::1][page::12][page::13][page::14][page::15]
速读内容
- 研究背景与核心改进思路 [page::0][page::1]
- 基线模型采用多任务GRU网络,预测未来10日和20日收益率,分钟K线采人工构建因子并合成。
- 三大改进方向包括:引入夏普比率预测目标以纳入风险信息;引入腾讯PLE多层专家+门控网络提升特征表征能力;采用多周期优化融合不同期限预测,控制换手率。
- 回测时间为2016-12-30至2024-04-30,周单边换手20%条件。
- 多任务与单任务学习模型架构及区别 [page::3][page::4][page::5]


- 多任务学习同时预测10日和20日收益率,采用动态权重平均法(DWA)调整多任务损失权重。
- 多任务模型任务共享层采用两层GRU,任务特异层分别输出不同预测目标。
- 夏普比率引入与PLE架构设计 [page::6][page::7][page::8]



- 夏普比率作为风险调整指标被纳入为第三个预测任务,纳入20日夏普比率预测,避免10日过短区间异常值影响。
- PLE架构分任务共享专家和任务特异专家,结合门控网络动态融合多层专家输出,实现特征的渐进式分层提取。
- PLE基于双层GRU分别提取浅层和深层特征,门控单元使用GRU网络与Softmax激活。
- 多周期优化组合构建方法 [page::8][page::9]

- 将10日和20日收益预测作为输入,联合优化短期及长期组合持仓权重。
- 目标函数同时最大化短期和长期收益,附加换手率惩罚项,限制当期及下期换手。
- 惩罚系数λ1=λ2=0.2,兼顾收益提升与换手率控制。
- 测试结果总结 [page::9-14]
- gru1day(日K线)与gru5day(周K线)单因子层面,多任务学习均优于单任务,PLE和夏普比率引入均有提升,取10日和20日预测均值效果优于单一预测。


- 合成因子(水平均权)在因子和组合层面均展现优异表现,PLE模型表现优于夏普比率模型。

- 中证500增强组合引入PLE和多周期优化,实现年化超额收益18.1%、信息比率3.05、Calmar比率3.22。

- 中证1000增强组合引入PLE和多周期优化,年化超额收益28.7%、信息比率4.24、Calmar比率6.93,超额收益和风险控制表现领先。

- 量化策略与因子构建总结 [page::0][page::9][page::15]
- 构建多任务学习GRU模型,通过预测10日及20日收益率,结合夏普比率作为风险度量引入新的预测任务。
- 采用腾讯PLE架构引入多层专家系统和门控机制,提升模型特征提取能力,区分任务共享与特异专家。
- 使用多周期优化以统一组合优化框架同时最大化多个期限收益,并加入换手惩罚调控实际和预期换手率。
- 回测覆盖中证500和中证1000,模型综合表现年化超额收益显著优于基线,且换手率和回撤得到有效控制。
深度阅读
华泰金工 | 多任务学习选股模型的改进报告详尽分析
---
1. 元数据与概览
- 报告标题:《多任务学习选股模型的改进》
- 作者:林晓明、何康
- 发布机构:华泰证券金融工程团队
- 发布时间:2024年5月9日
- 研究主题:本文围绕量化选股中的多任务学习模型展开,重点探讨基于时间序列收益率预测的选股模型从预测目标、网络结构和组合优化三个角度的改进,推动人工智能在量化投资领域的应用创新。
核心论点与目标价/评级:
报告无具体目标价,但核心观点为引入夏普比率(考虑风险)、引入腾讯PLE架构(提升表征能力)和多周期组合优化,显著提升多任务学习模型的预测和投资组合表现。核心结果为改进模型在中证500、中证1000指数增强组合中取得年化超额收益分别为18.1%和28.7%,信息比率分别为3.05和4.24,显示较强的选股能力和风险调整收益[page::0,1,14]。
---
2. 逐节深度解读
2.1 研究导读与基线模型概述
报告回顾华泰证券此前研究,介绍多任务学习(MTL)取代传统单任务学习(STL)的优势在于知识迁移与共享表征,使模型表现更稳健。基线模型构建如下:
- 数据输入:日K线、周K线、分钟K线
- 模型结构:日K线和周K线用双层GRU预测未来10日和20日收益率;分钟K线构建50个人工因子,采用最大化10日IC信息比率(ICIR)法合成单因子
- 因子合成:以上三个因子等权合成
- 损失函数:基于截面IC的反向均值
- 多任务学习架构:任务共享层为两层GRU,任务特异层独立输出目标,训练中引入动态加权平均(DWA)平衡多个任务间的学习速度。
该基线模型核心在于收益预测,未考虑风险信息[page::0,1,3,4,5]。
2.2 改进方向一:引入夏普比率作为预测目标
传统仅预测收益不考虑风险,模型容易过拟合短期收益。为引入风险调整考虑,本研究新增20日夏普比率预测任务(舍弃10日夏普比率因波动性过大),作为多任务学习的第三目标,实现收益与风险的权衡学习。模型架构在原有多任务GRU基础上添加该任务特异输出层(见图表10),损失函数同样基于IC反向均值。改进方向有效提升对风险调整后收益的捕捉能力[page::0,6,9]。
2.3 改进方向二:采用腾讯PLE网络架构提升表征能力
腾讯PCG于2020年提出的PLE(Progressive Layered Extraction)模型采用“多层多类型专家+门控网络”架构,与硬参数共享机制的单一共享层相比,PLE更灵活地分离任务共享与任务特异专家,且通过“动态门控”实现输入样本级别的专家输出融合。其优势体现在:
- 任务共享专家负责抽取所有任务共性特征
- 任务特异专家针对单任务抽取特定特征
- 多层专家逐层提取浅层至深层信息,实现“渐进式提取”
本研究将PLE替代基线双层GRU的共享层与特异层,中间引入GRU结构的专家层+GRU门控层(Softmax激活),有效提升模型对复杂多任务场景的特征表达能力[page::0,6,7,8]。
2.4 改进方向三:多周期组合优化
基线中多任务学习结果对不同期限收益率预测值简单求均值生成单因子,但该方法忽视不同期限收益率的投资权重及换手率影响。为此,改进方向三引入多周期组合优化(multi-period optimization)框架,本质如下:
- 组合优化目标不仅最大化短期(10日)预期收益,还最大化扣除短期收益后的长周期(10~20日)收益
- 同时引入两期(当期w与下期w2)的换手率惩罚项,限制频繁换手带来的交易成本风险
- 权重调节因子λ1、λ2设置为0.2,可调节追求收益与换手率的平衡
这一框架“未来视野更长”,考虑较大时间跨度上的收益及换手率风险,提升组合的稳健性与投资意义[page::1,8,9]。
---
3. 图表深度解读
3.1 日K线gru1day因子(图表14-15)
- 内容描述:对比单任务基线、多任务基线(取10日预测和取均值)及多任务+夏普比率和多任务+PLE模型的RankIC均值与其他指标
- 解读:
- 多任务学习显著优于单任务学习,表明信息共享有效提升预测能力
- 多任务取均值优于仅取10日收益预测,说明利用不同期限信息更稳定
- 引入夏普比率和PLE均有提升效果,虽然未绝对优劣明确,但均优于纯收益多任务基线
- 趋势说明:PLE和夏普比率模型使因子净值曲线相对更陡峭且更稳定(图表15),说明策略收益更高且风险较优[page::10]。
3.2 周K线gru5day因子(图表16-17)
- 内容描述:同样对比周K线因子各模型表现
- 解读:
- 多任务学习大多数形式均明显优于单任务基线
- 均值合成预测优于单一10日预测
- 引入PLE和夏普比率均提升效果,但无绝对优势判定
- 趋势说明:净值曲线粉饰效果与日K线因子类似,PLE模型表现稍有优势[page::11]。
3.3 合成因子与指数增强组合表现(图表18-21)
- 内容描述:基于三个因子等权合成的多任务模型,构建中证500和中证1000指数增强组合,展示回测年化超额收益与风险调整指标(信息比率、Calmar比率)
- 解读:
- 合成因子RankIC与分因子规则一致,多任务模型优于单任务
- 组合层面,引入夏普比率和PLE改进促使超额收益和信息比率显著提升
- PLE改进表现稍优于夏普比率,尤其在年化超额收益率指标上更为明显
- 中证1000增强组合表现优于中证500,表明改进模型对中小盘股票选股更有效
- 趋势说明:多任务+PLE改进可提升组合收益率和风险调整收益,增强选股效能[page::11,12]。
3.4 多周期优化组合表现(图表22-27)
- 内容描述:多周期优化模型应用于多任务+PLE成果,展示中证500和中证1000增强组合累计超额收益、最大回撤和逐月超额收益情况
- 解读:
- 多周期优化相较于单周期组合超额收益略有下降,但Calmar比率显著提升,表明回撤控制更优
- 换手率约束虽较宽松(λ=0.2),但仍可有效调节换手率,展现投资“长远视野”下的稳健性
- 累计超额收益曲线平滑上扬,最大回撤保持较低水平,逐月超额收益波动较为均匀
- 中证1000组合多周期优化表现更佳,信息比率和Calmar比率显著领先其他对照模型
- 趋势说明:多周期优化是连接不同期限预测与实际组合交易的关键环节,实现短长期收益平衡和降低换手续费率的有效工具[page::12,13,14]。
---
4. 估值分析
本报告侧重于多任务学习模型的构建与实证回测,未涉及传统财务估值模型(如DCF、市盈率等)内容,因而无相应估值部分。
---
5. 风险因素评估
报告明确提示:
- 历史效应风险:人工智能挖掘市场规律是基于历史数据,规律未来可能失效,导致模型预测失准。
- 过拟合风险:深度学习模型可能受过拟合影响,尤其在金融市场这种非平稳环境中。
- 模型稳定性:随机数及训练过程波动性较大,模型效果存在随机性。
- 交易执行风险:选股模型调仓频率较高,假设交易按成交量加权平均价格(VWAP)执行,未考虑交易成本滑点等市场执行风险。
上述风险可能影响模型实际运用效果,投资者需谨慎评估[page::16]。
---
6. 批判性视角与细微差别
- 改进效果原因未深入探讨:报告承认夏普比率引入是否仅缓解过拟合,PLE机制是否仅因模型复杂度提升而非实际增强特征学习,仍需进一步验证。
- 参数寻优空间:多周期优化中的惩罚系数λ1、λ2设置较保守,未呈现系统性参数寻优过程,实际效果可能有提升潜力。
- 交易层面假设简化:调仓频率较高但忽略交易成本、滑点等,可能导致理论优越性难以完全转化为实际收益。
- 样本扩展:报告建议结合基本面数据进行更长期预测,当前聚焦于量价数据,可能限制选股模型的视角。
- 模型内部复杂性与稳定性权衡:多层专家、门控机制虽然提升模型表现,但带来训练复杂度与计算成本增加,需注意实务可行性。
整体报告逻辑清晰,数据充分,改进措施与结果一一对应,尚无明显内在矛盾。
---
7. 结论性综合
华泰证券金融工程团队在《多任务学习选股模型的改进》报告中,通过三大方向的核心改良:
- 引入夏普比率作为预测目标,实现收益风险兼顾的多任务训练,提升因子预测的稳定性和抗过拟合能力;
- 采用腾讯PLE架构,引入两类(任务共享与特异)多层专家与GRU门控网络,增强模型处理多任务时的特征表达能力;
- 多周期组合优化框架,实现不同期限收益预测与持仓换手率的统筹权衡,提高投资组合的风险调整收益和回撤控制,提升实用投资价值。
通过详尽的因子检验和组合回测,改进模型在中证500和中证1000两个市场指数的指数增强策略中均表现优异,年化超额收益分别达18.1%和28.7%,信息比率分别为3.05和4.24,Calmar比例显著提升,体现了收益的可持续性和抗风险能力。图表2、3、22至27的累计超额收益和最大回撤曲线均说明改进模型的长期稳定性得到实证验证。
本研究明确指出基线多任务学习模型已优于单任务基线,引入PLE技术整体优于仅加入夏普比率预测目标,且结合多周期组合优化后,改进效果更突出。尽管模型在交易执行和参数优化等方面尚有提升空间,报告为量化选股领域提供了借鉴价值极高的技术路线和稳健的实证基础[page::0,1,2,3,8,9,13,14,15]。
---
附:关键图表引用示例
- 图表1(page 2)及图表3(page 3):展示多任务学习+PLE+多周期优化模型较基线模型在中证500和中证1000指数的累计超额收益及最大回撤,红线明显领先蓝线,蓝色柱体对照换手对风险的控制。
- 图表12(page 8):PLE网络结构详细示意图,呈现任务共享专家与特异专家的层级关系及门控单元融合机制。
- 图表13(page 9):多周期优化组合模型示意,展示短期预测、长期预测及等权合成步骤,强调多周期权重的组合优化。
- 图表23、26(pages 13,14):多周期优化指数增强组合累计超额收益展示,收益曲线持续上扬,回撤远低于同期最大跌幅,体现策略优异性。
请根据具体需要查阅对应页码图片以获取更直观理解。
---
结语
该份华泰金工报告在兼顾智能算法深度拓展以及金融实际组合问题综合创新方面体现了较高水准,为量价数据驱动的多任务选股模型开发提供了一套系统完善、实证严谨的技术方案。模型及组合回测数据科学严密,结论有说服力,具备较强参考价值。未来学术与实务可围绕风险嵌入机制的进一步强化、PLE模型多变体比较及多阶段多周期组合调优开展更深入研究。
---
[全部结论均基于报告原文,引用页码标注以便追溯][page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]