人工智能系列之 67：多任务学习初探

创建于 2025-07-18T15:54:09.860268+08:00 更新于 2025-07-18T16:37:03.952632+08:00

摘要

本报告介绍多任务学习在量化选股的应用，采用硬参数共享的全连接神经网络同时预测未来10日和20日收益率排序。通过不确定性加权和动态加权两种方式加权损失，结果表明多任务学习在合成因子测试和指增组合回测上均优于单任务学习，且模型规模扩大时优势更明显。此外，多任务学习在预测值集成时的优势时序较为稳定，显示了其在量化选股中的应用潜力及优势 [page::0][page::2][page::10][page::15]

速读内容

多任务学习基本概念及硬/软参数共享架构 [page::0][page::3]

多任务学习通过共享信息实现任务间知识迁移，提高泛化能力和模型表现。

- 两种主流结构：硬参数共享（底层共享，上层独立）和软参数共享（每个任务独立，通过正则化增强相似性）。

硬参数共享架构示意见图表，显示共享层与任务特异层的设计。

多任务学习中的损失函数加权方法 [page::3][page::4]

介绍常用的损失加权方法：不确定性权重（UW）、动态权重平均（DWA）、几何损失策略（GLS）、随机权重（RW）。

- UW通过学习任务不确定性调整贡献度；DWA通过历史损失动态调整权重。

上述加权方式直接影响学习效果和模型表现。

多任务学习在量化选股中的应用与模型架构 [page::0][page::6]

基础模型为全连接神经网络（MLP），输入42个基本面及量价因子，采用硬参数共享架构，前两层为共享层，最后一层为任务特异层。

- 同时预测未来10日和20日收益率排序，采用UW和DWA两种加权方式训练。

选取中证500成分股，训练集覆盖2011年至2023年，滚动训练，调仓5个交易日一次。

- 不同隐单元数(64、256)及加权方式形成对比测试模型组合。

图表8：主要测试模型对照表

| 测试模型 | 学习方式 | 隐单元数 | 损失函数加权方法 |
|------------|----------|---------|---------------------|
| stl64 | 单任务 | 64 | - |
| mtluw64 | 多任务 | 64 | uncertainty weight |
| mtldwa64 | 多任务 | 64 | dynamic weight average|
| stl256 | 单任务 | 256 | - |
| mtluw256 | 多任务 | 256 | uncertainty weight |
| mtldwa256| 多任务 | 256 | dynamic weight average|

多任务学习相比单任务在因子测试及组合回测中的表现 [page::0][page::9][page::10]

多任务学习模型的加权RankIC均值和信息比率均明显优于单任务学习。

- 多任务学习在10日和20日预测子任务上均有优势，且二者集成的表现更佳。

增大模型隐单元数（从64至256）显著提升多任务学习优势，提示参数规模对多任务兼容性重要。

多任务学习优势在时间上的分布及持续性分析 [page::11][page::12][page::13]

10日预测优势集中在2020年下半年至2023年初，20日优势主要分布2011年至2015年期间。

- 预测集成模型表现出更均匀的优势时序分布。

然而累计超额收益差异时序并不稳定，超额净值尚难完全体现RankIC优势。

预测值相关性及模型稳定性 [page::14]

多任务学习模型内10日和20日预测值相关系数显著高于单任务学习，达0.977以上，反映两个任务的协同训练效果明显。

- 预测结果相关性强，理论与实际符合，支持多任务学习提高模型内在一致性和稳定性。

模型扩展与未来工作方向 [page::13][page::15]

扩大模型隐单元至1024时，合成因子RankIC进一步提升，多任务学习表现依然优于单任务。

- 指数增强组合的信息比率下降，表明因子合成和组合优化“错配”问题尚存，需后续研究解决。

后续研究将探索更多任务设置（分类、回归、多目标）、损失权重方法及软参数共享等架构。

风险提示与说明 [page::0][page::16]

AI模型基于历史数据总结，若未来市场规律改变，则模型风险增加。

- 深度学习模型存在过拟合风险，且受随机数影响显著。

本研究所测试选股模型调仓频繁，假设以vwap价格成交，未考虑其他交易因素影响。

深度阅读

AI 模型如何一箭多雕：多任务学习——深度详尽分析报告

---

1. 元数据与概览

报告标题：《AI 模型如何一箭多雕：多任务学习》

- 发布机构：华泰证券股份有限公司

作者：林晓明、何康博士、李子钰

- 发布日期：2023年5月6日

主题：人工智能系列，聚焦多任务学习在量化选股领域的应用

- 研究内容：
本报告系统介绍多任务学习（Multi-Task Learning, MTL）基础理论及其量化选股应用。通过训练全连接神经网络同时预测未来10日和20日收益率排序，比较多任务学习与传统单任务学习在合成因子测试及指数增强组合回测上的表现，考察不同模型规模和损失函数加权方式的影响。

核心结论：

多任务学习显著优于单任务学习，尤其在网络规模较大（隐单元256及以上）时表现优势明显。10日和20日收益率预测任务协同训练使得模型稳定性和预测相关性提升。通过硬参数共享机制及不确定性加权（UW）和动态权重平均（DWA）两种损失加权方案，集成子任务预测模型表现优于单独任务模型，预示多任务学习在量化选股的潜在价值。[page::0,2,9,15]

---

2. 逐节深度解读

2.1 引言与多任务学习基础理论

报告一开始以“通才胜过专才”的直观理解引入多任务学习的概念。对比传统单任务学习（Single-Task Learning, STL）—模型只聚焦单一预测目标（“专才”），多任务学习让一个模型覆盖多个预测目标，类似人类同时理解多重信息。此认知框架正是深度学习人工智能发展的趋势。[page::0,2]

核心架构分为两类：

硬参数共享（Hard Parameter Sharing）：模型底层共享，同一网络基础层提取特征，顶层独立完成具体任务。其优势在于降低模型过拟合风险，提升知识迁移效率。[page::0,3]
软参数共享（Soft Parameter Sharing）：每任务独立模型，但通过正则化约束参数间相似度，实现信息交流，适合任务间关系不密切情况。[page::3]

针对任务间损失函数加权，介绍了多种主流方案：

Uncertainty Weight (UW)：通过估计任务不确定性动态调整损失权重，任务不确定性大则权重小，反之亦然；实现端到端可学习。[page::3]
Dynamic Weight Average (DWA)：通过监测各任务损失的相对变化动态调整权重，提升学习效率平衡各任务训练步伐。[page::4]
其他权重策略：几何均值损失（GLS）、随机权重（RW）等，探索更灵活的损失组合方式。[page::4]

多任务学习有效的核心逻辑体现在：知识迁移促进特征学习；辅助任务作为正则化，减弱无关噪声；隐式数据增强作用增加样本信息量，降低过拟合。近年研究趋势包括设计能自动学习共享特征和任务关系的网络，如Cross-stitch网络、多门专家混合模型（MMoE）、注意力机制应用等，进一步丰富多任务架构。[page::3,4,5]

---

2.2 多任务学习应用于股票预测

专题介绍了如何将多任务学习具体落地到量化选股中。核心任务是对未来10日与20日收益率做截面排序预测，任务之间存在自然的相关性，适合多任务学习。

报告采用硬参数共享机制构建全连接神经网络（MLP），即前两层任务共享，第三层单独任务特异层执行差异化预测。

基线为单任务模型（stl），对比多任务模型（mtluw、mtldwa）和大小不同的隐藏单元数（64、256）配置。训练过程中，结合均方误差（加权MSE）作为损失函数，标签为收益率排序。采用半年滚动训练的交叉验证，保障模型稳定性。组合构建利用10日预测、20日预测以及两者等权集成分别做中证500指数增强组合回测。模型细节包括激活函数从Sigmoid改为LeakyReLU，批标准化取消，及多随机种子求均值增强鲁棒性。[page::6,7]

特征向量使用42个基本面和量价因子，包含估值（如市净率倒数）、预期（EPS增长率）、反转、波动率指标及多维度技术面因子等，全方位丰富信息捕捉能力。[page::8]

---

2.3 多任务学习的实证结果分析

综合因子评价指标：

参考图表12，所有多任务学习模型在加权RankIC均值和信息比率均超出对应单任务学习模型，尤其在隐单元数256时表现显著提升。

10日和20日单独预测、多任务预测集成均表现出优异性能。

- 加权RankIC均值最高达到约9.8%，信息比率达2.8，显示模型排序效果和收益信息稳定性提升。

不同损失加权方法（UW，DWA）结果相近。[page::9,10]

模型规模效应：

图表16和17显示，将隐单元由64扩展到256，模型性能明显提升，且多任务模型优于单任务模型优势放大。

64隐单元多任务模型表现仅略高于或接近256隐单元单任务模型，提示较小模型容量下多任务难以发挥全部优势。

- 模型容量充裕时，多任务训练兼容多项任务，发挥协同效应更充分。[page::10,11]

时间序列稳定性分析：

以累计加权RankIC均值差异为例（图表18-20），多任务模型10日预测优势集中于2020年下半年至2023年初，20日预测集中于2011年至2015年上半年，10日与20日集成表现则较均匀且稳定。
对应累计超额收益差异（图表21-23）则表现较波动，模型提升未必完全转化为超额组合净值的持续优势，说明组合优化环节存在错配或其他实际交易限制。[page::11,12,13]

极端模型扩展测试：

进一步将隐单元扩展至1024，结果显示合成因子RankIC继续提升，且多任务学习持续优于单任务，但组合回测信息比率却明显下滑（图表24、25），反映模型复杂度增加带来因子合成和组合优化的错配，加大实盘应用难度，需针对性方法解决。[page::13,14]

任务间预测相关性分析：

表格显示多任务模型内部10日与20日收益率预测值相关性约为0.977，显著高于单任务模型的0.954，体现多任务训练使得子任务学习更协同，任务共享特征表现良好，有助提升模型整体稳定性和一致性。[page::14]

---

2.4 研究总结与提炼

报告对多任务学习原理、方法及股票预测应用进行了系统讲解和实证。主要总结：

多任务学习符合“通才”模型目标，硬参数共享为主流实现架构。

- 以不同损失加权方案（UW、DWA）实现任务平衡，提升模型训练稳定性。

实证中多任务学习对于未来10日与20日收益率排序预测均超越单任务模型，尤其在较大模型规模下优势更明显。

- 子任务预测集成带来整体性能稳定改进，模型内部相关性更高。

继续加大模型规模存在因子合成与组合优化错配问题中，需未来深入研究解决。

- 本研究局限在任务设置单一、损失加权方法有限、学习机制简单（主要硬参数共享），未来可扩展分类回归混合、其他加权与注意力机制，丰富多任务学习策略。[page::15]

---

3. 图表深度解读

3.1 多任务学习结构示意图（图表0）

展示采用的硬参数共享架构的全连接神经网络，输入为42个基本面+量价因子。前两层完全共享（task-shared layer），随后分为两个任务特异层分别独立输出10日和20日收益率预测。

- 该网络体现多任务共享低层特征提取，提升参数利用效率，减少过拟合风险。[page::0]

3.2 基础单任务与多任务学习表现对比（图表1、2）

图表1揭示多任务学习（mtldwa256）改进策略组合累计超额收益高于单任务（stl64），年化超额收益不断攀升，最大回撤略有控制。

- 图表2回测绩效指标显示，mtldwa256比stl64在年化收益（19.46% vs 17.44%）、夏普比率（0.75 vs 0.66）、信息比率、Calmar比率等均有改善，月胜率接近80%，换手率持平，综合绩效提升明显。[page::2]

3.3 损失加权RankIC均值（图表14）

显示隐藏单元256情况下，mtluw256和mtldwa256均领先于stl_256。

- 10日、20日单独预测及两者集成的RankIC均值均能显著提升，集成表现最优，体现多任务优势较为明显。[page::10]

3.4 模型规模对比RankIC均值（图表16）

隐藏单元64和256对比结果表明，256规模均胜出，且多任务学习带来的优势在较大规模下更显著。

- 64规模多任务表现大体追赶或略优于256规模单任务，但整体仍有限。[page::10]

3.5 多任务与单任务RankIC差异趋势（图表18-20）

时间序列上，10日预测的多任务优势近年显著，20日预测优势早期更明显，10日与20日预测集成后表现较均匀稳定。

- 反映多任务对不同预测区间维持正面增益，融合策略效果优良。[page::11,12]

3.6 进一步扩大模型规模效果（图表24、25）

随着隐单元升至1024，RankIC继续提升，证明多任务+大模型策略在因子合成中有效。

- 可组合信息比率下降，印证合成因子与组合收益表现间存在错配，实际建仓效果未必同步提升，指出实务中复杂性的现实束缚。[page::13,14]

3.7 预测值相关性矩阵（图表26）

多任务模型中10日与20日预测相关性达0.977，高于单任务模型0.954，表明多任务训练强化了任务间的共同特征表达。

- 预测值集成相关度极高（0.99以上），显示不同任务预测结果的一致性和稳健性。[page::14]

---

4. 估值分析

本报告为技术深度研究，不包含传统意义上的估值模型、目标价设定或明确评级。因此无具体市场估值分析，但通过因子信息比率、RankIC和组合超额收益等多维指标评估模型“内在价值”。

报告通过对不同模型规模、架构及损失加权的实验比较，间接反映模型性能差异对量化策略潜在收益的影响，属于技术方法效用验证。

---

5. 风险因素评估

报告在末尾风险提示环节明确指出：

AI模型的预测本质是历史模式总结，市场规律会变，未来规律可能不同，存在失效风险。

- 深度学习面临过拟合风险，尤其数据及模型复杂度提升下。

模型训练受随机数种子影响较大，存在一定不确定性。

- 研究中的选股模型调仓频率较高，假设基于平滑成交价格（vwap），未考虑交易冲击、滑点等市场隐性成本，实际应用或受影响。[page::0,16]

---

6. 批判性视角与细微差别

模型选择与任务设定局限：当前选取10日与20日收益率排序作为唯一多任务，忽略潜在的分类任务、其他收益率区间或风险指标，有限制。多任务学习优势可能受特定任务相关性影响。

- 损失加权方法有限：仅使用UW和DWA，尚缺有效比较全部权重机制不同情境适用性。

组合优化限制：因子提升未必转化为组合收益提升，显示实际构建中的“错配”与风险，实战意义需谨慎判定。

- 模型规模扩容带来的挑战：虽然模型规模1024提升因子RankIC，但对应组合指标退化，提示规模扩张需搭配更优优化策略。

时间表现差异：多任务优劣在不同时间段表现不一，尤其超额收益表现不稳定，模型在市场波动性、结构变化时可能效果弱化。

- 实操考虑不足：交易成本、市场冲击等实盘因素未充分模拟，调仓频率较快对实际可行性存疑。

潜在偏见：报告团队属于华泰内部，可能存在对新技术推广偏好，应结合其他独立研究综合判断。

---

7. 结论性综合

华泰证券本报告以严谨的多层次实证分析向读者全面阐释了多任务学习在量化选股中的潜力及具体实现路径。基于硬参数共享的全连接神经网络，同时预测多个收益率任务，利用动态加权策略优化整体模型训练，通过广泛因子输入实现深层次特征学习。实证结果显示：

多任务学习显著超越传统单任务学习，尤其在中大型网络结构下优势更明晰，RankIC均值及信息比率等量化指标稳定提升。

- 多任务模型下，不同子任务预测间相关性显著提高，表明模型成功抓取任务间内在关联增强协同效果。

结合10日和20日预测的集成模型在大部分时间段保持优势，反映出多任务学习对现实市场多变性的较好适应性。

- 然而，组合层面的实际超额收益表现较为波动，规模极大时表现退化，提示因子合成与组合优化存在错配问题，仍需进一步方法突破。

风险在于市场法规变化、过拟合风险、交易摩擦等实际因素，以及多任务设计与权重分配的技术复杂性。

整合华泰团队大量数据和模型输出结果，多任务学习代表了提升AI预测模型能力和泛化的有效方向，有望推动量化选股技术进步。报告的洞察和详实数据为行业内相关算法优化及实盘应用提供了重要参考和借鉴。[page::0-15]

---

参考图表示例（部分重要图表）

硬参数共享结构示意图

多任务学习提升RankIC均值对比（256隐单元）

多任务学习与单任务学习累计RankIC均值差（10日+20日集成）

---

以上分析深刻揭示了华泰证券《多任务学习初探》报告的基本思想、结构、技术实现和成果验证，以期为专业投资者和量化策略研究人员提供全面详实的指导与启发。