提升超额收益:另类标签和集成学习 - 华泰人工智能系列之二十九
创建于 更新于
摘要
本报告探讨了在人工智能量化选股模型中使用另类标签(信息比率和Calmar比率)替代传统收益率标签的优势,通过多训练期长度的实证测试,发现另类标签在提升全A股模型的超额收益率和信息比率方面表现显著优于收益率标签。报告进一步采用集成学习方法,将多模型预测结果融合,实现超额收益和信息比率的稳定提升,并在全A股、中证500和中证800等多个股票池中进行回测验证,体现了模型的稳健性和优越性[page::0][page::6][page::8][page::11][page::13][page::28][page::33]。
速读内容
- 本文提出“另类标签”(如信息比率和Calmar比率)用于人工智能选股模型的标签替代传统收益率标签,理由包括:另类标签能体现更多区间内走势信息,减少交易拥挤风险,且已有学术研究支持其合理性[page::0][page::5][page::6]。
- 利用67种不同训练期长度(6个月至72个月)的模型进行测试,保证多次回测的统计显著性和结果的稳健性,训练结果组合为子模型,为集成学习奠定基础。

- 采用3种模型集成方式(等权重、历史IC加权、历史因子收益率加权)对不同标签训练的模型预测结果进行融合,显著改善超额收益率、信息比率和Calmar比率,降低单一模型风险。

- 选股模型采用CatBoost实现,输入特征包含82个因子(估值、成长、财务质量、杠杆、动量反转等),进行了中位数去极值、缺失值填充、行业市值中性化和标准化处理,保证数据质量和模型稳定性[page::8][page::9][page::10]。
- 全A股测试显示,信息比率和Calmar比率标签相关性较高且分布存在差异,模型以另类标签训练后在年化超额收益率和信息比率上胜率达90%以上,但在超额收益最大回撤上略逊于收益率标签。

- 以Calmar比率为标签构建模型时,相较收益率标签在中证500指数增强策略中表现更优,年化超额收益率胜率达到97.01%,信息比率和Calmar比率指标均有提升,最大回撤没有明显优势。




- 中证500和中证800成分股同样验证了信息比率和Calmar比率标签的优势,表现出相似的标签相关性和分布特征,标签构建模型的年化超额收益率和信息比率均优于传统收益率标签。


- 量化因子和策略构建:
- 采用三种标签分别训练Boosting模型,利用不同训练期长度生成子模型,作为集成学习的基础[page::6][page::7];
- 集成策略通过三种因子合成方法融合子模型输出,提升绩效稳定性和指标表现[page::7][page::28];
- 未来策略回测涵盖全A股及主要指数成分股,覆盖多行业及市值维度[page::8][page::11][page::28]。
- 风险提示:基于另类标签构建的模型最大回撤较大,执行时需谨慎对待该风险[page::0][page::33]。
深度阅读
华泰证券《提升超额收益:另类标签和集成学习》研报详细分析
---
一、元数据与概览
报告标题:提升超额收益:另类标签和集成学习
作者/研究员:林晚明、陈烨、李子钰、何康、王晨宇
发布机构:华泰证券
发布日期:2020年12月21日
页数:35页
主题:量化投资中人工智能选股模型的标签构建,聚焦“另类标签”及集成学习,提高选股策略超额收益。
核心论点:
本报告系统论述了在人工智能选股模型中,传统的以未来收益率为标签的方法存在信息利用不足和交易拥挤风险,提出了利用“另类标签”(信息比率和Calmar比率)及集成学习方法来提高模型超额收益能力和稳定性。通过大量多期训练长度(6个月至72个月,共67种情形)的实证测试,发现另类标签在全A股市场尤其突出,而集成学习进一步强化模型优势,显著提升超额收益率、信息比率和Calmar比率。报告同时指出另类标签模型回撤较大,风险需要谨慎管理。
---
二、逐节深度解读
2.1 研究导读与背景(第4页左右)
- 关键论点:人工智能选股中标签的设计直接影响模型性能,传统以收益率为标签易忽略价格走势信息且易陷交易拥挤。
- 文章目的:
1. 介绍另类标签设计,包括信息比率和Calmar比率。
2. 多市场、多训练期测试另类标签的实绩表现。
3. 介绍集成学习如何整合不同标签模型的优点,提升回测收益及风险指标。
- 逻辑基础:传统标签欠缺内涵,选股模型信息利用不充分,报告以实证反复验证其假设。
2.2 另类标签构造及合理性(第5-6页,数学公式详述)
- 标签定义:
- 收益率标签:以未来一段时间股票超额收益率为目标。
- 信息比率标签:超额收益相对于超额收益的波动率(跟踪误差)的比值,衡量风险调整后的表现。定义为
\[
IR = \frac{\frac{P{t+1}}{Pt} - \frac{B{t+1}}{Bt}}{\sigma2}
\]
- Calmar比率标签:超额收益相对于超额收益最大回撤的比率,衡量收益与最大可能亏损的关系。定义为
\[
Calmar = \frac{\frac{P{t+1}}{Pt} - \frac{B{t+1}}{Bt}}{MaxDD}
\]
- 合理性说明:
1. 另类标签融合了收益、波动、回撤等信息,更丰富地反映价格区间走势,优于只考虑端点价格的收益率。
2. 标签作为目标指标影响因子权重,传统收益率标签使用广泛,易成交拥挤,另类标签可能带来差异化选股,开拓“蓝海”。
3. 学术界也有多项研究应用类似信息比率、夏普比(Calmar相关)等风险调整指标作为学习目标,证明其合理性。
2.3 多训练期长度下模型测试设计(第6-9页)
- 测试设计创新:
- 训练期跨度从6个月到72个月,共67个不同训练期长度,避免单一训练期选择带来的偏误,增强结果稳健性。
- 三种标签对应三类模型均在相同集长度下分别训练,并评估其回测绩效。
- 数据方案:
- 股票池涵盖全A股、中证500、中证800,分别排除ST股、停牌股、上市初期股。
- 特征提取包含82个因子(估值、成长、财务质量、动量反转、波动率、技术指标等)。
- 模型框架:
- 使用CatBoost(类似XGBoost的提升树模型)训练,参数设置详尽(如maxdepth=3,learning_rate=0.05等)。
- 每月滚动训练,模型预测作为单因子输入组合优化,构造行业市值中性组合。
- 标签标注预处理:
- 对收益率、信息比率、Calmar比率标签均经过去极值、标准化处理提高稳健性。
2.4 另类标签实证结果(第11页面及以后)
- 全A股市场结果:
- 图表7显示三类标签相关系数较高(信息比率与收益率相关系数0.95,Calmar比率0.89),但Calmar比率分布更偏离,显示信息多样性。
- 图表8的直方图显示Calmar比率标签分布明显不同,提示模型可能发掘收益与风险不同的因子组合。
- 回测结果显示采用另类标签构建的模型在年化超额收益率、信息比率和Calmar比率方面显著优于纯收益率标签模型,年化超额收益胜率达90%。
- 然而另类标签模型在最大回撤指标上表现较差(风险属性),提示需谨慎。
- 中证500及中证800成分股:
- 相关性略低于全A股,但信息比率与收益率标签相关依然较高。
- 另类标签优势集中表现年化超额收益率,中证500成分股上的胜率约58.21%-76.12%。
- 最大回撤表现依然偏弱。
- 因子重要性分析:
- 使用另类标签后,模型对动量反转、波动率、换手率等量价类因子的重视度降低,而对财务质量和一致预期因子权重上升,解释了模型策略风险偏好调整的内涵转变。
2.5 集成学习的引入及效果(第28页)
- 思想:
- 多个模型各有所长,将不同标签及多训练期长度训练的子模型视为单因子,通过等权、历史信息系数(IC)加权和历史因子收益加权三种方法集成。
- 实证:
- 多股票池回测表明集成模型在超额收益、信息比率和Calmar比率上均有稳定提升。
- 集成有效避免单一模型的极端风险,实现“模型分散化”,增强策略的稳健性和业绩可持续性。
2.6 风险提示
- 人工智能模型基于历史数据,存在失效风险。
- 另类标签构建的模型退避表现较差,回撤风险显著,投资操作中需设定合理的风险限额和动态调整机制。
---
三、图表深度解读
3.1 图表1(第6页)
内容:展示三种标签(收益率、信息比率、Calmar比率)在不同训练期长度(6个月到72个月)训练模型的测试设计流程。
解读:该图体现报告处理样本异质性和模型训练多样性的严谨设计,进一步保障实验结果的统计意义和扩大样本容量,为集成学习提供基础。
3.2 图表2(第7页)
内容:各训练期长度和标签生成的模型预测结果作为单因子,采用三种传统因子合成方式进行集成。
解读:直观说明集成学习的操作路径和策略实现手段,体现多模型协同优势。
3.3 图表7与图表8(第11页)
- 图表7:三标签在全A股的相关系数矩阵,收益率与信息比率高达0.95,说明模型标签侧重点重合。
- 图表8:标签值的分布直方图,显示Calmar分布明显偏斜和更宽的尾部,暗示更高的波动性和潜在的风险控制信息。
文本关联:支持另类标签的差异性和模型使用价值的基础事实。
3.4 图表13-16(第13-14页)
- 展示以Calmar比率标签和收益率标签训练的中证500增强策略四个关键指标随训练期长度变化的对比。
- 主要发现:
- 年化超额收益率(图13):Calmar标签模型整体优于收益率标签,胜率高达97.01%。
- 信息比率(图14)和Calmar比率(图15):Calmar标签表现优良,胜率分别为77.61%和62.69%。
- 最大回撤(图16):收益率标签模型回撤表现更优,Calmar标签模型回撤相对较大。
解读:Calmar标签提高了风险调整后的收益,但伴随更大波动风险。
3.5 图表29-32(第20-21页)
- 对比信息比率标签与收益率标签在中证800的年化超额收益率、信息比率、Calmar比率和最大回撤表现。
- 发现:
- 信息比率标签模型在收益率和信息比率上表现明显优于收益率标签模型,但表现优于幅度和稳定性不足,胜率分别76.12%、65.67%。
- 回撤方面信息比率模型表现未显著优于收益率标签。
提示:信息比率标签提供了潜在的收益增强路径,但风险控制效果有限。
3.6 图表40-46(第28-32页,尽管未详细展示,报告中说明)
- 六模型集成后,选股策略的超额收益、信息比率和Calmar比率均显著优于各单一模型,累计超额收益表现明确领先。
总结图表解读:图表和数据丰富,全面证实了另类标签和集成学习在不同股票池、不同训练期下均表现出优异的提升效果,但风险特征有侧重差异,投资者需平衡收益与回撤。
---
四、估值分析
本报告聚焦于量化选股策略构造和性能评估,没有涉及传统意义的公司估值或市场估值,但其基于回测收益率、信息比率和Calmar比率作为模型性能的评价标准,实质上进行了一种策略“价值评估”。模型使用基于CatBoost的非线性因子组合,采用收益风险指标和最大回撤限制作为优化目标,不直接涉及折现率或市盈率等估值模型输入。
---
五、风险因素评估
报告明确提示:
- 风险主要来源:人工智能模型历史数据总结不代表未来连续有效,可能失效。
- 另类标签风险:回撤偏大,风险控制指标相对较弱。
- 风险缓解:集成学习的分散化效果一定程度缓和模型单一风险。
- 建议:投资者使用另类标签模型时须谨慎,设定合理风险管理机制。
---
六、批判性视角与细微差别
- 潜在偏见与局限:
- 模型依赖历史数据,尚未充分讨论极端市场环境下另类标签稳健性。
- 回撤指标虽然披露,但风险权衡及组合再平衡的动态管理机制描述较少。
- 训练期长度跨度大,虽增加稳健性,但较短训练期模型表现易波动,风险暴露未详细解读。
- 内部逻辑矛盾:
- 另类标签提高超额收益和信息比率,但同时最大回撤恶化,表明收益提升伴随风险上升,何种风险偏好和投资者适配需进一步明确。
- 模型解释性缺乏细化:
- 因子重要性分析较粗略,未深入解读为何财务质量和一致预期提升及其对策略风格的具体影响。
---
七、结论性综合
本文创新性提出并系统验证了量化选股中“另类标签”(信息比率和Calmar比率)替代传统收益率标签的有效性,结合了丰富的因子池和多训练期长度的CatBoost模型训练设计,实证结果显示:
- 整体表现:另类标签模型在全A股市场表现优异,年化超额收益、信息比率以及Calmar比率均显著高于收益率标签模型,在中证500和800市场中提升较为显著的是超额收益率。
- 风险特征:另类标签模型虽提升收益风险调整指标,但最大回撤指标表现较差,提示策略风险控制需加强。
- 因子权重变化:使用另类标签,动量反转等量价因子权重下滑,财务质量和一致预期因子权重上升,模型偏好趋向更稳健的基本面信号。
- 集成学习效果:结合不同标签及训练期模型的集成学习有效地提高了超额收益率、信息比率和Calmar比率,同时分散模型风险,提升策略稳定性和鲁棒性。
- 实践建议:投资者应认识到另类标签带来的回撤风险,结合集成模型策略使用和风险控制手段,方能更好发挥人工智能技术在量化选股中的优势。
综上,报告在人工智能量化投资领域提出了具有实证支持的创新标签构造思路与集成方法,提供了切实提升超额收益的策略框架,具有较高的理论与实务价值[page::0,5,6,11,13,14,15,16,19,20,21,28-32]。
---
重点图表展示示例
图表1:在多种训练集长度下测试

图表8:全A股中三种标签的取值分布直方图

图表13:中证500增强策略年化超额收益率对比

图表14:中证500增强策略信息比率对比

图表15:中证500增强策略Calmar比率对比

图表16:中证500增强策略超额收益最大回撤对比

图表8、17、27等标签分布与相关性图,直观反映标签设计效果。集成模型回测指标提升结果详见图表40-46页。
---
总结:此份研究报告系统地从人工智能选股标签构建创新、模型训练设计、实证比较、因子解读到集成学习优化多个维度,提供了方法论和操作指引,数据详实且多维度验证,具有代表性和实操指导价值。未来可进一步拟合风险控制动态机制,改善另类标签模型回撤问题。
[page::0,1,4,5,6,7,8,11,13,14,15,16,19,20,21,28]