人工智能选股之数据标注方法实证——华泰人工智能系列之十七
创建于 更新于
摘要
本文系统测试了多种数据标注方法对机器学习多因子选股模型训练与回测效果的影响。结果显示,XGBoost回归模型整体优于分类模型,不同标注方法如夏普比率、信息比率和Calmar比率标签训练的模型表现均符合各自目标,且通过等权集成模型XGBR-Combine综合提升策略稳定性和回测表现,年化超额收益率达到14.74%至18.22%,信息比率稳定在2.28~3.39之间,表现最佳。[pidx::0][pidx::13][pidx::23]
速读内容
- 机器学习多因子选股中,监督学习的数据标注直接影响模型预测效果,分类问题一般采用二分类标签,回归问题标签连续,本文以XGBoost模型为基础系统测试多种数据标注方法(见图表1-5)[pidx::5][pidx::7]
- 通过多次测试结合随机数种子避免模型随机性影响,提高结果说服力,测试流程详见图表5、7,月度滚动训练和年度交叉验证保证参数稳定[pidx::7][pidx::9][pidx::10]
- 对比XGBoost分类模型(XGBC)和回归模型(XGBR),单因子回归和IC测试中XGBR表现优异,因子收益率均值分布显示XGBR显著领先(图表12-14)[pidx::13]
- 分层测试中两模型表现接近,TOP组合年化收益率、信息比率均良好,XGBR在股票池全A股基准中信息比率有优势(图表15-18)[pidx::14]
- 基于策略组合回测,XGBR相较XGBC在信息比率上稳定领先,超额收益率达16%-18%(图表19-21)[pidx::15]
- 通过三类回归标签(夏普比率、信息比率、Calmar比率)建立的模型分别优化对应指标,XGBR-Sharpe夏普领先,XGBR-IR信息比率领先,XGBR-Calmar Calmar比率领先(图表22-34)[pidx::16][pidx::18][pidx::19]
- 运用模型等权集成(XGBR, XGBR-IR, XGBR-Calmar)构建XGBR-Combine模型,兼具三模型优点,年化超额收益率最高达18.22%,信息比率达到3.39,且表现稳定(图表35-40)[pidx::20][pidx::21][pidx::22]
- 结论强调多次测试结合随机数种子确保结果稳健,回归模型整体优于分类模型,针对不同目标的标签训练效果符合预期,集成模型综合提升表现稳定性和收益水平[pidx::23]
深度阅读
金工研究:人工智能选股之数据标注方法实证 华泰人工智能系列之十七 —— 深度分析
---
一、元数据与报告概览
- 报告标题:人工智能选股之数据标注方法实证 华泰人工智能系列之十七
- 作者及联系方式:林晓明、陈烨、李子钰、何康,分别附有执业证书编号和电话/邮箱
- 机构:华泰证券股份有限公司研究所
- 发布日期:2019年03月13日
- 研究主题:该报告深入研究了在多因子选股中,机器学习模型训练过程中的数据标注方法(data labeling),并通过实证测试不同标注方法对模型选股表现的影响,聚焦XGBoost模型的分类与回归方法,以及基于不同标签(夏普比率、信息比率、Calmar比率)的模型训练和集成效果。
- 核心内容摘要:
- 报告首先强调数据标注方法在机器学习监督学习框架中的重要性——不同的标签确定直接影响模型训练目标和输出结果。
- 通过多次随机数种子测试保证模型结果的稳定性和统计可靠性。
- 对比了XGBoost的分类(XGBC)和回归(XGBR)两种模型框架,回归模型整体表现更为出色。
- 引入了以夏普比率、信息比率和Calmar比率作为标签的三种回归模型,并发现它们各自在相应指标上表现优异。
- 通过等权集成模型XGBR-Combine融合三者优势,显著提升选股策略的综合表现和稳定性。
- 结论重点:等权集成模型在年化超额收益率、信息比率、最大回撤和Calmar比率等多维度指标上均优于单一模型,且表现更稳定,体现了数据标注方法多样性和模型集成优化的重要价值。
- 风险提示:AI模型基于历史经验总结,存在失效风险,且可解释性较低,投资应用须谨慎。
---
二、逐章精读与剖析
2.1 研究导读与数据标注方法简介
报告首先介绍监督学习的三大研究重点(模型优劣、训练集处理、数据标注方法),本研究聚焦第三点——数据标注。数据标注定义为给训练样本赋予目标标签的过程,不同标注直接影响损失函数,进而影响模型训练与预测结果。在多因子量化选股模型中,选择合适的标签形式至关重要。
具体举例说明了“分类 vs 回归”的区别:
- 回归:预测连续变量(如未来收益率),需近似连续标签。
- 分类:常见为二分类(上涨/下跌),标签为离散变量。
报告以图表2和3形象示范用市盈率EP因子预测未来股票涨跌的回归和分类输出,强调这两种方法的不同处理方式和模型选择。例如线性回归拟合连续收益,逻辑回归拟合涨跌概率。
2.2 新颖数据标注方法定义
除了传统用未来收益作为标签,报告提出并测试了基于以下三种综合指标的标签标注策略:
- 夏普比率(Sharpe Ratio):收益除以收益波动率,反映单位风险收益。
- 信息比率(Information Ratio):超额收益率除以跟踪误差波动率,衡量超越基准的风险调整收益。
- Calmar比率(Calmar Ratio):超额收益除以最大回撤,反映回撤风险下的收益表现。
这些指标均计算相对中证500的超额收益及风险指标,创新地使用这些指标作为监督学习的标签,目的为训练模型聚焦更风险调整的优质股。
2.3 验证方法与随机数种子多次测试
为消除模型训练与金融市场固有的随机性影响,报告设计“随机数种子+多次测试”实验程序。每个数据标注方法对应训练n次模型,改变随机种子,统计回测指标的分布及其均值,以实现统计学意义上的稳健结果。此方法图表5直观展示流程,确保测试差异非偶发性。
2.4 模型集成方法
报告创新地探讨了将不同标注方法训练的模型进行等权集成,即从各模型的多次训练预测结果中抽样组合并加权平均,兼顾每个模型的优势,避免单一标注方法带来的局限和风险。图表6详细展示了此随机组合和标准化的流程。
2.5 数据标注流程与测试步骤
报告制定严谨的实证流程,包含以下几个核心步骤(详见图表7-9):
- 数据准备:全A股池,剔除ST股、停牌、上市不足3个月股票,时间区间2011/1/31-2019/2/28。
- 因子提取:每月末计算82个因子暴露度,进行去极值(中位数法)、缺失值填充(行业均值)、行业市值中性化及标准化处理。
- 数据标注:分类标签、回归标签(超额收益率)、夏普、信息比率、Calmar比例等多标签方法,对应标签数据均经过标准化。
- 年度交叉验证调参:时序交叉验证确保过去6年数据训练,当前年测试,防止信息泄露。
- 月度滚动训练与样本外测试:每月根据历史72个月数据训练最优模型参数,进行预测。
- 模型评价:单因子测试、分层测试、构建多空策略回测,多次随机种子测试对比评价指标分布。
这一科学流程保障了实验数据的完整性、预测的稳健性和检验的可信度。
---
三、图表深度解读
3.1 回归与分类模型性能对比(图表12-14)
- 图表12展示了100次随机种子测试下,XGBoost分类(XGBC)与回归(XGBR)模型的RankIC和回归法平均指标,XGBR除RankIC外其他指标均略优。
- 图表13为两模型RankIC均值分布,XGBR分布较为集中,XGBC有较明显分散。
- 图表14显示因子收益率均值分布中,XGBR明显优于XGBC,说明回归模型在收益预测方面整体表现更为稳定和优异。
此数据支持回归方法对多因子选股的优势。
3.2 单因子分层测试(图表15-18)
- 图表15显示两模型按因子分层五层组合的业绩(年化收益率、夏普率等指标)均值,XGBR与XGBC差异不大。
- 图表16和图表17-18展现TOP层组合年化超额收益率和信息比率的分布,XGBR略占优势且更集中。
说明回归模型在精挑细选高质量股票方面稍强,但差别不算巨大。
3.3 策略组合构建与回测(图表19-21)
- 图表19揭示构建相对中证500的市值、行业中性全A选股策略时,XGBR在信息比率指标上持续领先。
- 图表20-21表现XGBR的年化超额收益率和信息比率分布更集中且略高于XGBC,某种程度上验证回归标签带来的策略更稳定收益。
3.4 专项标签比较——基于指标的回归模型性能(图表22-34)
- 使用夏普比率标注(XGBR-Sharpe)模型在多空组合夏普比率(图表24-25)明显高于基础回归模型,年化收益率提升明显,但波动率未必降低(图表22)。
- 使用信息比率标注(XGBR-IR)模型在信息比率指标(图表29、31)优于基础模型,年化超额收益率提升,但跟踪误差稍增。
- 使用Calmar比率标注(XGBR-Calmar)模型在Calmar比率(图表32、34)表现更佳,主要得益于收益提升而非最大回撤显著降低。
以上均支持针对性标签能提升对应风险调整指标,符合预期。
3.5 模型集成效果(图表35-40)
- 图表35-36说明XGBR-Combine即集成模型在年化超额收益率、信息比率、最大回撤和Calmar比率四个关键指标上的均值和标准差均优于单一模型,说明稳定性和综合性更强。
- 图表37-38显示集成模型的回测指标分布更集中,表现更可靠。
- 图表39-40给出不同权重偏离情况下的累计超额收益与回撤走势,XGBR-Combine总超额收益最高,最大回撤最低(或次低),且信息比率优异,验证了集成模型的优势。
---
四、估值分析
本报告并未涉及传统意义上的企业估值分析,而是聚焦于机器学习模型训练中标签定义的策略表现。因此未包含DCF、PE或EV/EBITDA等估值内容,但通过多维风险调整回报指标为模型表现提供了量化“估值”及投资质量指标。
---
五、风险因素评估
- 模型风险:AI模型基于历史数据训练,模型策略存在“历史失效”的风险,遇市场结构性变革或极端事件可能表现不佳。
- 解释性风险:模型“黑盒”性质导致使用者对模型内部决策逻辑理解有限,难以预判异常行为或失误。
- 市场风险:选股模型虽通过多次测试剔除随机性影响,但未来可能遭遇市场环境根本改变,影响预期收益。
- 操作风险:涉及高频操作、仓位控制、市值行业中性调整等复杂流程,执行层面或带来额外摩擦与误差。
报告提示谨慎使用,建议结合稳健风控策略。
---
六、批判性视角
- 报告对数据标注方法进行了系统且全面的测试,流程科学,但所有模型训练均基于2011-2019年的历史数据,可能存在较强的时间依赖性,未来其它市场周期或微观结构变化的适用性存在不确定。
- 稳健性测试采用多次随机数种子,然而仅基于XGBoost模型,未考虑更广泛的机器学习算法(如深度学习等),模型选择的多样性和泛化性能有待进一步考察。
- 模型集成方法简单采用等权加权,未深入探讨加权优化策略,可能存在进一步提升空间。
- 虽有多维指标权衡,但未体现交易成本、流动性限制的动态影响,实盘表现可能受到隐含成本影响。
- 报告未详细讨论对市场极端风险(黑天鹅事件)下模型表现的敏感性和风险缓释策略。
整体报告严谨客观,结论合理可信,但仍有提升空间。
---
七、结论性综合
本研究围绕机器学习多因子选股的关键环节——数据标注展开,通过严谨的随机种子多次测试方法,验证不同数据标签(经典收益率、夏普比率、信息比率、Calmar比率)对模型训练和预测表现的影响。核心发现为:
- 回归标签优于分类标签,XGBoost回归模型(XGBR)的多项指标优于分类模型(XGBC),表现更稳健。
- 目标标签的选取对模型表现有明显驱动作用,采用夏普比率、信息比率、Calmar比率标注各有针对优势,能提升对应风险调整指标。
- 通过集成多种标签训练模型的等权结合,XGBR-Combine模型综合了单模型优点,实现了综合收益和风险指标的优化,表现最佳且稳定性最高。
- 报告为人工智能选股提供了数据标注层面系统而深入的指导,确认合理标签设计的重要性和多模型集成的有效性。
图表深度解析强调,XGBR-Combine模型在100次随机测试中,年化超额收益高达约17.9%,最大回撤控制在5%-6%,信息比率与Calmar比率均表现出色,回测效果优于所有单一模型。
综上,报告展现了数据标注及模型集成在量化选股AI应用中的核心地位,对今后AI量化研究和实盘策略开发具有重要参考价值。风险方面强调模型历史有效性及解释性不足,提醒实务应用需谨慎并结合风控措施。
---
报告引用
本分析依据华泰证券金工研究所2019年3月13日发布的《人工智能选股之数据标注方法实证 华泰人工智能系列之十七》 [pidx::0]~[pidx::24]
---
附图示例:




(注:以上图片为报告中部分重点图示的相对路径示意,详见报告原文[pidx::5][pidx::13][pidx::20])
---
综上所述,本文为量化投资领域的研究者和从业者提供了深入、系统、量化且实践导向的数据标注与模型集成实证分析,具备较高的应用价值与参考意义。