`

量化如何追求模糊的正确:有序回归

创建于 更新于

摘要

本报告介绍有序回归的原理及其在周频中证500指数增强选股模型中的应用。通过将分类和回归的特点结合,有序回归损失函数在保持顺序和距离信息的同时,适度容忍预测误差,追求“模糊的正确”。实证显示,基于全连接神经网络或残差图注意力网络的logistic有序回归损失相较传统加权MSE损失,可显著提升模型的Rank IC、多空收益、年化超额收益和信息比率。此外,将有序回归与加权MSE预测结果集成,进一步提升超额收益表现和信息比率,实现了选股效果的稳健优化。对损失函数类型、加权方式、分类数量及模型集成方法的敏感性测试,均支持logistic损失、10分类和预测值集成为最优配置。本研究为量化因子构建及机器学习模型优化提供了有效的新思路及实践路径 [page::0][page::3][page::12][page::20]

速读内容

  • 选股机器学习任务存在分类和回归两类重要缺陷:分类忽略收益率的顺序和距离信息,回归对异常值敏感且“精确的错误”可能误导投资判断,有序回归通过结合两者优点,追求“模糊的正确” [page::0][page::2]

  • 有序回归将K分类拆分为K-1个二分类问题,对每个二分类采用如logistic等损失函数求和形成有序回归损失函数,适用各种模型结构,包括神经网络,损失函数包含logistic、exponential、hinge等多种形式,logistic表现最佳 [page::4][page::5][page::6][page::13]


  • 选股基模型结构包括全连接神经网络(nn)和残差图注意力网络(gatres),输入包含42个基本面和量价因子,截面以中证500成分股为研究对象,采用周频频率,收益率按分位数定义分类阈值。模型结构图和因子列表详见下图 [page::9][page::10]


  • 对比基线加权MSE(wmse)与多种有序回归模型,logistic损失表现最优;样本加权、类别加权及两者组合加权表现相近;分类数量以10最优;模型集成方式推荐采用预测值集成优于组合权重集成 [page::13-14]



  • 有序回归在nn基模型下,能显著提升Rank IC、多空收益、年化超额收益(由约14.15%提升至15.98%),信息比率(由2.38提升至2.76);gatres基模型下logistic有序回归提升显著表现在Rank IC和多空收益,对年化超额收益改善不显著 [page::3][page::12][page::15]



  • 集成效果显著提升,logistic有序回归和wmse模型预测值集成带来年化超额收益和信息比率大幅提升,集成模型预测值相关度8成左右,模型差异使集成更有效,种子集成对比显示提升主要来源于有序回归损失而非纯随机因素 [page::0][page::17-19]


  • 传统多分类不会保留标签的顺序和距离信息,有序回归结合分类和回归优势,对收益率预测更适合,兼顾了投资实际意义和模型拟合度,是一种“模糊的正确”的折中方法 [page::19][page::20]

  • 风险提示:人工智能方法基于历史信息,未来市场规律可能改变;深度学习模型可能存在过拟合风险;本研究未做随机数敏感分析,实际交易成本和执行风险未考虑 [page::0][page::20]

深度阅读

金融研究报告详尽分析



---

1. 元数据与概览


  • 报告标题:《量化如何追求模糊的正确:有序回归》

- 作者与机构:华泰证券研究院,研究员林晓明、李子钰、何康博士
  • 发布日期:2022年10月11日

- 研究主题:机器学习方法中有序回归损失函数在中国A股中证500指数选股模型中的应用与表现评估,特别是与传统的加权均方误差(wmse)损失函数对比。
  • 核心观点:传统的分类和回归损失函数各有局限,有序回归结合两者优势,追求“模糊的正确”(即方向正确且保留顺序关系但对异常值更具容忍度)。实证表明有序回归损失函数整体优于加权MSE损失函数,且集成预测表现更佳,显著提升模型超额收益和风险调整收益(信息比率)。

- 主要贡献:提出有序回归损失函数在多因子选股中的应用原理,展开参数敏感性测试,展示在不同基模型(全连接神经网络和残差图注意力网络)上的表现差异及协同集成效果。
  • 研究结论简述:使用Logistic形式的有序回归损失函数在中证500周频因子选股中,表现出比传统回归(wmse)更高的信息系数、Rank IC以及更优的年化超额收益和信息比率。[page::0,2,3,20]


---

2. 逐节深度解读



2.1 导读与问题阐释


  • 关键点:

- 传统选股任务通常设计为分类(涨跌)或回归(收益率预测)。
- 分类法简化了收益为有限类别,但丢失了顺序和距离信息(不能区分涨幅大小和方向细节)。
- 回归虽预测连续数值,但对异常值敏感,且可能对结果方向判断错误的惩罚不当(如预测误差相同,方向判错更严重却处罚相等)。
  • 举例说明:收益真实值0.6%,预测1.8%和-0.6%误差同为1.2%,但方向相反,传统回归忽视方向差异。

- 引出有序回归概念:在保留分类层次结构和距离关系的同时,允许对预测误差有容忍度,追求“模糊的正确”。利用将K类别拆解成K-1个二分类任务的累计损失计算方法,采用如logistic、exponential、hinge等损失函数的改造版本。[page::2]

2.2 有序回归原理


  • 从二分类逻辑回归出发:

- 样本特征 x,输出 f(x),基于Sigmoid函数输出概率预测。
- 逻辑回归损失(logistic损失)为交叉熵,形式为 \(\log(1 + e^{-y f(x)})\),其中y为真实标签(±1)。
  • 多分类扩展:

- 将多分类问题拆解成多个二分类(K类别变成K-1个阈值二分类)。
- 有序回归损失函数为这些二分类损失的加权和,保留类别的有序关系。
- 公式表达清晰定义了符号函数和阈值设定,f(x)可以是任意可微模型。
  • 损失函数变化:

- 除logistic外还包括exponential、hinge等, 各有优劣,特别是对异常值敏感度不同。[page::4,5]

2.3 常用损失函数形态及特性对比


  • 二分类损失函数图示:显示0-1损失、logistic损失、exponential损失、hinge损失等形态。

- 特点解释:
- 0-1和hinge损失不可导,不方便训练。
- exponential对较大误差处罚剧烈,异常值敏感。
- logistic平滑且在本研究中表现最佳。
  • 有序回归损失示意(分类数K=5例):展示logistic、exponential、hinge与MSE对比,有序回归的损失曲线比MSE平滑,体现了对“模糊的正确”的追求,即只要预测落在真实类别附近,不会有过多惩罚。[page::6,7]


2.4 方法论


  • 以已有周频中证500指增模型为基础,将加权MSE(wmse)替换为多种有序回归损失函数,测试效果。

- 基模型:
- nn(全连接神经网络,两层64维FC+激活)
- gatres(残差图注意力网络,结合Masked Self-Attention和Global Self-Attention)
  • 分类阈值设定:

- 根据截面收益分位数,如5分类阈值对应20%、40%、60%、80%分位点。
  • 参数敏感性考察:

- 损失函数(h):logistic、exponential、hinge
- 加权方式:样本加权(sw)、类别加权(cw)、样本-类别加权(scw)
- 分类数量:5、10、20类测试
- 集成方式:
- 预测值集成(ensemble
prediction,先均值后组合优化)
- 组合权重集成(ensembleportfolio,每个子模型组合权重再等权集成,季度再平衡)
  • 因子来源及网络结构基于华泰金工前期研究,详细因子为42个基础量价因子。[page::8,9,10,11]


2.5 结果分析



基模型为 nn


  • 整体表现:

- Logistic有序回归显著提升Rank IC、多空收益、年化超额收益(从14.15%提升至约16%)和信息比率(2.38提升至2.76)
- 集成模型(wmse与有序回归预测值均值)效果更佳,进一步提升超额收益和信息比率。
  • 损失函数对比:logistic > wmse > hinge ≈ exponential,从收益和信息比率层面均如此。exponential对异常值敏感,表现最差。

- 加权方式:样本加权、类别加权、样本-类别加权无显著差异,均优于wmse。
  • 分类数量:10类优于5类和20类,20类预测性能较好但计算成本增加约40%。

- 集成方式:预测值集成优于组合集成,且均优于直接基线wmse。预测值集成年化超额收益提升最明显。
[page::12,13,14]

基模型为 gatres


  • 整体表现:

- Logistic有序回归提升Rank IC和多空收益,但对年化超额收益和信息比率影响不显著。
- 集成模型显著提升年化超额收益、信息比率。
  • 加权与集成:预测值集成效果优于样本加权和类别加权,也优于组合集成。

[page::15,16]

2.6 讨论剖析


  • 相关性分析:

- nn基模型下,wmse与有序回归日度预测值相关度高(超0.95),日度超额收益相关为0.8~0.91,表示模型虽相近仍存在核心差异。
- gatres相关性稍低(预测值0.83-0.84,收益相关0.7-0.8)。
  • 优势稳定性:

- nn基模型下,有序回归的sw
ordlogi、cwordlogi及ensembleprediction均在累计Rank IC及加权Rank IC准确领先wmse;表现稳定且持续。
- gatres基模型优势相对不明显,只有ensembleprediction表现稳定优于基线。
  • 有序回归与多分类对比:

- 传统多分类标签无序,有序分类保留类间顺序信息,但标签仍是离散值,丢失连续收益率的距离信息。
- 有序回归结合连续与离散优势,降低噪声敏感性,提供更适合金融噪声数据的损失函数。
  • 集成机制作用分析:

- 集成提升不仅来自于简单“组合”效果,而是有序回归本身降低噪声敏感使模型预测更优。
- 以不同随机种子训练的wmse模型集成作为对比,集成效果不及单一基线模型,印证了有序回归损失函数本身改进的实质。
[page::17,18,19]

---

3. 图表深度解读



3.1 有序回归超额收益表现(基模型nn与gatres,图表3、4、0、25)


  • 内容说明:图表显示2011年至2022年间,不同模型的累计超额收益及最大回撤,ensembleprediction(有序回归集成预测值)曲线显著领先基线wmse。

- 解读趋势:ensembleprediction累计超额收益持续优于wmse,且最大回撤幅度偏小,表明模型同时提升收益和稳健性。
  • 数值说明:

- nn基模型下,ensemble
prediction年化超额收益15.98%,比分别低的wmse(14.15%)提升约1.8个百分点。信息比率由2.38提升至2.76。
- gatres基模型下提升从15.33%至16.30%,信息比率由2.60升至2.69。
  • 数据来源与表示:基准为中证500指数,回测期近11年,收益和最大回撤数据体现模型稳健性和投资价值。






3.2 损失函数与加权方式对绩效的影响(图表19、20、13)


  • 损失函数图(图19):

- 使用logistic红色曲线表现最佳,显著跑赢基线wmse(虚线)。
- exponential对大误差惩罚过重表现不佳。
  • 加权方式图(图20):

- cw(类别加权)表现较sw略优,但综合看不同加权差异不大,均显著优于wmse。
  • 集成方式图(图22):

- 预测值集成明显优于组合权重集成和单独模型,显示出合理集成策略在提升绩效中的重要作用。




3.3 分类数量和模型集成(图21、26)


  • 分类数量测试中10类平衡表现与计算时间,5类表现较弱,20类计算资源较高。

- 模型集成图(gat
res基模型)显示ensembleprediction优于组合集成,均优于单独模型,表明集成提升稳定。



3.4 模型相关性分析(图27、28)、与基线wmse差异(图29~32)


  • 预测值相关性高(nn>0.95),但超额收益相关稍低,说明模型捕捉特征有所不同,集成带来互补优势。

- 有序回归集成模型相较wmse有显著正向超额收益IC差异,表现稳定优于基线。
  • gatres基模型差异和优势稍显弱,但ensembleprediction依然领先。






3.5 有序回归集成与纯wmse集成对比(图34、35)


  • 实证表现显示:有序回归集成模型(ensembleprediction)年化超额收益明显优于单一wmse和不同随机数种子训练的wmse集成(ensembleseed),后者表现甚至不及基线wmse。

- 结论:提升主要来源于有序回归损失本身带来的预测质量提高,而非集成策略本身。


---

4. 估值分析



本报告为机器学习方法应用研究,未涵盖传统意义上的企业估值分析环节,无市盈率、市净率或折现模型相关讨论,研究重点在方法论改进和实证表现。故此章节不适用。

---

5. 风险因素评估


  • 历史规律有限性:人工智能挖掘基于历史数据总结规律,未来市场可能失效,尤其金融市场环境多变,高频调仓策略对市场结构改变敏感。

- 过拟合风险:深度学习和复杂模型存在过拟合历史数据风险,且深度学习模型对随机初始化敏感,本文未覆盖随机数敏感性测试。
  • 交易实施风险:回测假设以vwap成交价格,忽略委托成本、滑点、交易冲击等实际影响,调仓频率高可能导致更高交易成本。

- 模型普适性及稳健性风险:本研究主要针对中证500及特定因子集,跨市场指标普适性需进一步验证。
  • 缓解策略和概率:报告未提供具体缓解方案,适度风险提示提醒投资者防范上述风险。[page::0,20]


---

6. 批判性视角与细微差别


  • 偏向性与乐观设定:作者基于已有神经网络和GAT架构,默认该基础是稳健有效的,对不同模型结构的适用范围与限制讨论较少。

- 方法局限性:有序回归虽兼顾分类和回归优势,但其本质仍基于划分阈值,阈值设定主观且直接影响模型表现,报告未深入探讨阈值选择的优化和Robust性。
  • 假设简化:实际交易成本、市场流动性限制未纳入模型测试,可能导致过于乐观的收益估计。

- 模型差异性:gat
res模型中有序回归提升效果相对nn较弱,表明不同基模型对损失函数敏感性存在差异,应更细致分析基网络结构与损失设计的相互影响。
  • 指标单一性:绩效依赖信息比率和年化超额收益,未显示其他风险调整指标(如最大回撤波动率、夏普比率),较系统评估有限。

- 样本与时间窗:回测范围较长,但对模型在不同市场阶段表现的波动及潜在失效情形未深入剖析。
  • 随机敏感性缺失:报告未覆盖深度学习模型对不同训练随机初始化的稳定性测试,实际表现可能波动较大。[page::0,20]


---

7. 结论性综合



本报告系统介绍了有序回归损失函数的理论基础、实现方法及其在中国A股中证500选股策略中的表现。细致剖析传统分类和回归的内在缺陷后,提出并验证了有序回归作为一种兼有分类顺序与回归连续性特点的损失函数设计理念。通过充分的参数敏感性测试,结果表明:
  • 有序回归损失函数整体上优于传统的加权均方误差(wmse)回归损失,尤其是逻辑回归形式的损失函数效果最佳。

- 通过集成传统wmse与有序回归预测结果,模型年化超额收益和信息比率均显著提升,表明两种损失函数捕获了互补信息,增强组合稳健性。
  • 分类数量设定为10类时性能最优,集成预测值的策略明显优于简单组合权重集成。

- 两种基模型架构中,nn基模型对有序回归的敏感性和提升更强,gat_res则较弱但同样表现出集成优势。
  • 有序回归突破了传统损失函数对异常值的过度敏感问题,实现“模糊的正确”——方向准确和对顺序信息的有效保留,被证明具有更强实际投资指导意义。

- 从多个图表及统计指标(含累计超额收益、最大回撤、Rank IC等)深入解析均支持该结论,表现不仅收益更高且更稳定。

综合而言,报告揭示了机器学习选股模型在损失函数设计上的重要突破和改进方向,有序回归作为连接分类与回归的桥梁,因其对金融数据噪声的天然容忍度,具备成为量化选股主流技术路线的潜力。然而,该成果基于历史数据和指定网络架构,实际应用仍需结合交易成本、风险控制、多市场多周期验证以及随机敏感性测试,以确保其长期稳定效用。

---

参考文献


  • Rennie, J., & Srebro, N. (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels. IJCAI.


---

以上是本次华泰研究《量化如何追求模糊的正确:有序回归》的详尽分析,涵盖报告核心要义、方法细节、实证表现及潜在风险,解析附带关键图表,体现研究的系统性和深度。[page::0–20]

报告