`

量化如何追求模糊的正确:有序回归

创建于 更新于

摘要

本报告介绍有序回归损失函数的原理及其在周频中证500指增模型中的应用,系统比较了有序回归与传统分类和回归的优劣,采用全连接神经网络和残差图注意力网络为基模型,验证logistic有序回归损失在Rank IC、多空收益、年化超额收益及信息比率上的显著提升效果。集成有序回归和加权MSE预测结果,可进一步提高选股策略表现,参数敏感性测试表明10分类及logistic损失最优,预测值集成优于组合集成,稳定性和收益均表现出优势 [page::0][page::3][page::12][page::20]

速读内容


有序回归弥补分类和回归缺陷,追求“模糊的正确” [page::0][page::2][page::20]


  • 分类将连续收益简化为离散类别,损失顺序与距离信息。

- 回归对异常值敏感,且预测方向误差难以反映投资实际。
  • 有序回归结合分类和回归优势,通过K-1个二分类损失函数求和形成,兼顾顺序和距离信息,提高模型的实际投资参考价值。


有序回归损失函数及其多分类形式详解 [page::4][page::5][page::6][page::7]


  • 二分类逻辑回归基础及损失函数logistic定义。

- 多分类有序回归通过拆分成多个二分类问题计算综合损失。
  • 常用损失函数包括logistic、exponential、hinge等,有序回归损失平缓,容忍误差,体现“模糊的正确”。


基模型架构与选股因子介绍 [page::9][page::10]


  • 采用全连接神经网络(nn)和残差图注意力网络(gatres)作为基模型。

- 利用42个基本面及量价因子做为输入,覆盖估值、预期、反转、波动率、换手率及技术指标。
  • 训练数据覆盖2011-2022年,设计截面分位数阈值进行分组。


有序回归模型显著提升选股绩效(基于nn)[page::3][page::12][page::13]


  • Logistic有序回归较加权MSE基线,在Rank IC、多空收益、年化超额收益(从14.15%提升至15.98%)和信息比率(从2.38提升至2.76)均有显著优势。

- 不同损失函数对比显示logistic优于exponential及hinge。
  • 多权重加权方案效果差异不大,但均优于基线。

- 10分类效果优于5类和20类,兼顾收益与计算成本。
  • 预测值集成优于组合集成,提升策略稳定性和表现。


有序回归模型基于gatres网络表现及集成效果 [page::3][page::15][page::16]


  • 有序回归提升Rank IC和多空收益,但年化超额收益与信息比率改进不显著。

- 集成有序回归和MSE模型后,年化超额收益和信息比率获得明显提升。
  • 不同加权和模型集成方式均显示预测值集成优于组合集成。


有序回归与基线模型及多种集成方式的相关性分析及稳定性验证 [page::17][page::18][page::19]



  • 子模型预测值和超额收益间呈中高相关,基模型为nn时相关度较高。

- 有序回归模型与基线MSE模型存在一定差异,集成后提升效果明显。
  • 集成随机不同种子训练的MSE模型效果不及有序回归集成,说明提升主要源于有序回归损失引入。


深度阅读

量化如何追求模糊的正确:有序回归——深度分析报告



---

1. 元数据与概览



报告标题:量化如何追求模糊的正确:有序回归
作者:林晓明、李子钰、何康(PhD)
发布机构:华泰证券股份有限公司
发布日期:2022年10月11日
研究类型:深度研究
研究主题:人工智能选股方法——有序回归损失函数的应用及表现评估
主要研究对象:周频中证500指数增强选股模型

核心观点与结论
  • 传统机器学习方法中,分类和回归任务在选股预测中均有不足:分类忽视了收益率的顺序与距离信息,回归则对异常值敏感且可能误判方向。

- 有序回归作为融合分类与回归优点的新方法,通过构建基于二分类的多分类损失函数,追求“模糊的正确”——避免盲目追求过于精确且无实际投资指导意义的预测。
  • 实证测试采用基于神经网络(NN)与残差图注意力网络(GATres)的模型,验证有序回归损失函数在提高Rank IC、多空收益及年化超额收益等指标方面优于加权MSE损失函数(wmse)。

- 通过将有序回归损失函数的预测值与wmse模型结果集成,组合模型的超额收益和信息比率得到显著提升。
  • 参数敏感性分析涵盖损失函数类型(logistic、exponential、hinge)、加权方式(样本加权、类别加权等)、分类数量及集成方式,结果显示logistic损失效果最好,10分类表现较佳,预测值集成优于等权组合集成。

- 研究强调,人工智能挖掘的市场规律基于历史数据,存在未来失效和模型过拟合的风险。

总的来说,报告旨在阐述并验证有序回归损失函数在智能选股中的优势,提供一种权衡预测准确性与投资实用性的解决方案。[page::0,2,3,20]

---

2. 逐节深度解读



2.1 导读——分类与回归的局限与有序回归创新(第2页)


  • 问题引入:选股任务可设计为分类问题(涨跌)或回归问题(收益率预测),但两者各有缺陷:

- 分类将连续收益率离散化,丢失顺序和距离信息。
- 回归重视误差大小,忽视方向准确性且对异常值敏感。示例中同样1.2%误差,方向识别却大异其价值。
  • 有序回归定义:结合分类和回归优势,基于将K分类拆解成K-1个二分类,通过对各损失求和,保留标签的顺序特点,实现“模糊的正确”。

- 报告引用了相关理论基础及算法演进,明确有序回归损失函数定义及计算形式,且可适配多种基础二分类损失函数。

图表1示意了方向误判在传统回归中的问题,图表2将分类、回归、有序回归的特点对比清晰呈现,为后续有序回归模型设计奠基。[page::2]

2.2 有序回归原理及数学推导(第4-6页)



2.2.1 二分类逻辑回归基础


  • 概述了逻辑回归作为分类手段,通过sigmoid函数将实数预测值映射到概率,通过交叉熵计算损失,凸显预测与标签分布差异。

- 数学公式详见sigmoid函数$\pi(f(x))$定义,交叉熵推导及统一表达为logistic损失函数,方便后续推广。

2.2.2 拓展至多分类有序回归


  • 多分类有序回归的核心是将原有单阈值0拓展至多个分类阈值$ck$,将多分类任务转为多个二分类任务的损失函数求和。

- 以四分类案例说明分解过程,强调符号函数决定实际类别与阈值比较的方向,保证损失函数中顺序性质。
  • 该方式支持多种损失函数替代logistic,如exponential和hinge扰动,体现灵活性。


图表7、8展现了概率密度及累积分布函数在多分类有序回归的可视化,直观展示模型预测的概率层次结构。[page::4,5]

2.3 常用损失函数的有序回归形式及特点(第6-7页)


  • 列举并数学定义了六类二分类损失函数(0-1损失、logistic、exponential、hinge及变体),分析其对误差的敏感度及优化适应性。

- 重点指出:
- 0-1及hinge损失不可导,不利于梯度法优化;
- exponential对大误差敏感,易受异常值干扰;
- logistic在平滑与抗噪能力间较均衡,适用面广。
  • 结合有序回归,损失函数变换体现为多段累积,图表10、11对比了有序回归和传统MSE损失曲线,显示有序回归相对MSE更宽容预测范围,体现“模糊正确”理念。


该部分构建理论基础和损失设计,进一步说明为何logistic有序回归更适合投资领域噪声环境。[page::6,7]

2.4 方法与实验设置(第8-11页)


  • 模型与数据:

- 使用周频中证500指增股票池,标的为流通市值及换手率排名前60%股票,调仓周期5个交易日,调仓过程假定基于VWAP价格,无考虑更多市场摩擦因素。
- 输入特征为“Alpha42”组合的42个基本面及量价技术因子(第10页详列具体指标)。
- 训练集、验证集、测试集方案明确(如训练集覆盖期252*6个交易日)。
  • 损失函数及参数空间:

- 对标基线为加权MSE(wmse),考察logistic、exponential和hinge三种有序回归损失。
- 加权方式分别考虑对股票样本权重、类别权重及两者结合加权。
- 分类数量设定为5、10 、20测试,选取截面分位数作为阈值。
- 模型基体包括全连接神经网络(nn)和图神经网络残差图注意力网络(gatres)。
  • 集成方式

- 分为预测值集成与组合权重集成(子模型的预测结果均化或持仓均化)。
- 集成测试通过多模型互补性提升总体收益。

网络结构图(第9页)和详细因子说明(第10页)进一步体现了模型设计的系统复杂度及数据预处理严格度,为后续结果提供了坚实基础。[page::8,9,10]

2.5 结果分析



2.5.1 基模型为全连接神经网络(nn)(第12-14页)


  • 总体表现

- logistic有序回归模型在Rank IC、多空收益及年化超额收益指标全面领先于wmse基线(年化超额收益由14.15%提升到约16%,信息比同期提升显著)。
- 加权方式对模型表现影响较小,样本加权、类别加权及混合加权均优于基线。
- 分类数量10最优,20类分类耗时更长,5类略逊色于10类。
- 集成模型进一步提升,特别是预测值均化集成优于简单均权持仓组合。
  • 细节数据(图表17与18):

- Rank IC均值约在8.5%-8.9%,信息比从基线的2.38提升至2.76。
- 超额收益最大回撤相似,模型风险调整能力更佳。
- logistic损失优于exponential、hinge,后两者在超额收益和风险控制上表现不及logistic。
  • 图表回测趋势(图表19-22):

- 各损失函数和加权方式超额收益曲线清晰,有序回归和集成模型稳健领先于基线。
- 分类数量、集成方式影响趋势明朗,支持10分类、预测值集成为最佳策略。

2.5.2 基模型为残差图注意力网络(gatres)(第15-16页)


  • 表现特点

- logistic有序回归在Rank IC和多空收益上提升明显,但组合年化超额收益和信息比率提升不显著,表明图神经网络结构在指标驱动与实际收益表现间存在复杂关系。
- 集成模型效益显著,尤其是将wmse与有序回归模型结合,获得超额收益增长。
  • 数据对比与回测图表(图表23-26):

- Rank IC范围约为8.1%-8.5%,组合年化超额收益15.3%-16.3%。
- 加权方式与集成路径的差异影响收益表现,预测值集成相较组合集成优势明显。

2.5.3 模型相关性与有序回归稳定性(第17-19页)


  • 相关系数分析

- NN基础模型间预测值相关度高达0.95以上,超额收益相关性约0.8-0.9,体现模型之间有重叠但存在互补性。
- GATres基模型相关度稍低,约0.7-0.8,提示异质模型集成挖掘更丰富信号。
  • 有序回归相对于wmse优势的连续性

- NN基模型中,有序回归模型(包括集成)在累计Rank IC及加权Rank IC明显领先基线,表现更为稳健。
- GAT
res模型中,有序回归相对于基线的优势不如NN明显,但集成仍显示出明显超越。
  • 有序回归与多分类区别的讨论(第19页):

- 传统多分类未能保留收益率的连续性和秩序信息,可能丢失重要金融信号。
- 有序回归优势在于处理连续标签的顺序和距离信息,更符合选股任务的本质。

2.5.4 集成优化的核心体现(第19-20页)


  • 对比有序回归集成与仅基于不同随机种子训练的wmse集成,“仅种子差异”带来的集成效果不及统一模型基线。

- 表明有序回归通过本质不同的损失构造降低对噪声的敏感度,是提升策略效果的关键,而非单纯集成技术带来改进。

---

3. 图表深度解读



以下聚焦于重要图表,结合文本阐释数据内容与研究结论。

3.1 超额收益表现图(多个基模型)


  • 有序回归基模型为NN(图表3 & 初页图)



此图展示了2011年至2022年之间,集成预测(ensembleprediction)与加权MSE基线模型的累计超额收益及最大回撤表现。
- 红线集成预测累计超额收益显著高于基线蓝线,特别是2015年之后差距拉开,最大回撤(右轴淡红色和淡蓝色)水平相对接近,表明风险基本得到控制。
- 作者据此得出有序回归集成模型年化超额收益由14.15%提升至15.98%,信息比从2.38升至2.76。
  • 有序回归基模型为GATres(图表4 & 初页图)



同样回测区间,GATres模型的集成预测表现出与基线明显不同:红线累计超额收益高于蓝线,但两者差距略小于NN模型,且回撤水平变化趋势类似。

3.2 损失函数与加权方式效果(图表19 & 20)


  • 图表19展示logistic、exponential、hinge及基线wmse的累计超额收益,logistic明显领先,尤其在后期盈利能力显著强于指数和hinge版本。
  • 图表20对比样本加权、类别加权及两者混合权重的有序回归结果,均远超wmse基线,线型走向趋同,表明不同加权策略效果相近。


3.3 分类数量敏感性与集成方式(图表21 & 22)


  • 图表21显示10分类优于5分类和20分类,虽然20分类多空收益较好,但综合考虑收益和计算复杂度,10分类是最佳平衡点。
  • 图表22则表明预测值集成方法优于组合集成和单模型策略,集成模型实现更高累计超额收益,显示融合预测层面的信息更有效。


3.4 相关度及优势稳定性(图表27-32)


  • 图表27、28精细计算三类模型间预测值及超额收益的相关度,揭示模型间既高度相关又有互补成分,支持多模型集成策略。
  • 图表29至32绘制有序回归模型相较基线累计Rank IC和加权Rank IC的差异曲线,NN模型优势稳定且幅度明显,GATres模型则表现波动较大且整体优势较小,表明基模型选择对策略效益有显著影响。


3.5 有序回归集成效益的本质(图表34 & 35)


  • 集成预测与种子差异集成及基线比较,集成预测(含有序回归)大幅领先后两者,说明核心提升来自于有序回归引入的噪声容忍能力,而非简单集成技术本身。


---

4. 估值分析



报告核心为人工智能机器学习模型优化,未涉及传统财务估值方法如DCF或市盈率分析。其“估值”表现为因子模型预测准确性(Rank IC)和选股超额收益表现,亦包含信息比率等风险调整指标。相关指标与模型设计参数紧密关联,属于量化策略性能考核范畴。

---

5. 风险因素评估


  • 市场规律失效风险:研究基于历史数据总结规律,未来市场环境变动可能导致规律失效[[page::20]]。

- 模型过拟合风险:深度学习模型可能对训练数据过拟合,泛化能力受限[[page::20]]。
  • 随机数敏感性未充分测试:报告未系统测试随机数初始化对结果的影响,可能存在结果波动风险[[page::0,20]]。

- 忽略真实交易成本:调仓频率较高,假设以VWAP成交,未考虑滑点、市场冲击等交易费用,实际策略表现或存在差异[[page::0,20]]。

总体风险提示较为充分,明确指出模型实务运用时的注意事项与限制。

---

6. 批判性视角与细节观察


  • 报告在强调有序回归优势时,以Rank IC及回测超额收益为核心指标,较少涉及模型的计算复杂度和实务操作成本。20分类模型训练时间较长(1.4倍于10分类),但未具体量化计算资源消耗,实际应用成本不可忽视[[page::14]]。

- GAT_res模型中有序回归的收益优势不显著,甚至某些指标表现略逊于基线,表明有序回归效果依赖于基模型架构,泛化能力或有待进一步验证。这部分复杂网络结构的适应性值得后续更全面研究[[page::15,18]]。
  • 集成方式测试充分,但对于不同损失函数以外的模型结构优化(如不同神经网络层数、节点数、激活函数)调整不详,模型参数优化空间仍有待深入[[page::8,12]]。

- 报告多处提到“模糊的正确”哲学,强调对噪音容忍反优于精确拟合,这虽符合金融特性,但具体阈值的选择与设置对实际效能的影响未详述,作为黑箱的损失函数如何具体调整与解释较缺。

---

7. 结论性综合



本报告深入剖析了有序回归损失函数在机器学习选股模型中的应用,展示其有效性和优势。主要发现包括:
  • 有序回归有效弥补了传统分类和回归方法的缺陷,兼顾了收益率的连续性与投资决策所需的方向判断。这一点理论与实证两方面均得到支持。

- 基于全连接神经网络的模型,采用logistic形式的有序回归损失函数,大幅提升Rank IC、多空收益和年化超额收益,信息比率也得到改善,显示出对风险调整回报的优化。
  • 图神经网络残差注意力模型中有序回归优势不如NN明显,提示方法表现依赖于模型架构,需择优选择或进一步优化。

- 多参数敏感性分析显示10分类、样本加权及预测值均值集成为最佳组合,形成稳健高效的机器学习策略。
  • 子模型间的预测与收益相关性能否有效降低,体现了集成策略的多样化效益,有序回归预测与基线MSE模型相关但不完全重叠,保证了结合后的增益。

- 集成对比实验证明,模型效能提升主要源自有序回归本身抑制噪声的能力,而非简单集成技术,强调了损失函数设计的重要性。

图表支撑充分,特别是累计超额收益和Rank IC差异曲线,直观反映了有序回归策略的长期优势和稳定性。例如,基于NN模型的集成预测收益累计可达400%以上,明显优于基准及单一模型。最大回撤及其他风险指标未见大幅恶化,显示较好风险控制能力。

综上,报告站在量化选股和人工智能交叉领域的前沿,创新地引入有序回归,使机器学习模型更符合金融市场噪声特性和实践需求。该方法具备推广潜力,但需在不同市场环境及模型结构中进一步验证。风险提示全面,指出典型模型局限和实务挑战。

---

主要引用章节


  • 导读与有序回归简介:[page::0,2,20]

- 理论与模型设计详解:[page::4,5,6,7]
  • 实验设置与网络结构:[page::8,9,10,11]

- 结果与参数敏感性分析:[page::12,13,14,15,16,17,18,19]
  • 结论与风险提示:[page::20]


---

本分析基于报告全文,重点挖掘内涵和数据背后的经济逻辑,帮助专业投资者和研究人员全面理解和运用有序回归损失函数在智能选股中的创新价值。

报告