DeepAlpha短周期因子系列研究之: 自定义损失函数

由qxiao创建，最终由small_q更新于2025-01-09 10:38 被浏览 463 用户

本文目的在于给出自定义损失函数示例代码, 便于读者魔改. 基于BigQuant平台, 探索了使用不同损失函数对DeepAlpha-DNN模型优化的效果. 本文的基准模型为MSE优化的DeepAlpha-DNN模型, 进一步使用MAE、Pseudo-Huber以及负IC损失函数和有序回归损失函数. 最后多加一项使用wmse损失函数优化LSTM模型.

我们使用了基本面条件对A股进行筛选. 采用两到三年数据训练, 后一年数据进行回测. 由于本文的标签是未来五日累计收益率, 故采用5日调仓的方式进行回测.

通过对比常用损失函数在2023年的回测效果得出结论: 使用MAD损失函数综合效果最佳, 2023年期间累计收益率 8.19%，年化收益为13.36%，近期大盘走势不佳(-2.67%)的状态下收益依旧为正, 最大回撤只有6.01%, 胜率为0.55.

一. 损失函数

常用损失函数

损失函数是机器学习和深度学习中的关键概念，用于衡量模型预测结果与实际标签之间的差异或误差。它的作用是定义了模型的优化目标，通过最小化损失函数来使模型能够学习和适应数据。故选择损失函数是在量化投资中非常重要的决策之一. 损失函数的选择直接影响了模型训练和优化过程, 决定了模型对于不同类型的错误的敏感程度.

这里列举几个常用的损失函数, 如果是分类任务:

分类问题下的损失函数

BCE, 又称Binary Cross-Entropy. 主要用于多分类问题，softmax损失的分类问题为BCE的衍生. CCE, 又称Categorical Cross Entropy Loss. 主要用于二分类问题，各位如果对meta-labeling(元标签)了解的话，分类交叉熵损失在元标签中应用较多, 元标签在做第一层模型时需要高召回率的机器学习模型, 而在二分类问题下计算召回率最为方便.

如果是回归任务:

回归问题下的损失函数

MAD, 又称绝对平均差, 真实标签和预测标签之差的绝对值的平均数; MSE，又称均方误差, 描述的是真实标签和预测标签平方差的平均数, 这是我们比较常用的指标.

此篇文章是利用DeepAlpha-DNN模型对未来五日累计收益进行拟合. 以MSE损失函数训练的模型作为基准模型, 并分别采用了MAE和Pseudo-Huber损失函数对模型进行优化.

而MAE或者Pseudo-Huber损失使得模型的鲁棒性增强, 模型对异常值的容忍度大大提高.

在Pseudo-Huber损失函数中, δ是一个可调节的超参数, 本文令δ=5. 损失函数如上图绿线所示, 其损失函数值普遍小于绝对值损失的损失函数值, 但与绝对平均误差损失相比, 该损失函数不能快速迭代至最优解.

但是绝对值损失函数存在不可导点, 如上图所示, 绝对值函数在零处不可导, 所以这里引入伪梯度的概念:

其中h为一个很小的数.

IC损失函数

首先来介绍IC:

其中hat_y表示模型的预测值, y表示实际累计收益率, bar_y表示累计收益率的平均值, bar_hat_y表示预测值的平均值. 整个指标是用来衡量预测值和实际值的相关性. 该指标被称为相关系数，相关系数越大代表预测值和累计收益的关联越强, 选股能力也越强. ==想让IC越大, 只需让负IC越小越好, 所以将负IC作为调节模型的损失函数。==