DeepAlpha短周期因子系列研究之：TabNet在量化选股中的应用

由sgwang创建，最终由sgwang更新于2023-06-07 08:32 被浏览 361 用户

本文基于BigQuant平台，探索了TabNet（Google, 2020）模型在量化选股中的应用。

我们使用了A股全市场2010年到2021年的日线行情数据，抽取了98个量价因子。采用5年训练1年验证1年的方法进行了滚动回测，回测期（2015年到2021年9月）内累计收益率387.81%，年化收益率 27.57%，夏普比率 0.83。

一、前言

1.1 DeepAlpha

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} Deep Alpha是借鉴深度学习模型应用于金融量化投资领域的系列AI模型，包括全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet等。

1.2 深度学习的研究现状

深度学习神经网络在自然语言处理、图像处理和语音等领域取得了非常显著的效果。

CNN在图像处理任务中的特定领域应用已经达到了超过人类基准的水平，例如人脸识别、视频分析和目标检测等。

RNN在自然语言处理和语音识别的应用也非常广泛，例如Google的机器翻译、垃圾邮件识别和广告推荐等。

二、TabNet介绍

随着深度学习的发展，神经网络在文本、图像和语音等领域都取得了广泛的应用。但是，在表格数据的任务上，基于深度学习神经网络并没有取得非常显著的成效，反而是基于决策树的模型（XGBoost、LightGBM等，下文统称为DTs）取得了不错的成绩。

为什么神经网络在表格类型的数据集上表现不如DTs模型这么亮眼？主要原因在于表格类型数据的分布更加像是一个超平面的划分任务，在这类型的人物中，DTs模型的表现是更加优秀的。因此，可以通过设计神经网络的结构，让神经网络同样具有DTs的特性。

2020年，Google提出了TabNet，利用DNN构建了类决策树的DT-like blocks，使得TabNet能够同时具有DNN和DTs的优点，在多个表格类型数据集中都取得了优秀的表现。

2.1 模型结构

图 TabNet结构{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 如图所示，TabNet是比较流行的Encoder-Decoder结构。

(a) Encoder模块，由：feature transformer, attentive transformer and feature masking构成。

(b) Decoder模块，由：feature transformer和FC构成。

由FC→ BN → GLU这样的模块组成，其中GLU(Gated Linear Unit)是广义线性单元，其完成的变换为：

(d) attentive transformer

为每一步学习到一个mask，用于特征的选择。

核心为Sparsemax层，集中输出[0, 1]附近的数值。

图 sparsemax 对比softmax

2.2 DNN构建DT-like blocks

既然想要让DNN具有树模型的优点，那么我们首先需要构建一个与树模型具有相似决策流形的神经网络，下图是一个决策树流程的简单示例。

决策流程{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

这个决策流程很容易理解，输入两个特征x1和 x2，决策树分别以a和b为阈值来对他们进行划分，这样就得到了图中所示的决策流形。那么我们如何用神经网络来构建出一个类似的决策流形呢？论文给出了一种方法，如下图所示。

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

分析一下这个神经网络的流程，输入是特征向量[x1, x2]，首先分别通过两个Mask层来将x1和x2单独筛选出来，然后通过一个weight和bias都被专门设定过的全连接层，并将两个FC层的输出通过ReLU激活函数后相加起来，最后经过一个Softmax激活函数作为最终输出。如果与决策树的流程进行对比，我们可以发现其实这个神经网络的每一层都对应着决策树的相应步骤：Mask层对应的是决策树中的特征选择，这个很好理解；FC层+RelU对应阈值判断，以x1为例，通过一个特定的FC层+ReLU之后，可以保证输出的向量里面只有一个是正值，其余全为0，而这就对应着决策树的条件判断；最后将所有条件判断的结果加起来，再通过一个Softmax层得到最终的输出。 \n

2.3 TabNet的优点

TabNet的设计使用DNN的一些组件来达到树模型通过特征分裂，得到分类超平面的效果，因此在模型中引入了sparsemax来进行特征选择，引入多个Step来达到生成类似多颗树的效果。因此能够结合DNN和树模型的优点：

（1）DNN的拟合能力

众所周知，DNN可以利用海量的数据学习到非常复杂的知识，特别是在图像识别、机器翻译和语言识别等领域，基于DNN的神经网络取得的成绩已经远远超过传统的机器学习算法。

（2）DT-like的可解释性

对于传统的DNN来说，可解释性差是制约DNN在更多领域应用的一个重要难题。TabNet通过巧妙的设计，使得TabNet在拥有DNN优点的同时，获得树模型的可解释性。

2.4 数据集的测试结果

Forest Cover Type：这个数据集是一个分类任务——根据cartographic变量来对森林覆盖类型进行分类，实验的baseline采用了如XGBoost等目前主流的树模型、可以自动构造高阶特征的AutoInt、以及AutoML Tables这种用了神经网络结构搜索 (Neural Architecture Search)的强力模型（node hours的数量反映了模型的复杂性），对比结果如下：

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

三、实验

本文基于BigQuant人工智能量化投资平台（https://bigquant.com/），对TabNet在量化选股中的应用进行了研究。

3.1 实验方法

为了保证研究的客观性，我们采用《DeepAlpha短周期因子系列研究之一：DNN在量化选股中的应用》中同样的方法，利用量价因子预测股票未来5日的收益率。

3.2 数据准备

（1）数据

选择2010年1月1日到2021年1月1日A股全市场的日线股票数据作为训练数据，股票未来5日的收益率为训练的Label。

（2）因子

我们使用了开盘价、最高价、最低价、收盘价、换手率、当日收益率、成交量这7个基础数据，在量价行情基础数据中构建了98个因子。如下表所示：

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 共计98个（7*6+21+35）

为了加快模型的训练速度，以及减少极端行情对模型的干扰，我们对数据进行了预处理。

缺失值处理
- 缺失值统一填充为0
标准化
- 首先对98个因子进行了标准化，使得因子服从正态分布。
- 同时，由于选股可以认为是对股票的打分，因此对收益率也进行了标注化处理。
极值处理对标准化之后的数据进行了处理，Clip(-3, 3)。

\

3.3 模型训练

我们将2010年到2017年的数据作为训练集，2018年到2021年的数据作为验证集，进行参数搜素。

（1）基准模型

基准模型的参数为：