基于Transformer模型的智能选股策略

由polll创建，最终由polll更新于2022-11-03 08:33 被浏览 867 用户

导语

RNN、LSTM和GRU网络已在序列模型、语言模型、机器翻译等应用中取得不错的效果。循环结构（recurrent）的语言模型和编码器-解码器体系结构取得了不错的进展。

但是，RNN固有的顺序属性阻碍了训练样本间的并行化，对于长序列，内存限制将阻碍对训练样本的批量处理。这样，一是使得RNN的训练时间会相对比较长，对其的优化方法也比较少，二是对于长时间记忆来说，其的效果也大打折扣。

而Transformer的核心，注意力机制（Attention）允许对输入输出序列的依赖项进行建模，而无需考虑它们在序列中的距离，这样对上面两个RNN中比较突出的问题就有了一个比较好的解决办法。本文将对Attention、Transformer以及其在选股策略中的应用进行讲解。

Attention机制如果浅层地理解，跟它的名字非常匹配。它的核心逻辑就是“从关注全部到关注重点”。

Attention机制很像人类看图片的逻辑，当我们在看一张图片时，我们并没有看清图片的全部内容，而是将注意力集中在了图片的焦点上：

{w:100}{w:100} 比如上面的图片，我们一眼望去，最先接收到的是“锦江饭店”的信息，所以，我们的视觉系统就是一种 Attention 机制，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。

Attention机制最早是在CV中应用的，随后在NLP领域也开始应用了，真正发扬光大的是在NLP领域，因为2018年BERT和GPT效果出奇地好，进而走红，Transformer、Attention这些核心开始被大家重点关注。