基于Transformer模型的智能选股策略
由polll创建,最终由polll 被浏览 813 用户
导语
RNN、LSTM和GRU网络已在序列模型、语言模型、机器翻译等应用中取得不错的效果。循环结构(recurrent)的语言模型和编码器-解码器体系结构取得了不错的进展。
但是,RNN固有的顺序属性阻碍了训练样本间的并行化,对于长序列,内存限制将阻碍对训练样本的批量处理。这样,一是使得RNN的训练时间会相对比较长,对其的优化方法也比较少,二是对于长时间记忆来说,其的效果也大打折扣。
而Transformer的核心,注意力机制(Attention)允许对输入输出序列的依赖项进行建模,而无需考虑它们在序列中的距离,这样对上面两个RNN中比较突出的问题就有了一个比较好的解决办法。本文将对Attention、Transformer以及其在选股策略中的应用进行讲解。
\
Attention介绍
Attention本质
Attention机制如果浅层地理解,跟它的名字非常匹配。它的核心逻辑就是“从关注全部到关注重点”。
Attention机制很像人类看图片的逻辑,当我们在看一张图片时,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上:
比如上面的图片,我们一眼望去,最先接收到的是“锦江饭店”的信息,所以,我们的视觉系统就是一种 Attention 机制,将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。
Attention机制最早是在CV中应用的,随后在NLP领域也开始应用了,真正发扬光大的是在NLP领域,因为2018年BERT和GPT效果出奇地好,进而走红,Transformer、Attention这些核心开始被大家重点关注。