【干货】再见RNN,你好TCN


(AustinWoo) #1

阅读提示:如果你想读懂本文,最好对LSTM神经网络模型的体系结构有一个直观的了解。本文将介绍时间卷积网络如何朝着序列建模的方向发展——股票趋势预测。

文章概述

  • FTS深度学习背景
  • 值得注意的FTS数据预处理实践
  • 时间卷积网络结构
  • 时间卷积网络在FTS中的应用实例
  • 基于TCN的知识驱动股票走势预测与解释

再见RNN,你好TCN

1.背景

金融时间序列(FTS)建模是一项有着悠久历史的实践,它在20世纪70年代初首次对算法交易产生了革命性的变化。这两种做法都受到有效市场假说(EMH)的质疑。有效市场假说自1970年首次发表以来一直备受争议,因为它假设股票价格是不可预测的。如下所述,这并未限制尝试通过使用线性、非线性和基于ML的模型对FTS建模的研究。

由于金融时间序列具有非平稳、非线性、高噪声等特点,传统的统计模型难以对其进行高精度的预测。因此,尽管还远远不够完善,但近年来还是有越来越多的人尝试将深度学习应用于股市预测。

2013

《基于SVM的股市趋势预测方法》 :提出了一种利用支持向量机建立两部分特征选择与预测模型的股票预测方法,并证明该方法比传统方法具有更好的泛化能力。

研究报告: https://ieeexplore.ieee.org/document/6706743

2014

《人工神经网络模型预测证券市场的股价》 :提出了一种利用误差反向传播的前馈多层感知器来预测股票价格的人工神经网络。结果表明,该模型能够对一个典型的股票市场进行预测。

研究报告:https://arxiv.org/abs/1502.06434

2017

“进入LSTM——有关将LSTM神经网络应用于时间序列数据的研究激增。

《具有重新定义标签的时间加权LSTM模型,用于库存趋势预测》: 在2017 IEEE第29届人工智能工具国际会议上的LSTM神经网络中加入时间加权函数,其结果优于其他模型。

研究报告:https://www.semanticscholar.org/paper/Time-Weighted-LSTM-Model-with-Redefined-Labeling-Zhao-Rao/d89fa15ae56701ac8901ee5baf9187b41e3d8968

2018

《基于注意力机制的长短期记忆神经网络股价预测》 :将卷积神经网络(CNN)与递归神经网络(RNN)相结合,提出了一种新的结构&深广域神经网络(DWNN)。结果表明,与一般RNN模型相比,DWNN模型的预测均方误差降低了30%。

研究报告: https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0227222&type=printable

《预测股票价格指数的波动性:将LSTM与多个GARCH类型模型集成的混合模型》 :CNN被用来开发一个定量的选股策略来确定股票的趋势,然后用LSTM来预测股票价格,从而促进一个混合神经网络模型的定量择时策略来增加利润。

研究报告: https://www.sciencedirect.com/science/article/abs/pii/S0957417418301416

《基于LSTM神经网络的股票价格预测》 :利用LSTM神经网络和RNN建立模型,发现LSTM可以更好地应用于股票预测。

研究报告: https://link.springer.com/chapter/10.1007/978-3-319-93351-1_32

2019

《基于情绪分析和LSTM的股票收盘价预测》 :在模型分析中加入了投资者情绪倾向,并引入了经验模态分解(EMD)与LSTM相结合的方法来获得更准确的股票预测。基于注意机制的LSTM模型在语音和图像识别中比较常见,但在金融领域应用较少。

研究报告: https://link.springer.com/article/10.1007/s00521-019-04504-2?shared-article-renderer

《语言模型是无监督的多任务学习者》 :目前最热门的GPT-3的前身,GPT-2的目标是设计一个多任务学习器,它结合了预训练和有监督的微调,以实现更灵活的传输形式。因此,它具有1542M参数,比其他比较模型大得多。

研究报告: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

《基于知识驱动的时间卷积网络(KDTCN)的股市趋势预测与解释方法》 :他们首先从财经新闻中提取结构化事件,并利用知识图获得事件嵌入。然后,将事件嵌入和价格值结合起来预测股票走势。实验证明,这种方法能够(i)对突变的反应更快,在股票数据集上的表现优于最新的方法。

2020

《基于注意力机制的长短期记忆神经网络股价预测》 :基于近期新闻序列的混合注意力网络预测股票走势。具有注意机制的LSTMs由于其独特的存储单元结构而避免了长期依赖性,因此优于传统LSTMs。

研究报告: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0227222#pone.0227222.ref016

《基于时间卷积注意力的序列建模网络》 :一种结合时间卷积网络和注意机制的基于时间卷积注意网络(TCAN)的探索性体系结构。TCAN包括两部分,一部分是时间注意(TA),它捕捉序列内部的相关特征;另一部分是增强残差(ER),它提取浅层的重要信息并传递到深层。

研究报告: https://arxiv.org/pdf/2002.12530.pdf

上面的时间轴仅是为了提供对FTS在深度学习中的历史背景的一瞥,而不是对其余时间序列学术界在相似时间段内所做的重要工作轻描淡写。

但是,在此值得一提的是FTS预测领域的学术出版物可能经常会产生误导。 由于大量使用模拟器,许多FTS预测报告往往夸大其识别性能,并过度拟合其模型。这些论文中声称的许多性能难以复制,因为它们无法概括所预测的特定FTS的未来变化。

2. FTS值得注意的数据预处理实践

2.1去噪

金融时间序列数据(尤其是股票价格)会随着季节、噪声和自动更正而不断波动。传统的预测方法使用移动平均值和微分来减少预测的噪声。然而,FTS 通常是不稳定的,并且表现出有用信号和噪声的重叠,这使得传统的去噪无效。

小波分析在图像和信号处理等领域取得了令人瞩目的成就。由于它具有弥补傅里叶分析缺​点的能力,因此已逐渐引入经济和金融领域。小波变换在解决传统时间序列分析问题方面具有独特优势,因为它可以分解和重构来自不同时域和频域范围的金融时间序列数据。

小波变换本质上使用多尺度特征对数据集进行降噪,从而有效地将有用信号与噪声分离。邱佳瑜,王斌,周长军的论文 《基于注意力机制的长短期记忆神经网络股价预测》 中,他们将 coif3 小波函数用于三个分解层,并通过其信噪比(SNR)和均方根误差(RMSE)来评估小波变换的效果。 )。 SNR 越高,RMSE 越小,小波变换的去噪效果越好:

再见RNN,你好TCN

2.2数据洗牌

在FTS中,选择哪一块数据作为验证集并不是一件小事。事实上,有很多种方法可以做到这一点,对于波动性不同的股指,我们必须仔细考虑。

固定原点法 是最朴素和最常用的方法。给定一定的分割大小,数据的开始是训练集,结束是验证集。但是,这是一种特别基本的选择方法,对于像亚马逊这样的高增长股票而言尤其如此。之所以会出现这种情况,是因为亚马逊的股价一开始波动性很低,而且随着股价的增长,其波动性也越来越大。

亚马逊股价从年初至今的价格

因此,我们需要针对低波动率动态模型进行训练,该模型需要能够处理其预测中看不见的高波动率动态模型。这确实表明,这本身是困难的,对这类股票而言,都是以业绩为代价的。因此,仅考虑这一点,我们的验证损失和性能基准可能会产生误导。但是,对于像英特尔这样的波动性较小的股票(COVID危机前),这种方法是合理的。

滚动原点重新校准方法 比固定原点的脆弱性稍差一些,因为它允许通过对数据的各种不同分割进行取平均值来计算验证损失,从而避免陷入高波动时间框架的不具代表性的问题。

最后, 滚动窗口方法 是最有用的方法之一,因为它特别适用于长时间运行的 FTS 算法。实际上,该模型输出多个滚动数据窗口的平均验证误差。这意味着我们获得的最终值更能代表近期的模型性能,因为我们在远古时代对强或弱性能的偏见较少。

洗牌技术可视化

由托马斯·霍利斯(Thomas Hollis),安托万·维斯卡迪(Antoine Viscardi)和成恩义(Seung Eun Yi)所做的一项研究表明,滚动窗口(RW)和滚动原点重新校准(ROR)都比简单固定原点法的性能稍好(58%和60%)。这表明,对于亚马逊这样的波动性股票,使用这些洗牌方法将是不可避免的。

再见RNN,你好TCN

洗牌方法的性能比较

3.时间卷积网络(TCN)

时间卷积网络(简称TCN)是卷积神经网络的一种变体,它通过结合RNN和CNN架构的方面来进行序列建模任务。对TCN的初步经验评估表明,简单的卷积体系结构在各种任务和数据集上表现出比常规的递归网络(如LSTM)更好的性能,同时证明了更长的有效内存。

TCN的区别特征是:

  • 体系结构中的卷积是因果关系的,这意味着从过去到将来都不会发生信息“泄漏”。
  • 与RNN一样,该体系结构可以采用任意长度的序列并将其映射到相同长度的输出序列。 TCN具有非常长的有效历史记录大小(即,网络使用非常深的网络(带有残差层的增强)和扩张的卷积的组合,可以很远地看过去进行预测)。

3.1模型架构概述

3.1.1因果卷积

如上所述,TCN 基于两个原则:网络产生的输出长度与输入长度相同,以及从将来到过去不会泄漏的事实。为了完成第一点,TCN 使用一维全卷积网络(FCN)架构,其中每个隐藏层的长度与输入层的长度相同,并且添加了零填充长度(内核大小− 1)以保留后续层与以前的长度相同。为了达到第二点,TCN 使用因果卷积,即在卷积中,时间t的输出仅与时间t或更早的上一层中的元素卷积。

简单地说: TCN = 1D FCN +因果卷积。

3.1.2膨胀卷积

简单的因果卷积只能回顾网络深度为线性的历史。这使得将上述因果卷积应用于序列任务,尤其是需要较长历史的任务具有挑战性。 Bai,Kolter和Koltun(2020)实施的解决方案是采用膨胀卷积,以实现指数级大的接收场。更正式地,对于一维序列输入 x∈Rⁿ 和滤波器 f:{0,…,k-1}→R,对该序列元素 s 的扩张卷积运算 F 定义为:

再见RNN,你好TCN

其中 d 是扩张因子,k 是滤波器大小,s-d·i 代表过去的方向。 因此,膨胀等效于在每两个相邻的滤波器抽头之间引入一个固定的阶跃。 当 d = 1 时,膨胀卷积减小为规则卷积。使用较大的膨胀可使顶层的输出代表更大范围的输入,从而有效地扩展了 ConvNet 的接收范围。

再见RNN,你好TCN

扩张因果卷积,扩张因数d = 1、2、4,滤波器大小k =3。接收场能够覆盖输入序列中的所有值。

3.1.3残余连接

剩余块有效地允许层学习对身份映射的修改,而不是整个转换,这已经被反复证明有益于非常深层的网络。

由于TCN的接收场取决于网络深度 n 以及滤波器的大小 k 和扩散因子 d,因此,更深和更大的TCN的稳定化至关重要。

3.2利弊

使用TCN进行序列建模的几个优点:

并行性。 与RNN中的后继时间的预测必须等待其前任完成之前的 RNN 不同,卷积可以并行完成,因为每一层都使用相同的滤波器。因此,在训练和评估中,可以在 TCN 中整体上处理一个长输入序列,而不是像 RNN 中那样顺序处理。

灵活的接收场大小。 TCN 可以多种方式更改其接收字段的大小。例如,使用更大的膨胀因子堆叠更多的膨胀(因果)卷积层或增加过滤器尺寸都是可行的选择。因此,TCN 可以更好地控制模型的内存大小,并且易于适应不同的域。

稳定的渐变。 与循环架构不同,TCN 的反向传播路径与序列的时间方向不同。因此,TCN 避免了爆炸/消失梯度的问题,这是 RNN 的主要问题(并导致了LSTM和GRU的发展)。

训练所需的内存较低。 尤其是在输入序列较长的情况下,LSTM 和 GRU 可以轻松地消耗大量内存来存储其多个单元门的部分结果。但是,在 TCN 中,过滤器是跨层共享的,反向传播路径仅取决于网络深度。因此,在实践中发现,门控 RNN 可能比 TCN 占用最多层数的内存。

可变长度输入。 就像RNN以循环方式对可变长度的输入进行建模一样,TCN 也可以通过滑动一维卷积内核来接受任意长度的输入。这意味着,对于任意长度的顺序数据,可以将 TCN 用作 RNN 的直接替代。

使用TCN的两个明显的缺点:

评估期间的数据存储。 TCN需要采用原始序列,直到有效的历史记录长度,因此在评估期间可能需要更多的存储空间。

域转移的潜在参数更改。 不同领域对模型进行预测所需的历史记录数量可能有不同的要求。因此,当将模型从仅需要很少内存(即,较小的 k 和 d )的域转移至需要更长内存(即,较大的 k 和 d )的域时,TCN 可能会因为没有足够大的接收场。

3.3基准

用于基准RNN变体的典型序列建模任务上评估TCN和递归架构

执行摘要:

结果表明,具有最小调优的通用TCN体系结构在广泛的序列建模任务中优于规范的递归体系结构,这些任务通常用于对递归体系结构本身的性能进行基准测试。

4.基于TCN的知识驱动股票走势预测与解释

4.1背景

大多数股票趋势预测中的深层神经网络都有两个共同的缺点: (i)现有的方法对股票走势的突变不够敏感;(ii)预测结果不能为人类所理解。 为了解决这两个问题,有人提出了一种新颖的基于知识驱动的 时间卷积网络(KDTCN) ,将背景知识、新闻事件和价格数据融合到深度预测模型中,解决突变情况下的股市趋势预测和解释问题。

为了解决突变预测问题,将金融新闻中的事件抽取并结构化为事件元组,例如将“英国退出欧盟”表示为(英国,退出,欧盟)。然后事件元组中的实体和关系被链接到 KG,比如 Freebase 和 Wikidata。其次,将价格信息和文本信息分别连接在一起。最后,将这些嵌入内容输入到基于TCN的模型中。

实验表明,KDTCN 能够(i)更快地对突变做出反应,在股票数据集上的表现优于现有的方法;以及(ii)有助于解释预测,尤其是在突变情况下。

此外,基于具有突变的预测结果,为了解决解释问题,利用知识图(KG)表示事件之间的联系,将事件的影响可视化。通过这样做,我们可以解释(i)知识驱动事件如何在不同程度上影响股市波动;(ii)知识如何帮助将事件与股市趋势预测中的突变联系起来。

4.2模型架构概述

这里提到的基本 TCN 模型体系结构是从上面的第 3 节派生而来的-一种通用的 TCN 体系结构,由 因果卷积,残差连接和膨胀卷积 组成。

KDTCN体系结构概述如下所示:

KDTCN框架说明

原始模型输入为价格值X,新闻语料库N和知识图G。价格值经过归一化并映射到价格向量中,表示为:

再见RNN,你好TCN

其中每个向量 pt 代表股票交易日 t 上的实时价格向量,而 T 是时间跨度。

对于新闻语料库,新闻片段表示为事件集 ε;然后,构造成事件元组 e =(s,p,o),其中 p 是动作/谓词,s 是参与者/主体,o 是在其上执行动作的对象;然后,将事件元组中的每个项目链接到 KG,对应于 KG 中的实体和关系。最后,通过训练事件元组和 KG 三元组获得事件嵌入 V。

最后,将事件嵌入与价格向量相结合,输入到基于 TCN 的模型中。

4.2.1数据集和基准

数据集:

  1. 时间序列价格数据X: 道琼斯工业指数每日价值记录的价格数据集
  2. 文字新闻数据N: 由Reddit WorldNews频道的历史新闻头条组成的新闻数据集(根据投票数排名前25位)。
  3. 结构化知识数据G: 从两个常用的开放式知识图(Freebase和Wikidata)的结构化数据构建的子图。

基线:

上图描述:具有不同输入的基准模型。 在第一列中,前缀WB表示单词嵌入,EB表示事件嵌入,PV表示价格向量,KD表示知识驱动。 请注意,事件嵌入(a)和事件嵌入(b)分别表示不使用KG和使用KG的事件嵌入。

4.3预测评估

KDTCN的性能从三个方面进行了基准测试:(i)基本TCN体系结构的评估,(ii)不同模型输入对TCN的影响,以及(iii)基于TCN的突然变化的模型性能。

TCN基本架构:

请注意,此部分报告的所有实验仅输入价格值。

在股票趋势预测任务上,TCN大大优于基线模型。与传统的ML模型(ARIMA)或深度神经网络(例如LSTM和CNN)相比,TCN的性能要好得多,这表明TCN在序列建模和分类问题上具有更明显的优势。

再见RNN,你好TCN

使用不同基本预测模型的DJIA指数数据集的股票趋势预测结果。

使用TCN的不同模型输入:

再见RNN,你好TCN

在基于TCN的模型上具有不同输入的整个DJIA指数数据集中的股票趋势预测结果。

如图所示,WB-TCN和EB-TCN均比TCN获得更好的性能,表明文本信息有助于改善预测。

KDTCN获得最高的准确性和F1分数,并且这样的结果证明了模型输入与结构化知识,财务新闻和价格值的集成的有效性。

突变的模型性能:

再见RNN,你好TCN

使用不同的模型输入,本地DJIA指数数据集的突然变化的股票趋势预测结果。

据观察,具有知识驱动的事件嵌入输入的模型(例如KDEB-TCN和KDTCN)可以大大优于基于数字数据和基于文本数据的模型。 这些比较结果表明,知识驱动的模型在迅速应对股市的突然变化方面具有优势。

有关如何量化库存波动程度的其他说明,请参见下文。

首先,通过计算两个相邻股票交易日之间的股票波动度D(波动)的差,得出突变的时间间隔:

再见RNN,你好TCN

其中,时间t处的 x 表示股票交易日 t 的股票价格值。 然后,将波动程度 C 的差定义为:

再见RNN,你好TCN

如果| Ci | 超过某个阈值,可以认为股票价格在第i天突然变化。

4.1.4预测说明

为何在没有ML专业知识的情况下,知识驱动事件是导致人类突然变化的常见原因的解释是从两个方面完成的: (i)可视化知识驱动事件对具有突然变化的预测结果的影响 ,以及 (ii)检索知识的背景事实通过将事件链接到外部KG来驱动事件

事件的效果可视化:

下图的预测结果是 DJIA 指数的趋势将下降。 请注意,相同颜色的条具有相同的事件效果,条的高度反映了效果的程度,事件受欢迎程度从左到右下降。 从直觉上讲,具有较高知名度的事件应在突然变化的情况下对股票趋势预测产生更大的影响,但并不总是如此。

事件对股票趋势预测的影响的例子

几乎所有其他具有负面影响的事件都与这两个事件有关,例如,(英镑,跌幅接近5%)和(北爱尔兰,要求对联合爱尔兰进行民意调查)。

尽管也有一些事件对预测股票趋势将产生积极影响,并且具有很高的知名度,即(Rich,Getting,Richer),但总的影响是负面的。 因此,可以将股指波动的突然变化视为事件的影响和流行的综合结果。

链接到KG的事件元组的可视化:

再见RNN,你好TCN

与事件相关的KG中的三元组的插图

首先,搜索在股票趋势运动中具有巨大影响或很高知名度的事件元组。 然后,回溯到包含这些事件的新闻文本。 最后,通过实体链接检索关联到事件元组的关联的KG三元组。 在上图中,每个事件元组都标记为蓝色,并且其中的实体链接到KG。

这些列出的事件元组,例如(英国,退出欧盟,英国,离开欧盟的票数),(英镑,跌幅接近5%),(JK罗琳,负责苏格兰独立) )和(北爱尔兰,呼吁对联合爱尔兰进行民意调查)从字面上看并不是很重要。 但是,通过与KG的联系,他们可以彼此建立联系,并且与英国退欧和欧盟公投事件密切相关。 通过结合事件影响的解释,可以证明知识驱动的事件是突变的常见来源。

5.结论

循环网络在序列建模中享有的优势可能在很大程度上是历史的遗迹。 直到最近,在引入诸如卷积卷积和残差连接之类的体系结构元素之前,卷积体系结构确实还比较弱。 最近的学术研究表明,利用这些元素,简单的卷积架构在各种序列建模任务中比LSTM等递归架构更有效。

此外,从上述TCN在股票趋势预测中的应用可以看出,通过合并新闻事件和知识图,TCN可以大大胜过规范RNN。

参考链接:

[1]《用于预测财务时间序列的Lstms和注意机制的比较》:https://arxiv.org/abs/1812.07699

[2]《基于注意力机制的长短期记忆神经网络预测股票价格》:https://doi.org/10.1371/journal.pone.0227222

[3]《通过共同学习对齐和翻译来进行神经机器翻译》:https://arxiv.org/abs/1409.0473

[4]《基于通用卷积和递归网络进行序列建模的实证评估》:https://arxiv.org/abs/1803.01271

[6]《知识驱动的趋势预测和时间卷积网络解释》:https://dl.acm.org/doi/10.1145/3308560.3317701

[5]《基于时序卷积注意力的序列建模网络》:https://arxiv.org/abs/2002.12530


(developer) #2

平台赶快支持😁