基于 TRA 和最优运输学习多种股票交易模式

由qxiao创建，最终由qxiao更新于2021-11-26 08:24 被浏览 111 用户

摘要

股票预测是量化投资中最为关键的任务。近年来，深度神经网络因其强大的表征学习能力和非线性建模能力，逐渐成为股票预测的主流方法。现有的预测方法均假设股票数据符合独立同分布（IID）且采用单一模型有监督地对股票数据建模。但实际上，股票数据通常会包含多种不同甚至对立的分布（Non-IID），比如动量（历史收益率高的股票未来收益率会高）和反转（历史收益率低的股票未来收益率会高）这两种分布形式同时存在于股票数据中，但是已有的模型并不具备同时学习股票数据中多种分布的能力。

因此，微软亚洲研究院的研究员们提出了 Temporal Routing Adaptor (TRA)，来赋予已有模型学习多种分布的能力。具体而言，TRA 在给定骨干模型的基础上，引入了一组 Predictors 来建模不同分布，和一个 Router 来根据样本的规律 p(y_t│X_t) 将其分配到所属的 Predictor 上进行训练和推理。为了保证 Router 能够预测出样本的规律，研究员们设计并利用了两种与 p(y_t│X_t) 关联的信息作为其输入：1) 利用骨干模型的隐层来表征 p(y ̂_t |X_t)，2) 利用Predictor的历史预测偏差来表征 p(y_(< t)│X_(< t))。实验表明，这两种信息对 Router 有能力预测出样本规律起到了重要作用。TRA 的两个主要模块和基于骨干模型的具体实现可以参考图4。

{w:100}{w:100} 图4：TRA 结构示意图

为了有效地训练 TRA 模型，另一个需要解决的问题是，如何保证分配到不同 Predictor 的样本是属于不同规律的。因此，研究员们基于最优运输 (Optimal Transport) 设计了一个迭代优化的算法。最优运输被用来求解在分配的样本满足特定比例约束下，如何分配样本能够最小化整体预测偏差。求解得到的分配方案会用来更新对应的 Predictor，并继续下一轮迭代，直至收敛。

{w:100}{w:100}

图5：基于最优运输将样本分配到一组 Predictors

实验表明，TRA 可以稳定提升之前在股票预测中表现最强的基准模型如 Attention LSTM 和Transformer 的预测性能，并取得更高的投资收益（结果见表3）。

{w:100}{w:100} 表3：TRA 模型相比于其他基准模型在股票排序预测任务下的性能

正文

/wiki/static/upload/a0/a0c4ce2b-b78c-4584-82d8-411d946a07b9.pdf

基于 TRA 和最优运输学习多种股票交易模式

摘要

正文

标签