基于 TRA 和最优运输学习多种股票交易模式
由qxiao创建,最终由qxiao 被浏览 105 用户
摘要
股票预测是量化投资中最为关键的任务。近年来,深度神经网络因其强大的表征学习能力和非线性建模能力,逐渐成为股票预测的主流方法。现有的预测方法均假设股票数据符合独立同分布(IID)且采用单一模型有监督地对股票数据建模。但实际上,股票数据通常会包含多种不同甚至对立的分布(Non-IID),比如动量(历史收益率高的股票未来收益率会高)和反转(历史收益率低的股票未来收益率会高)这两种分布形式同时存在于股票数据中,但是已有的模型并不具备同时学习股票数据中多种分布的能力。
因此,微软亚洲研究院的研究员们提出了 Temporal Routing Adaptor (TRA),来赋予已有模型学习多种分布的能力。具体而言,TRA 在给定骨干模型的基础上,引入了一组 Predictors 来建模不同分布,和一个 Router 来根据样本的规律 p(y_t│X_t) 将其分配到所属的 Predictor 上进行训练和推理。为了保证 Router 能够预测出样本的规律,研究员们设计并利用了两种与 p(y_t│X_t) 关联的信息作为其输入:1) 利用骨干模型的隐层来表征 p(y ̂_t |X_t),2) 利用Predictor的历史预测偏差来表征 p(y_(< t)│X_(< t))。实验表明,这两种信息对 Router 有能力预测出样本规律起到了重要作用。TRA 的两个主要模块和基于骨干模型的具体实现可以参考图4。
图4:TRA 结构示意图
为了有效地训练 TRA 模型,另一个需要解决的问题是,如何保证分配到不同 Predictor 的样本是属于不同规律的。因此,研究员们基于最优运输 (Optimal Transport) 设计了一个迭代优化的算法。最优运输被用来求解在分配的样本满足特定比例约束下,如何分配样本能够最小化整体预测偏差。求解得到的分配方案会用来更新对应的 Predictor,并继续下一轮迭代,直至收敛。
图5:基于最优运输将样本分配到一组 Predictors
实验表明,TRA 可以稳定提升之前在股票预测中表现最强的基准模型如 Attention LSTM 和Transformer 的预测性能,并取得更高的投资收益(结果见表3)。
表3:TRA 模型相比于其他基准模型在股票排序预测任务下的性能
正文
/wiki/static/upload/a0/a0c4ce2b-b78c-4584-82d8-411d946a07b9.pdf
\