Two Sigma：高频数据的机器学习模型的例子

由small_q创建，最终由small_q更新于2022-09-13 07:20 被浏览 138 用户

摘要

机器学习是当前金融建模、预测和决策的最先进技术。然而，实现这一潜力需要克服许多复杂的挑战。在本次演讲中，Two Sigma的Justin Sirignano——他也是牛津大学数学副教授——讨论了金融领域机器学习的机遇和挑战。Justin介绍了用于高频数据的机器学习模型的例子，并涵盖了包括训练深度学习模型来尝试预测价格波动，以及使用强化学习来尝试确定最优执行策略。我们今天先分享第一个案例，使用RNN预测股票高频价格。

正文

深度学习在高频价格预测中的应用

Sirignano首先介绍了深度学习模型在高频价格预测中的应用。订单簿数据反应的是股票当前的供需，每个时间点买卖量价订单流数据是一个高维序列。

{w:100}{w:100}{w:100}

作者使用了1000个NASDAQ股票的高频价格数据，只选取了原始数据中价格发生变化的数据点，这样能有效降低数据量。预测的目标是下一时间点股价涨跌的方向。模型的训练一共使用了500张GPU。

{w:100}{w:100}{w:100}

VAR模型对比评估RNN模型

为了更清晰的评估深度学习模型（这里使用的是RNN模型）的效果，作者选用了VAR模型作为对比。

{w:100}{w:100}{w:100}

在训练过程中，由于高频序列的长度非常长，RNN反向传播梯度计算非常耗时。于是作者采用了TBTT的梯度计算法，TBPTT对于一个目标序列，每次处理一个时间步（timestep），当处理到k1个时间步时，使用TBPTT后向传播k2个时间步。如果k2比较小，那么其计算开销就会降低。这样，它的每一个隐层状态可能经过多次时间步迭代计算产生的，也包含了更多更长的过去信息。在一定程度上，避免了上面方法中无法获取截断时间步之外信息的问题。

{w:100}{w:100}{w:100}