如何在Python里提升时间序列滚动排序函数（TS_RANK）的效率

由bigquant创建，最终由bigquant更新于2022-08-30 06:25 被浏览 156 用户

TS_RANK 含义

TS_RANK(X, n)函数，是指在一个时间序列X上，循环计算每个固定窗口的最后一个值在这个窗口内的排序值。说的通俗一点，就是在每一个时刻看所关注的时间序列X当前取值在过去一段时间内的排序如何。特意讨论该函数是因为其在挖掘信号时的使用频率还是很高的。

举个例子，如果我有时间序列[1,2,3,4,5,6], 固定窗口为3，那么前两个下标由于向前回溯数据长度不足将不做运算，对于[1,2,3]，由于3是最大的，所以序值为3。同理，继续循环推进，对于[2,3,4], [3,4,5], [4,5,6]，最后一个值的序值也都为3。最后得到[3,3,3,3]。

考虑固定窗口不一样时，计算结果难以相互比较，故而可以将每次得到的序值除以窗口长度，从而将结果正则到[0,1]之间，对于上例，结果变为[1,1,1,1]。再举一个例子[1,6,5,2,4,3]，则得到[0.66, 0.33, 0.66, 0.33]。

TS_RANK的Python实现

过去，大家喜欢用pandas.rolling()去实现这一类在时间序列上滚动循环计算的符号函数，假设价格dataframe为df，那么一般的写法为：

df.rolling(n).apply(lambda x: get_sort_value(x)/n) 由于pandas没有自带与rolling耦合的获取排序值的内置函数，我们需要使用apply+lambda的写法进而利用自写的get_sort_value去获取最后一个元素的排序值。根据我们的要求，get_sort_value是一个传入array返回最后一个元素排序值的函数，这里除以n则是为了正则化。

对于核心的get_sort_value，可实现的方法有很多种，这些code来自于[gihub](https://github.com/pandas-dev/pandas/issues/9481 59)的讨论，有一些小错误，笔者做了修改。

def rollingRankOnSeries(array):
s = pd.Series(array)
return s.rank(method='min', ascending=False)[len(s)-1]
def rollingRankSciPy(array):
return array.size + 1 - sc.stats.rankdata(array)[-1]

def rollingRankBottleneck(array):
return array.size + 1 - bd.rankdata(array)[-1]

def rollingRankArgSort(array):
return array.size - array.argsort().argsort()[-1]

其中，第一种实现是利用pandas的rank函数，由于将array转化为了series效率较低不做讨论，第二种实现使用了scipy的rankdata函数，第三者实现用了bottleneck的库函数，最后一种则是numpy的内置函数argsort。

实验证明，BottleNeck的rankdata效率略高于Scipy和Numpy，平均用时4S，而Scipy和Numpy需要6S。

TS_RANK提速

事实上，我们一定还可以更快。原因是因为之前我们的操作是每次将一个窗口序列都分开对待，导致每次都必须进行一次O(nlogn)的排序。但实际上，由于时间序列前后的重合性，我们在这一时刻做排序用的时间序列与上一时刻的比，只差了一个元素。

举个例子，对于时间序列[1,2,3,4,5,6]与窗口值4，我们在排序好[1,2,3,4]之后，在下一次排序只需要从[1,2,3,4]中移除1，增添5，再获取5的序值即可。于是我们发现，其实可以使用一个更好的数据结构去实现我们的目标，这个数据结构的要求是：可以存储时间序列，并可以高效实现增添删除获取序的操作。

虽然想法是美好的，但我们也需考虑Python的实现速度问题。由于高效的库函数都是基于C/C++实现的，如果我们无法找到合适的库函数，自己手撸一个只会更慢。笔者经过简单的搜索，找到了一个勉强OK的方法：SortedList。SortedList是sortedcontainers包里的一个函数，可以在add，pop操作时保持排序特性。


def TS_RANK(x, n):
sl = SortedList(x[:n])
for i in range(n,len(x)):
sl.add(x[i])
res.append(sl.bisect_left(x[i]) / n)
res.pop(0)
return res

新的TS_RANK函数实现如上，用到了numba加速，测试后速度提升为0.11S，比起暴力numpy快了50多倍。

好在Python也还是为我们提供了更优雅的用法，且就在我们提到的bottleneck库里，move_data就可以做到moving window的last value的rank值计算，且写法简单：

bk.move_data(x)

经过测试，速度为0.09S，和我们的手写版本相当。

不过这个函数也有缺点，那就是对于前n的元素的操作能力一般，全部赋了缺失值，如果n较大会造成一些问题。而对于我们自写的函数，可以灵活的根据我们的需要对前n个值的赋值规则进行修改。所以具体采用哪个，还需大家仔细斟酌。

结语

本文证明了numpy+好的算法思路+numba是可以极大逼近他人的C版本的。同时，大部分Python新手可能连4-6s的初级方案都无法达到，当数据量陡增之时，这也是会极大影响quant们的研究效率的。

最后，如果大家有其他更有效的实现方法，也欢迎在文章下面留言讨论，共同进步。

如何在Python里提升时间序列滚动排序函数（TS_RANK）的效率

TS_RANK 含义

TS_RANK的Python实现

TS_RANK提速

结语

标签