如何高效、优雅地进行高频策略回测？

由lizhuo111创建，最终由lizhuo111更新于2023-04-10 09:18 被浏览 227 用户

今天与大家探讨高频策略的回测框架。高频策略的研发，有两个显著的特点：一是数据量大，与日频相比，分钟频率就是百倍的数据量，到秒级别更达到上千倍的差异。二是对交易细节敏感，回测系统要尽可能去模拟真实交易的情形，甚至要比真实交易更严格，这样研发出来的高频策略才有实盘的价值。所以高频策略要考虑的细节很多，决策时间点，成交价，手续费，流动性等。细节考虑的不到位，策略回测和实盘交易就会差异很大，降低策略研发的价值和效率。如何在大数据量前提下，尽可能的将细节考虑到位，就是高频策略回测系统的挑战，也就是严谨和高效的权衡。

下面和大家一起构建一个秒级别的策略回测框架。一般来说，回测框架会包含以下几个模块：数据处理，策略逻辑，交易清算，绩效报告

数据处理：

数据模块是最基础和重要的环节，直接决定了回测框架的结构和效率，我们展开来看。 1）加载原始数据这里我们从parquet文件中加载原始的tick数据。 2）将tick数据转换成10s级别的K线数据。 tick数据的结构以及通过resample转换成K线数据我们在上篇文章《》已经介绍过了，这里增加2个字段：

tick_resample['Bid'] = tick_df['bp01'].resample(freq, label='right').mean() tick_resample['Ask'] = tick_df['sp01'].resample(freq, label='right').mean() 把10s内的买卖委托价格的均值作为该K线的买卖委托价，这个价格我们用来做成交价格的模拟

3）准备策略决策数据策略决策有可能用的K线已有的字段，也有可能需要基于已有字段衍生新字段。本例中我们基于Close衍生MA5和MA20两个字段

tick_df['MA5'] = tick_df['Close'].rolling(window=5).mean() tick_df['MA20'] = tick_df['Close'].rolling(window=20).mean() MA_S_arr = np.array(trade_df['MA5']) MA_L_arr = np.array(trade_df['MA20'])

对于高频数据处理，我们一定要尽可能地避免使用循环，用循环的地方多了，效率就很难提起来。我们使用rolling函数实现滚动计算指定长度的均值，这个内置的滚动机制要比显式的写循环计算快得多。为了方便策略逻辑使用，把决策用的数据转换成array格式，效率会提升不少。

策略逻辑

本例我们先设定一个简单的策略，更复杂的策略逻辑实现留到后面文章。如果当前无持仓，MA5上穿MA20，则开一手多单。如果当前无持仓，MA5下穿MA20，则开一手空单。无论多单还是空单，持仓时间达到1分钟就平仓。虽然逻辑很简单，但要实现出来，我们需要依赖当前的持仓状态，还要对持仓时间计数。所以无法避免地要写一层循环来实现。

策略逻辑

for tk in range(1,trade_df.shape[0]): if pre_hold == 0: if (MA_S_arr[tk-2] < MA_L_arr[tk-2]) & (MA_S_arr[tk-1] > MA_L_arr[tk-1]) : #开多逻辑 trade = 1 hold = 1 elif (MA_S_arr[tk-2] > MA_L_arr[tk-2]) & (MA_S_arr[tk-1] < MA_L_arr[tk-1]) : # 开空逻辑 trade = -1 hold = -1 else: trade = 0 hold = pre_hold else: if hold_time == 5: trade = -pre_hold hold = 0 hold_time = 0 else: hold_time += 1 trade = 0 hold = pre_hold trade_list.append(trade) pre_hold = hold

我们取一个具体的时间点来看看策略逻辑形成的交易点：绿色框线处可以看到， 21:04:30时 MA5<MA20，21:04:40时 MA5>MA20，此时形成MA5对MA20的上穿，发出买入信号，买入交易是在21:04:40的下一根K线内完成，这笔交易持有时间1分钟，在21:05:40的下根K线内完成卖出平仓交易。

交易清算

清算模块的核心就是又快又准确地把账目算对。先做数据准备，在策略逻辑模块我们得到了trade_list, 是每个时间点的下单列表，把trade_list合并到trade_df中，并生成pre_cp, hold, pre_hold序列

trade_df['trade'] = [0] + trade_list trade_df['hold'] = trade_df['trade'].cumsum() trade_df['pre_hold'] = [0] + trade_df['hold'].iloc[:-1].tolist() trade_df['pre_cp'] = [trade_df['Close'].iloc[0]] + trade_df['Close'].iloc[:-1].tolist()

接下来计算每个时间点的盈亏值（pnl）, 此时要分几种情况分别计算：无交易，无持仓， pnl=0 无需处理无交易，有持仓，这种情况也简单，只需用最新价(cp)和前一根K线收盘价（pre_cp）来计算持仓盈亏

idx = trade_df['hold'] != 0 trade_df.loc[idx,'pnl'] = trade_df.loc[idx,'hold'] * (trade_df.loc[idx,'price'] - trade_df.loc[idx,'pre_cp'])*multiplier

持仓收益 = 持仓量*（最新价-前收价）*合约乘数

下面处理有交易情况的盈亏计算，分成买入/卖出两种情况，我们重点讨论买入的情况，卖出相反处理即可。

idx = trade_df['trade'] > 0 trade_df.loc[idx, 'trade_price'] = trade_df.loc[idx, 'Ask'] trade_df.loc[idx, 'fee'] = trade_df.loc[idx, 'trade'] * (trade_df.loc[idx, 'trade_price']) * multiplier * fee

先定位买入订单的位置索引，并指定买入订单的成交价为下一根K线的Ask均价，也就是对手盘的均价。这里大家可以自行修改成交价的设定，可以假设为下根K线的开盘价/收盘价/平均价，对手均价是比较严格的假设情况了，相当于我们要主动承担市场的买卖盘均价。手续费 = 交易量 * 成交价* 合约乘数 * 手续费率

对于股票，买入单肯定是开仓的情况，而期货而言，买入单可能是买入开多，也可能是买入平空，所以我们分别处理。买入开多：

idx1 = idx & (trade_df['pre_hold'] >= 0) #开多 trade_df.loc[idx1, 'pnl'] = trade_df.loc[idx1, 'trade'] * (trade_df.loc[idx1, 'price'] - trade_df.loc[idx1, 'trade_price']) * multiplier - trade_df.loc[idx1, 'fee']

买入开多情况的盈亏 = 交易量 *（最新价 - 交易价） * 合约乘数 - 手续费这里注意是的，我们在这根K线的某个时间点以交易价买入后，就形成了持仓，从买入时间点到这根K线收盘这段时间的持仓收益，不能忽略了。

买入平空

idx2 = idx & (trade_df['pre_hold'] < 0) # 平空 trade_df.loc[idx2, 'pnl'] = trade_df.loc[idx2, 'pre_hold'] * (trade_df.loc[idx2, 'trade_price'] - trade_df.loc[idx2, 'pre_cp']) * multiplier - trade_df.loc[idx2, 'fee']

买入平空情况的盈亏 = 交易量 * （交易价 - 前收价） * 合约乘数 - 手续费同样的，我们在这根K线的某个时间点以交易价平仓，从前根K线收盘到买入时间点这段时间的持仓收益，也应计算在内。

以上几步，就把买入交易的场景清算完成了。卖出交易也同理操作，分成卖出开仓和卖出平仓两种情况即可。

同样我们以上面的例子来看清算后得到的数据先看21:04:50的买入交易：成交价（trade_price）=15085.00 是该时间点的Ask价格，即对手均价。手续费（fee） = 11508550.00015 = 11.31 盈亏（pnl） = 1(15080-15085)*5 - fee = -36.31

其他几个时间点的pnl大家可以手动算算。

绩效报告一般计算绩效指标要先把高频数据转换成日频，用resample函数进行频率转换。并统计日频的手续费（fee），交易数量（trade_num），账户总资金（balance）, 日收益率（rtn）, 日净值（nav）

daily_df = pd.DataFrame(trade_df['pnl'].resample('D').sum()) daily_df['fee'] = trade_df['fee'].resample('D').sum() daily_df['trade_num'] = trade_df['trade'].abs().resample('D').sum() daily_df = daily_df.loc[date_list,:] daily_df['balance'] = daily_df['pnl'].cumsum() +balance daily_df['rtn'] = daily_df['pnl'] / daily_df['balance'] daily_df['nav'] = daily_df['rtn'].cumsum() + 1

转换后的日频数据如下：

绩效指标结果如下：交易天数（tradeDays）, 总收益率（totalRtn）, 年化收益率（yearlyRtn）, 年化波动率（yearlyVol），最大回撤（maxDD）, 夏普比率（sharp）, 卡玛比率（calmar）

可以看到这是一个每天亏钱的策略，这并不意外，如此简单的逻辑放在秒级别的高频策略上，不亏钱才意外。当然我们先不关注策略本身赚还是亏，而是把整个回测框架的逻辑和流程搞清楚，先有一套高效严谨的回测系统，才能高效专注地去研发策略。

回测性能再看我们整套回测框架的性能，我们分别对每个模块进行计时，结果如下：

整个回测流程耗时1.56s，其中90%的时间是消耗在数据准备阶段。整个回测的时间长度是17个交易日，10s频率共计35000+个决策点。当然，随着我们增加回测的长度，代码数量，策略逻辑复杂度等因素，肯定会影响回测用时。

如何高效、优雅地进行高频策略回测？

策略逻辑

标签