【历史文档】策略-BigQuant AI策略详解

start_date 和 end_date 确定了我们要用数据段其中 [start_date, split_date) 区间的数据，用于模型训练 [split_date, end_date] 区间的数据，用户模型回测
instruments：股票池，D.instruments(start_date, split_date) 取A股给定时间段内所有出现过的股票。
label_expr，用户标注的函数，更多说明见下面关于 M.advanced_auto_labeler的介绍。
hold_days：持仓时间，用于数据标注和回测，具体见下面相关模块使用
features：特征 (因子)，具体见下面相关模块使用

class conf:
    start_date = '2014-01-01'
    end_date='2017-07-17'
    split_date = '2015-01-01'
    instruments = D.instruments(start_date, end_date)
    hold_days = 5
    features = [
        'close_5/close_0',  # 5日收益
        'close_10/close_0',  # 10日收益
        'close_20/close_0',  # 20日收益
        'avg_amount_0/avg_amount_5',  # 当日/5日平均交易额
        'avg_amount_5/avg_amount_20',  # 5日/20日平均交易额
        'rank_avg_amount_0/rank_avg_amount_5',  # 当日/5日平均交易额排名
        'rank_avg_amount_5/rank_avg_amount_10',  # 5日/10日平均交易额排名
        'rank_return_0',  # 当日收益
        'rank_return_5',  # 5日收益
        'rank_return_10',  # 10日收益
        'rank_return_0/rank_return_5',  # 当日/5日收益排名
        'rank_return_5/rank_return_10',  # 5日/10日收益排名
        'pe_ttm_0',  # 市盈率TTM
    ]
    # 数据标注
    label_expr = [
    # 计算未来一段时间（hold_days）的相对收益
    'shift(close, -5) / shift(open, -1) - shift(benchmark_close, -5) / shift(benchmark_open, -1)',
    # 极值处理：用1%和99%分位的值做clip
    'clip(label, all_quantile(label, 0.01), all_quantile(label, 0.99))',
    # 将分数映射到分类，这里使用20个分类,这里采取等宽离散化
    'all_wbins(label, 20)',
    # 过滤掉一字涨停的情况 (设置label为NaN，在后续处理和训练中会忽略NaN的label)
    'where(shift(high, -1) == shift(low, -1), NaN, label)'
    ]

示例解读：

shift(close, -5) / shift(open, -1) - shift(benchmark_close, -5) / shift(benchmark_open, -1)：未来5天的相对收益率（股票收益率减去基准收益率）,其中shift(close,-5)为未来5天的收盘价，shift(open,-1)为明天的开盘价，基准同理。
clip：clip用于极值处理，上面的例子就是将1%分位数和99%分位数以外的数据进行裁剪
all_wbins:对连续性的标注数据进行离散化，上面的例子是将标注数据分为20类。详情请参考：表达式引擎
where(shift(high, -1) == shift(low, -1), NaN, label)：过滤掉一字涨停的情形

数据标注

之前采取的是 M.fast_auto_labeler 进行数据标注，但如果要使用表达式引擎构建因子、数据标注，建议使用功能更为强大的M.advanced_auto_labeler进行数据标注。

# 给数据做标注：给每一行数据（样本）打分，一般分数越高表示越好
m1 = M.advanced_auto_labeler.v1(
                               instruments=conf.instruments, start_date=conf.start_date, end_date=conf.split_date,
                               label_expr=conf.label_expr, benchmark='000300.SHA', cast_label_int=True)

示例解读：

label_expr：表示通过conf类中的标注语句进行数据标注
benchmark：对数据进行标注的时候，偶尔会用到基准数据，因此需要制定基准
cast_label_int：标注结果是否转换为整数；默认值是True

基础特征抽取

机器学习算法很大程度上依赖于特征工程，AI策略同样如此，特征抽取地好，对收益率的预测将更加准确。有些因子的基础因子，直接可以抽取。

m2 = M.general_feature_extractor.v5(
    instruments=conf.instruments, start_date=conf.start_date, end_date=conf.end_date,
    features=conf.features)

详情请参考文档：基础特征抽取。

衍生特征抽取

很多AI策略的特征并不是简单的基础特征，而是由基础特征衍生计算出来的衍生特征。

# 计算衍生特征
m2_1 = M.derived_feature_extractor.v1(data=m2.data, features=conf.features)

详情请参考文档：衍生特征抽取。

数据转换

如果你采用的模型是StockRanker，该算法需要对输入的特征作相应转换。如果你使用的是随机森林、线性SGD模型等，这一步可以省略。

m3 = M.transform.v2(data=m2_1.data, transforms=None, drop_null=True)

当然，在之前我们的AI策略是采取的 M.fast_auto_labeler进行数据标注，详解请点击展开。

基础配置

这些配置将在后续用到：

start_date 和 end_date 确定了我们要用数据段其中 [start_date, split_date) 区间的数据，用于模型训练 [split_date, end_date] 区间的数据，用户模型回测
instruments：股票池，D.instruments(start_date, split_date) 取A股给定时间段内所有出现过的股票。
label_expr，用户标注的函数，更多说明见下面关于 M.fast_auto_labeler的介绍。
hold_days：持仓时间，用于数据标注和回测，具体见下面相关模块使用
features：特征 (因子)，具体见下面相关模块使用


class conf:
    start_date = '2010-01-01'
    end_date='2017-01-01'
    # split_date 之前的数据用于训练，之后的数据用作效果评估
    split_date = '2015-01-01'
    # D.instruments: https://bigquant.com/docs/data_instruments.html
    instruments = D.instruments(start_date, split_date)

    # 机器学习目标标注函数
    # 如下标注函数等价于 min(max((持有期间的收益 * 100), -20), 20) + 20 (后面的M.fast_auto_labeler会做取整操作)
    # 说明：max/min这里将标注分数限定在区间[-20, 20]，+20将分数变为非负数 (StockRanker要求标注分数非负整数)
    label_expr = ['return * 100', 'where(label > {0}, {0}, where(label < -{0}, -{0}, label)) + {0}'.format(20)]
    # 持有天数，用于计算label_expr中的return值(收益)
    hold_days = 5

    # 特征 https://bigquant.com/docs/#/datasource?id=%E5%9B%A0%E5%AD%90%E5%BA%93，你可以通过表达式构造任何特征
    features = [
        'close_5/close_0',  # 5日收益
        'close_10/close_0',  # 10日收益
        'close_20/close_0',  # 20日收益
        'avg_amount_0/avg_amount_5',  # 当日/5日平均交易额
        'avg_amount_5/avg_amount_20',  # 5日/20日平均交易额
        'rank_avg_amount_0/rank_avg_amount_5',  # 当日/5日平均交易额排名
        'rank_avg_amount_5/rank_avg_amount_10',  # 5日/10日平均交易额排名
        'rank_return_0',  # 当日收益
        'rank_return_5',  # 5日收益
        'rank_return_10',  # 10日收益
        'rank_return_0/rank_return_5',  # 当日/5日收益排名
        'rank_return_5/rank_return_10',  # 5日/10日收益排名
        'pe_ttm_0',  # 市盈率TTM
    ]

数据标注

为了使用有监督的机器学习算法，我们需要对数据做标注。M.fast_auto_labeler 是一个自动标注模块，具体使用说明见文档。

# 给数据做标注：给每一行数据（样本）打分，一般分数越高表示越好
m1 = M.fast_auto_labeler.v8(
    instruments=conf.instruments, start_date=conf.start_date, end_date=conf.split_date,
    label_expr=conf.label_expr, hold_days=conf.hold_days,
    benchmark='000300.SHA', sell_at='open', buy_at='open')

示例解读：

return * 100：表示将收益 * 100，比如某只股票，今天的收盘价是10元，5天后的收盘价是11.32元，则return = 13.2%，return * 100 = 13.2
'where(label > {0}, {0}, where(label < -{0}, -{0}, label)) + {0}'.format(20)：这个表达式，20带入之后是 where(label > 20, 20, where(label < -20, -20, label)) + 20 第一部分：where(label > 20, 20, where(label < -20, -20, label))，将数据裁剪到[-20, 20]，即小于-20的用-20替换，大于20的用20替换第二部分：+20，则将整个值的范围变换到[0, 40]

 label_expr = ['return * 100', 'where(label > {0}, {0}, where(label < -{0}, -{0}, label)) + {0}'.format(20)]

特征抽取

机器学习算法很大程度上依赖于特征工程，AI策略同样如此，特征构建地好，对收益率的预测将更加准确。

# 计算特征数据
m2 = M.general_feature_extractor.v5(
    instruments=conf.instruments, start_date=conf.start_date, end_date=conf.split_date,
    features=conf.features)

示例解读：

特征抽取也可以称作因子抽取或者特征数据计算，接口的介绍参考模块和API概览：特征抽取。
instruments=conf.instruments：表示计算哪些股票的特征数据。
start_date=conf.start_date, end_date=conf.split_date ：表示对什么时间段的股票数据计算特征。该时间段和训练集的时间段是一致的。
features=conf.features：表示抽取哪些特征。

数据预处理

从上一步特征抽取中，我们可以将特征数据抽取出来，但是计算出来的特征数据不一定满足机器学习算法的需要。StockRanker算法要求数据为正整数，因此需要对数据进行预处理。

m3 = M.transform.v2(
    data=m2.data, transforms=T.get_stock_ranker_default_transforms(),
    drop_null=True, astype='int32', except_columns=['date', 'instrument'],
    clip_lower=0, clip_upper=200000000)

示例解读：

不同的机器学习算法可能在数据预处理模块有所差异，StockRanker算法的接口的介绍参考模块和API概览：特征转化。
data=m2.data：表示对什么数据进行数据预处理，一般为计算完成的特征数据。
transforms=T.get_stock_ranker_default_transforms()：表示进行怎样的数据预处理，具体的数据变换可以通过T.get_stock_ranker_default_transform()接口进行查询，transform是由正则表达式类型的变换函数组成的列表，对于输入数据的每一列，从transforms里依序寻找到匹配的表达式，用对应的变换函数对列数据做处理。
该接口其他的参数一般采用默认即可，详情请参考 [模块和API概览：特征转化]。(https://bigquant.com/docs/#/develop?id=数据变换)。

[/details]

合并数据

通过数据标注和计算特征数据，我们获得了两个数据，只有同时包含这两部分数据的训练集才能完整地训练一个AI模型，因此需要进行数据合并。

# 合并标注和特征数据
m4 = M.join.v2(data1=m1.data, data2=m3.data, on=['date', 'instrument'], sort=True)

示例解读：

数据合并也成为数据连接，详情请参考模块和API：数据连接。
data1=m1.data 表示：第一个需要连接的数据，例如标注数据。
data2=m3.data 表示：第二个需要连接的数据，例如计算完成的特征数据。
on=['date', 'instrument'] 表示：数据合并时使用的主要列。一般使用日期和股票代码就可以对数据进行合并。
sort=True 表示：是否对合并数据的结果按on指定的列进行排序。

模型训练

当我们将标注数据和经过数据预处理的特征数据合并以后，此时可以通过机器学习算法训练出一个AI模型。

# StockRanker机器学习训练
m5=M.stock_ranker_train.v5(training_ds=m4.data, features=conf.features)

示例解读：

机器学习模型训练是必不可少的一步，训练时间依赖于数据量，如果是全市场股票多年数据，时间大概需要3-10分钟。详情请参考模块和API概览：模型训练。
training_ds=m4.data 表示：训练模型时应以什么数据进行输入，输入的数据为上一步合并的数据。
features=conf.features 表示：训练模型时以什么特征或因子参与模型进行训练。
M.stock_ranker_train接口的其他参数一般采用默认值。

训练结果

通过上一步的训练模型，我们已经产生出了一个在训练集上表现不错的模型。我们可以这样查询训练结果：

print('模型ID:', m5.model_id)
print('模型因子得分:', m5.feature_gains)
print('模型可视化:', m5.plot_model())

示例解读：

m5.model_id 表示：唯一的模型ID。
m5.feature_gains 表示：各个特征的得分情况，可以借此判断特征重要性程度。由于输出类型为DataSource，因此可以通过read_df方法查看——m5.feature_gains.read_df()。
m5.plot_model() 表示：可视化查看模型结果，这样就能打开AI算法的‘黑箱’，可以查看算法的每个细节。

模型预测

此时，我们已经产生出了一个在训练集上表现不错的模型。现在我们根据该模型来获取在测试集上的预测结果。

# 计算基础数据
n2 = M.general_feature_extractor.v5(
    instruments=conf.instruments, start_date=conf.start_date, end_date=conf.end_date,
    features=conf.features)

# 计算衍生特征
n2_1 = M.derived_feature_extractor.v1(data=n2.data, features=conf.features)

# 将特征数据转换机器学习算法能够接受的数据类型（只有StockRanker算法需要）
n3 = M.transform.v2(data=n2_1.data, transforms=None, drop_null=True)

# 进行预测
n4 = M.stock_ranker_predict.v5(model=m6.model, data=n3.data)

# 查看预测数据
prediction = n4.predictions.read_df()

示例解读：

n1和n2和之前的特征抽取、特征转换完全一样，只是现在传入的时间是测试集的时间段。
机器学习算法通过模型和特征数据就可以进行预测，因此并不需要标注数据、合并数据。比如当你获得了一个回归模型后，此时传入新的自变量就可以带入模型获得因变量。
n3是模型预测，详情可参看模块和API概览：模型预测
model_id=context.options['model_id'] 表示：用哪个模型进行预测就传入哪个模型ID。
data=n2.data 表示：在什么数据上进行预测就传入什么数据。一般为测试集的特征数据。
n3.predictions.read_df() 表示：模型在测试集上的预测结果为n3.predictions，类型为DataSource，因此需要通过read_df方法查看。

策略回测

当我们获得测试集上的预测结果以后，我们就可以通过BigQuant回测机制进行策略回测，验证该策略是否有效。策略回测相关内容请参考 BigQuant回测机制。

小结：AI策略其实主要包含训练和预测，然后基于预测的结果开发交易策略来进行验证。本文因为涉及到机器学习算法为监督式学习算法，因此有数据标注这一步。希望通过本文介绍，大家能有更加深入的认识。

【历史文档】策略-BigQuant AI策略详解

更新

导语

基础配置

数据标注

基础特征抽取

衍生特征抽取

数据转换

合并数据

模型训练

训练结果

模型预测

策略回测

标签