使用深度学习技术预测股票价格¶

版本 v1.0

目录¶

### 深度学习策略的交易规则
### 策略构建步骤
### 策略的实现

正文¶

一、深度学习策略的交易规则¶

买入条件：预测的上涨概率>0.5，则买入或保持已有持仓。
卖出条件 :预测的上涨概率<0.5，则卖出已有股票。

二、策略构建步骤¶

1、确定股票池和数据起止时间¶

在证券代码列表m24和m28模块中输入要回测的单只股票，以及数据的起止日期(分别为训练集和验证集)。

2、确定因子¶

在输入特征列表m8模块中输入用于预测的N个因子表达式。

3、获取基础数据¶

通过基础特征数据抽取模块m22和m16获取指定股票池的基础数据，如收盘价等字段。

4、确定并计算模型标注¶

通过自动标注股票模块m21计算需要的标注指标，本例中首先计算未来10天收益，然后根据其正负来给每日数据标注1或0，来标识涨跌。

5、抽取因子数据¶

通过衍生数据抽取模块m23和m26计算因子数据。

6、合并标注与因子数据¶

通过连接数据m17模块合并因子数据和标注数据。

7、生成序列窗口滚动数据集¶

通过序列窗口滚动(深度学习)模块m25和m27将训练集和预测集的数据生成固定窗口长度的数据序列，为后续模型训练和预测做准备。

8、构建LSTM + CNN模型构架¶

在画布左侧模块列表中依次拖入输入层模块、Reshape层模块、Conv2D层模块、Reshape层模块、LSTM层模块、Dropout层模块和全连接层模块(两组)，构成深度学习网络构架，

最后通过“构建(深度学习)”模块组装各层。这里需要注意：

输入层的shape参数是窗口滚动数据集的大小 X 因子数量 , 本例为 50 行 X 5个因子

ReShape层的参数是窗口滚动数据集的大小 X 因子数量 X 1 ，本例为 50 行 X 5个因子 X1

Conv2D层中的 kernel_size参数是滑动窗口的尺寸，本例中使用 3行 X 5列的窗口, 每次滑动的步长为 1行 X 1列，卷积核数目为32，这里的窗口设置决定了后面ReShape层的参数

ReShape层中的target_shape 参数，这是由窗口滚动数据集 X 因子数量和 Conv2D层中设置的窗口尺寸以及步长决定的。本例中 50行 X 5因子的输入数据，使用 3行 X5列的窗口滑动取数据，

每次移动1行，共计可以得到48次数据(即可以通过滑动3行 X 5列的窗口48次来获取完整的数据)，因此target_shape= 48 X 卷积核数32

LSTM层的输出空间维度设置为卷积核数32，并设置激活函数

Dropout层是防止过度拟合采用的主动裁剪数据技术，这里设置rate 为0.8

全连接层共两层，第一层的输出空间维度与LSTM的输出维度保持一致为32，第二层将第一层的32维数据转变为1维数据输出，即获取预测的label值，此例为0到1之间的连续值，可以认为是上涨的概率。

9、训练深度学习模型¶

在画布左侧模块列表中拖入“训练(深度学习)”模块m6,设置属性中的优化器、目标函数、评估指标、每次训练的数据量batch_size、迭代次数epochs和GPU的数量以及日志输出频率。

10、使用深度学习模型预测¶

在画布左侧模块列表中拖入“预测(深度学习)”模块m7，并将“训练(深度学习)”模块m6的模型输出和验证集的序列窗口滚动数据集传给预测模块，通过预测模块即根据股票验证集的数据预测上涨的概率。

11、将预测结果与时间拼接¶

通过自定义模块m2将预测的每个滚动序列窗口的最后一个值最为当日的预测结果，并与预测集数据的时间列拼接，形成最终的每日预测结果。

12、根据模型预测结果构建策略¶

如果当日预测的上涨概率大于0.5，则保持持仓或买入
如果当日预测的上涨概率小于0.5，则卖出股票或保持空仓。

13、模拟回测¶

通过 trade 模块中的初始化函数定义交易手续费和滑点，通过 context.prediction 获取每日的上涨概率预测结果；
通过 trade 模块中的主函数(handle函数)查看每日的买卖交易信号，按照买卖原则执行相应的买入/卖出操作。

三、策略的实现¶

可视化策略实现如下：

In [2]:

# 本代码由可视化策略环境自动生成 2023年9月27日 15:28
# 本代码单元只能在可视化模式下编辑。您也可以拷贝代码，粘贴到新建的代码单元或者策略，然后修改。
 
# 显式导入 BigQuant 相关 SDK 模块
from bigdatasource.api import DataSource
from bigdata.api.datareader import D
from biglearning.api import M
from biglearning.api import tools as T
from biglearning.module2.common.data import Outputs
 
import pandas as pd
import numpy as np
import math
import warnings
import datetime
 
from zipline.finance.commission import PerOrder
from zipline.api import get_open_orders
from zipline.api import symbol
 
from bigtrader.sdk import *
from bigtrader.utils.my_collections import NumPyDeque
from bigtrader.constant import OrderType
from bigtrader.constant import Direction

# 用户的自定义层需要写到字典中，比如
# {
#   "MyLayer": MyLayer
# }
m6_custom_objects_bigquant_run = {
    
}

# Python 代码入口函数，input_1/2/3 对应三个输入端，data_1/2/3 对应三个输出端
def m2_run_bigquant_run(input_1, input_2, input_3):

    test_data = input_2.read_pickle()
    pred_label = input_1.read_pickle()
    pred_result = pred_label.reshape(pred_label.shape[0]) 
    dt = input_3.read_df()['date'][-1*len(pred_result):]
    pred_df = pd.Series(pred_result, index=dt)
    ds = DataSource.write_df(pred_df)
    
    return Outputs(data_1=ds)

# 后处理函数，可选。输入是主函数的输出，可以在这里对数据做处理，或者返回更友好的outputs数据格式。此函数输出不会被缓存。
def m2_post_run_bigquant_run(outputs):
    return outputs

# 回测引擎：初始化函数，只执行一次
def m1_initialize_bigquant_run(context):
    # 加载预测数据
    context.prediction = context.options['data'].read_df()

    # 系统已经设置了默认的交易手续费和滑点，要修改手续费可使用如下函数
    context.set_commission(PerOrder(buy_cost=0.0003, sell_cost=0.0013, min_cost=5))
# 回测引擎：每日数据处理函数，每天执行一次
def m1_handle_data_bigquant_run(context, data):
    # 按日期过滤得到今日的预测数据
    try:
        prediction = context.prediction[data.current_dt.strftime('%Y-%m-%d')]
    except KeyError as e:
        return
    
    instrument = context.instruments[0]
    sid = context.symbol(instrument)
    cur_position = context.portfolio.positions[sid].amount
    
    # 交易逻辑
    if prediction > 0.7 and cur_position == 0:
        context.order_target_percent(context.symbol(instrument), 1)
        print(data.current_dt, '买入！')
        
    elif prediction < 0.7 and cur_position > 0:
        context.order_target_percent(context.symbol(instrument), 0)
        print(data.current_dt, '卖出！')
    
# 回测引擎：准备数据，只执行一次
def m1_prepare_bigquant_run(context):
    pass

# 回测引擎：每个单位时间开始前调用一次，即每日开盘前调用一次。
def m1_before_trading_start_bigquant_run(context, data):
    pass


m3 = M.dl_layer_input.v1(
    shape='50,15',
    batch_shape='',
    dtype='float32',
    sparse=False,
    name=''
)

m13 = M.dl_layer_reshape.v1(
    inputs=m3.data,
    target_shape='50,15,1',
    name=''
)

m14 = M.dl_layer_conv2d.v1(
    inputs=m13.data,
    filters=32,
    kernel_size='3,15',
    strides='1,1',
    padding='valid',
    data_format='channels_last',
    dilation_rate='1,1',
    activation='relu',
    use_bias=True,
    kernel_initializer='glorot_uniform',
    bias_initializer='Zeros',
    kernel_regularizer='None',
    kernel_regularizer_l1=0,
    kernel_regularizer_l2=0,
    bias_regularizer='None',
    bias_regularizer_l1=0,
    bias_regularizer_l2=0,
    activity_regularizer='None',
    activity_regularizer_l1=0,
    activity_regularizer_l2=0,
    kernel_constraint='None',
    bias_constraint='None',
    name=''
)

m15 = M.dl_layer_reshape.v1(
    inputs=m14.data,
    target_shape='48,32',
    name=''
)

m4 = M.dl_layer_lstm.v1(
    inputs=m15.data,
    units=32,
    activation='tanh',
    recurrent_activation='hard_sigmoid',
    use_bias=True,
    kernel_initializer='glorot_uniform',
    recurrent_initializer='Orthogonal',
    bias_initializer='Ones',
    unit_forget_bias=True,
    kernel_regularizer='None',
    kernel_regularizer_l1=0,
    kernel_regularizer_l2=0,
    recurrent_regularizer='None',
    recurrent_regularizer_l1=0,
    recurrent_regularizer_l2=0,
    bias_regularizer='None',
    bias_regularizer_l1=0,
    bias_regularizer_l2=0,
    activity_regularizer='None',
    activity_regularizer_l1=0,
    activity_regularizer_l2=0,
    kernel_constraint='None',
    recurrent_constraint='None',
    bias_constraint='None',
    dropout=0,
    recurrent_dropout=0,
    return_sequences=False,
    implementation='2',
    name=''
)

m11 = M.dl_layer_dropout.v1(
    inputs=m4.data,
    rate=0.4,
    noise_shape='',
    name=''
)

m10 = M.dl_layer_dense.v1(
    inputs=m11.data,
    units=32,
    activation='tanh',
    use_bias=True,
    kernel_initializer='glorot_uniform',
    bias_initializer='Zeros',
    kernel_regularizer='None',
    kernel_regularizer_l1=0,
    kernel_regularizer_l2=0,
    bias_regularizer='None',
    bias_regularizer_l1=0,
    bias_regularizer_l2=0,
    activity_regularizer='None',
    activity_regularizer_l1=0,
    activity_regularizer_l2=0,
    kernel_constraint='None',
    bias_constraint='None',
    name=''
)

m12 = M.dl_layer_dropout.v1(
    inputs=m10.data,
    rate=0.8,
    noise_shape='',
    name=''
)

m9 = M.dl_layer_dense.v1(
    inputs=m12.data,
    units=1,
    activation='sigmoid',
    use_bias=True,
    kernel_initializer='glorot_uniform',
    bias_initializer='Zeros',
    kernel_regularizer='None',
    kernel_regularizer_l1=0,
    kernel_regularizer_l2=0,
    bias_regularizer='None',
    bias_regularizer_l1=0,
    bias_regularizer_l2=0,
    activity_regularizer='None',
    activity_regularizer_l1=0,
    activity_regularizer_l2=0,
    kernel_constraint='None',
    bias_constraint='None',
    name=''
)

m5 = M.dl_model_init.v1(
    inputs=m3.data,
    outputs=m9.data
)

m8 = M.input_features.v1(
    features="""# (close_0/close_1-1)*10
# (high_0/high_1-1)*10
# (low_0/low_1-1)*10
# (open_0/open_1-1)*10
# (volume_0/volume_1-1)*10
# #号开始的表示注释，注释需单独一行
# 多个特征，每行一个，可以包含基础特征和衍生特征，特征须为本平台特征
rank_avg_amount_3    
#过去 * 个交易日的平均交易额，百分比排名
rank_avg_amount_6   
# 过去 * 个交易日的平均交易额，百分比排名
rank_return_3     
#过去 * 个交易日的收益排名
rank_return_6     
#过去 * 个交易日的收益排名
rank_return_9     
#过去 * 个交易日的收益排名
return_3    
#过去*个交易日的收益
avg_mf_net_amount_6   
#过去6个交易日的平均净主动买入
mf_net_amount_l_0   
#大单净流入
mf_net_amount_xl_0     
#超大单净流入净额
mf_net_pct_main_0   
#主力净流入占比
mf_net_pct_xl_0     
#超大单净流入占比
rank_avg_mf_net_amount_3   
#过去 * 个交易日平均净主动买入额排名
rank_avg_mf_net_amount_6   
#过去 * 个交易日平均净主动买入额排名
pe_ttm_0     
#市盈率
rank_pe_lyr_0     
#市盈率，升序百分比排名"""
)

m24 = M.instruments.v2(
    start_date='2020-01-01',
    end_date='2021-12-31',
    market='CN_STOCK_A',
    instrument_list='600009.SHA',
    max_count=0
)

m21 = M.advanced_auto_labeler.v2(
    instruments=m24.data,
    label_expr="""# #号开始的表示注释
# 0. 每行一个，顺序执行，从第二个开始，可以使用label字段
# 1. 可用数据字段见 https://bigquant.com/docs/develop/datasource/deprecated/history_data.html
#   添加benchmark_前缀，可使用对应的benchmark数据
# 2. 可用操作符和函数见 `表达式引擎 <https://bigquant.com/docs/develop/bigexpr/usage.html>`_

# 计算收益：5日收盘价(作为卖出价格)除以明日开盘价(作为买入价格)
where(shift(close, -5) / close -1>0,1,0)

# 过滤掉一字涨停的情况 (设置label为NaN，在后续处理和训练中会忽略NaN的label)
where(shift(high, -1) == shift(low, -1), NaN, label)
""",
    start_date='',
    end_date='',
    benchmark='000300.SHA',
    drop_na_label=True,
    cast_label_int=True,
    user_functions={}
)

m22 = M.general_feature_extractor.v7(
    instruments=m24.data,
    features=m8.data,
    start_date='',
    end_date='',
    before_start_days=90
)

m23 = M.derived_feature_extractor.v3(
    input_data=m22.data,
    features=m8.data,
    date_col='date',
    instrument_col='instrument',
    drop_na=False,
    remove_extra_columns=False,
    user_functions={}
)

m17 = M.join.v3(
    data1=m21.data,
    data2=m23.data,
    on='date',
    how='inner',
    sort=True
)

m18 = M.dropnan.v1(
    input_data=m17.data
)

m25 = M.dl_convert_to_bin.v2(
    input_data=m18.data,
    features=m8.data,
    window_size=50,
    feature_clip=15,
    flatten=False,
    window_along_col=''
)

m6 = M.dl_model_train.v1(
    input_model=m5.data,
    training_data=m25.data,
    optimizer='Adam',
    loss='binary_crossentropy',
    metrics='accuracy',
    batch_size=2048,
    epochs=10,
    custom_objects=m6_custom_objects_bigquant_run,
    n_gpus=1,
    verbose='1:输出进度条记录'
)

m28 = M.instruments.v2(
    start_date=T.live_run_param('trading_date', '2022-01-01'),
    end_date=T.live_run_param('trading_date', '2023-05-01'),
    market='CN_STOCK_A',
    instrument_list='600009.SHA',
    max_count=0
)

m16 = M.general_feature_extractor.v7(
    instruments=m28.data,
    features=m8.data,
    start_date='',
    end_date='',
    before_start_days=90
)

m26 = M.derived_feature_extractor.v3(
    input_data=m16.data,
    features=m8.data,
    date_col='date',
    instrument_col='instrument',
    drop_na=False,
    remove_extra_columns=False,
    user_functions={}
)

m20 = M.dropnan.v1(
    input_data=m26.data
)

m27 = M.dl_convert_to_bin.v2(
    input_data=m20.data,
    features=m8.data,
    window_size=50,
    feature_clip=15,
    flatten=False,
    window_along_col=''
)

m7 = M.dl_model_predict.v1(
    trained_model=m6.data,
    input_data=m27.data,
    batch_size=10240,
    n_gpus=0,
    verbose='2:每个epoch输出一行记录'
)

m2 = M.cached.v3(
    input_1=m7.data,
    input_2=m27.data,
    input_3=m20.data,
    run=m2_run_bigquant_run,
    post_run=m2_post_run_bigquant_run,
    input_ports='',
    params='{}',
    output_ports=''
)

m1 = M.trade.v4(
    instruments=m28.data,
    options_data=m2.data_1,
    start_date='',
    end_date='',
    initialize=m1_initialize_bigquant_run,
    handle_data=m1_handle_data_bigquant_run,
    prepare=m1_prepare_bigquant_run,
    before_trading_start=m1_before_trading_start_bigquant_run,
    volume_limit=0.025,
    order_price_field_buy='twap_4',
    order_price_field_sell='twap_5',
    capital_base=1000000,
    auto_cancel_non_tradable_orders=True,
    data_frequency='daily',
    price_type='真实价格',
    product_type='股票',
    plot_charts=True,
    backtest_only=False,
    benchmark='000300.HIX'
)

[2023-09-27 15:28:18.697683] INFO 自动标注(股票): 加载历史数据: 476 行
[2023-09-27 15:28:18.701885] INFO 自动标注(股票): 开始标注 ..

/var/app/enabled/bigexpr/impl/functions.py:32: FutureWarning: The `squeeze` parameter is deprecated and will be removed in a future version.

[2023-09-27 15:28:19.321113] INFO join: /y_2019, 行数=0/61, 耗时=0.070163s
[2023-09-27 15:28:19.403081] INFO join: /y_2020, 行数=243/243, 耗时=0.077951s
[2023-09-27 15:28:19.501073] INFO join: /y_2021, 行数=231/233, 耗时=0.089455s
[2023-09-27 15:28:19.570268] INFO join: 最终行数: 474
[2023-09-27 15:28:19.730714] INFO dropnan: /y_2019, 0/0
[2023-09-27 15:28:19.822831] INFO dropnan: /y_2020, 236/243
[2023-09-27 15:28:19.909833] INFO dropnan: /y_2021, 231/231
[2023-09-27 15:28:19.974609] INFO dropnan: 行数: 467/474

2023-09-27 15:28:20.773090: I tensorflow/compiler/jit/xla_gpu_device.cc:99] Not creating XLA devices, tf_xla_enable_xla_devices not set

[2023-09-27 15:28:21.180870] INFO dl_model_train: 准备训练，训练样本个数：467，迭代次数：10
Epoch 1/10
1/1 [==============================] - ETA: 0s - loss: 1.0363 - accuracy: 0.46 - 5s 5s/step - loss: 1.0363 - accuracy: 0.4604
Epoch 2/10
1/1 [==============================] - ETA: 0s - loss: 0.9353 - accuracy: 0.52 - 0s 228ms/step - loss: 0.9353 - accuracy: 0.5246
Epoch 3/10
1/1 [==============================] - ETA: 0s - loss: 1.0054 - accuracy: 0.47 - 0s 252ms/step - loss: 1.0054 - accuracy: 0.4732
Epoch 4/10
1/1 [==============================] - ETA: 0s - loss: 0.9845 - accuracy: 0.45 - 0s 245ms/step - loss: 0.9845 - accuracy: 0.4582
Epoch 5/10
1/1 [==============================] - ETA: 0s - loss: 0.9466 - accuracy: 0.46 - 0s 184ms/step - loss: 0.9466 - accuracy: 0.4625
Epoch 6/10
1/1 [==============================] - ETA: 0s - loss: 0.9311 - accuracy: 0.50 - 0s 242ms/step - loss: 0.9311 - accuracy: 0.5032
Epoch 7/10
1/1 [==============================] - ETA: 0s - loss: 0.9457 - accuracy: 0.48 - 0s 259ms/step - loss: 0.9457 - accuracy: 0.4839
Epoch 8/10
1/1 [==============================] - ETA: 0s - loss: 0.9196 - accuracy: 0.51 - 0s 221ms/step - loss: 0.9196 - accuracy: 0.5139
Epoch 9/10
1/1 [==============================] - ETA: 0s - loss: 0.9083 - accuracy: 0.51 - 0s 197ms/step - loss: 0.9083 - accuracy: 0.5182
Epoch 10/10
1/1 [==============================] - ETA: 0s - loss: 0.8850 - accuracy: 0.50 - 0s 190ms/step - loss: 0.8850 - accuracy: 0.5054
[2023-09-27 15:28:28.963580] INFO dl_model_train: 训练结束，耗时：7.78s

2023-09-27 15:28:29.837869: I tensorflow/compiler/jit/xla_gpu_device.cc:99] Not creating XLA devices, tf_xla_enable_xla_devices not set

1/1 - 0s
DataSource(e4d369c2fbc84bc0a057c7f25a382849T)
[2023-09-27 15:28:31.004389] INFO backtest: biglearning backtest:V8.6.3
[2023-09-27 15:28:31.009936] INFO backtest: product_type:stock by specified
[2023-09-27 15:28:35.900842] INFO backtest: algo history_data=DataSource(c0a48f7bac364ffd811e3609622cc67cT)
[2023-09-27 15:28:35.906282] INFO algo: TradingAlgorithm V1.8.9
[2023-09-27 15:28:36.568205] INFO algo: trading transform...

/usr/local/python3/lib/python3.8/site-packages/empyrical/stats.py:710: RuntimeWarning: divide by zero encountered in true_divide
  np.divide(

[2023-09-27 15:28:37.751218] INFO Performance: Simulated 320 trading days out of 320.
[2023-09-27 15:28:37.756907] INFO Performance: first open: 2022-01-04 09:30:00+00:00
[2023-09-27 15:28:37.763269] INFO Performance: last close: 2023-04-28 15:00:00+00:00

/usr/local/python3/lib/python3.8/site-packages/pandas/core/generic.py:2605: PerformanceWarning: 
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block5_values] [items->Index(['positions', 'transactions', 'orders', 'LOG', 'TRA_FAC', 'POS_FAC',
       'period_label'],
      dtype='object')]

  pytables.to_hdf(
/usr/local/python3/lib/python3.8/site-packages/pandas/core/generic.py:2605: PerformanceWarning: 
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block2_values] [items->Index(['instrument', 'suspended', 'name'], dtype='object')]

  pytables.to_hdf(
/usr/local/python3/lib/python3.8/site-packages/pandas/core/indexing.py:1637: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)
[2023-09-27 15:28:39.921178] INFO: bigcharts.impl.render:render.py:408:render_chart Data is None, skip loading it to chart.

收益率0.0%
年化收益率0.0%
基准收益率-18.45%
阿尔法-0.03
贝塔0.0
夏普比率n/a
胜率0.0
盈亏比0.0
收益波动率0.0%
信息比率0.05
最大回撤0.0%

	日期	时间	股票代码	股票名称	买/卖	数量	成交价	总成本	交易佣金
Loading... (need help?)

日期	股票代码	股票名称	持仓均价	收盘价	股数	持仓价值	收益
Loading... (need help?)

	时间	级别	内容
Loading... (need help?)