基础特征(因子)抽取

# 基础特征(因子)抽取

定义

M.general_feature_extractor.v7(self, instruments, features, start_date='', end_date='', before_start_days=0)

基础特征(因子)抽取:读取基础数据字段,这里抽取的是基础特征,例如,对于特征 close_1/close_0,这里会读取出 close_0,close_1

参数:

  • instruments (列表|DataSource) – 证券代码列表。
  • features (列表|DataSource) – 特征列表。
  • start_date (str) – 开始日期,示例 2017-02-12,一般不需要指定,使用 证券代码列表 里的开始日期;默认值是空。
  • end_date (str) – 结束日期,示例 2017-02-12,一般不需要指定,使用 证券代码列表 里的结束日期;默认值是空。
  • before_start_days (int) – 向前取数据天数,比如,用户通过表达式计算的衍生特征,可能需要用到开始日期之前的数据,可以通过设置此值实现,则数据将从 开始日期-向前取数据天数 开始取。考虑到节假日等,建议将此值得大一些;默认值是0。

返回:

  • .data: 基础特征数据

返回类型:

  • Outputs

示例代码--抽取指定特征

m = M.general_feature_extractor.v7(
    instruments=['000001.SZA', '600519.SHA'],
    start_date='2017-01-01', end_date='2017-02-01',
    features=['close_5/close_0', 'close_10/close_0', 'close_20/close_0'])
m.data.read_df().head()

运行结果:

[2018-12-26 16:14:38.799493] INFO: bigquant: general_feature_extractor.v7 开始运行..
[2018-12-26 16:14:39.154316] INFO: 基础特征抽取: 年份 2016, 特征行数=120
[2018-12-26 16:14:39.200389] INFO: 基础特征抽取: 年份 2017, 特征行数=36
[2018-12-26 16:14:39.207124] INFO: 基础特征抽取: 总行数: 156
[2018-12-26 16:14:39.209071] INFO: bigquant: general_feature_extractor.v7 运行完成[0.40962s].

    close_0        close_10    close_20    close_5        date        instrument
0    959.585571    963.775940    991.013062    955.395264    2017-01-03    000001.SZA
1    2343.583984    2283.341309    2213.081543    2272.973877    2017-01-03    600519.SHA
2    959.585571    954.347656    994.155823    951.204956    2017-01-04    000001.SZA
3    2465.120361    2286.983887    2286.563721    2284.742432    2017-01-04    600519.SHA
4    960.633179    959.585571    993.108215    949.109802    2017-01-05    000001.SZA

示例代码--为给定模型抽取特征数据

m = M.general_feature_extractor.v6(
    instruments=['000001.SZA', '600519.SHA'],
    start_date='2017-01-01', end_date='2017-02-01',
    model_id=m5.model_id)    # m5 = M.stock_ranker_train.v5(), 训练出的模型id