历史文档

【历史文档】算子-数据处理

由polll创建,最终由small_q 被浏览 2063 用户

{{use_style}}

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平台:

https://bigquant.com/data/home

https://bigquant.com/wiki/doc/dai-PLSbc1SbZX

新版表达式算子:

https://bigquant.com/wiki/doc/dai-sql-Rceb2JQBdS

新版因子平台:

https://bigquant.com/wiki/doc/bigalpha-EOVmVtJMS5

\

添加指数数据

添加指数数据。

表名:add_index_data_to_trade_data.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据 input_data 通用 输入数据 *必填
输入参数 指数证券代码 instruments str 指数证券代码,多个代码用英文逗号分隔 000905.HIX
输出端 数据 data 通用 数据
用于回测交易的证券代码列表 instruments 通用 用于回测交易的证券代码列表

A股股票过滤

表名: chinaa_stock_filter.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 股票数据 input_data 通用 股票数据 *必填
输入参数 股票类别 index_constituent_cond choice 股票类别 ['全部']
上市板 board_cond choice 上市板 ['全部']
行业 industry_cond choice 行业 ['全部']
过滤ST st_cond choice 过滤ST,ST股票 ['全部']
过滤退市股票 delist_cond choice 过滤退市股票 ['全部']
输出剩余数据 output_left_data bool 输出剩余数据 False
输出端 输出数据 data 通用 输出数据
剩余数据 left_data 通用 剩余数据

数据合并

将输入的数据按行进行上下合并,比如df1、df2各自10行,合并后就是20行的一个数据。

表名:concat.v3

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入1 input_data_1 通用 输入1,DataSource第1个 None
输入2 input_data_2 通用 输入2,DataSource第2个 None
输入3 input_data_3 通用 输入3,DataSource第3个 None
输入参数 输入列表 input_data_list doc 输入列表,DataSource列表 []
输出端 合并后的数据 data 通用 合并后的数据

转换CSV为HDF

将CSV格式的数据源,转换为HDF格式。HDF是本平台推荐和默认使用的数据格式,其读写性能比CSV高一个数量级。

表名:convert_csv_to_hdf.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入CSV数据源 input_ds 通用 输入CSV数据源 *必填
输出端 输出HDF数据源 data 通用 输出HDF数据源

缺失数据处理

表名:dropnan.v2

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据源 input_data 通用 输入数据源 *必填
训练-特征 features 通用 训练-特征,去掉指定特征列空值。默认为空,去掉有空值的行 None
输出端 数据 data 通用 数据

特征描述性分析

标准化处理,也可称为归一化处理,属于数据处理常见的一种方式。

表名: feature_describe_analysis.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据 input_1 通用 输入数据 *必填
输入参数 因子列表 columns_input code 因子列表 [默认代码](javascript:void(0);)
输出端 描述分析结果 data 通用 描述分析结果

缺失数据填充

数据缺失处理,对所有列的NaN按平均值(mean),中位数(median)填充,也可指定值。

表名:fillnan.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据源 input_data 通用 输入数据源 *必填
训练-特征 features 通用 训练-特征 None
输入参数 填充值 fill_value str 填充值,支持数值/mean/median,默认填充0.0 0.0
输出端 数据 data 通用 数据

数据过滤

表名:filter.v3

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据 input_data 通用 输入数据 *必填
输入参数 过滤表达式 expr str 过滤表达式, 参考示例代码和DataFrame.query,包含特使字符的列名需要使用反单引号()引起来,例如 close_10/close0` > 0.91 *必填
输出剩余数据 output_left_data bool 输出剩余数据 False
输出端 输出数据 data 通用 输出数据
剩余数据 left_data 通用 剩余数据

连接数据

表名: join.v3

类别 显示名称 名称 类型 描述 必填/默认
输入端 第一个输入数据 data1 通用 第一个输入数据 *必填
第二个输入数据 data2 通用 第二个输入数据 *必填
输入参数 关联列 on str 关联列,多个列用英文逗号分隔 date,instrument
连接方式 how choice 连接方式 inner
对结果排序 sort bool 对结果排序 False
输出端 连接后的数据 data 通用 连接后的数据

连接数据-4输入

表名:joinx.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入1 data1 通用 输入1 *必填
输入2 data2 通用 输入2 *必填
输入3 data3 通用 输入3 *必填
输入4 data4 通用 输入4 *必填
输入参数 关联列 on str 关联列,多个列用英文逗号分隔 date,instrument
连接方式 how choice 连接方式 inner
对结果排序 sort bool 对结果排序 False
输出端 连接后的数据 data 通用 连接后的数据

排序

表名:sort.v4

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据 input_ds 通用 输入数据 *必填
排序特征 sort_by_ds 通用 排序特征 None
输入参数 根据哪一列排序 sort_by str 根据哪一列排序 --
根据哪些列group group_by str 根据哪些列group,用逗号分隔 date
保留哪些列 keep_columns str 保留哪些列 --
升序 ascending bool 升序 True
输出端 排序后数据 sorted_data 通用 排序后数据

标准化处理

标准化处理,也可称为归一化处理,属于数据处理常见的一种方式。

表名:standardlize.v8

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据 input_1 通用 输入数据 *必填
因子列表 input_2 通用 因子列表 None
输入参数 指定列 columns_input code 指定列 [默认代码](javascript:void(0);)
输出端 标准化数据 data 通用 标准化数据

股票池初选

根据行业、指数、ST、停牌等过滤条件获取初步股票池。

表名:stockpool_select.v6

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据 input_1 通用 输入数据 *必填
输入参数 自定义股票列表 self_instruments code 自定义股票列表 [默认代码](javascript:void(0);)
指定概念板块 input_concepts code 指定概念板块 [默认代码](javascript:void(0);)
指定行业 input_industrys code 指定行业 [默认代码](javascript:void(0);)
指数范围 input_indexs code 指数范围 [默认代码](javascript:void(0);)
过滤ST股 input_st choice 过滤ST股 过滤
过滤停牌股 input_suspend choice 过滤停牌股 过滤
输出端 输出数据 data 通用 输出数据

去极值

去极值,属于常见的数据处理模块,将剔除偏离中位数5倍以上的数据。

表名: winsorize.v6

类别 显示名称 名称 类型 描述 必填/默认
输入端 输入数据 input_data 通用 输入数据 *必填
因子列表 features 通用 因子列表 None
输入参数 指定列 columns_input code 指定列 [默认代码](javascript:void(0);)
指定标准差倍数 median_deviate int 指定标准差倍数 3
输出端 去极值数据 data 通用 去极值数据

\

标签

金融数据数据处理
{link}