【历史文档】算子-数据处理
由polll创建,最终由small_q 被浏览 2061 用户
{{use_style}}
更新
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平台:
https://bigquant.com/data/home
https://bigquant.com/wiki/doc/dai-PLSbc1SbZX
新版表达式算子:
https://bigquant.com/wiki/doc/dai-sql-Rceb2JQBdS
新版因子平台:
https://bigquant.com/wiki/doc/bigalpha-EOVmVtJMS5
\
添加指数数据
添加指数数据。
表名:add_index_data_to_trade_data.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据 | input_data | 通用 | 输入数据 | *必填 |
输入参数 | 指数证券代码 | instruments | str | 指数证券代码,多个代码用英文逗号分隔 | 000905.HIX |
输出端 | 数据 | data | 通用 | 数据 | |
用于回测交易的证券代码列表 | instruments | 通用 | 用于回测交易的证券代码列表 |
A股股票过滤
表名: chinaa_stock_filter.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 股票数据 | input_data | 通用 | 股票数据 | *必填 |
输入参数 | 股票类别 | index_constituent_cond | choice | 股票类别 | ['全部'] |
上市板 | board_cond | choice | 上市板 | ['全部'] | |
行业 | industry_cond | choice | 行业 | ['全部'] | |
过滤ST | st_cond | choice | 过滤ST,ST股票 | ['全部'] | |
过滤退市股票 | delist_cond | choice | 过滤退市股票 | ['全部'] | |
输出剩余数据 | output_left_data | bool | 输出剩余数据 | False | |
输出端 | 输出数据 | data | 通用 | 输出数据 | |
剩余数据 | left_data | 通用 | 剩余数据 |
数据合并
将输入的数据按行进行上下合并,比如df1、df2各自10行,合并后就是20行的一个数据。
表名:concat.v3
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入1 | input_data_1 | 通用 | 输入1,DataSource第1个 | None |
输入2 | input_data_2 | 通用 | 输入2,DataSource第2个 | None | |
输入3 | input_data_3 | 通用 | 输入3,DataSource第3个 | None | |
输入参数 | 输入列表 | input_data_list | doc | 输入列表,DataSource列表 | [] |
输出端 | 合并后的数据 | data | 通用 | 合并后的数据 |
转换CSV为HDF
将CSV格式的数据源,转换为HDF格式。HDF是本平台推荐和默认使用的数据格式,其读写性能比CSV高一个数量级。
表名:convert_csv_to_hdf.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入CSV数据源 | input_ds | 通用 | 输入CSV数据源 | *必填 |
输出端 | 输出HDF数据源 | data | 通用 | 输出HDF数据源 |
缺失数据处理
表名:dropnan.v2
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据源 | input_data | 通用 | 输入数据源 | *必填 |
训练-特征 | features | 通用 | 训练-特征,去掉指定特征列空值。默认为空,去掉有空值的行 | None | |
输出端 | 数据 | data | 通用 | 数据 |
特征描述性分析
标准化处理,也可称为归一化处理,属于数据处理常见的一种方式。
表名: feature_describe_analysis.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据 | input_1 | 通用 | 输入数据 | *必填 |
输入参数 | 因子列表 | columns_input | code | 因子列表 | [默认代码](javascript:void(0);) |
输出端 | 描述分析结果 | data | 通用 | 描述分析结果 |
缺失数据填充
数据缺失处理,对所有列的NaN按平均值(mean),中位数(median)填充,也可指定值。
表名:fillnan.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据源 | input_data | 通用 | 输入数据源 | *必填 |
训练-特征 | features | 通用 | 训练-特征 | None | |
输入参数 | 填充值 | fill_value | str | 填充值,支持数值/mean/median,默认填充0.0 | 0.0 |
输出端 | 数据 | data | 通用 | 数据 |
数据过滤
表名:filter.v3
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据 | input_data | 通用 | 输入数据 | *必填 |
输入参数 | 过滤表达式 | expr | str | 过滤表达式, 参考示例代码和DataFrame.query,包含特使字符的列名需要使用反单引号()引起来,例如 close_10/close0` > 0.91 |
*必填 |
输出剩余数据 | output_left_data | bool | 输出剩余数据 | False | |
输出端 | 输出数据 | data | 通用 | 输出数据 | |
剩余数据 | left_data | 通用 | 剩余数据 |
连接数据
表名: join.v3
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 第一个输入数据 | data1 | 通用 | 第一个输入数据 | *必填 |
第二个输入数据 | data2 | 通用 | 第二个输入数据 | *必填 | |
输入参数 | 关联列 | on | str | 关联列,多个列用英文逗号分隔 | date,instrument |
连接方式 | how | choice | 连接方式 | inner | |
对结果排序 | sort | bool | 对结果排序 | False | |
输出端 | 连接后的数据 | data | 通用 | 连接后的数据 |
连接数据-4输入
表名:joinx.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入1 | data1 | 通用 | 输入1 | *必填 |
输入2 | data2 | 通用 | 输入2 | *必填 | |
输入3 | data3 | 通用 | 输入3 | *必填 | |
输入4 | data4 | 通用 | 输入4 | *必填 | |
输入参数 | 关联列 | on | str | 关联列,多个列用英文逗号分隔 | date,instrument |
连接方式 | how | choice | 连接方式 | inner | |
对结果排序 | sort | bool | 对结果排序 | False | |
输出端 | 连接后的数据 | data | 通用 | 连接后的数据 |
排序
表名:sort.v4
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据 | input_ds | 通用 | 输入数据 | *必填 |
排序特征 | sort_by_ds | 通用 | 排序特征 | None | |
输入参数 | 根据哪一列排序 | sort_by | str | 根据哪一列排序 | -- |
根据哪些列group | group_by | str | 根据哪些列group,用逗号分隔 | date | |
保留哪些列 | keep_columns | str | 保留哪些列 | -- | |
升序 | ascending | bool | 升序 | True | |
输出端 | 排序后数据 | sorted_data | 通用 | 排序后数据 |
标准化处理
标准化处理,也可称为归一化处理,属于数据处理常见的一种方式。
表名:standardlize.v8
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据 | input_1 | 通用 | 输入数据 | *必填 |
因子列表 | input_2 | 通用 | 因子列表 | None | |
输入参数 | 指定列 | columns_input | code | 指定列 | [默认代码](javascript:void(0);) |
输出端 | 标准化数据 | data | 通用 | 标准化数据 |
股票池初选
根据行业、指数、ST、停牌等过滤条件获取初步股票池。
表名:stockpool_select.v6
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据 | input_1 | 通用 | 输入数据 | *必填 |
输入参数 | 自定义股票列表 | self_instruments | code | 自定义股票列表 | [默认代码](javascript:void(0);) |
指定概念板块 | input_concepts | code | 指定概念板块 | [默认代码](javascript:void(0);) | |
指定行业 | input_industrys | code | 指定行业 | [默认代码](javascript:void(0);) | |
指数范围 | input_indexs | code | 指数范围 | [默认代码](javascript:void(0);) | |
过滤ST股 | input_st | choice | 过滤ST股 | 过滤 | |
过滤停牌股 | input_suspend | choice | 过滤停牌股 | 过滤 | |
输出端 | 输出数据 | data | 通用 | 输出数据 |
去极值
去极值,属于常见的数据处理模块,将剔除偏离中位数5倍以上的数据。
表名: winsorize.v6
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输入数据 | input_data | 通用 | 输入数据 | *必填 |
因子列表 | features | 通用 | 因子列表 | None | |
输入参数 | 指定列 | columns_input | code | 指定列 | [默认代码](javascript:void(0);) |
指定标准差倍数 | median_deviate | int | 指定标准差倍数 | 3 | |
输出端 | 去极值数据 | data | 通用 | 去极值数据 |
\