缺失值处理

在金融领域,数据是决策的核心,而缺失值处理是确保数据质量的关键环节。缺失值可能导致分析失真,影响风险评估和策略制定。因此,专业的方法如插值、回归或基于算法的预测被用来填补空白,确保数据的完整性和准确性。有效的缺失值处理不仅能提升模型的性能,还能为金融机构提供更可靠的决策依据,从而在复杂多变的市场中保持竞争优势。

AI可视化的数据清洗

AI可视化的因子特征数据清洗

清洗流程

大部分的金工报告中第一步都是提取因子数据,随后就是对这些因子特征数据的清洗。以华泰证券的金工报告为例,数据清洗的标准流程大概包括:

  • 缺失值处理(删除或者用行业均值填充)
  • 因子异常值处理(固定比例法、均值标准差法、MAD法)
  • 行业市值中性化处理(将因子暴露以行业哑变量和市值为变量做线性回归,抽取截距项)
  • PCA分析

清洗的目的是使得因子数据摆脱异常值、行业、市值和多重共线性的影响。

特征因子数据清洗模块

def bigquant_run(input_1, input_2, input_3):

#

更新时间:2024-06-11 03:29

Pandas使用小技巧


https://bigquant.com/experimentshare/1e185519774149e6803c36f1e6ecb1e6

\

更新时间:2024-05-20 02:34

使用sklearn进行数据预处理

https://bigquant.com/experimentshare/fa4b0df66251484196ca7588a9505f75

\

更新时间:2024-05-20 02:09

【历史文档】算子样例-缺失数据处理

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-15 08:18

【历史文档】因子构建与标注-因子预处理

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-15 06:18

多任务并行进行缺失值和极值处理,单任务跑没问题,多任务跑无结果

https://bigquant.com/experimentshare/38f797c669544973a4b4f85fee6d6842

单任务执行

https://bigquant.com/experimentshare/ff82ae821cff43aa95bed62a48ea8345

\

更新时间:2023-10-09 06:16

Black-Litterman模型研究系列:多因子组合中预期数据使用方式 华西证券-20210906

摘要

分析师预期数据与其他因子的结合方法

在多因子选股中使用分析师预期数据时,最常用的方法是将预期数据与其他因子合成,或共同用于预测股票收益,这相当于因子间的并联处理。但股票的分析师预期数据存在很多缺失值,这会影响到正常使用。BL 模型则很适合于处理这类有较多缺失值的因子。

我们在本篇报告中研究了分析师预期数据的串联使用方法:即先构造不含分析师预期数据的传统多因子组合,然后在组合外部通过 BL 模型及分析师预期数据重新计算股票权重,两部分结合后形成新的股票组合。

多数情况下串联组合有更好表现

本文的目的是进行方法上的对比,因此并没有对多因子组合做过多优化,仅按照

更新时间:2023-06-01 14:28

标准化、中性化、缺失值处理的先后顺序

问题

请问,数据的标准化、中性化、缺失值处理的先后顺序是什么?

哪些因子有必要做中性化处理呢?

解答

问题1:一般的顺序为:去极值 → 缺失值处理 → 标准化 → 中性化。

问题:中性化起到一个提纯的作用,常见的为市值中性化和行业中性化。比如日成交额因子受市值的影响很大,市值大的通常成交额较大,无法准确估计出股票收益率到底是受到日成交额的影响更大还是市值,因此,先要对成交额因子提纯,排除市值的影响。

更新时间:2023-06-01 02:13

关于序列窗口滚动模块怎么处理空数据

{w:100}

{w:100}

请教下大佬们,这里m45模块过滤数据以后当天没有满足的数据 然后到m27(序列窗口滚动)这里的时候因为数据空了会报错 这个地方能不能怎么处理

更新时间:2022-11-09 01:23

自定义数据进行因子分析demo

https://bigquant.com/experimentshare/28a454b6532144eb819a78efae160768

\

更新时间:2022-02-21 11:25

分页第1页
{link}