数据异常值处理

由clearyf创建，最终由clearyf更新于2024-05-20 02:09 被浏览 454 用户

导论

异常值问题在数据分析中经常遇到，本文介绍了多种处理数据异常值的方法。

在金融数据分析中，常常会遇到一些值过大或者过小的情况，当用这些值来构造其他特征的时候，可能使得其他的特征也是异常点，这将严重影响对金融数据的分析，或者是影响模型的训练。下面将带大家学习一些关于异常点处理的常用方法。

固定比例法

这种方法非常容易理解，我们把上下2%的值重新设置，若大于99%分位数的数值，则将其设置为99%分位数值，若低于1%分位数的数值，则将其重新设置为1%分位数值

均值标准差法

这种想法的思路来自于正态分布，假设那么：通常把三倍标准差之外的值都视为异常值，不过要注意的是样本均值和样本标准差都不是稳健统计量，其计算本身受极值的影响就非常大，所以可能会出现一种情况，那就是我们从数据分布图上能非常明显的看到异常点，但按照上面的计算方法，这个异常点可能仍在均值三倍标准差的范围内。因此按照这种方法剔除掉异常值后，需要重新观察数据的分布情况，看是否仍然存在显著异常点，若存在则继续重复上述步骤寻找异常点。

MAD法

MAD 法是针对均值标准差方法的改进，把均值和标准差替换成稳健统计量，样本均值用样本中位数代替，样本标准差用样本MAD（Median Absolute Deviation）代替：一般将偏离中位数三倍以上的数据作为异常值，和均值标准差法相比，其中位数和MAD不受异常值的影响。

BOXPLOT法

我们知道箱线图上也会注明异常值，假设Q1和Q3分别为数据从小到大排列的25%和75%分位数，记，把 $(-\infty, Q_1-3IQR)\bigcup(Q_3+3IQR, +\infty)$ 区间里的数据标识为异常点。分位数也是稳健统计量，因此Boxplot 方法对极值不敏感，但如果样本数据正偏严重，且右尾分布明显偏厚时，Boxplot 方法会把过多的数据划分为异常数据，因此Hubert& Vandervieren （2007）对原有Boxplot 方法进行了偏度调整。首先样本偏度定义采用了Brys(2004)提出的MedCouple方法然后给出了经偏度调整boxplot方法上下限：

附件：处理数据异常值的方法

https://i.bigquant.com/user/iquant/lab/share/数据异常值处理.ipynb?

本文由BigQuant宽客学院推出，版权归BigQuant所有，转载请注明出处。