数据异常值处理
由clearyf创建,最终由clearyf 被浏览 439 用户
导论
异常值问题在数据分析中经常遇到,本文介绍了多种处理数据异常值的方法。
在金融数据分析中,常常会遇到一些值过大或者过小的情况,当用这些值来构造其他特征的时候,可能使得其他的特征也是异常点,这将严重影响对金融数据的分析,或者是影响模型的训练。下面将带大家学习一些关于异常点处理的常用方法。
固定比例法
这种方法非常容易理解,我们把上下2%的值重新设置,若大于99%分位数的数值,则将其设置为99%分位数值,若低于1%分位数的数值,则将其重新设置为1%分位数值
均值标准差法
这种想法的思路来自于正态分布,假设 那么: 通常把三倍标准差之外的值都视为异常值,不过要注意的是样本均值和样本标准差都不是稳健统计量,其计算本身受极值的影响就非常大,所以可能会出现一种情况,那就是我们从数据分布图上能非常明显的看到异常点,但按照上面的计算方法,这个异常点可能仍在均值三倍标准差的范围内。因此按照这种方法剔除掉异常值后,需要重新观察数据的分布情况,看是否仍然存在显著异常点,若存在则继续重复上述步骤寻找异常点。
MAD法
MAD 法是针对均值标准差方法的改进,把均值和标准差替换成稳健统计量,样本均值用样本中位数代替,样本标准差用样本MAD(Median Absolute Deviation)代替: 一般将偏离中位数三倍以上的数据作为异常值,和均值标准差法相比,其中位数和MAD不受异常值的影响。
BOXPLOT法
我们知道箱线图上也会注明异常值,假设Q1和Q3分别为数据从小到大排列的25%和75%分位数,记 ,把 $(-\infty, Q_1-3IQR)\bigcup(Q_3+3IQR, +\infty)$ 区间里的数据标识为异常点。分位数也是稳健统计量,因此Boxplot 方法对极值不敏感,但如果样本数据正偏严重,且右尾分布明显偏厚时,Boxplot 方法会把过多的数据划分为异常数据,因此Hubert& Vandervieren (2007)对原有Boxplot 方法进行了偏度调整。首先样本偏度定义采用了Brys(2004)提出的MedCouple方法 然后给出了经偏度调整boxplot方法上下限:
附件:处理数据异常值的方法
https://i.bigquant.com/user/iquant/lab/share/数据异常值处理.ipynb?
本文由BigQuant宽客学院推出,版权归BigQuant所有,转载请注明出处。
\