为什么数据标注的时候需要预先做极值处理?

机器学习
标签: #<Tag:0x00007f8c6d586fc8>

(ricardo2019) #1

为什么数据标注的时候需要预先做极值处理?


(Daviddddddd) #2

因为一些情况会出现个别数值远远偏离其他绝大部分数值的情况。比如某个指标大部分值都在0到100,突然出现一个100000的值,就会影响到整个数据标注:如果只有0到100,那么标注可能是比较均匀的将0到100分为10份,但如果出现了100000这样的极值,那么整个标注过程会向这个极大值偏离,使整个标注不够合理。当然,做极值处理本身就是个人的选择,在自己觉得不用做极值处理的时候不做就好。