异常值(Outliers)是指与大部分样本不符合的极端数值,可能会对数据分析和建模产生不良影响。
为了识别和处理异常值,可以使用以下方法:
自动识别异常值的常用方法:
(1) MAD(中位数绝对偏差):计算每个数据点与数据集中位数的绝对偏差的中位数,常用于鲁棒性(健壮性)数据分析。不受极端值的影响,对非正态分布数据也适用。
(2) IQR(四分位差):计算数据集的第一四分位数(Q1)和第三四分位数(Q3),通过计算Q3和Q1之间的差异来确定异常阈值。IQR方法对极端值相对鲁棒,不受极端值的影响。
(3)3sigma法:3sigma方法是一种常用的异常值识别方法,广泛应用于统计学和数据分析领域。根据数据集的均值和标准差,将数据集中偏离均值3倍标准差的数据点定义为异常值。
(4)自定义方法:允许指定自定义的异常值识别条件与阈值。
异常值处理方法:
(1) 填充平均值(mean):将异常值填充为数据集的平均值。
(2)填充中位数(median):将异常值填充为数据集的中位数。
(3)填充众数(mode):将异常值填充为数据集的众数。
(4) 填充零(zero):将异常值填充为数字0。
(5) 填充随机值(random):将异常值填充为随机选择的数据集中非空值的随机数。
(6) 自定义填充(custom):允许指定自定义的填充数值。
使用时可以根据数据需求对数据进行恰当的处理,以便进行后续分析。