|什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了( 二 )

  • QU称为上四分位数 , 表示全部观察值中有四分之一的数据取值比它大;
  • IQR称为四分位数间距 , 是上四分位数QU与下四分位数QL之差 , 其间包含了全部观察值的一半 。
  • 箱型图依据实际数据绘制 , 对数据没有任何限制性要求 , 如服从某种特定的分布形式 , 它只是真实直观地表现数据分布的本来面貌;另一方面 , 箱型图判断异常值的标准以四分位数和四分位距为基础 , 四分位数具有一定的鲁棒性:多达25%的数据可以变得任意远而不会严重扰动四分位数 , 所以异常值不能对这个标准施加影响 。
    由此可见 , 箱型图识别异常值的结果比较客观 , 在识别异常值方面有一定的优越性 , 如图3-1所示 。
    |什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
    本文插图

    ▲图3-1 箱型图检测异常值
    餐饮系统中的销量数据可能出现缺失值和异常值 , 例如表3-1中数据所示 。
    |什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
    本文插图

    ▲表3-1 餐饮日销额数据示例
    分析餐饮系统日销额数据可以发现 , 其中有部分数据是缺失的 , 但是如果数据记录和属性较多 , 使用人工分辨的方法就不切实际 , 所以这里需要编写程序来检测出含有缺失值的记录和属性以及缺失率个数和缺失率等 。
    在Python的pandas库中 , 只需要读入数据 , 然后使用describe()方法即可查看数据的基本情况 , 如代码清单3-1所示 。
    • 代码清单3-1 使用describe()方法查看数据的基本情况
    import pandas as pd catering_sale = '../data/catering_sale.xls'# 餐饮数据 data = http://news.hoteastday.com/a/pd.read_excel(catering_sale, index_col='日期') # 读取数据 , 指定“日期”列为索引列 print(data.describe())代码清单3-1的运行结果如下:
    销量 count200.000000 mean2755.214700 std751.029772 min22.000000 25%2451.975000 50%2655.850000 75%3026.125000 max9106.440000其中count是非空值数 , 通过len(data)可以知道数据记录为201条 , 因此缺失值数为1 。 另外 , 提供的基本参数还有平均值(mean)、标准差(std)、最小值(min)、最大值(max)以及1/4、1/2、3/4分位数(25%、50%、75%) 。
    更直观地展示这些数据并且可以检测异常值的方法是使用箱型图 。 其Python检测代码如代码清单3-2所示 。
    • 代码清单3-2 餐饮日销额数据异常值检测
    import matplotlib.pyplot as plt# 导入图像库 plt.rcParams['font.sans-serif'] = ['SimHei']# 用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False# 用来正常显示负号 plt.figure()# 建立图像 p = data.boxplot(return_type='dict')# 画箱型图 , 直接使用DataFrame的方法 x = p['fliers'][0].get_xdata()# 'flies'即为异常值的标签 y = p['fliers'][0].get_ydata() y.sort()# 从小到大排序 , 该方法直接改变原对象 ''' 用annotate添加注释 其中有些相近的点 , 注释会出现重叠 , 难以看清 , 需要一些技巧来控制 以下参数都是经过调试的 , 需要具体问题具体调试 ''' for i in range(len(x)): if i>0: plt.annotate(y[i], xy=(x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]), y[i])) else: plt.annotate(y[i], xy=(x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show()# 展示箱型图运行代码清单3-2 , 可以得到图3-2所示的箱型图 。
    |什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
    本文插图

    ▲图3-2 异常值检测箱型图
    从图3-2可以看出 , 箱型图中超过上下界的7个日销售额数据可能为异常值 。 结合具体业务可以把865.0、4060.3、4065.2归为正常值 , 将22.0、51.0、60.0、6607.4、9106.44归为异常值 。 最后确定过滤规则为日销额在400元以下或5000元以上则属于异常数据 , 编写过滤程序 , 进行后续处理 。


    推荐阅读