什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了( 二 )
由此可见 , 箱型图识别异常值的结果比较客观 , 在识别异常值方面有一定的优越性 , 如图3-1所示 。
本文插图
▲图3-1 箱型图检测异常值
餐饮系统中的销量数据可能出现缺失值和异常值 , 例如表3-1中数据所示 。
本文插图
▲表3-1 餐饮日销额数据示例
分析餐饮系统日销额数据可以发现 , 其中有部分数据是缺失的 , 但是如果数据记录和属性较多 , 使用人工分辨的方法就不切实际 , 所以这里需要编写程序来检测出含有缺失值的记录和属性以及缺失率个数和缺失率等 。
在Python的pandas库中 , 只需要读入数据 , 然后使用describe()方法即可查看数据的基本情况 , 如代码清单3-1所示 。
- 代码清单3-1 使用describe()方法查看数据的基本情况
销量 count200.000000 mean2755.214700 std751.029772 min22.000000 25%2451.975000 50%2655.850000 75%3026.125000 max9106.440000其中count是非空值数 , 通过len(data)可以知道数据记录为201条 , 因此缺失值数为1 。 另外 , 提供的基本参数还有平均值(mean)、标准差(std)、最小值(min)、最大值(max)以及1/4、1/2、3/4分位数(25%、50%、75%) 。
更直观地展示这些数据并且可以检测异常值的方法是使用箱型图 。 其Python检测代码如代码清单3-2所示 。
- 代码清单3-2 餐饮日销额数据异常值检测
本文插图
▲图3-2 异常值检测箱型图
从图3-2可以看出 , 箱型图中超过上下界的7个日销售额数据可能为异常值 。 结合具体业务可以把865.0、4060.3、4065.2归为正常值 , 将22.0、51.0、60.0、6607.4、9106.44归为异常值 。 最后确定过滤规则为日销额在400元以下或5000元以上则属于异常数据 , 编写过滤程序 , 进行后续处理 。
推荐阅读
- 学点时尚搭配|这些发型凭什么这么火?因为它适合所有女人
- 躺着看电影|“她这么丑,凭什么穿性感亵服!”丨原创
- 【】数百头大象离奇死亡!疫情下的非洲“大象王国”发生了什么?
- 虞书欣为张艺凡打call真相是什么?虞书欣为张艺凡打call具体情况
- 抗议者在白宫外烧美国国旗意味着什么?抗议者在白宫外烧美国国旗具体情况
- 宁静曾是动画师真相是什么?宁静曾是动画师具体情况
- 北京可控范围内病例还会确诊真相是什么?北京可控范围内病例还会确诊事件始末
- 海南农家水井出现大量桃花水母真相是什么?海南农家水井出现大量桃花水母事件始末
- 刘国梁为代言爱钱进道歉真相是什么?刘国梁为代言爱钱进道歉令人震惊
- 湖北村民50万建的新房被洪水冲倒是什么原因?湖北村民50万建的新房被洪水冲倒时间过程详解
