|什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了( 二 )
由此可见 , 箱型图识别异常值的结果比较客观 , 在识别异常值方面有一定的优越性 , 如图3-1所示 。
本文插图
▲图3-1 箱型图检测异常值
餐饮系统中的销量数据可能出现缺失值和异常值 , 例如表3-1中数据所示 。
本文插图
▲表3-1 餐饮日销额数据示例
分析餐饮系统日销额数据可以发现 , 其中有部分数据是缺失的 , 但是如果数据记录和属性较多 , 使用人工分辨的方法就不切实际 , 所以这里需要编写程序来检测出含有缺失值的记录和属性以及缺失率个数和缺失率等 。
在Python的pandas库中 , 只需要读入数据 , 然后使用describe()方法即可查看数据的基本情况 , 如代码清单3-1所示 。
- 代码清单3-1 使用describe()方法查看数据的基本情况
销量 count200.000000 mean2755.214700 std751.029772 min22.000000 25%2451.975000 50%2655.850000 75%3026.125000 max9106.440000其中count是非空值数 , 通过len(data)可以知道数据记录为201条 , 因此缺失值数为1 。 另外 , 提供的基本参数还有平均值(mean)、标准差(std)、最小值(min)、最大值(max)以及1/4、1/2、3/4分位数(25%、50%、75%) 。
更直观地展示这些数据并且可以检测异常值的方法是使用箱型图 。 其Python检测代码如代码清单3-2所示 。
- 代码清单3-2 餐饮日销额数据异常值检测
本文插图
▲图3-2 异常值检测箱型图
从图3-2可以看出 , 箱型图中超过上下界的7个日销售额数据可能为异常值 。 结合具体业务可以把865.0、4060.3、4065.2归为正常值 , 将22.0、51.0、60.0、6607.4、9106.44归为异常值 。 最后确定过滤规则为日销额在400元以下或5000元以上则属于异常数据 , 编写过滤程序 , 进行后续处理 。
推荐阅读
- LAO哥测评|一部苹果手机,能够让国人狂乱到什么程度?
- 黑猫评测|明明都是国产手机,为什么有些人更偏爱华为,却不喜欢小米?
- 新影音派对|为什么说1MORE ColorBuds是一款适合年轻人的耳机
- 圳优信息|“副业刚需”的时代,怎样发展副业才靠谱?
- |为什么使用B+Tree?
- 人群中国科学家通过古人基因组数据探寻中国文明源流
- 环球科学猫|二氧化碳水平超过2300万年最高纪录,对人类有什么影响?
- 联想|联想个人云存储Mac版上线 苹果电脑用户数据备份更便捷
- 东莞琪康实业|椰壳活性炭和果壳活性炭的区别是什么?
- 信息史上最全SpaceX火箭数据开源,核心、组员舱、起落架、发射信息全都有!