|什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
导读:数据质量分析是数据挖掘中数据准备过程的重要一环 , 是数据预处理的前提 , 也是数据挖掘分析结论有效性和准确性的基础 。 没有可信的数据 , 数据挖掘构建的模型将是空中楼阁 。
数据质量分析的主要任务是检查原始数据中是否存在脏数据 。 脏数据一般是指不符合要求以及不能直接进行相应分析的数据 。 在常见的数据挖掘工作中 , 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 。
【|什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了】本文将主要对数据中的缺失值、异常值和一致性进行分析 。
作者:张良均 谭立云 刘名军 江建明
来源:华章科技
本文插图
01 缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失 , 两者都会造成分析结果不准确 。 下面从缺失值产生的原因及影响等方面展开分析 。
1. 缺失值产生的原因
缺失值产生的原因主要有以下3点:
- 有些信息暂时无法获取 , 或者获取信息的代价太大 。
- 有些信息是被遗漏的 。 可能是因为输入时认为该信息不重要、忘记填写或对数据理解错误等一些人为因素而遗漏 , 也可能是由于数据采集设备故障、存储介质故障、传输媒体故障等非人为原因而丢失 。
- 属性值不存在 。 在某些情况下 , 缺失值并不意味着数据有错误 。 对一些对象来说某些属性值是不存在的 , 如一个未婚者的配偶姓名、一个儿童的固定收入等 。
缺失值会产生以下的影响:
- 数据挖掘建模将丢失大量的有用信息 。
- 数据挖掘模型所表现出的不确定性更加显著 , 模型中蕴含的规律更难把握 。
- 包含空值的数据会使建模过程陷入混乱 , 导致不可靠的输出 。
对缺失值的分析主要从以下两方面进行:
- 使用简单的统计分析 , 可以得到含有缺失值的属性的个数以及每个属性的未缺失数、缺失数与缺失率等 。
- 对于缺失值的处理 , 从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况 。
本文插图
02 异常值分析
异常值分析是检验数据是否有录入错误 , 是否含有不合常理的数据 。 忽视异常值的存在是十分危险的 , 不加剔除地将异常值放入数据的计算分析过程中 , 会对结果造成不良影响;重视异常值的出现 , 分析其产生的原因 , 常常成为发现问题进而改进决策的契机 。
异常值是指样本中的个别值 , 其数值明显偏离其他的观测值 。 异常值也称为离群点 , 异常值分析也称为离群点分析 。
1. 简单统计量分析
在进行异常值分析时 , 可以先对变量做一个描述性统计 , 进而查看哪些数据是不合理的 。 最常用的统计量是最大值和最小值 , 用来判断这个变量的取值是否超出了合理范围 。 如客户年龄的最大值为199岁 , 则判断该变量的取值存在异常 。
2. 3σ原则
如果数据服从正态分布 , 在3σ原则下 , 异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值 。 在正态分布的假设下 , 距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003 , 属于极个别的小概率事件 。
如果数据不服从正态分布 , 也可以用远离平均值的标准差倍数来描述 。
3. 箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL -1.5IQR或大于QU +1.5IQR的值 。
- QL称为下四分位数 , 表示全部观察值中有四分之一的数据取值比它小;
推荐阅读
- LAO哥测评|一部苹果手机,能够让国人狂乱到什么程度?
- 黑猫评测|明明都是国产手机,为什么有些人更偏爱华为,却不喜欢小米?
- 新影音派对|为什么说1MORE ColorBuds是一款适合年轻人的耳机
- 圳优信息|“副业刚需”的时代,怎样发展副业才靠谱?
- |为什么使用B+Tree?
- 人群中国科学家通过古人基因组数据探寻中国文明源流
- 环球科学猫|二氧化碳水平超过2300万年最高纪录,对人类有什么影响?
- 联想|联想个人云存储Mac版上线 苹果电脑用户数据备份更便捷
- 东莞琪康实业|椰壳活性炭和果壳活性炭的区别是什么?
- 信息史上最全SpaceX火箭数据开源,核心、组员舱、起落架、发射信息全都有!