|什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了( 三 )


03 一致性分析
数据不一致性是指数据的矛盾性、不相容性 。 直接对不一致的数据进行挖掘 , 可能会产生与实际相违背的挖掘结果 。
在数据挖掘过程中 , 不一致数据的产生主要发生在数据集成的过程中 , 可能是由于被挖掘数据来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的 。
例如 , 两张表中都存储了用户的电话号码 , 但在用户的电话号码发生改变时只更新了一张表中的数据 , 那么这两张表中就有了不一致的数据 。
关于作者:张良均 , 资深大数据挖掘与分析专家、模式识别专家、AI技术专家 。 有10余年大数据挖掘与分析经验 , 擅长Python、R、Hadoop、Matlab等技术实现的数据挖掘与分析 , 对机器学习等AI技术驱动的数据分析也有深入研究 。
本文摘编自《Python数据分析与挖掘实战》(第2版) , 经出版方授权发布 。
|什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
本文插图

延伸阅读《Python数据分析与挖掘实战》
推荐语:畅销书全新升级 , 第1版销售超过10万册 , 被国内100余所高等院校采用为教材 , 同时被广大数据科学工作者奉为经典 , 是该领域公认的事实标准 。 作者在大数据挖掘与分析等领域有10余年的工程实践、教学和创办企业的经验 , 不仅掌握行业的最新技术和实践方法 , 而且洞悉学生和老师的需求与痛点 。


推荐阅读