数据的爬取代码:
import pandas as pddata=https://www.isolves.com/it/cxkf/yy/Python/2021-12-29/pd.read_csv("example_data.csv",header=1)print(data)data1=pd.read_csv("北京地区信息.csv",header=1,encoding='gbk')data2=pd.read_csv("天津地区信息.csv",encoding='gbk')print(data1)print(data2)
代码运行结果:
文章插图
首先使用pandas的read_csv()方法进行数据的读取,然后就能够看到相应的表格信息 。
检查重复数据
# 2.2检查重复数据dupnum=data.duplicated()print(dupnum)# 对重复值进行处理caldup=data.drop_duplicates()print(caldup)
代码运行结果:文章插图
主要是是使用这个duplicated()方法进行数据的查重,返回一个布尔序列,仅对唯一元素而言为True 。如果有重复的数据就会在该数值的部分返货Flase 。
然后我们就可以使用drop_duplicates()进行重复值删除 。
检查缺失值代码:
from pandas import Seriesfrom numpy import NAN# import pandas as pd series_obj=Series([1,None])pd.notnull(series_obj)# 上面做的是测试pd.notnull(data)pd.notnull(data1)pd.notnull(data2)
代码运行结果:文章插图
使用pd.notnull(data1)进行非空数值的返回,返回值是布尔型的矩阵,再取df[布尔型矩阵]返回的是id为非空的行 。
检查异常值
import numpy as np# 2.4 检查异常值def three_sig(ser1):mean_value=https://www.isolves.com/it/cxkf/yy/Python/2021-12-29/ser1.mean()#标准差std_value=ser1.std()#位于3σ范围外的都是异常值# 数值大于u+3σ小雨u-3σrule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()代码运行结果:
文章插图
文章插图
3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值 。
通俗理解就是正态分布 。
【Python数据分析——处理中国地区信息】
推荐阅读
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- Python4要来了?快来看看Python之父怎么说
- Python如何构建自动在线刷视频
- 非常实用的 Python 库,推一次火一次
- Python中的菜单驱动程序
- 对比 Flask FastAPI - 一款新型的 Python Web 框架
- 15个Python入门小程序,你都知道哪些
- 用Python提取Verilog网表层次和实例化关系
- 使用 Python 将 MP4视频 转换为GIF动画
- python的面向对象编程
- python初学者必须吃透的这些内置函数