数据预处理包括以下几个方面:
- 缺失值处理
- 数据格式化
- 数据规范化
- 数据标准化
- 数据分箱(分组)
Z-score 是一种统计度量值,用于确定单个数据点与数据集其余部分的距离,它可以用来检测数据集中的异常值 。
在本教程中 , 我们将考虑两种类型的标准化:
- z 得分(z-score)
- z 映射(z-map)
首先,我们需要导入 Python/ target=_blank class=infotextkey>Python pandas 库,并通过 read_csv() 函数读取数据集 。然后我们可以删除所有具有 NaN 值的列 , 通过 dropna() 函数来实现的 。
import pandasas pddf = pd.read_csv('datasets/dpc-covid19-ita-regioni.csv')df.dropna(axis=1, inplace=True)df.tAIl(10)
文章插图
图片
二、z 得分(Z-Score)前面说过,标准化是将数据集中的特征值转换为具有均值为 0 和标准差为 1 的分布 。Z-Score 标准化的公式为:
其中 是当前特征值, 是均值, 是标准差 。
例如,我们可以计算列 deceduti 的 z 得分 。我们可以使用 scipy.stats 库的 zscore() 函数实现 。
from scipy.stats import zscoredf['zscore-deceduti'] = zscore(df['deceduti'])df['zscore-deceduti']
文章插图
图片
三、z 映射(Z-Map)z 映射的值是用当前特征值与比较数组的平均值之差,除以比较数组的标准差计算得来的 。例如,我们可以计算列 deceduti 的 z-map , 使用列 terapia_intenva 作为比较数组 。我们可以使用 scipy.stats 库的 zmap() 函数实现 。
from scipy.stats import zmapdf['zmap-deceduti'] = zmap(df['deceduti'], df['terapia_intensiva'])df['zmap-deceduti']
文章插图
图片
四、异常值检测(Detect Outliers)标准化可以用来检测和删除异常值 。例如 , 可以定义一个阈值来指定哪些值可以被视为异常值 。在本例中,我们设置 threshold = 2 。我们可以在原始数据框中添加一个新的列 outliers,如果特征值小于-2或大于2,则将异常标记列的值设置为 True , 否则为 False 。我们可以使用 numpy 库的 where() 函数来执行比较 。
import numpy as npthreshold = 2df['outliers'] = np.where((df['zscore-deceduti'] - threshold > 0), True,np.where(df['zscore-deceduti'] + threshold < 0, True, False))df['outliers']
文章插图
图片
现在,我们可以使用 drop() 函数删除异常值 。
df.drop(df[df['outliers'] == True].index, inplace=True)df
文章插图
图片
五、总结(Summary)在本教程中 , 我解释了规范化和标准化之间的区别,规范化在某种程度上包括标准化 。
数据标准化的方法有两种:z-score 和 z-map 。
【Python Pandas数据预处理:你知道数据标准化吗?】标准化可用于检测和删除数据集中的异常值 。此外,它还可以用于在不同的数据集之间进行比较 。
推荐阅读
- 数据可观察性ROI:构建引人注目的商业案例的五个关键领域
- 解读向量数据库
- 好用的Python解释器有哪些?
- 面向时间序列数据的深度学习应用综述
- 华为手机如何数据迁移?我手把手来教会你
- 手机快充与数据线:长短、粗细之谜
- 大数据面试题2021
- u盘数据丢失怎么办能恢复吗
- 蜂窝数据什么意思 apple蜂窝数据什么意思
- 表格中数据如何拆分成多部分数据