Python Pandas数据预处理：你知道数据标准化吗？ _Pandas

数据预处理包括以下几个方面:

缺失值处理
数据格式化
数据规范化
数据标准化
数据分箱（分组）

标准化经常容易与规范化混淆，但它们指的是不同的东西。规范化涉及将不同比例的度量值调整到一个共同的比例，而标准化则是将特征值转换为均值为零，标准差为1的分布。标准化也是通过 z-score 转换来实现的，其中新值是用当前值与平均值之间的差，除以标准差计算得来的。
Z-score 是一种统计度量值，用于确定单个数据点与数据集其余部分的距离，它可以用来检测数据集中的异常值。
在本教程中，我们将考虑两种类型的标准化：

z 得分（z-score）
z 映射（z-map）

一、数据准备（Data Preparation）本教程的示例数据集还是继续沿用上一个教程（Part 3）中的新冠肺炎数据集，获取方式见上一个教程的文末。
首先，我们需要导入 Python/ target=_blank class=infotextkey>Python pandas 库，并通过 read_csv() 函数读取数据集。然后我们可以删除所有具有 NaN 值的列，通过 dropna() 函数来实现的。
import pandasas pddf = pd.read_csv('datasets/dpc-covid19-ita-regioni.csv')df.dropna(axis=1, inplace=True)df.tAIl(10)

文章插图
图片
二、z 得分（Z-Score）前面说过，标准化是将数据集中的特征值转换为具有均值为 0 和标准差为 1 的分布。Z-Score 标准化的公式为：
其中是当前特征值，是均值，是标准差。
例如，我们可以计算列 deceduti 的 z 得分。我们可以使用 scipy.stats 库的 zscore() 函数实现。
from scipy.stats import zscoredf['zscore-deceduti'] = zscore(df['deceduti'])df['zscore-deceduti']

文章插图
图片
三、z 映射（Z-Map）z 映射的值是用当前特征值与比较数组的平均值之差，除以比较数组的标准差计算得来的。例如，我们可以计算列 deceduti 的 z-map ，使用列 terapia_intenva 作为比较数组。我们可以使用 scipy.stats 库的 zmap() 函数实现。
from scipy.stats import zmapdf['zmap-deceduti'] = zmap(df['deceduti'], df['terapia_intensiva'])df['zmap-deceduti']

文章插图
图片
四、异常值检测（Detect Outliers）标准化可以用来检测和删除异常值。例如，可以定义一个阈值来指定哪些值可以被视为异常值。在本例中，我们设置 threshold = 2 。我们可以在原始数据框中添加一个新的列 outliers，如果特征值小于-2或大于2，则将异常标记列的值设置为 True ，否则为 False 。我们可以使用 numpy 库的 where() 函数来执行比较。

import numpy as npthreshold = 2df['outliers'] = np.where((df['zscore-deceduti'] - threshold > 0), True,np.where(df['zscore-deceduti'] + threshold < 0, True, False))df['outliers']

文章插图
图片
现在，我们可以使用 drop() 函数删除异常值。
df.drop(df[df['outliers'] == True].index, inplace=True)df

文章插图
图片
五、总结（Summary）在本教程中，我解释了规范化和标准化之间的区别，规范化在某种程度上包括标准化。
数据标准化的方法有两种：z-score 和 z-map 。
【Python Pandas数据预处理：你知道数据标准化吗？】标准化可用于检测和删除数据集中的异常值。此外，它还可以用于在不同的数据集之间进行比较。