「埃尔法哥哥」机器学习模型必不可少的5种数据预处理技术( 二 )


标签编码通常适用于线性模型 , 如线性回归 , Logistic回归以及神经网络 。
b)One-hot:在这种编码类型中 , 分类特征中的每个离散值都分配有唯一的one-hot向量或由1和0组成的二进制向量 。 在one-hot向量中 , 仅离散值的索引标记为1 , 其余所有值标记为0 。 在下面的示例中 , 您可以看到为每个水果分配了对应的长度为5的one-hot向量:

「埃尔法哥哥」机器学习模型必不可少的5种数据预处理技术
本文插图

one-hot编码通常可与基于树的模型(例如随机森林和梯度提升机)配合使用 。
c)均值编码-在 这种类型的编码中 , 分类特征中的每个离散值都使用相应的均值目标标签进行编码 。 为了更好地理解 , 让我们看下面的示例:

「埃尔法哥哥」机器学习模型必不可少的5种数据预处理技术
本文插图

我们有三个水果标签['Apple' , 'Banana' , 'Orange'] 。 每个水果标签的平均编码公式如下:
Encoded feature = True targets/Total targets
对于Apple来说 , true targets是3 , total targets是4 , 因此Apple的均值编码是3/4 =0.75 。 类似地 , Orange的编码是1/2=0.5 , banana的编码是3/3 =1 。 均值编码是标签编码的扩展版本 , 由于它考虑了目标标签 , 因此与之相比更符合逻辑 。
5. 离散化:
这也是一种很好的预处理技术 , 有时可以通过减小数据大小来提高模型的性能 。 它主要用于数值特征 。 在离散化中 , 数字特征分为bin / intervals 。 每个bin都包含一定范围内的数值 。 一个bin中的值数量可以相同 , 也可以不同 , 然后将每个bin视为分类值 。 我们可以使用离散化将数值特征转换为分类特征 。
这些是实现机器学习模型时可以用来预处理数据的不同方法 。 希望本文对您有所帮助 。


推荐阅读