「埃尔法哥哥」机器学习模型必不可少的5种数据预处理技术( 二 )
标签编码通常适用于线性模型 , 如线性回归 , Logistic回归以及神经网络 。
b)One-hot:在这种编码类型中 , 分类特征中的每个离散值都分配有唯一的one-hot向量或由1和0组成的二进制向量 。 在one-hot向量中 , 仅离散值的索引标记为1 , 其余所有值标记为0 。 在下面的示例中 , 您可以看到为每个水果分配了对应的长度为5的one-hot向量:
本文插图
one-hot编码通常可与基于树的模型(例如随机森林和梯度提升机)配合使用 。
c)均值编码-在 这种类型的编码中 , 分类特征中的每个离散值都使用相应的均值目标标签进行编码 。 为了更好地理解 , 让我们看下面的示例:
本文插图
我们有三个水果标签['Apple' , 'Banana' , 'Orange'] 。 每个水果标签的平均编码公式如下:
Encoded feature = True targets/Total targets
对于Apple来说 , true targets是3 , total targets是4 , 因此Apple的均值编码是3/4 =0.75 。 类似地 , Orange的编码是1/2=0.5 , banana的编码是3/3 =1 。 均值编码是标签编码的扩展版本 , 由于它考虑了目标标签 , 因此与之相比更符合逻辑 。
5. 离散化:
这也是一种很好的预处理技术 , 有时可以通过减小数据大小来提高模型的性能 。 它主要用于数值特征 。 在离散化中 , 数字特征分为bin / intervals 。 每个bin都包含一定范围内的数值 。 一个bin中的值数量可以相同 , 也可以不同 , 然后将每个bin视为分类值 。 我们可以使用离散化将数值特征转换为分类特征 。
这些是实现机器学习模型时可以用来预处理数据的不同方法 。 希望本文对您有所帮助 。
推荐阅读
- 「」儿童节就送阿尔法蛋学习手表,安全贴心又能学习
- -悟空哥哥-618年中大促力来袭,iQOO Neo3应该是你不容错过的5G手机
- 埃尔法哥哥面对用户需求与AI技术之间的不平衡,AI产品经理该如何做?
- 埃尔法哥哥谁说机器学习难?它在这朵云上就没有门槛
- 埃尔法哥哥Python基础语法之“数据应用”
- 埃尔法哥哥Bionumerics软件的多位点VNTR分析
- 埃尔法哥哥一个例子就能读懂大数据,原来数据分析能在这些行业里使用
- 埃尔法哥哥C++程序员的职业生涯规划
- 埃尔法哥哥MAML-Tracker:用目标检测思路做目标跟踪?小样本即可得高准确率丨CVPR 2020
- 埃尔法哥哥数据规范之代码表
