机器学习算法的终极对决( 二 ) _机器学习

评估指标

文章插图
> Sample of doodles used for research

以上是用于本研究的Doodle样本。
我在Kaggle quickdraw数据集上训练了机器学习模型，该数据集包含5000万张不同类型的Doodle图像。我将庞大的数据集分为两部分：用于训练的35000张图像和用于测试的15000张图像。然后，我针对随机选择的5种不同类型的Doodle计算每种算法的训练时间。在测试集上，我计算了每种算法的平均平均精度，准确性和召回率。
评估指标
训练时间
平均平均精度
准确性
召回
Shashwat Tiwari 16MCA0068的更多有关评估指标的信息
选择的参数的详细信息1）随机森林n_estimators —森林中决策树的数量。[10,50,100]
max_features-拆分['auto'，'sqrt']时要考虑的功能
max_depth —树中的最大级别数[2,4,6,8,10]
n_jobs-并行运行的进程数，通常设置为-1以一次执行最大进程。
准则—这是一种计算损失并因此更新模型以使损失越来越小的方法。['熵'，'cross_validation']
我使用"自动"作为max_feature； 8作为max_depth; -1作为n_jobs，"熵"作为我的标准，因为它们通常会产生最佳效果。

文章插图
> the Graph to find an optimum number of trees

但是，为了找出最佳的树数，我使用了GridSearchCV 。它尝试所有给定的参数组合并创建一个表以显示结果。从图中可以看出，在80棵树之后测试分数没有显着增加。因此，我决定在80棵树上训练我的分类器。
2）K最近邻居（KNN）n_neighbors —要比较的最近数据点数[2,5,8]
n_jobs-并行运行的进程数，通常设置为-1以一次执行最大进程
我没有更改此模型的任何默认参数，因为它们会提供最佳结果。
但是，为了找到n_neighbors的最佳数量，我使用了GridSearchCV，这是我得到的图形：

文章插图
> The graph to find an optimum number of N-neighbors

根据该图，测试分数在5 n_neighbors之后下降，这意味着5是最佳邻居数。
3）多层感知器（MLP）alpha-最常用的学习速率，它告诉网络调整梯度的速度。[0.01，0.0001，0.00001]
hidden_layer_sizes —它是一个值的元组，由每层的隐藏节点数组成。[（50,50），（100,100,100），（750,750）]
激活—一种功能，可以为图像中的重要特征提供价值，并删除不相关的信息。['relu'，'tanh'，'logistic'] 。
求解器（也称为优化器），该参数告诉网络使用哪种技术来训练网络中的权重。['sgd'，'adam'] 。
batch_size —这是一次要处理的图像数。[200,100,200] 。
我将激活选择为" relu"，将求解器选择为" adam"，因为这些参数可提供最佳结果。
但是，为了选择隐藏层和alpha的数量，我使用了GridSearchCV 。

文章插图
> Table to find an optimum number of N-neighbors

从表中可以看出，当alpha为0.001，hidden_layer_sizes为（784,784）时，可获得最佳结果。因此，我决定使用那些参数。
4）卷积神经网络（CNN）learning_rate-告诉网络调整梯度的速度。[0.01，0.0001，0.00001]
hidden_layer_sizes —它是一个值的元组，由每层的隐藏节点数组成。[（50,50），（100,100,100），（750,750）]
激活—一种功能，可以为图像中的重要特征提供价值，并删除不相关的信息。['relu'，'tanh'，'logistic'] 。
求解器（也称为优化器），该参数告诉网络使用哪种技术来训练网络中的权重。['sgd'，'adam'] 。
batch_size —这是一次要处理的图像数。[200,100,200]
时期-程序应运行的次数或应训练模型的次数。[10,20,200]
我将激活函数选择为" relu"，将求解器选择为" adam"，因为这些参数通常会产生最佳效果。在网络中，我添加了3个卷积层，2个maxpool层，3个辍学层，最后添加了一个softmax激活函数。我在这里没有使用GridSearchCV，因为可以尝试很多可能的组合，但是结果不会有太大差异。
5）移动网Input_shape-是由图像尺寸组成的元组。[（32,32,1），（128,128,3）] 。
Alpha-网络的宽度。[<1，> 1,1]
激活—一种功能，可以为图像中的重要特征提供价值，并删除不相关的信息。['relu'，'tanh'，'logistic'] 。