机器学习算法的终极对决( 二 )


评估指标

机器学习算法的终极对决

文章插图
> Sample of doodles used for research
 
以上是用于本研究的Doodle样本 。
我在Kaggle quickdraw数据集上训练了机器学习模型,该数据集包含5000万张不同类型的Doodle图像 。我将庞大的数据集分为两部分:用于训练的35000张图像和用于测试的15000张图像 。然后,我针对随机选择的5种不同类型的Doodle计算每种算法的训练时间 。在测试集上,我计算了每种算法的平均平均精度,准确性和召回率 。
评估指标
训练时间
平均平均精度
准确性
召回
Shashwat Tiwari 16MCA0068的更多有关评估指标的信息
选择的参数的详细信息1)随机森林n_estimators —森林中决策树的数量 。[10,50,100]
max_features-拆分['auto','sqrt']时要考虑的功能
max_depth —树中的最大级别数[2,4,6,8,10]
n_jobs-并行运行的进程数,通常设置为-1以一次执行最大进程 。
准则—这是一种计算损失并因此更新模型以使损失越来越小的方法 。['熵','cross_validation']
我使用"自动"作为max_feature; 8作为max_depth; -1作为n_jobs,"熵"作为我的标准,因为它们通常会产生最佳效果 。
机器学习算法的终极对决

文章插图
> the Graph to find an optimum number of trees
 
但是,为了找出最佳的树数,我使用了GridSearchCV 。它尝试所有给定的参数组合并创建一个表以显示结果 。从图中可以看出,在80棵树之后测试分数没有显着增加 。因此,我决定在80棵树上训练我的分类器 。
2)K最近邻居(KNN)n_neighbors —要比较的最近数据点数[2,5,8]
n_jobs-并行运行的进程数,通常设置为-1以一次执行最大进程
我没有更改此模型的任何默认参数,因为它们会提供最佳结果 。
但是,为了找到n_neighbors的最佳数量,我使用了GridSearchCV,这是我得到的图形:
机器学习算法的终极对决

文章插图
> The graph to find an optimum number of N-neighbors
 
根据该图,测试分数在5 n_neighbors之后下降,这意味着5是最佳邻居数 。
3)多层感知器(MLP)alpha-最常用的学习速率,它告诉网络调整梯度的速度 。[0.01,0.0001,0.00001]
hidden_layer_sizes —它是一个值的元组,由每层的隐藏节点数组成 。[(50,50),(100,100,100),(750,750)]
激活—一种功能,可以为图像中的重要特征提供价值,并删除不相关的信息 。['relu','tanh','logistic'] 。
求解器(也称为优化器),该参数告诉网络使用哪种技术来训练网络中的权重 。['sgd','adam'] 。
batch_size —这是一次要处理的图像数 。[200,100,200] 。
我将激活选择为" relu",将求解器选择为" adam",因为这些参数可提供最佳结果 。
但是,为了选择隐藏层和alpha的数量,我使用了GridSearchCV 。
机器学习算法的终极对决

文章插图
> Table to find an optimum number of N-neighbors
 
从表中可以看出,当alpha为0.001,hidden_layer_sizes为(784,784)时,可获得最佳结果 。因此,我决定使用那些参数 。
4)卷积神经网络(CNN)learning_rate-告诉网络调整梯度的速度 。[0.01,0.0001,0.00001]
hidden_layer_sizes —它是一个值的元组,由每层的隐藏节点数组成 。[(50,50),(100,100,100),(750,750)]
激活—一种功能,可以为图像中的重要特征提供价值,并删除不相关的信息 。['relu','tanh','logistic'] 。
求解器(也称为优化器),该参数告诉网络使用哪种技术来训练网络中的权重 。['sgd','adam'] 。
batch_size —这是一次要处理的图像数 。[200,100,200]
时期-程序应运行的次数或应训练模型的次数 。[10,20,200]
我将激活函数选择为" relu",将求解器选择为" adam",因为这些参数通常会产生最佳效果 。在网络中,我添加了3个卷积层,2个maxpool层,3个辍学层,最后添加了一个softmax激活函数 。我在这里没有使用GridSearchCV,因为可以尝试很多可能的组合,但是结果不会有太大差异 。
5)移动网Input_shape-是由图像尺寸组成的元组 。[(32,32,1),(128,128,3)] 。
Alpha-网络的宽度 。[<1,> 1,1]
激活—一种功能,可以为图像中的重要特征提供价值,并删除不相关的信息 。['relu','tanh','logistic'] 。


推荐阅读