一文看懂随机森林 - Random Forest(4个构造步骤+10个优缺点)

【一文看懂随机森林 - Random Forest(4个构造步骤+10个优缺点)】本文将介绍随机森林的基本概念、4个构造步骤、4种方式的对比评测、10个优缺点和4个应用方向 。
什么是随机森林?
随机森林属于集成学习中的Bagging(BootstrapAGgregation的简称)方法 。 如果用图来表示他们之间的关系如下:
详细了解决策树 , 可以看看《一文看懂决策树–Decisiontree(3个步骤+3种典型算法+10个优缺点)》
随机森林–RandomForest|RF
当我们进行分类任务时 , 新的输入样本进入 , 就让森林中的每一棵决策树分别进行判断和分类 , 每个决策树会得到一个自己的分类结果 , 决策树的分类结果中哪一个分类最多 , 那么随机森林就会把这个结果当做最终的结果 。
构造随机森林的4个步骤
优点
它可以出来很高维度(特征很多)的数据 , 并且不用降维 , 无需做特征选择它可以判断特征的重要程度可以判断出不同特征之间的相互影响不容易过拟合训练速度比较快 , 容易做成并行方法实现起来比较简单对于不平衡的数据集来说 , 它可以平衡误差 。 如果有很大一部分的特征遗失 , 仍可以维持准确度 。缺点
随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合 。 对于有不同取值的属性的数据 , 取值划分较多的属性会对随机森林产生更大的影响 , 所以随机森林在这种数据上产出的属性权值是不可信的随机森林4种实现方法对比测试
随机森林是常用的机器学习算法 , 既可以用于分类问题 , 也可用于回归问题 。 本文对scikit-learn、SparkMLlib、DolphinDB、XGBoost四个平台的随机森林算法实现进行对比测试 。 评价指标包括内存占用、运行速度和分类准确性 。
测试结果如下:
随机森林的4个应用方向
对离散值的分类对连续值的回归无监督学习聚类异常点检测


    推荐阅读