一文看懂随机森林 - Random Forest(4个构造步骤+10个优缺点)
什么是随机森林?
随机森林属于集成学习中的Bagging(BootstrapAGgregation的简称)方法 。 如果用图来表示他们之间的关系如下:
随机森林–RandomForest|RF
构造随机森林的4个步骤
它可以出来很高维度(特征很多)的数据 , 并且不用降维 , 无需做特征选择它可以判断特征的重要程度可以判断出不同特征之间的相互影响不容易过拟合训练速度比较快 , 容易做成并行方法实现起来比较简单对于不平衡的数据集来说 , 它可以平衡误差 。 如果有很大一部分的特征遗失 , 仍可以维持准确度 。缺点
随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合 。 对于有不同取值的属性的数据 , 取值划分较多的属性会对随机森林产生更大的影响 , 所以随机森林在这种数据上产出的属性权值是不可信的随机森林4种实现方法对比测试
随机森林是常用的机器学习算法 , 既可以用于分类问题 , 也可用于回归问题 。 本文对scikit-learn、SparkMLlib、DolphinDB、XGBoost四个平台的随机森林算法实现进行对比测试 。 评价指标包括内存占用、运行速度和分类准确性 。
测试结果如下:
推荐阅读
- 肾病综合征|肾病综合征患者复诊注意事项,关注这3点,自己也能看懂尿常规
- 新冠疫苗|一文总结:目前全球新冠疫苗的整体情况
- 慢性胃炎|人体缺什么会得胃炎?请看此文,一文给您解释清楚
- 空腹血糖|什么时候测量血糖最准确?空腹和餐后血糖哪个更重要?一文告诉你
- 运载火箭|开启新篇章,长征七号A遥二运载火箭发射成功!一文读懂背后的科学知识
- 痛风|痛风会遗传吗?如何降低子女患痛风的风险?一文总结
- 戴美瞳|较真丨戴美瞳对眼睛有没有伤害?一文学会知识点
- 心绞痛|心绞痛如何急救?硝酸甘油怎么应急服用?一文教你赢得黄金救援时间
- 自闭症|较真|布美他尼将有望打破自闭症“无药可医”困境?一文读懂该药研究始末
- 慢性肾小球肾炎|一文秒懂慢性肾小球肾炎的前世今生
