素手烹茶|「小白学ML」随机森林 大全解( 二 )
6 随机森林的特点6.1 优点
- 在当前的算法中 , 具有极好的准确率
- 能够运行在大数据上
- 能够处理具有高维特征的输入样本 , 不需要降维
- 能够计算各个特征的重要度
- 能够防止过拟合
- 其实在一些大数据竞赛中 , 随机森林也是我第一个会尝试的模型哦~
- Bias:如果一个模型的训练错误大 , 然后验证错误和训练错误都很大 , 那么这个模型就是高bias 。 可能是因为欠拟合 , 也可能是因为模型是弱分类器 。
- Variance:模型的训练错误小 , 但是验证错误远大于训练错误 , 那么这个模型就是高Variance , 或者说它是过拟合 。
【素手烹茶|「小白学ML」随机森林 大全解】右上角是高偏差 , 可以看到 , 虽然整体数据预测的好像都在中心 , 但是波动很大 。
【高偏差vs高方差】
在机器学习中 , 因为偏差和方差不能兼顾 , 所以我们一般会选择高偏差、低方差的左下角的模型 。 稳定性是最重要的 , 宁可所有的样本都80%正确率 , 也不要部分样本100%、部分50%的正确率 。 个人感觉 , 稳定性是学习到东西的体现 , 高方差模型与随机蒙的有什么区别?
6.3 随机森林降低偏差证明上面的可能有些抽象 , 这里用RandomForest(RF)来作为例子:随机森林是bagging的集成模型 , 这里:
- RF(x)表示随机森林对样本x的预测值;
- B表示总共有B棵树;
- 表示第i棵树所使用的训练集 , 是使用bagging的方法 , 从所有训练集中进行行采样和列采样得到的子数据集 。
【RF是如何降低偏差的?】 直观上 , 使用多棵树和bagging , 是可以增加模型的稳定性的 。 怎么证明的?
我们需要计算
假设不同树的之间的相关系数为,然后每棵树的方差都是.
先复习一下两个随机变量相加的方差如何表示:
- Cov(X,Y)表示X和Y的协方差 。 协方差和相关系数不一样哦 , 要除以X和Y的标准差:
这样可以看出来了 , RF的树的数量越多 , RF方差的第二项会不断减小 , 但是第一项不变 。 也就是说 , 第一项就是RF模型偏差的下极限了 。
【总结】
- 增加决策树的数量B , 偏差不变;方差减小;
- 增加决策树深度 , 偏差减小;减小 , 增加;
- 增加bagging采样比例 , 偏差减小;增加 , 增加;
GBDT中 , 在某种情况下 , 是不断训练之前模型的残差 , 来达到降低bias的效果 。 虽然也是集成模型 , 但是可以想到 , 每一个GBDT中的树 , 所学习的数据的分布都是不同的 , 这意味着在GBDT模型的方差会随着决策树的数量增多 , 不断地增加 。
- 素手烹茶|Redis 事务也叫事务吗?,不支持原子性的
- 素手烹茶|中芯或被“拉黑”要求退出群聊,这是机遇还是无奈?
- 素手烹茶|尘封23年的运钞车劫案告破:嫌犯在部队服役时作案,转业后两获三等功成法官
- 素手烹茶|你知道马云被救了3次吗?
- 素手烹茶|我的电商故事:新手投资25万开天猫店,半年时间赚了100w
- 素手烹茶|- 高性能低损耗的 Goroutine 池,Ants
- 素手烹茶|腾讯微博将于9月28日停止运营;阿里国内消费者已接近10亿;信通院:5年里5G商用可直接带动信息消费8.2万亿元|Do早报
- 素手烹茶|Ants - 高性能低损耗的 Goroutine 池
- 素手烹茶|为什么人们不愿意在通信上花钱?因为运营商不配为之付出更多
- 素手烹茶|Pro体验:敢越级超轻薄的5G天玑旗舰,realme真我X7
