关于GBDT的几个不理解的地方?
建议还是去看一下gbdt的wiki或者实现方法,其实仔细看过一遍之后就会很清晰了。你的问题,“树的个数就是分类的类别个数”,这是明显不对的。说明你还没有明白gbdt到底是做什么的。说到底,它的底层还是用tree去做分类或者回归,就像你以前所了解的tree一样,没什么差别,只是这里用的是回归树(可以设想,如果是做分类,其实这一棵树已经得到所有的分类结果了);但是,为了提高精度,当使用一棵树训练完以后,我们还想在它的基础上再去把它的残差拿来做二次加工、三次加工。。。这样就有了后面的树。想要几棵树就看你自己心情了(笑)。当然这里面也就是gradient boosting的内容了。那么,通过上面的描述,你就应该很清楚了,如果是k分类问题,当一个样本输入后,理论上(每棵树可能不是都用到了所有的feature,而数据中的feature也有可能缺失,所以说理论上)它会经过你已经训练好的n棵树,并且会掉在每棵树的某一个叶子节点上。而每个叶子节点其实也都可以表示为一个k维的向量,代表这个样本在这棵树上被分到这个叶子节点上的时候,其属于每一个分类的可能性。最后,组合n课树的结果,看这个样本属于哪一类的可能性最大。看公式第6步那里:
其实gbdt除了做分类和回归,还可以做很多其他事情,这里就不展开讨论了。
■网友
树的个数就是最大迭代次数,与分类类别无关前提不成立=,= 多分类问题每棵树都是多类别分类器
实际计算的残差 = 样本i对应类别k的真实概率 - 上一轮预测的概率
■网友
1.都是回归树拟合负梯度,残差只是均方loss负梯度的特例。
2.树的个数和类别个数没有关系,多类别问题每棵树都是多类别分类器,最后ensemble
■网友
首先,GBDT所使用的基本学习器都是回归树,所以再解决分类问题时,拟合的都是类别的概率,是一个值,跟逻辑回归的思想差不多;其次,二分类问题中,类别的个数与树的个数肯定是无关的,但多分类问题中,树的个数就等于k*m,k为类别个数,m为对每个类别训练的树的个数;最后,gbdt的多分类问题使用的就是一对多的方法,所以确实只要关注训练该类别所使用的m课树的拟合值的汇总结果是否大于阈值即可。
■网友
个人感觉基于梯度就是用损失函数负梯度在当前模型的值作为残差近似值了。。还是残差的问题吧。而且累加的就是每次迭代学习到的‘弱分类器’,和分类个数木有关系诶。
■网友
我写了一篇文章,介绍了 GBDT 相关的一些算法,是我自己的学习心得,可以参考下,
火眼狻猊:GBDT、XGBoost、LightGBM 的使用及参数调优 【关于GBDT的几个不理解的地方?】
■网友
第一个问题,树的个数与分类的类别数目没有关系。第二个问题貌似是基于第一个问题的,所以这个问题得前提就不对。建议你看一下维基的解释(Gradient boosting),非常清晰,希望能对你有所帮助。
■网友
GBDT如何做分类,或者多分类,因为GBDT使用的是回归CART树,所以这个问题变成了CART回归树如何做多分类问题,CART本来有一个分类的基于Ginni系数的,但是没用ta,如何让CART回归树,用来做分类,其实如果是k分类,就相当于有K个不同的属性要建立回归,比如本来回归是要预测Age(是一个连续的值),但是如果要预测多分类,(爬行动物,两栖,哺乳)这三类的话,就会变成分别对(爬行动物(是或者不是)单独做一个CART回归树,会比较矮?也不一定,因为不一定每次二分都能够完美分开啊)
推荐阅读
- 家里来客人,在一次性纸杯底部扎几个小洞,看了都夸聪明,太实用
- 过节■江苏省委省政府办公厅下发关于做好2021年元旦春节期间有关工作的通知
- |徐州市出台《关于优化创新创业生态系统 提升区域科技创新活力的实施意见》及实施细则
- 雨下|全球关于禁售燃油车只是理论上可行吗
- 电视墙没有预留网线口,智能电视怎样上网
- SUV|小道消息传大众将在美国和欧洲停售帕萨特,这是几个意思?
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 智叔|很多家长还在整箱买:谈谈关于牛奶的17个真相警惕这些列入黑名单的“假牛奶”
- 关于微信小程序的思考:运营者该何去何从
- 关于人工智能虚拟人的一些问题
