ID3算法为啥先要通过最高信息增益来确定最佳分类属性而不是直接根据属性的最小熵值

如果是以information gain为标准来选择分类属性,那么确实没有必要计算H(D)。但有的时候我们会以Information gain ratio为标准来选择分类属性,这时就需要计算H(D)和G(D,A)了。以information gain ratio为标准的好处是可以保证分类属性所携带的信息被充分利用,避免倾向于类别多的属性。这样一是避免了“高射炮打蚊子”,二是也能在一定程度上避免overfitting。
■网友
第一步在根节点分裂时确实如你所说,但在多个叶子节点中选择应该对哪一个叶子节点进行继续分裂时,此时计算每个叶子节点信息增益的第一项H(D)就不一样了
■网友
【ID3算法为啥先要通过最高信息增益来确定最佳分类属性而不是直接根据属性的最小熵值】 因为这个算法本身就是依赖信息熵的计算得到属性的最大分类,最小熵值只是中间某个环节,不是最后结果,通过计算每个属性的信息增益率,对属性值进行排序和比较,从而选择最合适的属性节点进行分裂。


    推荐阅读