怎样判断分类特征值选取是否有效
公式可能会有小错误~~~因为我比较马虎= =。。。你可以用之前先查一下。。。。大概有这四种,欢迎补充。1) 文本频度(Document Frequency, DF)文本频度是某词语在数据库中出现的次数。在DF中,首先设置了两个阈值。假设极少出现的词语或者特别常见的词语都是没有为分类提供信息或者对于全局没有影响的。所以,在计算DF时,那些低于最小阈值或者高于最高阈值的词语都被去掉。DF是词语分类最简单的标准,同时它对于一个巨大的数据库也只有一个线性计算的复杂度。所以它是一个简单却有效的特征选择方法。2) 卡方统计法(CHI statistic)卡方统计法用来衡量词语(term)和类别(category)之间的联系(Galavotti, Sebastiani, \u0026amp; Simi,2000)。它的定义如下: 【怎样判断分类特征值选取是否有效】
其中,A是要计算的词语t和某一类别
同时出现的文档数;B是t出现而
没有出现的文档数;E是
出现而t没有出现的文档数;D是两者均没有出现的文档数。N是总的文档数。3) 交互信息(Mutual information, MI)交互信息法是在统计语言为词语联系和相关应用建模中常见的标准(Yang \u0026amp; Pedersen, 1997)。它可以定义为:
其中A, B,E,D,N的定义与CHI统计法中定义相同。4) 信息增益(Information gain, IG)信息增益在机器学习中常用作词语褒义标准。它通过计算词语在文档中出现或者未出现的次数来衡量其对于某类别所包含的信息量。
其中
定义为类别
出现的概率;
定义为词语
出现的概率;
定义为词语
未出现的概率。
■网友
帮助楼上补充一下,判断分类特征值选取是否有效这个问题,本质上是根据已经标注了分类标签的数据,寻找每个分类标签最有代表性的特征,也就是最能够将该类别与其他类别区分开的特征。基本上CHI-squre、MI和IG都直接或间接实现这一目标的。从文本分类来看,CHI-squre效果最佳。
■网友
文本业务我不了解,基于业务做特征的部分,tfidf之类的不多说了。
只是说分类问题的话,特征的判断总共是两大类,大概有几个方法。
一类是训练模型之前对特征做判断,其实是叫特征筛选。
几个方法,大概有:方差检验,单变量分析(纯统计方法,针对单特征做统计假设检验),树类信息增益、lasso\u0026amp;ridge回归惩罚降维、变量聚类(传统金融行业常用的方法,常常配合lr使用,大概是用基于距离的聚类方法根据特征相关度聚类)、递归消除(rfe)等。
推荐阅读
- 聪明人养花,这3种“花”怎样也要养一盆,每年能省不少医药费
- 垃圾■垃圾分类哪里强?南京全市成绩单亮相!
- 互联网怎样解决“家政服务上门速度慢”的问题
- 怎样看待从1月8号起,QQ钱包开始提现收费
- 银行it人怎样转型
- 汽车|冬天怎样让车内温度快速升高?座椅加热的最佳使用方式二,外循环的作用总结
- 怎样进入通信行业
- 怎样评价扶他柠檬茶的小说《云养汉》的结尾
- |打造垃圾分类管理“姑苏标准”
- 怎样成为一名合格的Python程序员?
