怎样判断分类特征值选取是否有效公式可能会有

公式可能会有小错误~~~因为我比较马虎= =。。。你可以用之前先查一下。。。。大概有这四种，欢迎补充。1) 文本频度（Document Frequency, DF）文本频度是某词语在数据库中出现的次数。在DF中，首先设置了两个阈值。假设极少出现的词语或者特别常见的词语都是没有为分类提供信息或者对于全局没有影响的。所以，在计算DF时，那些低于最小阈值或者高于最高阈值的词语都被去掉。DF是词语分类最简单的标准，同时它对于一个巨大的数据库也只有一个线性计算的复杂度。所以它是一个简单却有效的特征选择方法。2) 卡方统计法（CHI statistic）卡方统计法用来衡量词语（term）和类别（category）之间的联系（Galavotti, Sebastiani, \u0026amp; Simi,2000）。它的定义如下： 【怎样判断分类特征值选取是否有效】 $怎样判断分类特征值选取是否有效$
其中，A是要计算的词语t和某一类别 $怎样判断分类特征值选取是否有效$
同时出现的文档数；B是t出现而 $怎样判断分类特征值选取是否有效$
没有出现的文档数；E是 $怎样判断分类特征值选取是否有效$
出现而t没有出现的文档数；D是两者均没有出现的文档数。N是总的文档数。3) 交互信息（Mutual information, MI）交互信息法是在统计语言为词语联系和相关应用建模中常见的标准（Yang \u0026amp; Pedersen, 1997）。它可以定义为： $怎样判断分类特征值选取是否有效$
其中A， B，E，D，N的定义与CHI统计法中定义相同。4) 信息增益（Information gain, IG）信息增益在机器学习中常用作词语褒义标准。它通过计算词语在文档中出现或者未出现的次数来衡量其对于某类别所包含的信息量。 $怎样判断分类特征值选取是否有效$
其中 $怎样判断分类特征值选取是否有效$
定义为类别 $怎样判断分类特征值选取是否有效$
出现的概率； $怎样判断分类特征值选取是否有效$
定义为词语 $怎样判断分类特征值选取是否有效$
出现的概率； $怎样判断分类特征值选取是否有效$
定义为词语 $怎样判断分类特征值选取是否有效$
未出现的概率。
■网友
帮助楼上补充一下，判断分类特征值选取是否有效这个问题，本质上是根据已经标注了分类标签的数据，寻找每个分类标签最有代表性的特征，也就是最能够将该类别与其他类别区分开的特征。基本上CHI-squre、MI和IG都直接或间接实现这一目标的。从文本分类来看，CHI-squre效果最佳。
■网友
文本业务我不了解，基于业务做特征的部分，tfidf之类的不多说了。
只是说分类问题的话，特征的判断总共是两大类，大概有几个方法。
一类是训练模型之前对特征做判断，其实是叫特征筛选。
几个方法，大概有：方差检验，单变量分析（纯统计方法，针对单特征做统计假设检验），树类信息增益、lasso\u0026amp;ridge回归惩罚降维、变量聚类（传统金融行业常用的方法，常常配合lr使用，大概是用基于距离的聚类方法根据特征相关度聚类）、递归消除（rfe）等。

怎样判断分类特征值选取是否有效

推荐阅读

银行业|银行业资产托管规模10年增超36倍

张榕容|张榕容近照曝光，过敏脸肿不忍直视，心灰意冷

#哈佛大学#天津“开学”最新通知，开学顺序最独特，返校方式最硬核

[人工智能]科研最新发现！大脑中的“神经网络”竟可以用来探测太空垃圾

功夫财经@国内经济正在走出低谷，李大霄：种种迹象显示

本田飞度|轿车“油老虎”最新排名更新！多款国产车被“点名”，有你的车么

青春期|青春痘怎么治？

「东营应急管理」志愿服务活动，市应急管理局到牛庄镇开展“乡村振兴·共筑安全”

游戏联盟君：想要拿完全部奖励，并不是这么简单，阴阳师：帚神大扫除上线

八仙花的切花怎么保鲜

车壹哥|比揽胜霸气，带双层隔音，静如高铁，合资又一“黑马”车型

青年|“吃鸡”光子终于撑不住，正面回应甜蜜誓约事件，玩家却不买账！

绅士老司机|《创3》新团官博已出，团名触及火箭少女的利益，引两家粉丝不满

隧道|刀盘灵感来自神鸟！安徽首台长江隧道盾构机下线：太漂亮了

安德森|这就是人生！和福登一起拿U17世界杯冠军，00小将已结束职业生涯

商务部：不可靠实体清单的相关规定将于近期公布

考研|大学四年四六级没过，国二没过，考研也没考上，因为考研也耽误了找工作，这样的人是不是废了？

1996年和2016年的美国总统大选，表面上看特朗普竞选好像花了很多钱

李白■李白四美皮肤先别管，端午新战令皮请注意，白嫖史诗五选一别错过

菠萝蜜打开没熟有什么方法把它捂熟