怅然|不容忽视！机器学习中的特征选择初探【sklearn实战】( 二 ) 一、特征选择的重要性机器学习过程中

from sklearn.datasets import load_iris from sklearn.feature_selection import VarianceThreshold import numpy as np ? # 加载数据集 iris = load_iris() X = iris.data y = iris.target ? # 打印数据集中的特征数和每个特征的方差 print('原数据集中的特征数：\n', X.shape[1], '\n') print('原数据集中不同特征的方差：\n', np.var(X, axis=0), '\n') ? # 使用VarianceThreshold来过滤掉方差在0.6以下的特征 selector = VarianceThreshold(threshold=0.6) X_new = selector.fit_transform(X) ? # 打印新数据集的特征数 print('方差阈值法选择的特征数：\n', X_new.shape[1])输出为：
原数据集中的特征数： 4? 原数据集中不同特征的方差： [0.68112222 0.18871289 3.09550267 0.57713289]? 方差阈值法选择的特征数： 2
那么接下来，我们以新老特征集分别来训练一个模型来看看效果。
首先看看原数据集：
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=101) model = LogisticRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test) acc = accuracy_score(y_test, y_pred) print('准确率：', acc)输出为：
准确率： 0.9736842105263158然后我们看看新数据集：
X_train, X_test, y_train, y_test = train_test_split(X_new, y, random_state=101) model = LogisticRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test) acc = accuracy_score(y_test, y_pred) print('准确率：', acc)输出为：
准确率： 0.9473684210526315可以看到，我们在仅保留了两个特征的情况下，仅仅牺牲了一点准确率。

【怅然|不容忽视！机器学习中的特征选择初探【sklearn实战】】事实上，在这个例子中，这种通过牺牲模型性能来换取计算性能的操作意义不大，因为这个数据集仅有150个样本、4个特征，但是当我们面临成千上万的特征、数以亿计的样本时，我们就有必要进行权衡了。当然，特征选择的目的远不止于此，在之后的探讨中，我们会发现它的更多优点。

怅然|不容忽视！机器学习中的特征选择初探【sklearn实战】( 二 )

推荐阅读

张柏芝早就被绿了？谢霆锋10年后终于公开女儿，原来王菲早已知晓

集成灶排名前十的

月球|开始行动了！NASA登月联盟在月球上发现水，却将中国排除在外

华为荣耀|突然宣布！荣耀营销经理退休，引发网友猜疑

苏富比香港拍卖台商天价拍得百年普洱茶饼

Logo设计也可以二次元化，说不准某些图标的灵感正是来自于二次元

世界上最古老的四种文字分别是什么世界上最古老的六大文字

胎菊花茶与什么搭配,菊花茶的功效与作用

招聘|用招聘网站的后台告诉你，为什么你投了几百份简历，很少有人回复

无敌改装车▲RR：Type-RR，最强思域FD2！Mugen

张爱玲|张爱玲在晚年崇尚“极简主义生活”，并非穷困潦倒，稿费拿到手软

AutoR智驾逆行外卖小哥、深夜拥堵轻松应对，元戎启行自动驾驶汽车挑战“宇宙最强街道”

当我们在做团队作业时，我们最好该咋做

消毒水属于什么类别

三十年体坛故事|7连杀+赛季双杀！上港仍是国安梦魇御林军争冠梦碎？

央视网|俄外交部：提醒美国尊重常识

教育部|教育部重要通知，2条升学途径被堵死！家长无语：之前努力白费了

妻子伺候二婚丈夫五年，继子来医院探望一趟，妻子含泪提出离婚

湿疹■?湿疹需要忌口的食物

椅子的摆放宜忌