选择遗忘|线性和二次判别分析

线性判别分析(discriminant_analysis.LinearDiscriminantAnalysis)和二次判别分析(discriminant_analysis.QuadraticDiscriminantAnalysis)是两个经典的分类器 。正如他们名字所描述的那样 , 他们分别代表了线性决策平面和二次决策平面 。
【选择遗忘|线性和二次判别分析】这些分类器十分具有吸引力 , 因为它们可以很容易计算得到闭式解(即解析解) 。 其本身具有多分类的特性 , 在实践中已经被证明很有效 , 而且无需调节超参数 。
选择遗忘|线性和二次判别分析以上这些图像展示了线性判别分析以及二次判别分析的决策边界 。 其中 , 最后一行表明了线性判别分析只能学习线性边界 ,而二次判别分析则可以学习二次边界 , 因此它相对而言更加灵活 。
示例:
Linear and Quadratic Discriminant Analysis with covariance ellipsoid:LDA和QDA在特定数据上的对比
1.2.1. 使用线性判别分析来降维discriminant_analysis.LinearDiscriminantAnalysis 通过把输入的数据投影到由最大化类间分离所组成的线性子空间 , 来执行有监督降维(详细的内容见下面的数学推导部分) 。 输出的维度必然会比原来的类别数量更少的 。 因此它总体而言是十分强大的降维方式 , 同样也仅仅在多分类环境下才能感觉到 。
实现方式在 discriminant_analysis.LinearDiscriminantAnalysis.transform 中 。 关于维度的数量可以通过 n_components 参数来调节 。值得注意的是 , 这个参数不会对 discriminant_analysis.LinearDiscriminantAnalysis.fit 或者 discriminant_analysis.LinearDiscriminantAnalysis.predict 产生影响 。
示例:
Comparison of LDA and PCA 2D projection of Iris dataset: 在 Iris 数据集对比 LDA 和 PCA 之间的降维差异
1.2.2. LDA 和 QDA 分类器的数学公式LDA 和 QDA 都是源于简单的概率模型 , 这些模型对于每一个类别
选择遗忘|线性和二次判别分析的相关分布
选择遗忘|线性和二次判别分析都可以通过贝叶斯定理所获得:
选择遗忘|线性和二次判别分析
我们选择最大化条件概率的类别
选择遗忘|线性和二次判别分析
更具体地说 , 对于线性以及二次判别分析 ,
选择遗忘|线性和二次判别分析被建模成密度多变量高斯分布:
选择遗忘|线性和二次判别分析
其中的
选择遗忘|线性和二次判别分析是特征的数量 。
为了把该模型作为分类器使用 , 我们只需要从训练数据中估计出类的先验概率
选择遗忘|线性和二次判别分析


推荐阅读