当支持向量机遇上神经网络:SVM、GAN距离之间的关系

选自arXiv
作者:AlexiaJolicoeur-Martineau
编辑:小舟、蛋酱
SVM是机器学习领域的经典算法之一 。 如果将SVM推广到神经网络 , 会发生什么呢?
支持向量机(SupportVectorMachine , SVM)是大多数AI从业者比较熟悉的概念 。 它是一种在分类与回归分析中分析数据的监督式学习模型与相关的学习算法 。 给定一组训练实例 , 每个训练实例被标记为属于两个类别中的一个或另一个 , SVM训练算法创建一个将新的实例分配给两个类别之一的模型 , 使其成为非概率二元线性分类器 。 SVM模型将实例表示为空间中的点 , 这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开 。 然后 , 将新的实例映射到同一空间 , 并基于它们落在间隔的哪一侧来预测所属类别 。
除了进行线性分类之外 , SVM还可以使用所谓的核技巧有效地进行非线性分类 , 将其输入隐式映射到高维特征空间中 。
本文将介绍一篇来自蒙特利尔大学的论文《SVM、Wasserstein距离、梯度惩罚GAN之间的联系》 。 在这篇论文中 , 研究者阐述了如何从同一框架中得到SVM和梯度惩罚GAN 。
据论文一作介绍 , 这项研究的灵感来自她的博士资格考试 。 在准备过程中 , 她学习了SVM , 并思考了这个问题:「如果将SVM推广到神经网络会发生什么?」顺着这个思路 , 研究者发现了SVM、GAN、Wasserstein距离之间的关系 。
代码地址:
该研究将最大间隔分类器(MMC)的概念扩展到任意范数和非线性函数 。 支持向量机是MMC的一个特例 。 研究者发现 , MMC可以形式化为积分概率度量(IntegralProbabilityMetrics , IPM)或具备某种形式梯度范数惩罚的分类器 。 这表明它与梯度惩罚GAN有直接关联 。
该研究表明 , WassersteinGAN、标准GAN、最小二乘GAN和具备梯度惩罚的HingeGAN中的判别器都是MMC , 并解释了GAN中最大化间隔的作用 。 研究者假设L^∞范数惩罚和Hinge损失生成的GAN优于L^2范数惩罚生成的GAN , 并通过实验进行了验证 。 此外 , 该研究还导出了Relativisticpaired(Rp)和average(Ra)GAN的间隔 。
这篇论文共包含几部分:在第二章中 , 研究者回顾了SVM和GAN;第三章 , 研究者概述了最大间隔分类器(MMC)的概念;第四章 , 研究者用梯度惩罚解释了MMC和GAN之间的联系 。 其中4.1提到了强制1-Lipschitz等价于假设一个有界梯度 , 这意味着Wasserstein距离可以用MMC公式来近似估算;4.2描述了在GAN中使用MMC的好处;4.3假定L1范数间隔能够导致更具鲁棒性的分类器;4.4推导了RelativisticpairedGAN和RelativisticaverageGAN的间隔 。 最后 , 第五章提供了实验结果以支持文章假设 。
【当支持向量机遇上神经网络:SVM、GAN距离之间的关系】SVM是MMC的一个特例 。 MMC是使间隔最大化的分类器f(间隔指的是决策边界与数据点之间的距离) 。 决策边界是指我们无法分辨出样本类别的区域(所有x使得f(x)=0) 。
Soft-SVM是一种特殊情况 , 它可以使最小L2范数间隔最大化 。 下图展示了实际使用中的Soft-SVM:
(1)样本与边界之间的最小距离;
(2)距边界最近的点与边界之间的最小距离 。
定义(2)更为常用 。 但是如果使用此定义 , 那么SVM文献中所谓的「函数间隔(functionalmargin)」和「几何间隔(geometricmargin)」就都不能被视为间隔 。 这可能会让人十分困惑 。
理解这种差异更好的一种方式是:
将(1)视为「样本的间隔」;
将(2)视为「数据集的间隔」 。
但是 , 为了消除这两种情况的歧义 , 本文将前者称为「间隔(margin)」 , 将后者称为「最小间隔(minimummargin)」 。
Hard-SVM(原始形式)解决了最大化最小间隔的问题 。 Soft-SVM解决了另一个更简单的问题——最大化期望soft-margin(最小化期望Hinge损失) 。 这个问题很容易解决 , hinge损失确保远离边界的样本不会对假重复Hard-SVM效果的尝试产生任何影响 。
从这个角度看 , 最大化期望间隔(而不是最大化最小间隔)仍会导致最大间隔分类器 , 但是分类器可能会受到远离边界的点的影响(如果不使用Hinge损失的话) 。 因此 , 最大化期望间隔意味着最大化任何样本(即数据点)与决策边界之间的平均距离 。 这些方法就是最大间隔分类器(MMC)的示例 。
为了尽可能地通用化 , 该研究设计了一个框架来导出MMC的损失函数 。 研究者观察到 , 该框架可以导出带有梯度惩罚的基于间隔的目标函数(目标函数F的形式为F(yf(x))) 。 这就意味着标准GAN、最小二乘GAN、WGAN或HingeGAN-GP都是MMC 。 所有这些方法(和WGAN-GP一样使用L2梯度规范惩罚时)都能最大化期望L2范数间隔 。
研究者还展示了 , 使用Lipschitz-1判别器的大多数GAN(谱归一化HingeGAN、WGAN、WGAN-GP等)都可被表示为MMC , 因为假定1-Lipschitz等效于假定有界梯度(因此可作为一种梯度惩罚形式) 。
重要的是 , 这意味着我们可以将最成功的GAN(BigGAN、StyleGAN)看作MMC 。 假定Lipschitz-1判别器一直被看作实现优秀GAN的关键因素 , 但它可能需要一个能够最大化间隔的判别器和相对判别器(RelativisticDiscriminator) 。 该研究基于MMC判别器给伪生成样本带来更多梯度信号的事实 , 阐述了其优点 。
在这一点上 , 读者可能有疑问:「是不是某些间距比其它间距更好?是的话 , 我们能做出更好的GAN吗?」
这两个问题的答案都是肯定的 。 最小化L1范数的损失函数比最小化L2范数的损失函数对异常值更具鲁棒性 。 基于这一事实 , 研究者提出质疑:L1范数间隔会带来鲁棒性更强的分类器 , 生成的GAN也可能比L2范数间隔更佳 。
重要的是 , L1范数间隔会造成L∞梯度范数惩罚 , L2范数间隔会造成L2梯度范数惩罚 。 该研究进行了一些实验 , 表明L∞梯度范数惩罚(因使用L1间隔产生)得到的GAN性能更优 。
此外 , 实验表明 , HingeGAN-GP通常优于WGAN-GP(这是说得通的 , 因为hinge损失对远离边界的异常值具有鲁棒性) , 并且仅惩罚大于1的梯度范数效果更好(而不是像WGAN-GP一样 , 使所有的梯度范数逼近1) 。 因此 , 尽管这是一项理论研究 , 但研究者发现了一些对改进GAN非常有用的想法 。
使用该框架 , 研究者能够为Relativisticpaired(Rp)GAN和Relativisticaverage(Ra)GAN定义决策边界和间隔 。 人们常常想知道为什么RpGAN的性能不如RaGAN , 在这篇文章中 , 研究者对此进行了阐述 。
使用L1范数间隔的想法只是冰山一角 , 该框架还能通过更具鲁棒性的间隔 , 设计出更优秀的GAN(从而提供更好的梯度惩罚或「光谱」归一化技术) 。 最后 , 对于为什么梯度惩罚或1-Lipschitz对不估计Wasserstein距离的GAN有效 , 该研究也提供了明确的理论依据 , 更多细节可参考原论文 。


    推荐阅读