腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略( 二 )


腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图

为什么 peer loss 可以很好地解决 noisy label 问题?为了方便 , 这里先把 l1、l2 都定义成 CE loss , 那么在第一项 , 它表现的像 positive learning , 因为它就是一个传统的 CE function , 而在第二项 , 它像 negative learning , 也就是在标记错的时候 , 比如把狗标成汽车 , 如果用 positive learning 进行学习的话那就出现问题了 , 它是随机从一个 label 中进行抽取 , 希望让模型学到它不是一个鸟 , 狗不是一个鸟 , 它的语义关系首先是成立的 , 是正确的 , 这样一来 , 第二项对模型也能起到一个积极的导向作用 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图

更加有意思的是 , 单独训练第一项和单独训练第二项都不可能使模型达到理论上的最优 , 因为模型存在 noisy label 。 但是我们证明了它们两项联合训练 , 在统计上是可以让模型达到最优 。
文章提出了一个主要定理 , 就是 noise 鲁棒性 , 我们证明了存在一个最优的超参数α , 用 peer loss 在 noisy label 下进行优化 , 它得出的神经网络的解等价于用 l1 在 clean label 下进行优化 , 可以把 l1 理解成 CE loss 。 所以我们理论证明了 peer loss 的最优性 。
看一下 peer loss 在数值方面的结果 , 这里使用的数据集是 CIFAR-10 , 存在着 40% 的 uniform noise , 就是 symmetric noise 。 图中的蓝色代表 clean label 分布 , 橘黄色代表 noisy label 分布 。 通过 peer loss 优化后 , 我们画一下 clean label 和 noisy label 的分布 , 可以看到我们的网络把这两个完全分开了 , 证明 peer loss 是非常有效的 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图

接下来 , 在各个数据集上衡量 peer loss 的表现 , 我们在 MNIST、Fashion MNIST、CIFAR-10 上进行了实验 , 可以看到 MNIST 和 Fashion MNIST 上 , 用 peer loss 优化的结果超过了一些其他的结果 , 包括 DMI 的结果三四十个点 , 这是非常大的进步 。 在 CIFAR-10 上也超过将近 5 个点 , 四个多点左右这样的一个结果 。 而且 , 我们发现 peer loss 尤其对 Sparse,High 这种 noise type 表现得特别明显 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图
以上讲的方法主要是设计 loss function 的思路 , 让网络能够抵抗 noisy label 。 但其实还有很多其他方法 , 比如 samples selection 和 label correction , 这两个方法是通过选择样本和对样本进行纠正来进行带噪学习训练 。 发表在 NeurlPS 2018 上的这篇论文 (Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels) 就是关于 Co-teaching 的 。 它的基本假设是认为 noisy label 的 loss 要比 clean label 的要大 , 于是它并行地训练了两个神经网络 A 和 B , 在每一个 Mini-batch 训练的过程中 , 每一个神经网络把它认为 loss 比较小的样本 , 送给它其另外一个网络 , 这样不断进行迭代训练 。
接下来介绍腾讯优图在 2019 年底发表的一篇文章(Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification) , 解决一类特殊的 label noise 。 这类 label noise 不是人为标注产生的 , 而是在训练中产生 , 在模型的聚类过程中产生的 。 比如说有这样一批没有标记的样本 , 然后通过一个聚类算法得到 inliers 和 outliers , outliers 是聚类算法中认为这一点是孤立点或者是噪音点 , 它没法归到聚类算法的 ID 里面 , 就叫做 outliers , inliers 是聚类算法对这些样本进行聚类后得到一个个 cluster , 但每一个 cluster 里面可能存在 noise 。


推荐阅读