腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略( 四 )


与 pruning 相反 , 在这篇文章中 , 我们提出滤波器嫁接(filter grafting)技术 。 我们并不是移除网络的无效滤波器 , 而是将其他网络的有效滤波器的参数嫁接到无效滤波器上 , 通过引入外部信息的方法来激活无效滤波器 , 让它们重新变得有价值起来 , 来进一步提高网络的表达能力 。
这篇文章有一个非常重要的发现是什么呢?我们训练的神经网络如果在初始化的时候不一样 , 在训练完之后 , 无效 filter 的位置是统计无关的 。 整个我们可以并行训练多个网络 , 多个网络之间互相进行这种操作 , 结束训练之后每个神经网络都会有更好的特征表达 , 而且测试的时候准确率性能也会更好 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图

可以看一下这个结果 , 对于在 CIFAR-10、CIFAR-100 上进行的实验 , 与 mutual learning、传统的 distillation、还有 RePr 相比较 , Filter Grafting 效果还是不错的 , 对于一些大网络 , 特别是对于 CIFAR-100 有两个点的提升 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图

Grafting 是可以有效提高无效 filter , 但是可能有效 filter 的信息量会减少 。 这篇还在审稿中的文章 DGD: Densifying the Knowledge of Neural Networks with Filter Grafting and Knowledge Distillation 是关于我们的新发现 , 就是传统的蒸馏可以解决这个问题 , 这是这篇文章的贡献 。
我们在做 grafting 加权的时候 , 比如说 M1 和 M2 进行加权 , M1 的 layer1 加到 M2 的 layer1 上面 , 虽然填补了 M2 中无效 filter 的空虚 , 但是 M2 有效 filter 可能也会受到影响 。 因为 M1 它本身也有无效 filter , 它直接加到 M2 上 , M2 的有效 filter 的信息量可能会减少 , 所以说我们就做了这样一个 DGD framework 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图

看一下 DGD framework 的结果 。 我们对比了传统的 filter grafting , 还有 knowledge distillation , 发现比 grafting distillation 都有不错的提升 , 比如在 CIFAR-100 上 , 各个网络基本都会比 baseline 提升两到三个点 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图

待解难题:如何进行更有效的滤波器嫁接
前面讲的是 noise label learning 和 collaborative leaning , 那么基于这两个可以做什么呢?
第一个是设计一些 feature dependent noise 的 loss 形式 。 因为我认为现在对于 noisy label learning 领域 , feature independent noise 可能解决得差不多了 , 准确率都很高了 , 接下来一个主要的点就是设计一些 loss 方式来解决 feature dependent 问题 。 而且 , 这个问题是真实的业务场景、真实的数据集上的 noise type 形式 。
第二个是 , 我们知道 grafting 的 motivation 是来自于 pruning , 那么我们是否可以用 grafting 的一些思想去指导神经网络来进行更有效的 pruning , 这是一些未来大家有兴趣可以探索的一个点 。
Q&A 精选
问:主动学习和 noisy label learning 都涉及到选择数据 , 两者的区别是什么?
答:的确两者都涉及选择数据 , 但是关键在于要选择什么样的数据 , 选择数据的评价标准可能不太一样 。 noisy label learning 想选择干净的数据 , 而主动学习是想选择对解决的问题有效的数据 。
这些选择方式和数据的分布息息相关的 , 也就是说我们讲各种算法的同时要了解数据的分布 , 抛开数据的分布去研究算法有时候是没有任何价值的 。 对于主动学习来讲 , 在数据集的分布不均匀的时候 , 要选择 loss 比较大的样本 , 这和 noisy label learning 有点相反 , noisy label learning 是要选择 loss 比较小的样本 。


推荐阅读