腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略


机器之心发布
机器之心编辑部
在机器之心 CVPR 2020 线上分享第三期 , 腾讯优图实验室高级研究员 Louis为我们分享了论文《带噪学习和协作学习:不完美场景下的神经网络优化策略》 , 本文是对此次分享的回顾与总结 。
神经网络的成功建立在大量的干净数据和很深的网络模型基础上 。 但是在现实场景中数据和模型往往不会特别理想 , 比如数据层面有误标记的情况 , 像小狗被标注成狼 , 而且实际的业务场景讲究时效性 , 神经网络的层数不能特别深 。
腾讯优图不断迭代数据和模型缺陷情况下神经网络的有效训练方法 , 通过 noisy label learning 和 collaborative learning 技术 , 实现用比较浅的网络解决 noisy dataset 问题 。 相关技术已经在腾讯的众多业务场景上(行人重识别 , 内容审核等)落地 。
近日 , 机器之心 CVPR 2020 线上分享第三期 , 我们邀请到腾讯优图实验室高级研究员 Louis 为我们分享主题《带噪学习和协作学习:不完美场景下的神经网络优化策略》 , 细致讲解数据和模型缺陷情况下神经网络的有效训练方法 。
刻画 noisy label 与任务目标
一般来讲 , noisy label 是可以通过一个噪音转移矩阵 T 来刻画 , 也就是 noise transition matrix T 。 人为设计一个噪音转移矩阵 T , 之后如果我们知道这个数据集中 clean label 的分布 , 将这个分布乘以 T 就可以得到 noisy label 的分布 。 有了 noisy label 分布和对应的数据集之后 , 就可以进行很多带噪方法的验证 。
接下来用数学描述来刻画一下我们带噪学习的目标 。 对于一个分类任务 , 我们的目标可以写成下面的形式 , x 和 y 代表样本和对应的 label, 在今天的语境下 F 是神经网络 。 我们的任务目标是在数据集下优化一个 loss function , 使得在 noisy label 下训练得到的解 , 在性能上接近在 clean label 下训练得到的解 , 那么数学表达就是 , f ?是 f 的一个子集 。
腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略
本文插图
各显神通 , 主要带噪学习方法探索
关于带噪学习 , 近些年有一些重要论文 。
NeurlPS 2018 上的一篇论文 (Generalized Cross Entropy Loss Training Deep Neural Networks with Noisy Labels) 提出GCE loss(Generalized Cross Entropy loss) 。 它的背景是 , MAE 以均等分配的方式处理各个 sample , 而 CE(cross entropy)会向识别困难的 sample 倾斜 , 因此针对 noisy label , MAE 比 CE 更加鲁棒 , 但是 CE 的准确度更高 , 拟合也更快 。 于是这篇文章提出 GCE loss , 结合 MAE 与 CE 二者的优势 。
还有的论文 (LDMI: A Novel Information-theoretic Loss Function for Training Deep Nets Robust to Label Noise, NeurlPS 2019)是基于信息论设计的 loss function , Deterministic information loss 。 它的 Motivation 是想寻找一个信息测度(information measure)I 。 假设在 I 下任意存在两个分类器 f、f' , 如果在噪音数据集下 , 通过 I, f 比 f'表现得更好 , 那么在干净数据集下 , f 比 f'表现得也好 , 也就是说它在噪音数据集和干净数据集上满足一致性 。 如果在噪音数据集下它表现得好 , 通过一致性 , 在干净数据集下表现得也一定很好 。
把时间往前推进一下 , 讲一些目前正在审稿中的文章 (Peer Loss Functions: Learning from Noisy Labels without Knowing Noise Rates (under review);Loss with Paired Samples: A Robust Learning Approach that Adapts to Label Noise (under review) , 关于 Peer loss 。 Peer loss 是由两个 loss function 的加权得到的 , 比如 l1, l2 。 α是一个超参数 , 衡量两个 loss 的权重大小 。 l1、l2 可以是任何分类导向的 loss function , 比如 CE、MSE、MAE 都行 。 Loss 的构造主要是在于样本的构造上 , 我们看 l1 的样本 , Xi 对应就是数据集中原始的样本和对应的 label 。


推荐阅读