|把因果干预用到弱监督语义分割上!这篇NeurIPS 2020 oral论文不简单
本文插图
作者 | 张冬
编辑 | 陈大鑫
本文介绍一篇今年被NeurIPS 2020收录的一篇oral文章:
《 Causal Intervention for Weakly-Supervised Semantic Segmentation》
这篇论文提出的基于因果干预的Context Adjustment (CONTA)模型主要有以下几个优势:
1、CONTA是第一个使用因果图来分析弱监督语义分割模型中各component之间的关系 , 从而找出了造成现有的pseudo-mask不准确的本质原因是因为数据集中的上下文先验是混淆因子 。 在此基础上 , 作者又进一步提出了使用因果干预切断上下文先验和图像之间的关联 , 从而提升pseudo-mask的质量 。
2、不同于以往的基于graph neural network或复杂的attention机制的弱监督语义分割模型 , CONTA的设计简洁 , 并没有很复杂的操作和训练步骤在其中 。
3、作者在4种不同的弱监督语义分割模型上都进行了实验 , 结果表明CONTA可以提升模型CAM、pseuso-mask和segmentation mask的质量 , 从而验证了CONTA的通用性和有效性 。
作者相信CONTA在将来也可以被应用到其他的弱监督语义分割模型上 。
本文插图
论文第一作者张冬:
南京理工大学IMAG实验室博士4年级学生 , 导师为唐金辉教授 。 2018年9月至2020年9月国家公派留学至南洋理工大学MReaL实验室 , 跟随张含望教授 。
主要研究领域包括:模式识别、目标检测和语义分割 。
论文链接:https://arxiv.org/pdf/2009.12547.pdf
代码链接:https://github.com/ZHANGDONG-NJUST/CONTA
接下来是作者张冬对本论文的亲自解读 。
1 背景简介
语义分割(Semantic Segmentation)任务需要对输入图像中的每一个像素都进行类别预测 。 因此想要训练一个全监督的segmentation模型 , 则首先需要消耗大量的人力、财力对训练图像进行逐像素的标注 。
为缓解这个问题 , 人们利用一些较容易获取的弱标签(Weak Label)作为图像的监督信息来训练segmentation模型 。 比如 , 常见的弱标签有Bounding Box、Scribble、Point以及Image-level class label 。
我们的研究内容是基于image-level class label的 , 其是这些弱标签中是容易获取但也是最难处理的 , 因为image-level class label本身只提供了图像的类别信息而没有目标在图像中的位置信息 。
目前流行的基于image-level class label的弱监督segmentation模型主要分为以下三个步骤进行 , 如图1所示:
1、首先通过multi-label image classification模型获取图像的类响应激活图(Class Activation Map)作为种子区域(Seed Area);
2、在种子区域的基础上 , 通过计算像素之间的语义相似性对种子区域进行扩张(Exoansion)得到图像的伪标签(Pseudo-Mask);
3、使用伪标签作为Ground-Truth训练一个全监督的语义分割模型 , 并在训练好的模型上对val/test集合进行预测 。
本文插图
图 1. 目前流行的基于image-level class label的弱监督segmentation模型
2 伪标签中存在的问题
从以上的介绍中 , 我们很容易可以看出 , 获取种子区域 , 以及对种子区域进行扩张是弱监督语义分割中最重要的两个步骤 , 其决定了我们得到的pseudo-mask的质量 。 那么我们能否只使用弱标签而获取和ground-truth完全一致的pasudo-mask ?
答案是否定的 。
因为我们通过image classification模型只能获取目标在分类过程中一部分最具有判别性的区域 , 比如狗的头、猫的耳朵、车的轮子等 。
推荐阅读
- 行业互联网|大数据应用到底是做什么的?
- 明朝|历朝各代之中,谈谈明朝的妃嫔出身低微的其中因果
- 制度|证监会:全面、辩证把握“建制度、不干预、零容忍”之间的有机联系
- Arm|宣布被英伟达收购后 Arm联合创始人要求英国政府干预或取消交易
- 华为|华为消费者业务软件部总裁王成录:鸿蒙系统将应用到平板等产品
- 行业互联网|倪光南院士:我国信创进入到“可用到好用”阶段
- 制度|证监会副主席阎庆民:“建制度、不干预、零容忍”的核心是依法治市