手残党福音:一键抠图、隔空移物,这篇CVPR华人论文帮你搞定
机器之心报道
编辑:蛋酱、杜伟、小舟
世界上从来不缺少抠图工具 , 但始终缺少更完美的抠图工具(尤其是对于手残党来说) 。

文章图片
在传统年代 , 人们能想到最精准的抠图方法 , 大概是Photoshop之类的专业图像处理软件 , 显然这种处理方式会很繁琐 。 随着人工智能技术的发展 , 从业者开始尝试将最先进的机器学习技术融入到图像处理工作之中 。 这些开源算法最终变成了各种各样的在线抠图程序 , 最重要的是——它们的操作方法非常简单且完全免费 。
比如「Remove.bg」 , 你只需要上传图片 , 网站就能识别其中的主体并去除背景 , 最终返回一张透明背景的PNG格式图片 。 尽管在前景与背景之间边界处理上存在瑕疵 , 但借助AI来抠图确实比自己动手要便捷 , 不是吗?

文章图片
网站地址:https://www.remove.bg/
近日 , 一款名为「ObjectCut」的图像处理新工具进入了大家的视野 。 你甚至不需事先将图片下载到本地 , 只需要输入图片网址 , 即可得到一张去除背景后的图片 。

文章图片
https://objectcut.com/

文章图片
使用教程演示 。
项目作者表示 , 这一工具所使用方法基于CVPR2019论文《BASNet:Boundary-AwareSalientObjectDetection》 , 并使用了一些相关的公开数据集来进行训练 , 包括ECSSD、SOD、DUTS等 。

文章图片
论文地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Qin_BASNet_Boundary-Aware_Salient_Object_Detection_CVPR_2019_paper.pdf
巧合的是 , 前段时间在社交网络上大火的「隔空移物」神器ARCut&Paste , 也是基于BASNet来执行显著目标检测和背景移除的 , 不管是盆栽、衣服还是书本 , 可见即可拷 , 一键操作就能将任何主体挪进Photoshop变为图像素材 。
所以 , 大家都在用的BASNet , 为何如此神奇?
BASNet论文详解
深度卷积神经网络已经被用于显著目标检测(Salientobjectdetection) , 并获得了SOTA的性能 。 但先前研究的重点大多集中在区域准确率而非边界质量上 。
因此 , 在本文中 , 来自加拿大阿尔伯塔大学的研究者提出了一种预测优化架构BASNet , 以及一种用于边界感知显著目标检测(Boundary-AwareSalientobjectdetection)的新型混合损失 。 论文的第一作者秦雪彬曾就读于山东农业大学和北京大学 , 现在是阿尔伯塔大学的博士后研究员 。
具体而言 , 该架构由密集监督的编码器-解码器网络和残差优化模块组成 。 它们分别负责显著性预测和显著图优化 。 混合损失通过集合二进制交叉熵(BinaryCrossEntropy,BCE)、结构相似性(StructuralSIMilarity,SSIM)和交并比(Intersectionover-Union,IoU)损失 , 指导网络学习输入图像和真值(ground-truth)之间的转换 。
借助于混合损失 , 预测优化架构能够有效地分割显著目标区域 , 并准确地预测具有清晰边界的精细结构 。
在六个公开数据集上的实验结果表明 , 无论是在区域评估还是在边界评估方面 , 该研究提出的方法都优于当前SOTA方法 。
如下图2所示 , 本研究提出的BASNet包含两个模块 , 分别是预测模块(PredictModule)和残差优化模块(ResidualRefinementModule,RRM) 。
预测模块是一个类U-Net的密集监督式编码器-解码器网络 , 它学习预测出自输入图像的显著图;多尺度残差精炼模块通过学习显著图和真值之间的残差来优化预测模块得到的显著图 。

文章图片
BASNet整体架构 。
预测模块
受U-Net[57]和SegNet[2]的启发 , 研究者在设计中将显著目标预测模块作为编码器-解码器网络 , 因为这种架构能够同时捕获高级全局上下文和低级细节 。 为了减少过拟合 , 每个解码器阶段的最后一层都受到了HED[67]启发的真值的监督 。 编码器部分具有一个输入卷积层和六个由基本残差块组成的阶段 。 输入卷积层和前四个阶段均采用ResNet-34[16] 。
优化模块
优化模块(RM)[22,6]通常被设计成残差块 , 通过学习显著图和真值之间的残差S_residual来细化预测的粗略显著图S_coarse , 其中:
在提出优化模块之前 , 研究者定义了术语「粗略(coarse)」 。 在此 , 粗略包含两方面的意思:一种是模糊和有噪声的边界(如下图3(b)中one-dimension(1D)所示) 。 另一种情况是不均匀预测的区域概率(如图3(c)所示) 。
实际预测的粗略显著图通常包含两种情况(见图3(d)) 。 如下图4(a)所示 , 基于局部上下文的残差细化模块(RRMLC)最初是用于边界优化 。

文章图片
为了在粗略显著图中同时优化区域和边界 , 研究者提出了一种新的残差优化模块 , 它采用残差编码器-解码器架构RRM_Ours(如上图2和下图4(c)所示) 。
RRM_Ours的主要架构与预测模块相似 , 但更加简单 , 包含输入层、编码器、桥、解码器和输出层 。 与预测模块不同的是 , 它的编码器和解码器都有4个阶段 , 每个阶段都只有一个卷积层 。

文章图片
混合损失
训练损失被定义为所有输出的总和:
为了获得高质区域分割和清晰边界 , 研究者提出将?^(k)定义为一个混合损失:

文章图片
其中 , ?^(k)_bce表示BCE损失 , ?^(k)_ssim表示SSIM损失 , ?^(k)_iou表示IoU损失 , 这三种损失的影响如下图5所示:

文章图片
实验设置及结果
研究者在6个常用的基准数据集上对该方法展开评估 , 它们分别为SOD、ECSSD、DUT-OMRON、PASCAL-S、HKU-IS和DUTS 。
实验采用的评估指标有4种 , 分别为精确率-召回率(Rrecision-Recall,PR)曲线、F度量(F-measure)、平均绝对误差(MeanAbsoluteError,MAE)和relaxedF-measureofboundary(relaxF^b_β) 。
研究者首先验证了模型中每个关键组件的有效性 。 控制变量研究包含两部分内容:架构和损失 , 并且相关实验在ECSSD数据集上展开 。
下表1展示了控制变量研究的结果 。 可以看到 , BASNet架构在这些配置下实现了最佳性能:

文章图片
为了进一步阐释损失的定性效果 , 研究者在不同的损失设置下对BASNet进行训练 , 结果如下图7所示 。 很明显 , 本研究提出的混合损失取得了非常好的定性结果 。

文章图片
此外 , 为了评估分割显著性目标(salientobject)的质量 , 研究者在图6中展示了ECSSD、DUT-OMRON、PASCAL-S、HKU-IS和DUTS-TE等5个最大数据集的PR曲线和F-measure曲线 。

文章图片
如下表2所示 , 研究者展示了BASNet与其他15种方法在SOD、ECSSD等6个数据集上的最大F-measure(maxF_β)、relaxedboundaryF-measure(relaxF^b_β)和MAE结果比较:

文章图片
【手残党福音:一键抠图、隔空移物,这篇CVPR华人论文帮你搞定】最后 , 为了进一步阐释BASNet的优越性能 , 研究者在下图8中展示了与其他7种同类方法的定性比较结果 , 可以看到 , BASNet可以对不同挑战性场景中的显著性目标实现准确分割 。

文章图片
推荐阅读
- 手残党也能零失误,颜值超高的慕斯蛋糕
- 苹果肉桂卷这样做,手残党也能当大厨
- 冬阴功汤这样做,手残党也能当大厨
- 美食手残党的福音,这道菜零基础也能成功,赶快试试吧
- 痛风|难治性痛风患者的“福音”——Pegloticase+免疫调节剂
- 不用竹帘不放米饭,制作中国式寿司,减肥人士的福音
- 雨水|收伞不湿、一键开合,自带照明夜灯的黑科技反向伞,雨天也优雅
- 高血压|高血压患者福音,“降压吃法”有8个,患者不妨一试
- 汤坨子(肉丸子汤)这样做,手残党也能当大厨
- 5分钟吃到热乎鸡蛋羹,上班族福音!
