科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物( 二 )
预测模块是一个类U-Net的密集监督式编码器-解码器网络 , 它学习预测出自输入图像的显著图;多尺度残差精炼模块通过学习显著图和真值之间的残差来优化预测模块得到的显著图 。
文章图片
BASNet整体架构 。
预测模块
受U-Net[57]和SegNet[2]的启发 , 研究者在设计中将显著目标预测模块作为编码器-解码器网络 , 因为这种架构能够同时捕获高级全局上下文和低级细节 。 为了减少过拟合 , 每个解码器阶段的最后一层都受到了HED[67]启发的真值的监督 。 编码器部分具有一个输入卷积层和六个由基本残差块组成的阶段 。 输入卷积层和前四个阶段均采用ResNet-34[16] 。
优化模块
优化模块(RM)[22,6]通常被设计成残差块 , 通过学习显著图和真值之间的残差S_residual来细化预测的粗略显著图S_coarse , 其中:
在提出优化模块之前 , 研究者定义了术语「粗略(coarse)」 。 在此 , 粗略包含两方面的意思:一种是模糊和有噪声的边界(如下图3(b)中one-dimension(1D)所示) 。 另一种情况是不均匀预测的区域概率(如图3(c)所示) 。
实际预测的粗略显著图通常包含两种情况(见图3(d)) 。 如下图4(a)所示 , 基于局部上下文的残差细化模块(RRMLC)最初是用于边界优化 。
文章图片
为了在粗略显著图中同时优化区域和边界 , 研究者提出了一种新的残差优化模块 , 它采用残差编码器-解码器架构RRM_Ours(如上图2和下图4(c)所示) 。
RRM_Ours的主要架构与预测模块相似 , 但更加简单 , 包含输入层、编码器、桥、解码器和输出层 。 与预测模块不同的是 , 它的编码器和解码器都有4个阶段 , 每个阶段都只有一个卷积层 。
文章图片
混合损失
训练损失被定义为所有输出的总和:
为了获得高质区域分割和清晰边界 , 研究者提出将?^(k)定义为一个混合损失:
文章图片
其中 , ?^(k)_bce表示BCE损失 , ?^(k)_ssim表示SSIM损失 , ?^(k)_iou表示IoU损失 , 这三种损失的影响如下图5所示:
文章图片
实验设置及结果
研究者在6个常用的基准数据集上对该方法展开评估 , 它们分别为SOD、ECSSD、DUT-OMRON、PASCAL-S、HKU-IS和DUTS 。
实验采用的评估指标有4种 , 分别为精确率-召回率(Rrecision-Recall,PR)曲线、F度量(F-measure)、平均绝对误差(MeanAbsoluteError,MAE)和relaxedF-measureofboundary(relaxF^b_β) 。
研究者首先验证了模型中每个关键组件的有效性 。 控制变量研究包含两部分内容:架构和损失 , 并且相关实验在ECSSD数据集上展开 。
下表1展示了控制变量研究的结果 。 可以看到 , BASNet架构在这些配置下实现了最佳性能:
文章图片
为了进一步阐释损失的定性效果 , 研究者在不同的损失设置下对BASNet进行训练 , 结果如下图7所示 。 很明显 , 本研究提出的混合损失取得了非常好的定性结果 。
文章图片
此外 , 为了评估分割显著性目标(salientobject)的质量 , 研究者在图6中展示了ECSSD、DUT-OMRON、PASCAL-S、HKU-IS和DUTS-TE等5个最大数据集的PR曲线和F-measure曲线 。
推荐阅读
- 无趣科技谈|X2凭实力拿下冠军,京东手机周销量榜单出炉,Find
- 毛毛科技说|三星S20+出现“小米价”,总算等到了,三星扛不住了
- 简简科技|余承东称鸿蒙体验已达安卓7成多,鸿蒙手机新进展
- ITheat热点科技|2020 | 坚持创新 舒尔带来MXA710音频解决方案,SSOT
- 空心|招聘丨山西千沐云物联科技有限公司
- LeoGo科技|科沃斯除菌地宝N8和米家扫拖机器人横评——两款解放双手的精品
- 小绿叶子科技|半年跌1000元,适合捡漏,iPhoneSE2扛不住了
- 电科技|“吃鸡”手游老是瞄不准?不妨选这款游戏外设配件
- 科技日日说|realme真我X7全方位评测:不一样的颜值,不一样的体验!,原创
- 硅谷聊科技|就不愿再用华为、小米了?,答案确认了!为啥很多人用了iPhone后