|当随机采样遇见插值,微软亚研提出节省推理计算量的新范式


机器之心专栏
作者:张拯
同一张图像的不同区域空间冗余度是不一样的 , 背景部分的冗余度往往低于人物区域 。 如何利用这种特性来节省模型推理的计算量呢?在一篇 ECCV 2020 Oral 论文中 , 来自微软亚洲研究院等机构的研究者提出了一种随机采样与插值相结合的新方法 , 可以有效降低节省推理的计算量 。
|当随机采样遇见插值,微软亚研提出节省推理计算量的新范式
本文插图

近年来 , 随着深度学习的不断发展 , 视觉领域出现了越来越多的高精度模型 , 但这些模型所需的计算量也越来越大 。 因此 , 如何在推理阶段避免冗余的计算在近年来成为研究热点 。
为了解决这一问题 , 研究者提出了一系列相关算法 , 如模型剪枝(Model Pruning)、模型量化(Model Quantization)、提前终止(Early Stopping)和利用特征响应稀疏性(Activation Sparsity)等方法 。
在本文中 , 来自微软亚洲研究院视觉计算组、清华大学以及中国科学技术大学的研究者们提出了一种利用图像的空间冗余特性来节省计算量的新范式——利用随机采样与插值来进行动态推理 。 在实验部分 , 研究者在物体检测(COCO2017)与语义分割(Cityscapes)两种任务上验证了该方法的有效性 。
|当随机采样遇见插值,微软亚研提出节省推理计算量的新范式
本文插图

论文地址:https://arxiv.org/abs/2003.08866
方法介绍
图像的空间冗余是指:在图像中 , 空间上相邻的的位置对应的特征与内容通常也较为相似 , 因此 , 某一位置的特征可以通过其临近区域其他位置的特征进行插值得到 。 这种特性在自然图像里十分常见 , 是自然图像的一种内禀属性 。
利用这种特性降低计算量在计算机视觉领域并不罕见 , 如通过缩小输入图片的尺寸 , 或在主干网络中通过 Pooling 或 Stride Conv 来降低特征图的分辨率就是两种常见的方法 , 而这两种方法均可以被看作在空间上进行均匀采样 (Uniform Sampling)。
|当随机采样遇见插值,微软亚研提出节省推理计算量的新范式
本文插图

但是 , 图像冗余在空间上并不是均匀分布的 , 如 Fig. 1(a) 所示 , 人物、路灯等区域的冗余度较低 , 而地面、背景墙等区域的冗余度较高 。 因此 , 在空间中进行均匀采样并不能充分利用空间的冗余特性 。 更好的方式应当是自适应地决定采样位置 。
|当随机采样遇见插值,微软亚研提出节省推理计算量的新范式
本文插图

提前中止法(Early Stopping)与利用特征响应稀疏性(Activation Sparsity)的方法均可被视为实现自适应采样的不同方式 。 在这些方法中 , 每个位置都对应一个分数 , 代表该位置的重要程度 。 如果分数大于一个阈值 , 该位置就会被采样 。 我们称这类采样方法为确定性采样(Deterministic Sampling) , 如 Fig. 2 (b) 左图所示 。 然而 , 由于空间冗余特性的存在 , 邻近的位置得分往往接近 , 因此 , 在确定性采样中 , 一片相邻的区域经常同时被采样到或者同时不被采样到(如 Fig. 1 (b) 所示) 。
本文提出使用随机采样(Stochastic Sampling)与插值相结合的方法来节省计算量 。 在随机采样中 , 每个位置的分数仅代表其被采样到的概率 。 分数越高 , 其被采样的概率越大 , 反之亦然 。 因此 , 对于一个拥有相同分数的区域 , 只要其概率不是 1 , 则仅会有一部分位置被采样到(如 Fig. 2 (b) 右图所示) 。 而未被采样到的位置 , 其特征可以借助邻近被采样到的点通过插值来近似 。 通过这种方法 , 可以在获得与确定性采样相似精度的情况下 , 使用更少的采样点进行计算(如 Fig. 1 (c) 所示) , 或使用一样多的采样点取得更高的精度(如 Fig. 1(d) 所示) 。


推荐阅读