「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测
编者按:在视频物体检测任务中 , 由于相机失焦、物体遮挡等问题 , 仅基于图像的目标检测器很可能达不到令人满意的效果 。针对此类问题 , 微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enhanced Global-Local Aggregation, MEGA) , 它可以在只增加非常小的计算开销的前提下 , 整合大量的全局信息和局部信息来辅助关键帧的检测 , 从而显著地提升了视频物体检测器的性能 。在广泛使用的 ImageNet VID 数据集中 , 此方法达到了截至目前的最好结果 。
视频物体检测(video object detection) , 即在一段视频中检测出每一帧上的所有物体 。相对于在静止的图像中寻找物体而言 , 在一段视频中找到物体会面临更多的困难:物体可能会遭遇相机失焦 , 物体遮挡等问题(图1) , 因此如果只是简单地将一个图像检测器用于视频检测 , 效果通常是不尽如人意的 。
文章图片
文章图片
图1:视频中一些常见的问题
但反过来 , 在视频中检测物体意味着我们可以利用时序上的相关性来辅助我们进行检测:人们可以根据一些历史信息(比如说位置信息、语义信息) , 来判断这个被遮挡的物体是什么 。因此在视频物体检测中 , 如何利用好时序信息来辅助质量比较差的帧上的检测是一个重要的研究方向 。
一般来说 , 人类主要会通过两类信息来辅助对质量较差的帧进行物体检测 , 即局部定位信息与全局语义信息 。如果物体在当前帧中难以定位 , 我们可以通过相邻帧之中的类似物体或帧的差异来辅助定位 , 我们称之为局部定位信息 。如果我们难以判断这一帧的物体的类别 , 我们可以通过从任意其他帧中找出与当前的模糊物体具有高度相似性(比如说颜色、形状很像)的物体来辅助定位 , 此类信息被定义为全局语义信息 。具体如下图2所示 。
文章图片
文章图片
图2:人类可以利用的信息规模
从这个角度出发 , 我们发现目前的视频物体检测方法都仅单独考虑了其中一种信息进行辅助目标检测 , 虽然它们各自都取得了不错的效果 , 但是如果能够设计一种更加高效的信息融合方式来同时利用好两类信息 , 那么模型的表现应该能够更加出色 。
除此之外 , 另一个在现存方法中存在的问题就是整合规模(aggregation scale) , 也就是关键帧能够使用信息的范围 。因为计算资源的限制 , 不管是局部类还是全局类的方法 , 他们使用的帧的数量通常都只有20-30帧 , 换算成秒也就是1-2秒 , 整合规模的不足也局限了这些方法的有效性 。
解决方案
文章图片
文章图片
图3:模型结构示意图
我们分两步来解决上文提到的两个问题 。
第一步:解决全局信息和局部信息单独考虑的问题 。我们设计了简洁的基础模型(图3a)来完成这项任务 。首先 , 我们使用区域候选网络从关键帧的相邻帧和全局帧中生成一些候选区域 。第二是使用关联模块(relation module)将全局帧中候选区域对应的特征给整合到局部帧的候选区域的特征中 。之后 , 局部帧内部会再过若干层关联模块得到增强后的关键帧特征 。由此 , 我们的关键帧特征就同时得到了全局和局部两方面的信息 。
第二步:解决整合规模太小的问题 。如果只有基础模型 , 我们关键帧能够得到的全局和局部信息仍然很少 , 以图3a为例 , 全局和局部信息都只有4帧 。为了解决这个问题 , 我们设计了一个简洁高效的长时记忆模块(Long Range Memory , LRM) , 在做完对某一帧的检测后将其特征保存下来 , 并在下一帧的检测中使用该特征来辅助检测 , 由于关系模块的多层结构 , 可以极大地增加了关键帧能够看到的范围 , 以图3b为例 , 我们保留了长度为3帧的记忆 , 而由于其具有两层的关系模块 , 使得其整合规模从之前的8帧增长到20帧 。
推荐阅读
- 有得比热销数码资讯|华硕 VivoBook14 2020款评价好吗,配置怎么样
- 互联网的一些事|QuestMobile:2020 移动互联网人均使用时长同比增长 12.9%
- Vinter|2020年6月5G手机选购指南(3000 - 4000元篇)
- |小米创始团队隐退,经理人组“复仇者联盟”?
- 出行2020没有一辆电动车就OUT了! 京东618仅1小时小刀电动车新品销量超600%
- 壹观察|从最强到更强手机影像,华为P40 Pro+做了哪些加法?地表最强影像旗舰,再进一步!2020全球旗舰手机新高度
- CSDN|牛!2020年,这项技术将获得99000000000元人民币“国家领投”!
- 语言最红语言Python跌落榜三,Rust最受喜爱!Stack Overflow 2020报告出炉
- zol中关村在线|联想拯救者Y9000K 2020上架预售 搭英特尔8核处理器
- 环球火力|2020 年北斗将覆盖全球,性能如此优秀,我们的手机何时才能用上?