「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测

编者按：在视频物体检测任务中，由于相机失焦、物体遮挡等问题，仅基于图像的目标检测器很可能达不到令人满意的效果。针对此类问题，微软亚洲研究院提出了基于记忆增强的全局-局部整合网络（Memory Enhanced Global-Local Aggregation, MEGA），它可以在只增加非常小的计算开销的前提下，整合大量的全局信息和局部信息来辅助关键帧的检测，从而显著地提升了视频物体检测器的性能。在广泛使用的 ImageNet VID 数据集中，此方法达到了截至目前的最好结果。
视频物体检测（video object detection），即在一段视频中检测出每一帧上的所有物体。相对于在静止的图像中寻找物体而言，在一段视频中找到物体会面临更多的困难：物体可能会遭遇相机失焦，物体遮挡等问题（图1），因此如果只是简单地将一个图像检测器用于视频检测，效果通常是不尽如人意的。

文章图片

文章图片

图1：视频中一些常见的问题
但反过来，在视频中检测物体意味着我们可以利用时序上的相关性来辅助我们进行检测：人们可以根据一些历史信息（比如说位置信息、语义信息），来判断这个被遮挡的物体是什么。因此在视频物体检测中，如何利用好时序信息来辅助质量比较差的帧上的检测是一个重要的研究方向。
一般来说，人类主要会通过两类信息来辅助对质量较差的帧进行物体检测，即局部定位信息与全局语义信息。如果物体在当前帧中难以定位，我们可以通过相邻帧之中的类似物体或帧的差异来辅助定位，我们称之为局部定位信息。如果我们难以判断这一帧的物体的类别，我们可以通过从任意其他帧中找出与当前的模糊物体具有高度相似性（比如说颜色、形状很像）的物体来辅助定位，此类信息被定义为全局语义信息。具体如下图2所示。

文章图片

文章图片

图2：人类可以利用的信息规模
从这个角度出发，我们发现目前的视频物体检测方法都仅单独考虑了其中一种信息进行辅助目标检测，虽然它们各自都取得了不错的效果，但是如果能够设计一种更加高效的信息融合方式来同时利用好两类信息，那么模型的表现应该能够更加出色。
除此之外，另一个在现存方法中存在的问题就是整合规模（aggregation scale），也就是关键帧能够使用信息的范围。因为计算资源的限制，不管是局部类还是全局类的方法，他们使用的帧的数量通常都只有20-30帧，换算成秒也就是1-2秒，整合规模的不足也局限了这些方法的有效性。
解决方案

文章图片

文章图片

图3：模型结构示意图
我们分两步来解决上文提到的两个问题。
第一步：解决全局信息和局部信息单独考虑的问题。我们设计了简洁的基础模型（图3a）来完成这项任务。首先，我们使用区域候选网络从关键帧的相邻帧和全局帧中生成一些候选区域。第二是使用关联模块（relation module）将全局帧中候选区域对应的特征给整合到局部帧的候选区域的特征中。之后，局部帧内部会再过若干层关联模块得到增强后的关键帧特征。由此，我们的关键帧特征就同时得到了全局和局部两方面的信息。
第二步：解决整合规模太小的问题。如果只有基础模型，我们关键帧能够得到的全局和局部信息仍然很少，以图3a为例，全局和局部信息都只有4帧。为了解决这个问题，我们设计了一个简洁高效的长时记忆模块（Long Range Memory ， LRM），在做完对某一帧的检测后将其特征保存下来，并在下一帧的检测中使用该特征来辅助检测，由于关系模块的多层结构，可以极大地增加了关键帧能够看到的范围，以图3b为例，我们保留了长度为3帧的记忆，而由于其具有两层的关系模块，使得其整合规模从之前的8帧增长到20帧。

「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测

推荐阅读

搞笑大喇叭|蛋是跑不了的，搞笑GIF：锅：我已结网

还有谁能打败哆啦A梦吗?

钱币|盒子币成为主流乱象丛生该如何收藏盒子币

贺卡内容送老师10个字贺卡内容送老师20个字

?冯提莫家中COS提莫，意外暴露真实身高，抬腿那一刻不止一米五

中国医学科学院肿瘤医院|如何远离乳腺癌

「下营」脱贫攻坚一线见闻丨郧西“淘宝村”用上5G网络

司马迁写史记的故事！司马迁的故事

光遇礼花先祖兑换图光遇各个先祖兑换图鉴

Go娱美人娱|李宇春同届，超女姐妹花15年的苦涩人生：事业波折，感情挫败

墨兰空根换盆视频墨兰空根怎么办

看不同版本的影视作品是不是存在先入为主的心理

人民网|韩国新增61例新冠确诊病例累计23106例

纽约时报|连续两月竞选筹款落后于拜登，特朗普将办“大金主”筹款晚宴

卡哇伊天生敏感，洞察力很强的三大星座，平时总是装傻充愣

「国青」实锤打脸！恒大小将接连爆发，01国青踢中乙真是笑话

穿搭|47岁苏有朋越活越年轻，减肥瘦成筷子腿，穿白衬衫气质秒赢小鲜肉

光明网|西固关山降水量57.4毫米

奇闻每日说|家长们要记牢！，4种食物对孩子好

北京商报网中国戏曲文化周主场活动收官，12场云直播观看人次突破千万