ResNet最强改进版——ResNeSt,李沐:可以考虑一键升级 | 已开源
十三发自凹非寺量子位报道|公众号QbitAI
在图像处理领域中 , 近年来的新模型可谓是层出不穷 。
但在大多数的下游任务中 , 例如目标检测、语义分割 , 依旧还是用ResNet或其变体作为骨干网络 。
而最近 , 亚马逊李沐团队便提出了堪称“ResNet最强改进版”的网络——ResNeSt 。
从名字中不难看出 , 是引入了模块化的分散注意力模块 , 可以让注意力跨特征图(feature-map)组 。

文章图片
那么 , ResNeSt到底有多强?
ResNeSt-50在224×224的ImageNet上 , 实现了81.13%的TOP-1精度 , 比之前最好的ResNet变体精度高出1%以上 。 简单地用ResNeSt-50替换ResNet-50骨干 , 可以让MS-COCO上的FasterRCNNNN的mAP , 从39.25%提高到42.33%;ADE20K上的DeeplabV3的mIoU , 从42.1%提高到45.1% 。这些改进对下游任务有很大的帮助 , 包括目标检测、实例分割和语义分割 。
就连李沐也发朋友圈 , 呼吁小伙伴们“一键升级” 。

文章图片
更让人惊喜的是 , 这项工作已开源!
最强ResNet变体:多项任务取得“大满贯”现在 , 我们具体来看下ResNeSt在具体任务中的表现 。
图像分类第一个实验研究了ResNeSt在ImageNet2012数据集上的图像分类性能 。
通过将ResNeSt和其他50层和101层配置、类似复杂度的ResNet变体作比较 , TOP-1精度达到了最高 , 如下表所示 。

文章图片
还与不同大小的CNN模型做了比较 。
采用了256×256的ResNeSt-200,和320×320的ResNeSt-269 。 对于输入大小大于256的模型 , 采用双三次上采样策略(Bicubicupsamplingstrategy) 。
从下表不难看出 , 与基于NAS发现的模型相比 , ResNeSt具有更好的准确性和延迟权衡 。

文章图片
目标检测接下来 , 是在目标检测上的性能 。
所有的模型 , 都是在COCO-2017训练集上训练的118k图像 , 并在COCO-2017验证集上用5k图像进行评估 。
使用FPN、同步批处理归一化(synchronizedbatchnormalization)和图像尺度增强 , 来训练所有模型 。
为了方便比较 , 简单地用ResNeSt替换了vanillaResNet骨干 , 同时使用默认设置的超参数 。

文章图片
与使用标准ResNet的基线相比 , ResNeSt的骨干在Faster-RCNN和CascadeRCNN上 , 都能将平均精度提高3%左右 。
这就说明ResNeSt的骨干网络具有良好的泛化能力 , 并且可以很容易地迁移到下游任务中 。
值得注意的是 , ResNeSt50在Faster-RCNN和Cascade-RCNN检测模型上都优于ResNet101 , 而且使用的参数明显较少 。
实例分割在实例分割任务中 , 以ResNeSt-50和ResNeSt-101为骨干 , 对Mask-RCNN和Cascade-Mask-RCNN模型进行评估 。
实验结果如下表所示 , 对于Mask-RCNNN来说 , ResNeSt50的box/mask性能增益分别为2.85%/2.09% , 而ResNeSt101则表现出了更好的提升 , 达到了4.03%/3.14% 。
对于Cascade-Mask-RCNN , 切换到ResNeSt50或ResNeSt101所产生的增益分别为3.13%/2.36%或3.51%/3.04% 。

文章图片
这就表明 , 如果一个模型由更多的Split-Attention模块组成 , 那么它的效果会更好 。
语义分割在语义分割下游任务的转移学习中 , 使用DeepLabV3的GluonCV实现作为基准方法 。
从下表中不难看出 , ResNeSt将DeepLabV3模型实现的mIoU提升了约1% , 同时保持了类似的整体模型复杂度 。

文章图片
值得注意的是 , 使用ResNeSt-50的DeepLabV3模型的性能 , 比使用更大的ResNet-101的DeepLabV3更好 。
ResNeSt:注意力分割网络性能如此卓越 , 到底是对ResNet做了怎样的改良呢?
接下来 , 我们就来揭开ResNeSt的神秘面纱 。
正如刚才我们提到的 , ResNeSt是基于ResNet , 引入了Split-Attention块 , 可以跨不同的feature-map组实现feature-map注意力 。
Split-Attention块是一个计算单元 , 由feature-map组和分割注意力操作组成 。 下2张图便描述了一个Split-Attention块 , 以及cardinalgroup中的split-Attention 。

文章图片

文章图片
从上面的2张图中不难看出 , 都有split的影子 。 比如K(k)和R(r)都是超参数 , 也就是共计G=K*R组 。
除此之外 , 也可以与SE-Net和SK-Net对比着来看 。
其中 , SE-Net引入了通道注意力(channel-attention)机制;SK-Net则通过两个网络分支引入特征图注意力(feature-mapattention) 。
ResNeSt和SE-Net、SK-Net的对应图示如下:

文章图片
研究人员介绍
文章图片
李沐 , 亚马逊首席科学家 , 加州大学伯克利分校客座助理教授 , 美国卡内基梅隆大学计算机系博士 。
专注于分布式系统和机器学习算法的研究 。 他是深度学习框架MXNet的作者之一 。
曾任机器学习创业公司MarianasLabs的CTO和百度深度学习研究院的主任研发架构师 。
李沐有着丰富的研究成果 , 曾先后在国内外主流期刊上发表多篇学术论文 , 其中《DiFacto—DistributedFactorizationMachines》在ACM国际网络搜索和数据挖掘(WSDM)大会上被评为最佳论文奖 。
传送门论文地址:https://hangzhang.org/files/resnest.pdf
GitHub项目地址:https://github.com/zhanghang1989/ResNeSt
—完—
量子位QbitAI·***签约
【ResNet最强改进版——ResNeSt,李沐:可以考虑一键升级 | 已开源】关注我们 , 第一时间获知前沿科技动态
推荐阅读
- 吉格斯选队友6人最强阵:C罗鲁尼领衔,无贝克汉姆坎通纳
- 中国最强CMOS芯片厂商:打败索尼、三星,年销10亿多颗,全球第一
- 刚毕业医学生都不会犯的错误,号称“世界最强”美国疾控中心竟踩了雷?
- 赚钱能力最强,但管钱能力很差的三个星座,看似光鲜,实际都很穷
- 原创 荣耀X10压力山大!红米10X最新爆料,三星AMOLED屏+最强中端SOC
- 最强连板离不开西部大开发和网红经济概念
- nba季后赛统治力最强五人:欧文上榜,杜兰特第2,那么詹姆斯呢?
- 英超史上四大最强三叉戟,利物浦三叉戟效率高
- 拳击运动员虽然要经受常人难以忍受的痛苦,但是却是吸金能力最强
- 最强神父!「圣水喷射攻击」净化信徒那颗邪恶的心
