归一化激活层的进化:谷歌QuocLe等人利用AutoML技术发现新ML模块
最近 , 谷歌大脑团队和DeepMind合作发布了一篇论文 , 利用AutoML技术实现了归一化激活层的进化 , 找出了BatchNorm-ReLU的替代方案EvoNorms , 在ImageNet上获得77.8%的准确率 , 超越BN-ReLU(76.1%) 。

文章图片
【归一化激活层的进化:谷歌QuocLe等人利用AutoML技术发现新ML模块】论文地址:https://arxiv.org/abs/2004.02967
视频:https://youtu.be/RFn5eH5ZCVo
批归一化和激活函数是深度神经网络的重要组成部分 , 二者的位置常常重合 。 以往的神经网络设计中通常对二者分别进行设计 , 而最近谷歌大脑和DeepMind研究人员合作提出了一种新方案:将二者统一为一个计算图 , 从低级原语开始进行结构进化 。 研究者利用层搜索算法发现了一组全新的归一化-激活层EvoNorms 。 这些层中的一部分独立于批统计量(batchstatistics) 。
实验证明 , EvoNorms不仅在包括ResNets、MobileNets和EfficientNets在内的多个图像分类模型上效果显著 , 它还能很好地迁移到MaskR-CNN模型(进行实例分割)和BigGAN(用于图像合成) 。 在多种情况下 , EvoNorms的性能显著优于基于BatchNorm和GroupNorm的层 。
搜索空间
研究者将每个归一化-激活层表示为一个计算图 , 即将输入张量转换为同样形状的输出张量(见图1) 。 每个中间节点表示一元或二元运算(见表1) 。 这些运算旨在保存输入张量的维度 , 以确保计算图中节点的形状彼此兼容 。 计算图共有4个初始节点:输入张量、常数零张量 , 以及沿着被初始化为0和1的通道维度的两个可训练向量v_0和v_1 。

文章图片
图1:左图:搜索到的归一化-激活层的计算图 , 该层独立于批统计量 , 研究者将其命名为EvoNorm-S0 。 右图:使用EvoNorm-S0作为归一化-激活层的ResNet-50 , 当8个worker上的批大小从1024到32不等的情况下 , 在ImageNet数据集上的性能结果 。 EvoNorm-S0的性能还优于MobileNetV2和MaskR-CNN模型中基于批归一化(BN)和组归一化(GN)的层 。

文章图片
表1:搜索空间的原语 。
按照顺序可以生成随机图 。 从初始节点开始 , 研究者随机采样原语操作并根据操作的元数(arity)对其输入节点进行随机采样 , 从而生成新节点 。
层搜索方法
该研究使用的搜索方法包含以下重要部分:
将每个层与多个架构进行配对 , 并在轻量级代理任务中训练模型 , 从而评估每个层的性能 。
通过进化算法来优化多目标边界 , 使用高效的否决机制(rejectionmechanism)进行增强 , 从而过滤掉不需要的层 。
下图3展示了层搜索方法的整体工作流程:

文章图片
图3:层搜索算法的工作流程 。 将每个产生突变的层与K个架构配对 , 从头开始训练以得到K个多目标锦标赛选择算法的性能分数 。
层评估
像BatchNorm-ReLU这类有用的层能够在多种网络架构中均具备良好的效果 。 然而 , 从图4中可以看到 , 那些在某一给定架构中表现不错的层 , 在迁移到其他架构后其性能未必就好 。 为了明显地提升其泛化性能 , 研究者将层搜索构建为一个多目标优化问题 , 其中每个候选层均在K(K>1)个不同锚点架构上进行评估 , 以获得多个拟合值 。

文章图片
图4:5000个随机层与不同图像分类架构适配时的准确率 。
代理任务与锚点架构
研究者将代理任务定义为在CIFAR-10数据集上的图像分类任务 , 并考虑在ImageNet上三个具有代表性的网络架构 , 将其针对文中的设置进行相应调整 。 这些架构包括:通道倍率(channelmultiplier)为0.25×的预激活(Pre-activation)ResNet50;通道倍率为0.5×的MobileNetV2;通道倍率为0.5×的EfficientNet-B0 。
为处理CIFAR-10中图像分辨率低于ImageNet的问题 , 将以上网络架构的前两个用于缩小空间的卷积步长修改为1 。 研究者将这些调整后的版本分别称为ResNet50-CIFAR , MobileNetV2-CIFAR和EfficientNet-CIFAR 。

文章图片
图5:锚点架构中的模块定义 。 从左到右依次为:ResNet-CIFAR、MobileNetV2-CIFAR和EfficientNet-CIFAR 。
进化
该研究使用的进化算法是锦标赛选择算法的变体 。 在每一步中 , 基于全部层的随机子集构建锦标赛 , 获胜者可以生成突变后的进化版本 , 在经过评估后加入到候选层中 。 因此 , 随着这一过程不断重复 , 候选层的整体质量有所提升 。 研究者还通过保持获选层最近部分的滑动窗口 , 对进化执行正则化 。
选择标准 。 锦标赛获胜者的选择标准并非唯一 , 因为每个层都具备多个分数 。 下面展示了两个可实施的选项:
平均值:具备最高平均准确率的层获胜(如图6中的B);
帕累托:位于帕累托边界上的随机层获胜(如图6中的A、B、C均获胜) 。
突变 。 研究者通过以下三个步骤完成获胜层的计算图突变:
随机均匀选择中间节点;
随机均匀地使用表1中的新操作替换当前操作;
随机均匀地选择该节点的新的继任者 。

文章图片
图6:对于多目标进化的二选一锦标赛评价准则 。
否决机制
质量 。 对于在任意三个anchor架构中进行了100个训练步后验证准确率低于20%的层 , 研究者选择丢弃 。 由于候选层中绝大部分无法获得有意义的学习动态(见图2) , 因此这一简单机制可以确保计算资源集中在对有潜力的少量候选层进行完整的训练 。
稳定性 。 除了质量以外 , 研究者还选择丢弃具备数值不稳定性的层 。 其基本原理是:向着最大化网络梯度范数的方向对抗式地调整卷积权重θ , 从而对候选层进行压力测试 。
实验
在表2中 , 研究者将所发现的层与应用广泛的归一化激活层在ImageNet数据集上进行比较 , 包括使用谷歌之前提出的Swish激活函数的强基线 。

文章图片
表2:不同的归一化-激活层在ImageNet上的测试准确率 。 需要移动平均数的项见图中蓝字 。 对于相同的架构 , 用相同的代码库和相同的训练设置会得到一样的结果 。
表3展示了从另一个搜索实验中得到的EvoNorms的性能数据 , 该实验不使用包含批聚合操作(batchaggregationop)的层 。

文章图片
表3:不具备批统计量的基于样本的层在ImageNet上的测试准确率 。 学习率和批大小呈线性关系 。 对相同的架构 , 用相同的代码库和相同的训练设置会得到一样的结果 。
图7展示了具备大批量的Evonorms的学习动态 。 在相同的训练环境下 , 尽管训练损失较大 , 但在ResNet-50上EvoNorm-B0的性能仍然优于BN-ReLU 。

文章图片
图7:在批大小较大的情况下 , ResNet-50和MobileNetV2在ImageNet数据集上的训练/评估曲线 。 图中显示了每个层对应的测试准确率 。
为了调查该研究发现的层能否在搜索时的分类任务以外的任务上实现泛化 , 研究者将其与MaskR-CNN(Heetal.,2017)和ResNet-FPN(Linetal.,2017)进行配对 , 并在COCO数据集上执行目标检测和实例分割任务 。

文章图片
表4:在COCOval2017数据集上的MaskR-CNN目标检测和实例分割结果 。
研究者进一步测试了EvoNorms在训练GAN时的可用性 。 运用BigGAN的训练步骤进行训练后 , 研究者在表5中给出了最佳表现的结果 。 使用EvoNorm-B0的BigGAN-deep生成的部分样本图像如图8所示 。

文章图片
表5:BigGAN-deep生成器中不同归一化激活层的图像合成性能 , 其中使用批统计量与不使用批统计量的层是彼此分离的 。 如图所示 , 中位数和最佳性能是在3个随机种子上取得的 。 IS值越高越好 , FID值越低越好 。

文章图片
图8:BigGAN-deep+EvoNorm-B0生成的部分图像示例 。
与只依赖一种方差的传统归一化范式不同 , EvoNorm-B0尝试在其denominator中混合两种方差 。 前者在同一mini-batch内捕捉不同图像的全局方差 , 后者则捕捉每个图像的局部方差 。

文章图片
图9:EvoNorm-B0的计算图 。
推荐阅读
- 王者荣耀丨刘备-时之恋人皮肤:节奏感优化,带动高输出?
- “去美国化”只是理想状态,华为去年采购1300多亿美国零部件!
- 全球化企业有望!雷军喊话董明珠续约天价赌约
- 网络文学促进“文化就业” , “写文”已成年轻人重要职业选择
- 对俄实施围堵,周边多个生物实验室诞生,专家质疑美军生化战争
- 方正证券:建议关注具有长期成长逻辑的化工龙头企业
- DNF:学医救不了阿拉德,危机时刻,米莉娅化身“女蓝拳”
- 《方舟:进化生存》——在远古世界里上演荒野求生
- 个性化定制订餐APP功能,增强用户的使用体验
- 当优势不在之后,多元化布局遭质疑,顺丰拿什么对抗同行?
