|ImageNet训练再创纪录，EfficientNet异军突起，ResNet：感受到了威胁( 三 )

学习率规划
为了在使用大批量时保持模型质量，作者还采用了学习率预热和线性缩放技术。
在保持epoch数固定的同时增加全局批量大小将导致更新权重的迭代数较少。为了解决这个问题，作者将线性缩放规则应用于批次中每256个样本的学习率。
但是，较高的学习率会导致发散。因此，作者还应用了学习率预热，其中训练以较小的初始学习率开始，并在可调整的时期内逐渐提高学习率。此外，作者比较了各种学习速率规划，例如指数衰减和多项式衰减，发现对于LARS优化器，多项式衰减计划可实现最高的准确率。
分布式评估
评估循环的执行是EfficientNet的标准云TPU实现的另一个计算瓶颈，因为评估和训练循环是在单独的TPU上执行的。
在传统的TPUEstimator中，评估是在单独的TPU上进行的，训练的执行速度要比评估快，导致端到端时间很大程度上取决于评估时间。
为了克服这个问题，作者利用Kumar等人所述的分布式训练和评估循环。它在所有TPU上分配了训练和评估步骤，并允许扩展到更大数量的副本。
分布式批处理归一化
作者使用Ying等人提出的方案，通过将副本的子集分组在一起，在副本之间分布批处理归一化。这种优化可通过权衡TPU之间的通信成本来提高最终精度。分组在一起的副本数是可调超参数。
最终的批次归一化批次大小（每个副本子集中的样本总数）也会影响模型质量以及收敛速度。对于大于16的副本子集，作者还探索了将副本分组在一起的二维切片方法。
精度
目前已经观察到，使用bfloat16浮点格式来训练卷积神经网络可以达到甚至超过使用传统单精度格式（例如fp32）训练的网络的性能，这可能是较低精度的正则化效果所致。
作者实现了混合精度训练，以利用bfloat16的性能优势，同时仍保持模型质量。在实验中， bfloat16用于卷积运算，而所有其他运算都使用fp32 。使用bfloat16格式进行卷积可提高硬件效率，而不会降低模型质量。

本文插图

本文插图

|ImageNet训练再创纪录，EfficientNet异军突起，ResNet：感受到了威胁( 三 )

推荐阅读

冯巩 |冯巩罕晒09年春晚红西服，十多年来仍然合身，疑似要去拍卖？

独特的乳名女孩名字大全独特的乳名女孩

新华社|脱贫的颜色--吉林延边一个少数民族村屯的国庆假期

球探体育@英雄联盟2020LPL春季赛分析：OMG战队对阵VG战队

伤感英文名字男伤感英文名

「四川」2020年度四川省氢能源与智能汽车、智能制造与机器人补充征集啦~

上海一个多月来雨量、雨日、日照等多项气象数据创历史同期极值

东方网|上海迪士尼乐园下周一起实行预约新规

违法|宋清辉：从严监管是近几年监管层主基调为中小投资者创造健康环境

数读7月23日全球疫情：全球日增确诊超29万累计逾1563万美国新增超7.1万

章鱼■人的视力在动物界什么水平？算是顶尖高手吗？

经济|评论：美联储“鸽声”乏力 “水牛”市存回调风险

|细节决定成败，这几点新手很容易忽视的问题

IT之家▲66等多款游戏本将搭载Killer E3100网卡，最高支持2.5Gbps，微星GS

事业编和公务员有什么区别？

宝马@美团：将组织全部在京外卖骑手进行核酸检测

为什么我说小沈阳参拍《孤军》是个错误

红茶和滇红有哪些区别,苏州碧螺春红茶

淮山痒怎么止痒山药痒怎么快速止痒

『手机大魔王』苹果真要小心了，诺基亚的23年！从一部手机卖出2.5亿台到衰败