谷歌用算力爆了一篇论文,解答有关无限宽度网络的一切


选自arXiv
作者:Jaehoon Lee等
编辑:Panda
无限宽度神经网络是近来一个重要的研究课题 , 但要通过实证实验来探索它们的性质 , 必需大规模的计算能力才行 。 近日 , 谷歌大脑公布的一篇论文介绍了他们在有限和无限神经网络方面的系统性探索成果 。 该研究通过大规模对比实验得到了 12 条重要的实验结论并在此过程中找到了一些新的改进方法 。 该文作者之一 Jascha Sohl-Dickstein 表示:「这篇论文包含你想知道的但没有足够的计算能力探求的有关无限宽度网络的一切!」
谷歌用算力爆了一篇论文,解答有关无限宽度网络的一切
本文插图
近日 , 谷歌大脑的研究者通过大规模实证研究探讨了宽神经网络与核(kernel)方法之间的对应关系 。 在此过程中 , 研究者解决了一系列与无限宽度神经网络研究相关的问题 , 并总结得到了 12 项实验结果 。
此外 , 实验还额外为权重衰减找到了一种改进版逐层扩展方法 , 可以提升有限宽度网络的泛化能力 。
最后 , 他们还为使用 NNGP(神经网络高斯过程)和 NT(神经正切)核的预测任务找到了一种改进版的最佳实践 , 其中包括一种全新的集成(ensembling)技术 。 这些最佳实践技术让实验中每种架构对应的核在 CIFAR-10 分类任务上均取得了当前最佳的成绩 。
谷歌用算力爆了一篇论文,解答有关无限宽度网络的一切
本文插图
论文链接:https://arxiv.org/pdf/2007.15801v1.pdf
当使用贝叶斯方法和梯度下降方法训练的神经网络的中间层是无限宽时 , 这些网络可以收敛至高斯过程或紧密相关的核方法 。 这些无限宽度网络的预测过程可通过贝叶斯网络的神经网络高斯过程(NNGP)核函数来描述 , 也可通过梯度下降方法所训练网络的神经正切核(NTK)和权重空间线性化来描述 。
这种对应关系是近来在理解神经网络方面获得突破的关键 , 同时还使核方法、贝叶斯深度学习、主动学习和半监督学习取得了切实的进步 。 在为大规模神经网络提供确切理论描述时 , NNGP、NTK 和相关的宽度限制都是独特的 。 因此可以相信它们仍将继续为深度学习理论带来变革 。
无限网络是近来一个活跃的研究领域 , 但其基础性的实证问题仍待解答 。 谷歌大脑的这项研究对有限和无限宽度神经网络进行了广泛深入的实证研究 。 在此过程中 , 研究者通过实证数据定量地解答了影响有限网络和核方法性能的变化因素 , 揭示了出人意料的新行为 , 并开发了可提升有限与无限宽度网络性能的最佳实践 。
实验设计
为了系统性地对无限和有限神经网络进行实证研究 , 研究者首先确立了每种架构的 base , 方便直接对比无限宽度核方法、线性化权重空间网络和基于非线性梯度下降的训练方法 。 对于有限宽度的情况 , base 架构使用了恒定小学习率且损失为 MSE(均方误差)的 mini-batch 梯度下降 。 在核学习设置中 , 研究者为整个数据集计算了 NNGP 和 NTK 。
完成这种一对一的比较之后 , 研究者在 base 模型之上进行了大量不同种类的修改 。 某些修改会大致保留其对应关系(比如数据增强) , 而另一些则会打破这种对应关系 , 并且假设对应关系的打破会影响到性能结果(比如使用较大的学习率) 。
此外 , 研究者还围绕 base 模型的初始化对其进行线性化尝试 , 在这种情况下 , 其训练动态可使用常量核来精准地描述 。 由于有限宽度效应 , 这不同于前文描述的核设置 。
该研究使用 MSE 损失的原因是能更容易地与核方法进行比较 , 交叉熵损失在性能方面比 MSE 损失略好 , 但这还留待未来研究 。
该研究涉及的架构要么是基于全连接层(FCN)构建的 , 要么就是用卷积层(CNN)构建的 。 所有案例都使用了 ReLU 非线性函数 。 除非另有说明 , 该研究使用的模型都是 3 层的 FCN 和 8 层的 CNN 。 对于卷积网络 , 在最后的读出层(readout layer)之前必须压缩图像形状数据的空间维度 。 为此 , 要么是将图像展平为一维向量(VEC) , 要么是对空间维度应用全局平均池化(GAP) 。


推荐阅读