|三辩三驳:这篇论文告诉你传统优化分析与现代DL有哪些不匹配( 二 )


在本文中 , SGD 变成了一个环境中的几何随机游走 , 原则上可以更深入地探索环境 。 例如 , 偶尔采取增加损失的步骤 。 但是 , 由于缺乏对损失情况的数学描述 , 分析起来很困难 。
各种文献假设 SDE 中的噪声是各向同性高斯分布(isotropic Gaussian) , 然后根据常见的吉布斯分布导出随机游走平稳分布的表达式 。 由于噪声的大小(与 LR 和 batch 大小有关)控制着收敛速度和其他特性 , 这种观点直观地解释了一些深度学习现象 。 例如 , 在论文《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》中 , SDE 近似意味着线性扩展规则 。
这就引出了一个问题:SGD 是否真的像一个在损失环境中混合的扩散过程?
传统观点的挑战
现在对归一化网络的真实发现进行描述 , 这表明上述传统观点相当不合理 。
针对 CW1:全批次梯度下降≠梯度流 。
众所周知 , 如果 LR 小于光滑度的倒数 , 那么梯度下降的轨迹将接近梯度流的轨迹 。 但是对于归一化网络 , 损失函数的尺度不变 , 因此可以证明在原点附近是非光滑的(即平滑度变得无限) 。 这种非光滑性问题是非常真实的 , 并且在任何非零学习率下 , 使得全批次 SGD 的训练变得不稳定甚至混沌 。 这在经验上和可证明的情况下都会发生 , 并与一些 toy 损失有关 。
|三辩三驳:这篇论文告诉你传统优化分析与现代DL有哪些不匹配
本文插图

注意 , WD 在这种影响中起着关键作用 , 因为没有 WD , 参数范数单调增加 , 这意味着 SGD 始终远离原点 。
聪明的读者或许想知道使用较小的 LR 是否可以解决此问题 。 不幸的是 , 使用较小的 LR 将不可避免地靠近原点 , 这是因为一旦梯度变小 , WD 将主导动力学 , 并以几何速度减小范数 , 从而在尺度不变的情况下导致梯度再次增加 。 只要梯度任意地缩小(现实中并不能降为零) , 就会发生这种情况 。
实际上 , 这一点极好(也极罕见) , 即使正确地优化损失 , 也必须提前停止 。
针对 CW 2:小 LR 可以与大 LR 一样好地泛化 。
|三辩三驳:这篇论文告诉你传统优化分析与现代DL有哪些不匹配
本文插图

令人惊讶的是 , 即使没有其他超参数变化 , 泛化能力也不会受到太小 LR 的影响 。 论文《An Exponential Learning Rate Schedule for Deep Learning》中 , 研究者通过其他超参数的变化来补偿小 LR 。
针对 CW 3:SGD 的随机游走和 SDE 视角差得很远 。 没有证据表明 , 这两种视角会像传统理解那样混合在一起 , 至少在标准训练时间内不会 。
实际上 , 通过随机权重平均(Stochastic Weight Averaging, SWA)现象 , 就已经存在反对全局混合的证据 。 在 SGD 的轨迹上 , 如果来自两个不同 epoch 的网络参数进行平均化处理 , 那么平均测试损失会比任何一个小 。
如下图 3 所示 , 通过平均值改进的运行时间比平时长 10 倍 。 然而 , 对于从不同初始化中获得的两个解 , SWA 的准确度并没有提升 。 因此 , 检查 SWA 是否成立 , 可以区分从同一轨迹得出的解对和从不同轨迹得出的对 , 这表明扩散过程在标准训练时间内没有混合到平稳分布(这并不奇怪 , 因为混合的理论分析并不表明它发生得很快) 。
|三辩三驳:这篇论文告诉你传统优化分析与现代DL有哪些不匹配
本文插图

实际上 , Izmailov 等人在论文《Averaging Weights Leads to Wider Optima and Better Generalization》中已经注意到 , SWA 排除了 SGD 是一个混合到单一全局均衡的扩散过程 。 他们认为 , 假设损失表面是局部强凸的 , 则 SGD 的轨迹可以很好地用局部极小值 W^* 邻域的多变量 Ornstein-Uhlenbeck(OU)过程来近似 。 由于对应的平稳点是局部极小值 W^* 邻域的多维高斯函数 N(W^*, Σ) , 这就解释了为什么 SWA 有助于减少训练损失 。


推荐阅读