|三辩三驳:这篇论文告诉你传统优化分析与现代DL有哪些不匹配( 三 )


【|三辩三驳:这篇论文告诉你传统优化分析与现代DL有哪些不匹配】但是 , 我们注意到 Izmailov 等人在论文《Averaging Weights Leads to Wider Optima and Better Generalization》中的建议也被以下事实所驳斥:来自 epoch T 和 T+Δ权重的?2 距离随着每个 T 的Δ单调增加(如上图 3 所示) , 而在 OU 过程中 , E[| W^T?W^T+Δ |^2]应作为 T, →+∞收敛至常数 2Tr[Σ] 。 这表明与 OU 过程中假设的不同 , 所有这些权重都是相关的 。
为何这样?
这篇论文有一个新的理论(一些部分得到了严格的证明 , 另一些部分得到了实验的验证) , 表明LR 并没有扮演大多数讨论中假定的角色 。
人们普遍认为 , LR η 通过改变噪声的大小来控制 SGD 的收敛速度 , 并通过改变噪声的大小来影响泛化 。 然而 , 对于用 SGD+WD 训练的归一化网络 , LR 的作用更为微妙 , 因为它扮演两个角色:1)损失梯度之前的乘数;2)WD 之前的乘数 。 从直观上讲 , 人们认为 WD 部分是无用的 , 因为损失函数是尺度不变的 , 因此第一个角色更重要 。 但令人惊讶的是 , 这种直觉是完全错误的 , 事实证明第二个角色比第一个角色重要得多 。 进一步的分析表明 , 更好地衡量学习速度的方法是ηλ , 研究者称之为内在学习率或内在 LR , 用λ_e 表示 。
虽然先前的论文注意到 LR 和 WD 之间存在密切的相互作用 , 但在论文《An Exponential Learning Rate Schedule for Deep Learning》中给出了数学证明 , 即如果 WD* LR , 则λη是固定的 , 改变 LR 对动力学的影响相当于重新标定初始参数 。 据研究者所知 , 在现代体系架构上 , SGD 的性能对于初始化的规模具有鲁棒性(通常独立于初始化) , 因此在保持固有 LR 不变的同时更改初始 LR 的影响也可以忽略不计 。
论文《An Exponential Learning Rate Schedule for Deep Learning》通过对归一化网络的 SGD 提供新的 SDE 风格分析来深入了解内在 LR λ_e 的作用 , 得出以下结论(部分取决于实验):
在归一化网络中 , SGD 确实会导致快速混合 , 但在函数空间(即网络的输入 - 输出行为)中不会 。 混合发生在 O(1/λ_e)迭代之后 , 与传统扩散游走分析在参数空间中保证的指数慢混合不同 。
为了解释函数空间中混合的含义 , 研究者将 SGD(执行固定数量的步骤)视为从已训练网络分布中对已训练网络进行采样的一种方法 。 因此 , 来自固定初始化的 SGD 的最终结果可以看作是概率分类器 , 其在任何数据点上的输出都是 K 维向量 , 其第 i 个坐标是输出标签 i 的概率(K 是标签总数) 。 现在 , 如果两个不同的初始化都导致 SGD 对保留的数据点生成存在 5% 误差的分类器 。 那么先验者将想象在给定的保留数据点上 , 第一个分布的分类器与第二个分布中的分类器不一致 。
但是 , 在函数空间中收敛到一个均衡分布并不意味着不一致的可能性近乎为零 , 也就是说 , 分布几乎不基于初始化而改变 。 这是研究者在实验中发现的 , 他们的理论也是围绕这一现象展开的 。
|三辩三驳:这篇论文告诉你传统优化分析与现代DL有哪些不匹配
本文插图


推荐阅读