谷歌用算力爆了一篇论文,解答有关无限宽度网络的一切( 三 )
4. 大学习率和 L2 正则化会让有限网络和核之间出现差异
从上图 1 中可以观察到 , 大学习率(LR)的效果容易受到架构和参数化的影响 。
L2 正则化则能稳定地提升所有架构和参数化的性能(+1-2%) 。 即使使用经过精心调节的 L2 正则化 , 有限宽度 CNN-VEC 和 FCN 依然比不上 NNGP/NTK 。 L2 结合早停能为有限宽度 CNN-VEC 带来 10-15% 的显著性能提升 , 使其超过 NNGP/NTK 。
5. 使用标准参数化能为网络提升 L2 正则化
本文插图
图 5:受 NTK 启发的逐层扩展能让 L2 正则化在标准参数化网络中更有帮助 。
研究者发现 , 相比于使用标准参数化 , 使用 NTK 参数化时 L2 正则化能为有限宽度网络带来显著的性能提升 。 使用两种参数化的网络的权重之间存在双射映射 。 受 NTK 参数化中 L2 正则化项性能提升的启发 , 研究者使用这一映射构建了一个可用于标准参数化网络的正则化项 , 其得到的惩罚项与原版 L2 正则化在对应的 NTK 参数化网络上得到的一样 。
6. 在超过两次下降的宽度中 , 性能表现可能是非单调的
本文插图
图 6:有限宽度网络在宽度增大时通常会有更好的表现 , 但 CNN-VEC 表现出了出人意料的非单调行为 。 L2:在训练阶段允许非零权重衰减 , LR:允许大学习率 , 虚线表示允许欠拟合(U) 。
7. 核对角正则化的行为类似于早停
本文插图
图 7:对角核正则化的行为类似于早停 。 实线对应具备不同对角正则化 ε 的 NTK 推断;虚线对应梯度下降到时间 τ = ηt 后的预测结果 , 线条颜色表示不同的训练集大小 m 。 在时间 t 执行早停紧密对应于使用系数 ε = Km/ηt 的正则化 , 其中 K=10 表示输出类别的数量 。
8. 浮点数精度决定了核方法失败的关键数据集大小
本文插图
图 8:无限网络核的尾部特征值表现出了幂律衰减趋势 。
9. 由于条件不好 , 线性化 CNN-GAP 模型表现很差
研究者观察到线性化 CNN-GAP 在训练集上的收敛速度非常慢 , 导致其验证表现也很差(见上图 3) 。
这一结果的原因是池化网络的条件很差 。 Xiao 等人的研究 [33] 表明 CNN-GAP 网络初始化的条件比 FCN 或 CNN-VEC 网络差了像素数倍(对 CIFAR-10 来说是 1024) 。
本文插图
表 1:对应架构类型的核的 CIFAR-10 测试准确率 。
10. 正则化 ZCA 白化(whitening)可提升准确率
本文插图
图 9:正则化 ZCA 白化可提升有限和无限宽度网络的图像分类性能 。 所有的图都将性能表现为 ZCA 正则化强度的函数 。 a)在 CIFAR-10、Fashion-MNIST、CIFAR-100 上核方法输入的 ZCA 白化;b)有限宽度网络输入的 ZCA 白化 。
11. 同变性(equivariance)仅对远离核区域的窄网络有益
本文插图
图 10:同变性仅在核区域之外的 CNN 模型中得到利用 。
如果 CNN 模型能有效地利用同变性 , 则预计它能比 FCN 更稳健地处理裁剪和平移 。 出人意料的是 , 宽 CNN-VEC 的性能会随输入扰动的幅度而下降 , 而且下降速度与 FCN 一样快 , 这说明同变性并未得到利用 。 相反 , 使用权重衰减的窄模型(CNN-VEC+L2+narrow)的性能下降速度要慢得多 。 正如预期 , 平移不变型 CNN-GAP 依然是最稳健的 。
推荐阅读
- 中年|谷歌生草机,翻译《我的世界》20变,连亲妈都不认识
- 印度|又爆了!印度新增确诊连创纪录!一夜间超巴西?美国地位不保?
- 特朗普-奥巴马|特朗普有多恨奥巴马,前律师出书爆了这样一个猛料
- "老公"又出手!王思聪带女生现身楼盘看房 这个楼盘爆了!
- 穿搭|简直美爆了 我全部都要
- 蹴鞠小子|三连胜,瓦基弗银行再次零封对手;状态爆了,哈克打出超神数据!
- 暮年|谷歌结合物理模拟与机器学习方法,改进洪水预测速度与准确度
- 笑爆了i|我是深有体会.,搞笑段子:对于学好一门知识的重要性
- 适应生活|程序员用香蕉玩街机游戏,潮爆了!杭州云栖大会极客派
- 王霏霏|迪丽热巴高伟光要捆绑?王霏霏出道位被抢?成毅爆了?乐华七子貌合神离?薇娅翻车?