聚焦快速机器学习训练算法,UC伯克利尤洋189页博士论文公布

机器之心报道
编辑:蛋酱、小舟
这份189页的博士学位论文 , 凝结了尤洋在快速机器学习训练算法领域的研究心血 。
过去十年 , 深度学习应用领域的数据量迅速增长 , 使得深度神经网络(DNN)的训练时间拉长 。 而这已经成为机器学习开发者和研究者面临的瓶颈问题 。 例如 , 在8个P100GPU上完成90个epoch的ImageNet/ResNet-50训练需要29个小时 , 在16个v3TPU芯片上完成BERT预训练需要81个小时 。
因此 , 如何有效缩短机器学习训练时间 , 同时完成高质量的训练 , 对于解决当前的瓶颈问题具有重大意义 。
本文将介绍一篇长达189页的博士学位论文 , 作者为加州大学伯克利分校计算机系的尤洋博士 。
【聚焦快速机器学习训练算法,UC伯克利尤洋189页博士论文公布】尤洋曾以一作的身份获得2018年国际并行处理大会(ICPP)最佳论文奖 , 论文《Imagenettraininginminutes》所提出的方法刷新了ImageNet训练速度的世界纪录 。
此外 , 尤洋还获得过国际并行与分布式处理大会(IPDPS)2015的最佳论文奖 。 他还曾在IBM沃森研究中心、英特尔总部、英伟达总部、微软总部以及谷歌总部实习 。
今年7月 , 尤洋从加州大学伯克利分校毕业 , 获得计算机科学博士学位 。 目前已入职新加坡国立大学计算机系任助理教授(终身制) 。 近日 , 他在社交媒体上介绍了自己的博士论文 。
论文链接:
接下来 , 我们将简要介绍这篇博士论文的核心内容 , 感兴趣的读者可以阅读原论文 。
论文核心内容简介
这篇论文聚焦于快速且准确的机器学习训练 。 尽管生产团队希望能够充分利用超级计算机来加快训练过程 , 但传统的优化器无法扩展到数千个处理器 。 该研究设计了一系列基础优化算法 , 来为深度学习系统实现更强的并行度 。 这些算法为谷歌、英特尔、腾讯、英伟达等公司的SOTA分布式系统提供了支持 。
这篇论文的重点是缩小高性能计算(HPC)和机器学习(ML)之间的差距 。
2017年 , HPC和ML之间存在着巨大的差距 。 一方面 , 功能强大的超级计算机已经出现 , 每秒可执行2×1017次浮点运算 。 但另一方面 , 我们却无法充分运用此算力的1%来训练SOTA机器学习模型 。 原因是超级计算机需要极高的并行度才能达到峰值性能 。 但是 , 高度的并行会导致ML优化器的收敛性很差 。
为了解决这个问题 , 尤洋及合作者提出了LARS优化器、LAMB优化器以及CA-SVM框架 , 缩小了机器学习与分布式系统之间的差距 。
这篇论文的主要贡献是:「在增加并行度的同时 , 根据需要改动算法 , 从而通过避免通信来保持效率 。 」为了做到这一点 , 研究者需要根据需求改动算法和/或超参数 , 或使用不同的近似解来维持准确率 。
该论文包括以下三个主要部分:
第二章详细讲解了通信避免的SVM(communication-avoidingSVM) , 第三章详细介绍了通信高效的KRR(communication-efficientKRR) , 第四章详细介绍了异步贪心坐标下降(Asy-GCD) 。
第五章介绍了在超级计算机上加速ImageNet训练的细节 , 包括算法设计和通信/计算权衡 。
第六章介绍了将BERT训练时间从3天降低到76分钟的技术细节 , 这是建立在大批量优化和超参数自动调整等技术之上的 。
这三个部分紧密相关 。 研究者在第一部分中以凸优化开始 , 在第二部分中深入探讨非凸优化 。 由于非凸优化比凸优化要难得多 , 因此作者在第三部分中又进行了详细介绍 。 第七章则进行了总结 。
以下是这篇博士论文的目录:
JamesDemmel是加州大学伯克利分校电子工程与计算机科学系主任 , Dr.RichardCarlDehmel杰出教授 , 因在数值线性计算库LAPACK方面的贡献而为人熟知 。 此外 , 他还是ACMFellow、IEEEFellow , 美国艺术与科学院、美国国家工程院、美国国家科学院三院院士 。
在致谢的最后 , 尤洋表达了对家人的感谢:
最后 , 我想感谢我的母亲YanleiHuang , 父亲ZhiqiangYou , 兄长PengYou , 以及我的妻子ShiyueLiang 。 我将向家人们表达最深的感谢 , 没有他们无条件的支持我不可能获得今天的成就 。 我会一直在你们身边 。


    推荐阅读