模型压缩95%，MIT韩松等人提出新型Lite Transformer 这让移动端NLP严重受限。在不

选自arXiv
作者：ZhanghaoWu等
机器之心编译
参与：小舟、魔王
Transformer的高性能依赖于极高的算力，这让移动端NLP严重受限。在不久之前的ICLR2020论文中， MIT与上海交大的研究人员提出了一种高效的移动端NLP架构LiteTransformer ，向在边缘设备上部署移动级NLP应用迈进了一大步。
虽然推出还不到3年， Transformer已成为自然语言处理（NLP）领域里不可或缺的一环。然而这样流行的算法却需要极高的算力才能实现足够的性能，这对于受到算力和电池严格限制的移动端来说有些力不从心。
在MIT最近的研究《LiteTransformerwithLong-ShortRangeAttention》中， MIT与上海交大的研究人员提出了一种高效的移动端NLP架构LiteTransformer ，向在边缘设备上部署移动级NLP应用迈进了一大步。该论文已被人工智能顶会ICLR2020收录。
该研究是由MIT电气工程和计算机科学系助理教授韩松领导的。韩松的研究广泛涉足深度学习和计算机体系结构，他提出的DeepCompression模型压缩技术曾获得ICLR2016最佳论文，论文ESE稀疏神经网络推理引擎2017年曾获得芯片领域顶级会议——FPGA最佳论文奖，引领了世界深度学习加速研究，对业界影响深远。

文章图片
论文地址：https://arxiv.org/abs/2004.11886v1
GitHub地址：https://github.com/mit-han-lab/lite-transformer
Transformer在自然语言处理任务（如机器翻译、问答）中应用广泛，但它需要大量计算去实现高性能，而这不适合受限于硬件资源和电池严格限制的移动应用。
这项研究提出了一种高效的移动端NLP架构——LiteTransformer ，它有助于在边缘设备上部署移动NLP应用。其核心是长短距离注意力（Long-ShortRangeAttention ， LSRA），其中一组注意力头（通过卷积）负责局部上下文建模，而另一组则（依靠注意力）执行长距离关系建模。
这样的专门化配置使得模型在三个语言任务上都比原版transformer有所提升，这三个任务分别是机器翻译、文本摘要和语言建模。
在资源有限的情况下（500M/100MMACs）， LiteTransformer在WMT’14英法数据集上的BLEU值比分别比transformer高1.2/1.7 。 LiteTransformer比transformerbase模型的计算量减少了60% ，而BLEU分数却只降低了0.3 。结合剪枝和量化技术，研究者进一步将LiteTransformer模型的大小压缩到原来的5% 。
对于语言建模任务，在大约500MMACs上， LiteTransformer比transformer的困惑度低1.8 。

文章图片
【模型压缩95%，MIT韩松等人提出新型Lite Transformer】值得注意的是，对于移动NLP设置， LiteTransformer的BLEU值比基于AutoML的EvolvedTransformer高0.5 ，而且它不需要使用成本高昂的架构搜索。
从LiteTransformer与EvolvedTransformer、原版transformer的比较结果中可以看出， LiteTransformer的性能更佳，搜索成本相比EvolvedTransformer大大减少。

文章图片
那么， LiteTransformer为何能够实现高性能和低成本呢？接下来我们来了解其核心思想。
长短距离注意力（LSRA）
NLP领域的研究人员试图理解被注意力捕捉到的上下文。 Kovaleva等人(2019)和Clark等人(2020)对BERT不同层的注意力权重进行了可视化。
如下图3b所示，权重w表示源句单词与目标句单词之间的关系（自注意力也是如此）。随着权重w_ij的增加（颜色加深），源句中的第i个词更加注意目标句中的第j个词。注意力图通常有很强的模式化特征：稀疏和对角线。它们代表了一些特定单词之间的关系：稀疏表示长距离信息间的关系，对角线表示近距离信息间的关系。研究者将前者称为「全局」关系，将后者称为「局部」关系。

文章图片
图3：LiteTransformer架构(a)和注意力权重的可视化。传统的注意力(b)过于强调局部关系建模（参见对角线结构）。该研究使用卷积层专门处理局部特征提取工作，以高效建模局部信息，从而使注意力分支可以专门进行全局特征提取(c) 。
在翻译任务中，注意力模块必须捕获全局和局部上下文，这需要很大的容量。与专门化的设计相比，这并非最佳选择。以硬件设计为例， CPU等通用硬件的效率比FPGA等专用硬件低。研究者认为应该分别捕捉全局和局部上下文。模型容量较大时，可以容忍冗余，甚至可以提供更好的性能。但是在移动应用上，由于计算和功率的限制，模型应该更加高效。因此，更需要专门化的上下文捕获。
为了解决该问题，该研究提出一个更专门化的架构，即长短距离注意力（LSRA），而不是使用处理“一般”信息的模块。该架构分别捕获局部和全局上下文。
如图3a所示， LSRA模块遵循两分支设计。左侧注意力分支负责捕获全局上下文，右侧卷积分支则建模局部上下文。研究者没有将整个输入馈送到两个分支，而是将其沿通道维度分为两部分，然后由后面的FFN层进行混合。这种做法将整体计算量减少了50% 。
左侧分支是正常的注意力模块（Vaswanietal.(2017)），不过通道维度减少了一半。至于处理局部关系的右分支，一个自然的想法是对序列应用卷积。使用滑动窗口，模块可以轻松地覆盖对角线组。为了进一步减少计算量，研究者将普通卷积替换为轻量级的版本，该版本由线性层和深度卷积组成。通过这种方式，研究者将注意力模块和卷积模块并排放置，引导它们对句子进行全局和局部的不同角度处理，从而使架构从这种专门化设置中受益，并实现更高的效率。
实验设置
数据集和评估
研究者在机器翻译、文本摘要和语言建模三个任务上进行了实验和评估。
具体而言，机器翻译任务使用了三个基准数据集：IWSLT’14德语-英语(De-En)、WMT英语-德语(En-De)、WMT英语-法语(En-Fr) 。
文本摘要任务使用的是CNN-DailyMail数据集。
语言建模任务则在WIKITEXT-103数据集上进行。
架构
模型架构是基于序列到序列学习的编码器-解码器。在机器翻译任务中，针对WMT数据集，基线模型基于Vaswani等人提出的模型。对于IWSLT数据集，基线模型遵循Wu等人的设置。对于文本摘要任务，研究者采用了与WMT相同的模型。至于语言建模任务，模型与Baevski&Auli(2019)一致，但模型尺寸较小。
该研究提出的架构首先将transformerbase模型中的bottleneck拉平，然后用LSRA替换自注意力。更具体地说，是使用两个专门的模块，一个注意力分支和一个卷积分支。
实验结果
机器翻译
表1展示了LiteTransformer在IWSLT’14De-En数据集上的定量结果，并与transformer基线方法和LightConv做了对比。在大约100MMult-Adds时， LiteTransformer模型的BLEU值比transformer高出1.6 。

文章图片
表1：IWSLT’14De-En上的结果。
表2中的定量结果表明，在100MMult-Adds设置下， LiteTransformer在WMTEn-De数据集和WMTEn-Fr数据集上的BLEU值分别比Transformer高出1.2和1.7 ，在300MMult-Adds设置下，也有0.5和1.5分的提升。

文章图片
表2：在WMT’14En-De和WMT’14En-Fr上的结果。
研究者还提供了模型在WMTEn-Fr上的权衡曲线，如图4a所示， LiteTransformer一直优于原版transformer 。

文章图片
图4：在WMTEn-Fr数据集上的机器翻译权衡曲线，以及在WIKITEXT-103数据集上的语言建模权衡曲线。两个曲线都说明了在移动设置下， LiteTransformer比transformer性能更佳（蓝色区域）。
与自动化设计模型的对比
与基于AutoML的EvolvedTransformer（ET）相比， LiteTransformer在移动设置中也有明显的改进。此外，在100M和300M的Mult-Adds下， LiteTransformer的BLEU值分别比ET高0.5和0.2 ，详见表3 。

文章图片
表3：不同NMT模型的性能和训练成本。
文本摘要

文章图片
表4：在CNN-DailyMail数据集上的文本摘要结果。

文章图片
表5：在WIKITEXT-103数据集上的语言建模结果。

模型压缩95%，MIT韩松等人提出新型Lite Transformer

推荐阅读

黛玉咏白海棠诗原文翻译,咏白海棠贾宝玉翻译-

前无后有|才是真正的贫穷，没有福报

芷江荷花池小学举办迎元旦经典诵读活动

『长安欧尚』2020年搭载磷酸铁锂的纯电动车型盘点

「最美神神」用鼻子去闻物体，沈腾不服说她犯规，随后的举动服了，韩雪玩游戏

隋唐|为何骁勇善战的大将李存勖，当上君王后三年便潦草去世

印度|印度猴子为报复几乎摔死全村狗还抓走8岁孩子：为何当地猴子这么狠？

今晚搞机|坏消息就接踵而来！玩套路终究是坑了自己，中国移动刚宣布好消息

一波高精尖技术来了！南京联合名校发布多项重大科研成果

哪个时间跑步好啊？

中移动的高校电竞赛在长春工大的比赛啥时候开始

中国青年网|新安江水库泄洪建德部分城区出现积水

IOS系统iOS 14 顶部新增的黄色绿色圆点是什么意思？

评估|吉利与沃尔沃合并计划暂缓，科创板上市后再评估是否重启

【FreeBuf】Labs发布2020年恶意软件威胁态势报告，Malwarebytes

珠海交警| 今天，小车珠海大道被撞四脚朝天！对方司机竟当场把车吊起！看呆路人！珠海交警

篮球|同谱军民健身曲！鹿城开展军地互动篮球友谊赛

【牛肉】牛肉和此物一起炖，晶莹剔透入口即化，牙口不好的人也能吃一盘！

微特数字科技马斯克的猎鹰真的省钱吗？NASA作为顾客，为什么那么喜欢SpaceX？

新华网|雨季当前，这些话很“当讲”