模型压缩95%,MIT韩松等人提出新型Lite Transformer
选自arXiv
作者:ZhanghaoWu等
机器之心编译
参与:小舟、魔王
Transformer的高性能依赖于极高的算力 , 这让移动端NLP严重受限 。 在不久之前的ICLR2020论文中 , MIT与上海交大的研究人员提出了一种高效的移动端NLP架构LiteTransformer , 向在边缘设备上部署移动级NLP应用迈进了一大步 。
虽然推出还不到3年 , Transformer已成为自然语言处理(NLP)领域里不可或缺的一环 。 然而这样流行的算法却需要极高的算力才能实现足够的性能 , 这对于受到算力和电池严格限制的移动端来说有些力不从心 。
在MIT最近的研究《LiteTransformerwithLong-ShortRangeAttention》中 , MIT与上海交大的研究人员提出了一种高效的移动端NLP架构LiteTransformer , 向在边缘设备上部署移动级NLP应用迈进了一大步 。 该论文已被人工智能顶会ICLR2020收录 。
该研究是由MIT电气工程和计算机科学系助理教授韩松领导的 。 韩松的研究广泛涉足深度学习和计算机体系结构 , 他提出的DeepCompression模型压缩技术曾获得ICLR2016最佳论文 , 论文ESE稀疏神经网络推理引擎2017年曾获得芯片领域顶级会议——FPGA最佳论文奖 , 引领了世界深度学习加速研究 , 对业界影响深远 。

文章图片
论文地址:https://arxiv.org/abs/2004.11886v1
GitHub地址:https://github.com/mit-han-lab/lite-transformer
Transformer在自然语言处理任务(如机器翻译、问答)中应用广泛 , 但它需要大量计算去实现高性能 , 而这不适合受限于硬件资源和电池严格限制的移动应用 。
这项研究提出了一种高效的移动端NLP架构——LiteTransformer , 它有助于在边缘设备上部署移动NLP应用 。 其核心是长短距离注意力(Long-ShortRangeAttention , LSRA) , 其中一组注意力头(通过卷积)负责局部上下文建模 , 而另一组则(依靠注意力)执行长距离关系建模 。
这样的专门化配置使得模型在三个语言任务上都比原版transformer有所提升 , 这三个任务分别是机器翻译、文本摘要和语言建模 。
在资源有限的情况下(500M/100MMACs) , LiteTransformer在WMT’14英法数据集上的BLEU值比分别比transformer高1.2/1.7 。 LiteTransformer比transformerbase模型的计算量减少了60% , 而BLEU分数却只降低了0.3 。 结合剪枝和量化技术 , 研究者进一步将LiteTransformer模型的大小压缩到原来的5% 。
对于语言建模任务 , 在大约500MMACs上 , LiteTransformer比transformer的困惑度低1.8 。

文章图片
【模型压缩95%,MIT韩松等人提出新型Lite Transformer】值得注意的是 , 对于移动NLP设置 , LiteTransformer的BLEU值比基于AutoML的EvolvedTransformer高0.5 , 而且它不需要使用成本高昂的架构搜索 。
从LiteTransformer与EvolvedTransformer、原版transformer的比较结果中可以看出 , LiteTransformer的性能更佳 , 搜索成本相比EvolvedTransformer大大减少 。

文章图片
那么 , LiteTransformer为何能够实现高性能和低成本呢?接下来我们来了解其核心思想 。
长短距离注意力(LSRA)
NLP领域的研究人员试图理解被注意力捕捉到的上下文 。 Kovaleva等人(2019)和Clark等人(2020)对BERT不同层的注意力权重进行了可视化 。
如下图3b所示 , 权重w表示源句单词与目标句单词之间的关系(自注意力也是如此) 。 随着权重w_ij的增加(颜色加深) , 源句中的第i个词更加注意目标句中的第j个词 。 注意力图通常有很强的模式化特征:稀疏和对角线 。 它们代表了一些特定单词之间的关系:稀疏表示长距离信息间的关系 , 对角线表示近距离信息间的关系 。 研究者将前者称为「全局」关系 , 将后者称为「局部」关系 。

文章图片
图3:LiteTransformer架构(a)和注意力权重的可视化 。 传统的注意力(b)过于强调局部关系建模(参见对角线结构) 。 该研究使用卷积层专门处理局部特征提取工作 , 以高效建模局部信息 , 从而使注意力分支可以专门进行全局特征提取(c) 。
在翻译任务中 , 注意力模块必须捕获全局和局部上下文 , 这需要很大的容量 。 与专门化的设计相比 , 这并非最佳选择 。 以硬件设计为例 , CPU等通用硬件的效率比FPGA等专用硬件低 。 研究者认为应该分别捕捉全局和局部上下文 。 模型容量较大时 , 可以容忍冗余 , 甚至可以提供更好的性能 。 但是在移动应用上 , 由于计算和功率的限制 , 模型应该更加高效 。 因此 , 更需要专门化的上下文捕获 。
为了解决该问题 , 该研究提出一个更专门化的架构 , 即长短距离注意力(LSRA) , 而不是使用处理“一般”信息的模块 。 该架构分别捕获局部和全局上下文 。
如图3a所示 , LSRA模块遵循两分支设计 。 左侧注意力分支负责捕获全局上下文 , 右侧卷积分支则建模局部上下文 。 研究者没有将整个输入馈送到两个分支 , 而是将其沿通道维度分为两部分 , 然后由后面的FFN层进行混合 。 这种做法将整体计算量减少了50% 。
左侧分支是正常的注意力模块(Vaswanietal.(2017)) , 不过通道维度减少了一半 。 至于处理局部关系的右分支 , 一个自然的想法是对序列应用卷积 。 使用滑动窗口 , 模块可以轻松地覆盖对角线组 。 为了进一步减少计算量 , 研究者将普通卷积替换为轻量级的版本 , 该版本由线性层和深度卷积组成 。 通过这种方式 , 研究者将注意力模块和卷积模块并排放置 , 引导它们对句子进行全局和局部的不同角度处理 , 从而使架构从这种专门化设置中受益 , 并实现更高的效率 。
实验设置
数据集和评估
研究者在机器翻译、文本摘要和语言建模三个任务上进行了实验和评估 。
具体而言 , 机器翻译任务使用了三个基准数据集:IWSLT’14德语-英语(De-En)、WMT英语-德语(En-De)、WMT英语-法语(En-Fr) 。
文本摘要任务使用的是CNN-DailyMail数据集 。
语言建模任务则在WIKITEXT-103数据集上进行 。
架构
模型架构是基于序列到序列学习的编码器-解码器 。 在机器翻译任务中 , 针对WMT数据集 , 基线模型基于Vaswani等人提出的模型 。 对于IWSLT数据集 , 基线模型遵循Wu等人的设置 。 对于文本摘要任务 , 研究者采用了与WMT相同的模型 。 至于语言建模任务 , 模型与Baevski&Auli(2019)一致 , 但模型尺寸较小 。
该研究提出的架构首先将transformerbase模型中的bottleneck拉平 , 然后用LSRA替换自注意力 。 更具体地说 , 是使用两个专门的模块 , 一个注意力分支和一个卷积分支 。
实验结果
机器翻译
表1展示了LiteTransformer在IWSLT’14De-En数据集上的定量结果 , 并与transformer基线方法和LightConv做了对比 。 在大约100MMult-Adds时 , LiteTransformer模型的BLEU值比transformer高出1.6 。

文章图片
表1:IWSLT’14De-En上的结果 。
表2中的定量结果表明 , 在100MMult-Adds设置下 , LiteTransformer在WMTEn-De数据集和WMTEn-Fr数据集上的BLEU值分别比Transformer高出1.2和1.7 , 在300MMult-Adds设置下 , 也有0.5和1.5分的提升 。

文章图片
表2:在WMT’14En-De和WMT’14En-Fr上的结果 。
研究者还提供了模型在WMTEn-Fr上的权衡曲线 , 如图4a所示 , LiteTransformer一直优于原版transformer 。

文章图片
图4:在WMTEn-Fr数据集上的机器翻译权衡曲线 , 以及在WIKITEXT-103数据集上的语言建模权衡曲线 。 两个曲线都说明了在移动设置下 , LiteTransformer比transformer性能更佳(蓝色区域) 。
与自动化设计模型的对比
与基于AutoML的EvolvedTransformer(ET)相比 , LiteTransformer在移动设置中也有明显的改进 。 此外 , 在100M和300M的Mult-Adds下 , LiteTransformer的BLEU值分别比ET高0.5和0.2 , 详见表3 。

文章图片
表3:不同NMT模型的性能和训练成本 。
文本摘要

文章图片
表4:在CNN-DailyMail数据集上的文本摘要结果 。

文章图片
表5:在WIKITEXT-103数据集上的语言建模结果 。
推荐阅读
- 识别“95”号段中的“李鬼” 这些小技巧要掌握!
- 搜狐|92号加成了95号,汽车加油加错号了,有什么严重的后果吗?
- 秦Pro降2万,缤瑞降1.95万,这几款车都在降|一周降价
- 前川|地铁7号线北延(前川线)施工 公交295路临时调整走向
- 大学|95后大学生为山区孩子打造“梦想基站”
- 配色|高达模型秀超越全球,大河原邦男配色78
- 1.6T+6AT马力195匹,零百加速7.8秒,7.99万起,海马8S为何难出圈
- 河南|河南每年4万余退役军人返乡 推荐就业率95%以上
- |地铁7号线北延(前川线)施工,公交295路临时调整走向
- |客户电脑R9-3950X处理器坏了直接送给我,一开心我就给他上堂课!
