|高效Transformer层出不穷,谷歌团队综述文章一网打尽
选自arXiv
作者:Yi Tay 等
机器之心编译
编辑:魔王
自 2017 年诞生以来 , Transformer 模型在自然语言处理、计算机视觉等多个领域得到广泛应用 , 并出现了大量变体 。 近期涌现的大量 Transformer 变体朝着更高效的方向演化 , 谷歌研究者对这类高效 Transformer 架构进行了综述 。
Transformer 是现代深度学习领域一股令人敬畏的力量 , 它广泛应用于语言理解、图像处理等多个领域 , 并产生了极大的影响 。 过去几年 , 大量研究基于 Transformer 模型做出基础性改进 。 人们对此的巨大兴趣也激发了对更高效 Transformer 变体的研究 。
近期涌现了大量 Transformer 模型变体 , 研究者和从业者可能难以跟上创新的节奏 。 在该论文写作时(2020 年 8 月) , 之前的半年出现了十多个新的高效 Transformer 模型 。 因此 , 对已有文献进行综述对于社区而言是有益和及时的 。
自注意力机制是 Transformer 模型的核心典型特征 。 该机制可被看作是一种类似图的归纳偏置 , 将序列中的所有 token 与基于相关性的池化操作连接起来 。 对于自注意力的一个担忧是其时空复杂度都是平方级的 , 这妨碍模型在多种环境下的可扩展性 。 最近出现了大量试图解决该问题的 Transformer 模型变体 , 本文将这类模型称作「高效 Transformer」(efficient Transformer) 。
基于此 , 模型的效率有了不同的诠释 。 效率可能指模型的内存占用 , 当模型运行的加速器内存有限时这尤为重要;效率也可能指训练和推断过程中的计算成本 , 如 FLOPs 数 。 尤其对于设备端应用而言 , 模型应在有限的计算预算下运行 。 该综述论文从内存和计算两个角度来考虑 Transformer 的效率 。
高效自注意力模型对于建模长序列的应用很关键 , 如通常包括较多像素或 token 的文档、图像和视频 。 因此 , 广泛采用 Transformer 优先考虑的是处理长序列的效率 。
该论文旨在对这类模型的近期发展进行综述 , 主要聚焦于通过解决自注意力机制的平方级复杂度来提升 Transformer 效率的建模发展和架构创新 , 同时该论文还简要探讨了通用改进和其他效率改进 。
该论文提出了一种针对高效 Transformer 模型的分类法 , 按照技术创新和主要用途进行分类 。 具体而言 , 该论文综述了在语言和视觉领域均有应用的 Transformer 模型 , 并为其中的部分模型提供了详细的解读 。
本文插图
论文链接:https://arxiv.org/pdf/2009.06732.pdf
关于 Transformer
Transformer 是将 Transformer 块一个个堆叠而成的多层架构 , 标准 Transformer 的架构如下图所示:
本文插图
Transformer 块的特征是多头自注意力机制、position-wise 前馈网络、层归一化模块和残差连接 。 Transformer 模型的输入通常是形状为 R^B × R^N 的张量 , B 表示批大小 , N 表示序列长度 。
输入首先经过嵌入层 , 嵌入层将每个 one-hot token 表示转换为 d 维嵌入 , 即 R^B × R^N × R^D。 然后将这个新的张量与位置编码(positional encoding)相加 , 并输入到多头自注意力模块中 。 位置编码可以采用正弦输入的形式 , 或者可训练嵌入 。
多头自注意力模块的输入和输出由残差连接和层归一化层来连接 。 将多头自注意力模块的输出传送至两层前馈网络 , 其输入 / 输出通过残差和层归一化来连接 。 子层残差连接与层归一化可表示为:
其中 F_S 是子层模块 , 它要么是多头自注意力 , 要么是 position-wise 前馈层 。
高效 Transformer 模型综述
推荐阅读
- DeepTech深科技|她用AI“反哺”芯片设计,超高效率赶超人类芯片设计师
- 中关村在线|佳能主动式喷墨估算工具VIEW 提供高效估算
- 3DM游戏网|微软详细介绍新Edge如何通过多进程架构变得更加高效
- |2020年最新补单技巧,了这一人生的价值,也是最高效率的方式
- 5G|三星Galaxy Note20系列:高效办公体验,商务人士必备神机
- 小程序|精度厘米级,高效低成本的室内外精准定位和AR导航来啦
- 功能|时刻便捷,健康生活:vivo WATCH为你解读何为高效
- 行业互联网|数字化时代1药网让药品商业化更高效探索患者全生命周期管理
- |定制化、高效操作、能力开放,ColorOS 11亮点满满
- 工业互联网|智慧中国 | 水泥工厂可视化监控大屏,工业迈向高效产能第一步