|高效Transformer层出不穷,谷歌团队综述文章一网打尽( 二 )


这部分对高效 Transformer 模型进行了综述 。 首先我们来看不同模型的特点 , 表 1 列出了目前发布的高效 Transformer 模型 , 图 2 展示了多种重要高效 Transformer 模型的图示 。
|高效Transformer层出不穷,谷歌团队综述文章一网打尽
本文插图

图 2:高效 Transformer 模型的分类 , 分类标准是模型的核心技术和主要应用场景 。
|高效Transformer层出不穷,谷歌团队综述文章一网打尽
本文插图

表 1:按发布时间顺序整理的高效 Transformer 模型 。
此外 , 这部分还详细介绍了多个重要的高效 Transformer 模型 , 并分析了它们的优缺点和独特之处 。 这些模型包括:Memory Compressed Transformer、Image Transformer、Set Transformers、Sparse Transformers、Axial Transformers、Longformer、ETC、BigBird、Routing Transformers、Reformer、Sinkhorn Transformers、Linformer、Synthesizers、Performer、Linear Transformers、Transformer-XL和 Compressive Transformers 。
具体细节此处不再赘述 , 详情参见原论文第三章 。
【|高效Transformer层出不穷,谷歌团队综述文章一网打尽】论文最后讨论了这些模型的评估情况和设计趋势 , 并简要概述了可以提高 Transformer 效率的其他方法 , 如权重共享、量化 / 混合精度、知识蒸馏、神经架构搜索(NAS)和 Task Adapter 。


推荐阅读