|谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样

萧箫发自凹非寺量子位报道 | 公众号 QbitAI
最新消息，谷歌推出了NLP系列「芝麻街」的新成员Big Bird 。
这个在外界眼中看起来有点可爱的动漫小鸟，摇身一变，解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制，可以兼顾更长的上下文。

本文插图

【|谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样】△ 「芝麻街」中的Big Bird
众所周知，谷歌开发的BERT ，曾经被称为「地表最强」NLP模型。
而BERT ，则与美国知名动画片「芝麻街」（Sesame Street）里的虚拟人物同名。
此前，谷歌的「芝麻街」系列已经有5个成员（论文链接见传送门），现在Big Bird的到来，意味着谷歌在NLP的研究上更进一步。

本文插图

△ 少了一位ELMo
来看看Big Bird实现了什么。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型，例如BERT ，都是基于Transformer作为特征抽取器的模型，但这种模型有它的局限性，核心之一就是全注意力机制。
这种机制会带来序列长度二次依赖限制，主要表现在存储方面。
为了解决这个问题，团队提出了一种名为Big Bird的稀疏注意力机制。
作为更长序列上的Transformers ， Big Bird采用稀疏注意力机制，将二次依赖降至线性。
下面这张图片，展示了Big Bird所用的注意力机制模块构建。
其中，白色的部分代表着注意力的空缺。
图（a）表示r=2的随机注意力机制，图（b）表示w=3的局部注意力机制，图（c）表示g=2的全局注意力机制，图（d）则是前三者融合起来的Big Bird模型。

本文插图

之所以提出这样的模型，是因为团队希望能在将二次依赖降至线性的同时， Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标。
从下图来看，无论是单一采用随机注意力机制、局部注意力机制，还是二者结合的方式，都没有将三者进行结合的效果好。
也就是说，随机+局部+全局的注意力机制融合，最大程度上接近了BERT-base的各项指标。

本文插图

不仅如此，这种稀疏注意力机制的一部分，还包括了采用O(1)的全局词例（global token），例如CLS 。
这部分使得长程注意力开销从O(N√N)降至O(N) 。
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练，根据留出法评估， BigBird-ETC的损失达到了最低。

本文插图

从结果来看， Big Bird在问答任务中展示出的精度非常不错。
下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果，可以看见，在各项数据及上， BigBird的两个模型都展现出了更高的精度。

本文插图

而在对模型进行微调后，可以看见， BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA 。

|谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样

推荐阅读

组织|【上品教育】九江上东小学进行防暴应急演练

形容春节欢乐的诗句?描写阖家欢乐幸福的诗句

美团▲外卖不再一家独大！美团风波过后，引发地方外卖平台崛起新商机！

紫薯粥的功效和作用

教师|2020年开始，三类人要翻身？待遇、薪资全要变！你遇上这好事没？

吃人参果会发胖吗女生吃人参果会发胖吗

大众途观■有它还看啥汉兰达？从21.8万下探到14.8万，一年狂甩188495辆

怎样除蟑螂最有效怎样除蟑螂

一位阿姨姐姐|爱情甜蜜，真爱不断靠近，顺利摆脱单身的四星座，未来十天桃花旺

八佰|《八佰》票房飙破8亿元，最亮眼的一位演员不是王千源而是他！

怎么克服孩子的紧张怎么克服孩子的紧张情绪

武则天|宇文化及绞杀隋炀帝，半个多世纪后，武则天报了这个仇

FGO|《FGO》：阿斯克勒庇俄斯从者简介，难得的低星S级辅助！

东风快递|美军舰被三枚导弹击中，浓烟滚滚！东风快递：我只要一炮渣都不剩

区间|中原证券：未来股指继续维持区间震荡的可能性较大

\＂i11\＂: \＂嫁接的时候到了。怎么样嫁接成活最高？\＂为什么中国大面积搞“绿化带”？而欧洲国家却几乎不搞呢？

儿科@郝燕：坚守抗疫一线护佑儿童健康

人民日报客户端|累计184193例，德国新冠病毒感染新增214例

钟南山回应板蓝根药效:断章取义|钟南山回应板蓝根药效：有人断章取义

聊斋中的“乔女”，藏着中国女性最深重的悲怆