|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样


萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI
最新消息 , 谷歌推出了NLP系列「芝麻街」的新成员Big Bird 。
这个在外界眼中看起来有点可爱的动漫小鸟 , 摇身一变 , 解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制 , 可以兼顾更长的上下文 。
|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
本文插图

【|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样】△ 「芝麻街」中的Big Bird
众所周知 , 谷歌开发的BERT , 曾经被称为「地表最强」NLP模型 。
而BERT , 则与美国知名动画片「芝麻街」(Sesame Street)里的虚拟人物同名 。
此前 , 谷歌的「芝麻街」系列已经有5个成员(论文链接见传送门) , 现在Big Bird的到来 , 意味着谷歌在NLP的研究上更进一步 。
|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
本文插图

△ 少了一位ELMo
来看看Big Bird实现了什么 。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型 , 例如BERT , 都是基于Transformer作为特征抽取器的模型 , 但这种模型有它的局限性 , 核心之一就是全注意力机制 。
这种机制会带来序列长度二次依赖限制 , 主要表现在存储方面 。
为了解决这个问题 , 团队提出了一种名为Big Bird的稀疏注意力机制 。
作为更长序列上的Transformers , Big Bird采用稀疏注意力机制 , 将二次依赖降至线性 。
下面这张图片 , 展示了Big Bird所用的注意力机制模块构建 。
其中 , 白色的部分代表着注意力的空缺 。
图(a)表示r=2的随机注意力机制 , 图(b)表示w=3的局部注意力机制 , 图(c)表示g=2的全局注意力机制 , 图(d)则是前三者融合起来的Big Bird模型 。
|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
本文插图

之所以提出这样的模型 , 是因为团队希望能在将二次依赖降至线性的同时 , Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标 。
从下图来看 , 无论是单一采用随机注意力机制、局部注意力机制 , 还是二者结合的方式 , 都没有将三者进行结合的效果好 。
也就是说 , 随机+局部+全局的注意力机制融合 , 最大程度上接近了BERT-base的各项指标 。
|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
本文插图

不仅如此 , 这种稀疏注意力机制的一部分 , 还包括了采用O(1)的全局词例(global token) , 例如CLS 。
这部分使得长程注意力开销从O(N√N)降至O(N) 。
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练 , 根据留出法评估 , BigBird-ETC的损失达到了最低 。
|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
本文插图

从结果来看 , Big Bird在问答任务中展示出的精度非常不错 。
下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果 , 可以看见 , 在各项数据及上 , BigBird的两个模型都展现出了更高的精度 。
|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
本文插图

而在对模型进行微调后 , 可以看见 , BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA 。
|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样


推荐阅读