谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存

谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

新智元报道
来源:google等
编辑:白峰
【新智元导读】最近Google又发了一个NLP模型 , 名字也很喜感Big Bird!这只大鸟在长文本任务中能胜过BERT , 它有哪些独特之处呢?
谷歌最近又推出了一个重磅的稀疏注意力模型:Big Bird 。
【谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存】之前各种刷榜的BERT和它的各种衍生版本RoBERTa等 , 都是构建在Transformer基础上 。
这些模型的核心竞争力就是全注意力机制 , 但这种机制会产生序列长度的二次依赖 , 如果输入的token过长 , 会撑爆内存 , 而长文本摘要等任务中 , BERT的512token , 就显得有点捉襟见肘 。
二次依赖限制了BERT
BERT中token的长度一般设置为512 , 这对普通的NLP任务来说足够了 , 但是想对一整篇文章或者一本书进行信息挖掘 , 也就是长文本任务 , 512的长度就有点短 , 把token长度变为1024的话 , 所需的计算量就会变成原来的4倍 , 对内存是很伤的 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

如果能把这个n^2的复杂度降下来 , 那么就能实现一个长距的上下文注意力机制 , 而不会把内存撑爆 , 这就是Big Bird要做的事 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

谷歌团队解决这个问题的方法 , 是引入一种全新的稀疏注意力机制:Big Bird 。
谷歌「大鸟」:稀疏注意力机制更省内存
Big Bird相对于传统的全注意力机制来说变的更稀疏 , 作为更长序列上的Transformer , Big Bird不仅能注意到更长的上下文信息 , 还将计算的二次依赖降低到了线性 。
我们来看下Big Bird是如何构建的 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

图(a)表示r=2的随机注意力机制 , 图(b)表示w=3的局部注意力机制 , 图(c)表示g=2的全局注意力机制 , 图(d)是三者加起来的Big Bird模型 。
图中空白的部分表示没有注意 , 有颜色的部分才能得到关注 , 有点像dropout的选择性丢弃 。
注意的部分减少了 , 性能会不会打折扣 , 我们来看下实验结果 。
实验:三种注意力机制结合效果最好
只采用随机注意力机制、局部注意力机制 , 或者两者融合起来 , 都没有三者合体的效果好 。
Global+R+W在MLM任务上超过了BERT-base , 在SQuAD和MNLI任务上接近了BERT-base , 但是考虑到内存上节省了很多资源 , 还是有其实用价值 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

使用基础的模型 , 在HotpotQA、Natural QA、 TriviaQA和WikiHop四个问答任务上进行了测试 , 结果表明Big Bird均超越了RoBERTa和Longformer 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

在长文本摘要中 , Big Bird也是表现出了很好的潜力 , 在Arxiv , PubMed , BigPatent上均取得了最好成绩 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

使用这些数据集 , 因为它们都是长文档 , 输入不仅仅是512个token , 更容易对比长文本的特征提取能力和模型的总体性能 。
reddit上有网友对Big Bird提出了质疑认为Big Bird只是另一种Longformer , 没有什么本质创新 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

有网友说 , 最近爆火的GPT-3也用了稀疏注意力机制 , 但是因为OpenAI的blocksparse太久没更新了 , 所以不知道二者有没有内在的相似性 。
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片

谷歌发表的一些研究 , 之前也有人提出过类似的 , 但只有谷歌发出来 , 才能得到广泛的关注 , 进大厂发论文的概率还是高啊 。
期待Big Bird给NLP任务带来新的惊喜!
谷歌|谷歌NLP新模型“大鸟”突破BERT限制,稀疏注意力机制更省内存
本文图片


    推荐阅读