|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI
最新消息 , 谷歌推出了NLP系列「芝麻街」的新成员Big Bird 。
这个在外界眼中看起来有点可爱的动漫小鸟 , 摇身一变 , 解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制 , 可以兼顾更长的上下文 。
本文插图
【|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样】△ 「芝麻街」中的Big Bird
众所周知 , 谷歌开发的BERT , 曾经被称为「地表最强」NLP模型 。
而BERT , 则与美国知名动画片「芝麻街」(Sesame Street)里的虚拟人物同名 。
此前 , 谷歌的「芝麻街」系列已经有5个成员(论文链接见传送门) , 现在Big Bird的到来 , 意味着谷歌在NLP的研究上更进一步 。
本文插图
△ 少了一位ELMo
来看看Big Bird实现了什么 。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型 , 例如BERT , 都是基于Transformer作为特征抽取器的模型 , 但这种模型有它的局限性 , 核心之一就是全注意力机制 。
这种机制会带来序列长度二次依赖限制 , 主要表现在存储方面 。
为了解决这个问题 , 团队提出了一种名为Big Bird的稀疏注意力机制 。
作为更长序列上的Transformers , Big Bird采用稀疏注意力机制 , 将二次依赖降至线性 。
下面这张图片 , 展示了Big Bird所用的注意力机制模块构建 。
其中 , 白色的部分代表着注意力的空缺 。
图(a)表示r=2的随机注意力机制 , 图(b)表示w=3的局部注意力机制 , 图(c)表示g=2的全局注意力机制 , 图(d)则是前三者融合起来的Big Bird模型 。
本文插图
之所以提出这样的模型 , 是因为团队希望能在将二次依赖降至线性的同时 , Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标 。
从下图来看 , 无论是单一采用随机注意力机制、局部注意力机制 , 还是二者结合的方式 , 都没有将三者进行结合的效果好 。
也就是说 , 随机+局部+全局的注意力机制融合 , 最大程度上接近了BERT-base的各项指标 。
本文插图
不仅如此 , 这种稀疏注意力机制的一部分 , 还包括了采用O(1)的全局词例(global token) , 例如CLS 。
这部分使得长程注意力开销从O(N√N)降至O(N) 。
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练 , 根据留出法评估 , BigBird-ETC的损失达到了最低 。
本文插图
从结果来看 , Big Bird在问答任务中展示出的精度非常不错 。
下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果 , 可以看见 , 在各项数据及上 , BigBird的两个模型都展现出了更高的精度 。
本文插图
而在对模型进行微调后 , 可以看见 , BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA 。
推荐阅读
- |将量子计算机当作神经网络,首次模拟化学反应,谷歌新研究登上Science封面
- 中年|几千块的乐高不香了?国产全金属机械模型,上百个零件,才68元
- KL|耐能发布全新AI芯片KL720 能效超过谷歌和英特尔
- 科学|科学家预言,在超新星中微子中,将首次观测超出标准模型粒子
- 科学|谷歌量子计算登《科学》封面 量子模拟了化学反应
- 宣传|透过口号看真相:谷歌、苹果、麦当劳和 Zoom 真正的宗旨是什么?
- 网站|青岛网络营销的5种常见模型
- 谷歌|5G加速云游戏落地 手机体验3A大作将成现实
- 互联网|如何解构一款成熟复杂产品,搭建典型用户成长模型
- 青年|打破后浪推前浪的魔咒,苹果 谷歌 iRobot们的秘密