|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI
最新消息 , 谷歌推出了NLP系列「芝麻街」的新成员Big Bird 。
这个在外界眼中看起来有点可爱的动漫小鸟 , 摇身一变 , 解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制 , 可以兼顾更长的上下文 。
本文插图
△ 「芝麻街」中的Big Bird
众所周知 , 谷歌开发的BERT , 曾经被称为「地表最强」NLP模型 。
而BERT , 则与美国知名动画片「芝麻街」(Sesame Street)里的虚拟人物同名 。
此前 , 谷歌的「芝麻街」系列已经有5个成员(论文链接见传送门) , 现在Big Bird的到来 , 意味着谷歌在NLP的研究上更进一步 。
本文插图
△ 少了一位ELMo
来看看Big Bird实现了什么 。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型 , 例如BERT , 都是基于Transformer作为特征抽取器的模型 , 但这种模型有它的局限性 , 核心之一就是全注意力机制 。
这种机制会带来序列长度二次依赖限制 , 主要表现在存储方面 。
为了解决这个问题 , 团队提出了一种名为Big Bird的稀疏注意力机制 。
作为更长序列上的Transformers , Big Bird采用稀疏注意力机制 , 将二次依赖降至线性 。
下面这张图片 , 展示了Big Bird所用的注意力机制模块构建 。
其中 , 白色的部分代表着注意力的空缺 。
图(a)表示r=2的随机注意力机制 , 图(b)表示w=3的局部注意力机制 , 图(c)表示g=2的全局注意力机制 , 图(d)则是前三者融合起来的Big Bird模型 。
本文插图
之所以提出这样的模型 , 是因为团队希望能在将二次依赖降至线性的同时 , Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标 。
从下图来看 , 无论是单一采用随机注意力机制、局部注意力机制 , 还是二者结合的方式 , 都没有将三者进行结合的效果好 。
也就是说 , 随机+局部+全局的注意力机制融合 , 最大程度上接近了BERT-base的各项指标 。
本文插图
不仅如此 , 这种稀疏注意力机制的一部分 , 还包括了采用O(1)的全局词例(global token) , 例如CLS 。
这部分使得长程注意力开销从O(N√N)降至O(N) 。
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练 , 根据留出法评估 , BigBird-ETC的损失达到了最低 。
本文插图
从结果来看 , Big Bird在问答任务中展示出的精度非常不错 。
【|谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样】下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果 , 可以看见 , 在各项数据及上 , BigBird的两个模型都展现出了更高的精度 。
本文插图
而在对模型进行微调后 , 可以看见 , BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA 。
本文插图
与此同时 , Big Bird在NLP的摘要任务中表现也比较亮眼 。
摘要 , 顾名思义是从一段长文字中提炼出这段话的核心思想和意义 。 下面是从三个长文章数据集Arxiv、PubMed和BigPatent中测试的效果 。
本文插图
从图中来看 , 与其他非常先进的NLP模型相比 , BigBird极大地提高了摘要任务的各项精度 , 性能表现非常优异 。
不仅如此 , Big Bird被证明是图灵完备的 , 这也就意味着 , 一切可以计算的问题 , Big Bird都能计算 , 理论上 , 它能够用来解决任何算法 。
此外 , Big Bird在基因组数据处理方面也极具潜力 。
但虽然如此 , 也有网友认为 , 这样的模型与Longformer在概念上并无本质区别 , 不能算是一个大突破 。
本文插图
你怎么看?
作者介绍
论文的两位共同一作是Manzil Zaheer和Guru Guruganesh , 均来自谷歌 。
本文插图
△ Manzil Zaheer
Manzil Zaheer , CMU机器学习博士 , 3篇论文曾经发表于NIPs上 , 除此之外 , 在ACL和EMNLP等顶会上也发表过相应文章 。
本文插图
△ Guru Guruganesh
Guru Guruganesh , CMU机器学习博士 , 主要在近似算法、拉姆齐定理、半正定规划等方向有所研究 。
传送门
「芝麻街」系列论文列表:
ELMo:https://arxiv.org/abs/1802.05365
BERT:https://arxiv.org/abs/1810.04805
ERNIE:https://arxiv.org/abs/1904.09223
Grover:https://arxiv.org/abs/1905.12616
KERMIT:https://arxiv.org/abs/1906.01604
Big Bird:https://arxiv.org/abs/2007.14062
— 完 —
量子位 QbitAI · ***签约
关注我们 , 第一时间获知前沿科技动态
推荐阅读
- 澎湃新闻|仝卓事件被写入公职人员学习读本 仝卓事件怎么回事
- 央视新闻|24岁抗洪牺牲消防员赵丹被评烈士 赵丹照片主要事迹
- 一降一升电网销分化明显 疫情催生保险网销新模式
- 健康广东|8月18日广东疫情最新通报:广州深圳新增多少病例
- 陕西卫健委|8月18日陕西疫情最新通报:新增2例境外输入确诊病例
- 传《GTA5》将登陆谷歌云游戏平台Stadia
- 央视新闻客户端|甘肃陇南文县泥石流灾害 堰塞湖已打开泄水口
- 吃鸡将迎来寻宝玩法?新地图遍地宝藏,“古老秘密”开启冒险
- the|新冠肺炎成美国第三大致死原因 仅次于心脏病和癌症
- 科学探索|新技术能快速将海水变成饮用水
