李航等提出多粒度AMBERT模型，中文提升显著各式各样的BERT变体模型在自然

选自arXiv
作者：XinsongZhang、李航
机器之心编译
编辑：杜伟、小舟
自谷歌BERT模型问世以来，各式各样的BERT变体模型在自然语言理解任务上大显身手。近日，字节跳动AI实验室李航等研究者提出了一种新型多粒度BERT模型，该模型在CLUE和GLUE任务上的性能超过了谷歌BERT、Albert、XLNet等。
BERT等预训练语言模型在自然语言理解（NaturalLanguageUnderstanding,NLU）的许多任务中均表现出了卓越的性能。
可以看到，模型中的token通常是细粒度的，对于像英语这样的语言， token是单词或子词；对于像中文这样的语言，则是单个汉字。例如在英语中有多个单词表达式构成的自然词汇单元，因此使用粗粒度标记化（tokenization）似乎也是合理的。实际上，细粒度和粗粒度标记化对于学习预训练语言模型都各有利弊。
近日，字节跳动XinsongZhang、李航两位研究者在细粒度和粗粒度标记化的基础上，提出了一种新的预训练语言模型，他们称之为AMBERT（一种多粒度BERT）。在构成上， AMBERT具有两个编码器。
对于英文， AMBERT将单词序列（细粒度标记）和短语序列（粗粒度标记）作为标记化后的输入，其中使用一个编码器处理单词序列，另一个编码器处理短语序列，并利用两个编码器之间的共享参数，最终分别创建单词和短语的上下文表示序列。

文章图片
【李航等提出多粒度AMBERT模型，中文提升显著】论文链接：https://arxiv.org/pdf/2008.11869.pdf
研究团队已经在一些中文和英文的基准数据集（包括CLUE、GLUE、SQuAD和RACE）上进行了实验。实验结果表明， AMBERT的性能几乎在所有情况下都优于现有的最佳性能模型。尤其是对于中文而言， AMBERT的提升效果显著。
我们首先看一下中英文任务中细、粗粒度模型层的注意力图。
下图1显示了适用于中英文句子的细粒度模型的首层注意力图。可以看到，某些token不恰当地出现在句子的其他token上。
例如在英文句子中，「drawing」、「new」和「dog」分别对「portrait」、「york」和「food」这几个词有高注意力权重，但这是不合适的。而在中文句子中，汉字「拍」、「北」和「长」分别对「卖」「京」「市」有高注意力权重，这也是不合适的。

文章图片
下图2显示了中英文相同句子粗粒度模型的首层注意力图。
在英文句子中，单词组成的短语包括「drawingroom」、「yorkminister」和「dogfood」，前两个句子中的注意力是恰当的，但最后一个句子则因为不正确的标记化而出现了不恰当的注意力。类似地，在中文句子中，高注意力权重的「球拍（bat）」和「京城（capital）」都是合理的，但「市长（mayor）」不合理。但请注意：错误的标记化是不可避免的。

文章图片
接下来详细解读AMBERT模型的细节和实验结果。
AMBERT模型
研究者在下图3中给出了AMBERT的整体框架。 AMBERT以文本作为输入，其中，文本要么是单个文档中的长序列，要么是两个不同文档中两个短序列的级联。接着在输入文本上进行标记化，以获得细、粗粒度的token序列。

文章图片
AMBERT模型整体框架
具体来说， AMBERT具有两个编码器，分别用于处理细、粗粒度token序列。每个编码器具有与BERT（Devlin等人， 2018）或Transformer编码器（Vaswani等人， 2017）完全相同的架构。
此外，两个编码器在每个对应层共享相同的参数，但两者的嵌入参数不同。细粒度编码器在对应层上从细粒度token序列中生成上下文表示，而粗粒度编码器在对应层上从粗粒度token序列中生成上下文表示。
最后， AMBERT分别输出细、粗粒度token的上下文表示序列。
预训练
AMBERT的预训练主要基于掩码语言建模（masklanguagemodeling,MLM）进行，并从细、粗粒度两个层面展开。出于比较的目的，研究者在实验中只使用了预测下一个句子（nextsentenceprediction,NSP）。
预训练过程被定义为以下函数的优化：
微调
在分类任务上的AMBERT微调中，细、粗粒度编码器分别创建特定的[CLS]表示，并且这些表示都用于分类任务。微调过程被定义为以下函数的优化：
类似地，我们可以对跨度检测（spandetection）任务上的AMBERT进行微调，其中细粒度token的表示与对应粗粒度token的表示实现了级联。
替代模型
研究者还提出了AMBERT的两种替代模型AMBERT-Combo和AMBERT-Hybrid ，它们也依赖于多粒度的标记化。研究者在实验部分也将三者进行了比较。
实验
在实验部分，研究者分别在中英文基准数据集上，将AMBERT与细、粗粒度BERT基线以及AMBERT-Combo和AMBERT-Hybrid替代模型进行了比较。
中文任务
下表1展示了分类任务的结果。可以看到， AMBERT将BERT基线方法的平均得分提升了约1.0% ，并且其性能优于AMBERT-Combo和AMBERT-Hybrid替代模型。
下表2展示了机器阅读理解（MachineReadingComprehensive,MRC）任务上的结果。可以看到， AMBERT将BERT基线的平均得分提升了约3.0% 。
此外，研究者还在CLUE排行榜上将AMBERT与当前最优模型进行了比较，结果如下表所示：
英文任务
研究者在GLUE任务上将AMBERT与BERT模型以及AMBERT-Combo、AMBERT-Hybrid替代模型进行了比较。 GoogleBERT的结果出自原论文， OurBERT的结果由研究者获得。
如下表4所示， AMBERT在大多数任务上的性能优于其他模型，并且AMBERT等多粒度模型能够取得优于单粒度模型的结果。在多粒度模型中， AMBERT在参数和计算量更少的情况下依然实现了最佳性能。

文章图片
研究者在SQuAD任务上将AMBERT与其他BERT模型进行了比较。 GoogleBERT结果出自原论文或者由研究者使用官方代码运行获得。
如下表5所示， AMBERT在SQuAD任务上显著优于GoogleBERT 。 OurBERT(word)通常表现良好， OurBERT(phrase)在跨度检测任务上表现糟糕。
此外，在RACE任务上， AMBERT在所有开发集和测试集的基线中表现最好。
AMBERT是最佳的多粒度模型。

文章图片
最后，研究者在GLUE和MRC任务上将AMBERT与SOTA模型进行了比较，结果如下表6所示：
案例研究
研究者对BERT和AMBERT的结果进行了定性研究，结果如下表7所示，研究者给出了蕴含任务QNLI和CMNLI的一些随机示例。其中数值「0」表示有蕴含关系，数值「1」表示无蕴含关系。 WORD/PHRASE表示OurBERT的词或者短语。

文章图片
【来源：爱因儿科技】
声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。邮箱地址：newmedia@xxcb.cn

李航等提出多粒度AMBERT模型，中文提升显著

推荐阅读

怎么清洗衣服上的丙烯颜料如何清洗衣服上弄到的丙烯颜料油渍

步入社会后，你还有没有遇到过让你怦然心动的人

美国得州883个托儿所发现新冠|美国得州883个托儿所发现新冠！具体是怎么回事？多少人被感染了？附详细数据！

萌萌觅食记|家庭简易版烧烤方法简单，上桌一秒光，牛肉这样做比烧烤店还好吃

x79主板配什么cpu好?x79主板用什么CPU

练瑜伽能瘦腿吗

电视之父是谁？

冬季，羽绒服里边搭什么？

有一种“精明”叫张碧晨，未婚生子四年后，才看懂她的高端棋局

突破领域边界，探索文创文保新趋势

「孕妇」孕妇可以吃猪尾巴吗

菊花普洱的冲泡饮法,普洱茶正确的冲泡方法

信用卡最低还款额什么意思最低还款额是什么意思

几点喝姜茶你知道吗,你知道吗

国足|敢信么？日澳媒体：中国男足硬实力亚洲第3，仅次于日韩，远超澳洲伊朗

商务部新闻发言人就美方禁止与WeChat和TikTok有关交易答记者问

古树红茶上市了吗,雨林古树红茶流霞价格

春节给老公的祝福语有哪些春节送给老公的祝福语

ribbon是什么意思(everlasting的近义词)

教你用一根线穿针技巧, 我也是今天才知道, 看完赶紧提醒家里人