李航等提出多粒度AMBERT模型,中文提升显著
选自arXiv
作者:XinsongZhang、李航
机器之心编译
编辑:杜伟、小舟
自谷歌BERT模型问世以来 , 各式各样的BERT变体模型在自然语言理解任务上大显身手 。 近日 , 字节跳动AI实验室李航等研究者提出了一种新型多粒度BERT模型 , 该模型在CLUE和GLUE任务上的性能超过了谷歌BERT、Albert、XLNet等 。
BERT等预训练语言模型在自然语言理解(NaturalLanguageUnderstanding,NLU)的许多任务中均表现出了卓越的性能 。
可以看到 , 模型中的token通常是细粒度的 , 对于像英语这样的语言 , token是单词或子词;对于像中文这样的语言 , 则是单个汉字 。 例如在英语中有多个单词表达式构成的自然词汇单元 , 因此使用粗粒度标记化(tokenization)似乎也是合理的 。 实际上 , 细粒度和粗粒度标记化对于学习预训练语言模型都各有利弊 。
近日 , 字节跳动XinsongZhang、李航两位研究者在细粒度和粗粒度标记化的基础上 , 提出了一种新的预训练语言模型 , 他们称之为AMBERT(一种多粒度BERT) 。 在构成上 , AMBERT具有两个编码器 。
对于英文 , AMBERT将单词序列(细粒度标记)和短语序列(粗粒度标记)作为标记化后的输入 , 其中使用一个编码器处理单词序列 , 另一个编码器处理短语序列 , 并利用两个编码器之间的共享参数 , 最终分别创建单词和短语的上下文表示序列 。

文章图片
【李航等提出多粒度AMBERT模型,中文提升显著】论文链接:https://arxiv.org/pdf/2008.11869.pdf
研究团队已经在一些中文和英文的基准数据集(包括CLUE、GLUE、SQuAD和RACE)上进行了实验 。 实验结果表明 , AMBERT的性能几乎在所有情况下都优于现有的最佳性能模型 。 尤其是对于中文而言 , AMBERT的提升效果显著 。
我们首先看一下中英文任务中细、粗粒度模型层的注意力图 。
下图1显示了适用于中英文句子的细粒度模型的首层注意力图 。 可以看到 , 某些token不恰当地出现在句子的其他token上 。
例如在英文句子中 , 「drawing」、「new」和「dog」分别对「portrait」、「york」和「food」这几个词有高注意力权重 , 但这是不合适的 。 而在中文句子中 , 汉字「拍」、「北」和「长」分别对「卖」「京」「市」有高注意力权重 , 这也是不合适的 。

文章图片
下图2显示了中英文相同句子粗粒度模型的首层注意力图 。
在英文句子中 , 单词组成的短语包括「drawingroom」、「yorkminister」和「dogfood」 , 前两个句子中的注意力是恰当的 , 但最后一个句子则因为不正确的标记化而出现了不恰当的注意力 。 类似地 , 在中文句子中 , 高注意力权重的「球拍(bat)」和「京城(capital)」都是合理的 , 但「市长(mayor)」不合理 。 但请注意:错误的标记化是不可避免的 。

文章图片
接下来详细解读AMBERT模型的细节和实验结果 。
AMBERT模型
研究者在下图3中给出了AMBERT的整体框架 。 AMBERT以文本作为输入 , 其中 , 文本要么是单个文档中的长序列 , 要么是两个不同文档中两个短序列的级联 。 接着在输入文本上进行标记化 , 以获得细、粗粒度的token序列 。

文章图片
AMBERT模型整体框架
具体来说 , AMBERT具有两个编码器 , 分别用于处理细、粗粒度token序列 。 每个编码器具有与BERT(Devlin等人 , 2018)或Transformer编码器(Vaswani等人 , 2017)完全相同的架构 。
此外 , 两个编码器在每个对应层共享相同的参数 , 但两者的嵌入参数不同 。 细粒度编码器在对应层上从细粒度token序列中生成上下文表示 , 而粗粒度编码器在对应层上从粗粒度token序列中生成上下文表示 。
最后 , AMBERT分别输出细、粗粒度token的上下文表示序列 。
预训练
AMBERT的预训练主要基于掩码语言建模(masklanguagemodeling,MLM)进行 , 并从细、粗粒度两个层面展开 。 出于比较的目的 , 研究者在实验中只使用了预测下一个句子(nextsentenceprediction,NSP) 。
预训练过程被定义为以下函数的优化:
微调
在分类任务上的AMBERT微调中 , 细、粗粒度编码器分别创建特定的[CLS]表示 , 并且这些表示都用于分类任务 。 微调过程被定义为以下函数的优化:
类似地 , 我们可以对跨度检测(spandetection)任务上的AMBERT进行微调 , 其中细粒度token的表示与对应粗粒度token的表示实现了级联 。
替代模型
研究者还提出了AMBERT的两种替代模型AMBERT-Combo和AMBERT-Hybrid , 它们也依赖于多粒度的标记化 。 研究者在实验部分也将三者进行了比较 。
实验
在实验部分 , 研究者分别在中英文基准数据集上 , 将AMBERT与细、粗粒度BERT基线以及AMBERT-Combo和AMBERT-Hybrid替代模型进行了比较 。
中文任务
下表1展示了分类任务的结果 。 可以看到 , AMBERT将BERT基线方法的平均得分提升了约1.0% , 并且其性能优于AMBERT-Combo和AMBERT-Hybrid替代模型 。
下表2展示了机器阅读理解(MachineReadingComprehensive,MRC)任务上的结果 。 可以看到 , AMBERT将BERT基线的平均得分提升了约3.0% 。
此外 , 研究者还在CLUE排行榜上将AMBERT与当前最优模型进行了比较 , 结果如下表所示:
英文任务
研究者在GLUE任务上将AMBERT与BERT模型以及AMBERT-Combo、AMBERT-Hybrid替代模型进行了比较 。 GoogleBERT的结果出自原论文 , OurBERT的结果由研究者获得 。
如下表4所示 , AMBERT在大多数任务上的性能优于其他模型 , 并且AMBERT等多粒度模型能够取得优于单粒度模型的结果 。 在多粒度模型中 , AMBERT在参数和计算量更少的情况下依然实现了最佳性能 。

文章图片
研究者在SQuAD任务上将AMBERT与其他BERT模型进行了比较 。 GoogleBERT结果出自原论文或者由研究者使用官方代码运行获得 。
如下表5所示 , AMBERT在SQuAD任务上显著优于GoogleBERT 。 OurBERT(word)通常表现良好 , OurBERT(phrase)在跨度检测任务上表现糟糕 。
此外 , 在RACE任务上 , AMBERT在所有开发集和测试集的基线中表现最好 。
AMBERT是最佳的多粒度模型 。

文章图片
最后 , 研究者在GLUE和MRC任务上将AMBERT与SOTA模型进行了比较 , 结果如下表6所示:
案例研究
研究者对BERT和AMBERT的结果进行了定性研究 , 结果如下表7所示 , 研究者给出了蕴含任务QNLI和CMNLI的一些随机示例 。 其中数值「0」表示有蕴含关系 , 数值「1」表示无蕴含关系 。 WORD/PHRASE表示OurBERT的词或者短语 。

文章图片
【来源:爱因儿科技】
声明:转载此文是出于传递更多信息之目的 。 若有来源标注错误或侵犯了您的合法权益 , 请作者持权属证明与本网联系 , 我们将及时更正、删除 , 谢谢 。 邮箱地址:newmedia@xxcb.cn
推荐阅读
- 3月必吃的6种「春菜」,降压减脂又刮油,错过又要等一年
- 三星堆遗址|三星堆“迁都”猜想|自然灾害说:洪水、地震等致三星堆古城毁亡
- 你煮面条都是等到水开才下锅那你煮面肯定难吃,正确方法在这呢
- 三月不吃它太可惜!比韭菜香,比白菜鲜,错过再等一年
- 鼻炎|清鼻堂科普:鼻炎等孩子长大就好了?长大晚了
- 发作性睡病|30岁女子患发作性睡病 开车等红灯,眼皮自动合上了……
- 人工角膜|每70人只有一人等到捐献角膜!国产人工角膜来了!价格是进口十分之一
- 慢性乙肝|慢性乙肝,为什么要等到转氨酶高,才抗病毒治疗?医生告诉你原因
- 恒瑞|恒瑞、君实、诺和诺德等,6款新药纳入拟突破性治疗品种名单
- 詹姆斯·贝德福德|53年前被冷冻,等待2017年被复活的美国富豪,他的现状如何?
