|阿里云开源业界首个面向NLP场景深度迁移学习框架( 三 )

本文插图

预训练语言模型
自然语言处理的一大热点工作就是预训练语言模型比方说 BERT ， ALBERT 等，这类模型在各大自然语言处理场景都取得了非常不错的效果。为了更好的支持用户使用预训练语言模型，我们在新版的迁移学习框架 EasyTransfer 里植入了一套预训练语言模型的标准范式和预训练语言模型库 ModelZoo 。传统 Albert 为了减少参数总量，取消了 bert 的 encoder 堆叠的方式，转而采用 encoder 循环的方式，如下图所示。全循环方式在下游任务上表现并不十分理想，于是我们将全循环改为了在 2 层堆叠的 encoder 上全循环。然后我们基于英文 C4 数据，重新对 Albert xxlarge 进行预训练。在预训练的过程中，我们仅仅使用 MLM loss ，配合 Whole Word Masking ，基于 EasyTransfer 的 Train on the fly 功能，我们实现了 dynamic online masking ，即可以在每次读入原始句子的同时动态生成需要 masking 的 tokens 。我们最终的预训练模型 PAI-ALBERT-en-large 在 SuperGLUE 榜单上取得国际第二，国内第一的成绩，模型参数仅仅为第一名 Google T5 的 1/10 ，效果差距在 3.5% 以内。后续我们会继续优化模型框架，争取以 1/5 的模型参数达到比 T5 更好的效果。

本文插图

多模态模型 FashionBERT
随着 Web 技术发展，互联网上包含大量的多模态信息，包括文本，图像，语音，视频等。从海量多模态信息搜索出重要信息一直是学术界研究重点。多模态匹配核心就是图文匹配技术(Text and Image Matching) ，这也是一项基础研究，在非常多的领域有很多应用，例如图文检索(Cross-modality IR) ，图像标题生成(Image Caption) ，图像问答系统(Vision Question Answering) ，图像知识推理(Visual Commonsense Reasoning) 。但是目前学术界研究重点放在通用领域的多模态研究，针对电商领域的多模态研究相对较少。基于此，我们和阿里 ICBU 团队合作提出了 FashionBERT 多模态预训练模型，针对电商领域的图文信息进行预训练的研究，在多个跨模态检索和图文匹配等业务场景都有成功的应用。模型架构图如下所示。该工作提出了 Adaptive Loss ，用于平衡图文匹配，纯图片，和纯文本三部分 loss 。

本文插图

任务自适应的知识蒸馏
预训练模型从海量无监督数据中提取通用知识，并通过知识迁移的方法提升下游任务的效果，在场景里取得了优异的效果。通常预训练模型尺寸越大，学习到的知识表征对下游任务越有效，带来的指标提升也越明显。然而大模型显然无法满足工业界应用的时效性需求，因此需要考虑模型压缩。我们和阿里智能计算团队合作提出了一种全新的压缩方法 AdaBERT ，利用可微神经架构搜索（Differentiable Neural Architecture Search）自动地将 BERT 压缩成任务自适应的小型模型。在这个过程中，我们将 BERT 作为老师模型，提炼它在目标任务上有用的知识；在这些知识的指导下，我们自适应地搜索一个适合目标任务的网络结构，压缩得到小规模的学生模型。我们在多个 NLP 公开任务上进行了实验评估，结果显示经由 AdaBERT 压缩后的小模型在保证精读相当的同时，推理速度比原始 BERT 快 12.7 到 29.3 倍，参数规模比原始 BERT 小 11.5 到 17.0 倍。

本文插图

|阿里云开源业界首个面向NLP场景深度迁移学习框架( 三 )

推荐阅读

冯巩 |冯巩罕晒09年春晚红西服，十多年来仍然合身，疑似要去拍卖？

独特的乳名女孩名字大全独特的乳名女孩

新华社|脱贫的颜色--吉林延边一个少数民族村屯的国庆假期

球探体育@英雄联盟2020LPL春季赛分析：OMG战队对阵VG战队

伤感英文名字男伤感英文名

「四川」2020年度四川省氢能源与智能汽车、智能制造与机器人补充征集啦~

上海一个多月来雨量、雨日、日照等多项气象数据创历史同期极值

东方网|上海迪士尼乐园下周一起实行预约新规

违法|宋清辉：从严监管是近几年监管层主基调为中小投资者创造健康环境

数读7月23日全球疫情：全球日增确诊超29万累计逾1563万美国新增超7.1万

章鱼■人的视力在动物界什么水平？算是顶尖高手吗？

经济|评论：美联储“鸽声”乏力 “水牛”市存回调风险

|细节决定成败，这几点新手很容易忽视的问题

IT之家▲66等多款游戏本将搭载Killer E3100网卡，最高支持2.5Gbps，微星GS

事业编和公务员有什么区别？

宝马@美团：将组织全部在京外卖骑手进行核酸检测

为什么我说小沈阳参拍《孤军》是个错误

红茶和滇红有哪些区别,苏州碧螺春红茶

淮山痒怎么止痒山药痒怎么快速止痒

『手机大魔王』苹果真要小心了，诺基亚的23年！从一部手机卖出2.5亿台到衰败