|阿里云开源业界首个面向NLP场景深度迁移学习框架( 三 )


|阿里云开源业界首个面向NLP场景深度迁移学习框架
本文插图

预训练语言模型
自然语言处理的一大热点工作就是预训练语言模型比方说 BERT , ALBERT 等 , 这类模型在各大自然语言处理场景都取得了非常不错的效果 。 为了更好的支持用户使用预训练语言模型 , 我们在新版的迁移学习框架 EasyTransfer 里植入了一套预训练语言模型的标准范式和预训练语言模型库 ModelZoo 。 传统 Albert 为了减少参数总量 , 取消了 bert 的 encoder 堆叠的方式 , 转而采用 encoder 循环的方式 , 如下图所示 。 全循环方式在下游任务上表现并不十分理想 , 于是我们将全循环改为了在 2 层堆叠的 encoder 上全循环 。 然后我们基于英文 C4 数据 , 重新对 Albert xxlarge 进行预训练 。 在预训练的过程中 , 我们仅仅使用 MLM loss , 配合 Whole Word Masking , 基于 EasyTransfer 的 Train on the fly 功能 , 我们实现了 dynamic online masking , 即可以在每次读入原始句子的同时动态生成需要 masking 的 tokens 。 我们最终的预训练模型 PAI-ALBERT-en-large 在 SuperGLUE 榜单上取得国际第二 , 国内第一的成绩 , 模型参数仅仅为第一名 Google T5 的 1/10 , 效果差距在 3.5% 以内 。 后续我们会继续优化模型框架 , 争取以 1/5 的模型参数达到比 T5 更好的效果 。
|阿里云开源业界首个面向NLP场景深度迁移学习框架
本文插图

多模态模型 FashionBERT
随着 Web 技术发展 , 互联网上包含大量的多模态信息 , 包括文本 , 图像 , 语音 , 视频等 。 从海量多模态信息搜索出重要信息一直是学术界研究重点 。 多模态匹配核心就是图文匹配技术(Text and Image Matching) , 这也是一项基础研究 , 在非常多的领域有很多应用 , 例如 图文检索(Cross-modality IR) , 图像标题生成(Image Caption) , 图像问答系统(Vision Question Answering) ,图像知识推理(Visual Commonsense Reasoning) 。 但是目前学术界研究重点放在通用领域的多模态研究 , 针对电商领域的多模态研究相对较少 。 基于此 , 我们和阿里 ICBU 团队合作提出了 FashionBERT 多模态预训练模型 , 针对电商领域的图文信息进行预训练的研究 , 在多个跨模态检索和图文匹配等业务场景都有成功的应用 。 模型架构图如下所示 。 该工作提出了 Adaptive Loss , 用于平衡图文匹配 , 纯图片 , 和纯文本三部分 loss 。
|阿里云开源业界首个面向NLP场景深度迁移学习框架
本文插图

任务自适应的知识蒸馏
预训练模型从海量无监督数据中提取通用知识 , 并通过知识迁移的方法提升下游任务的效果 , 在场景里取得了优异的效果 。 通常预训练模型尺寸越大 , 学习到的知识表征对下游任务越有效 , 带来的指标提升也越明显 。 然而大模型显然无法满足工业界应用的时效性需求 , 因此需要考虑模型压缩 。 我们和阿里智能计算团队合作提出了一种全新的压缩方法 AdaBERT , 利用可微神经架构搜索(Differentiable Neural Architecture Search)自动地将 BERT 压缩成任务自适应的小型模型 。 在这个过程中 , 我们将 BERT 作为老师模型 , 提炼它在目标任务上有用的知识;在这些知识的指导下 , 我们自适应地搜索一个适合目标任务的网络结构 , 压缩得到小规模的学生模型 。 我们在多个 NLP 公开任务上进行了实验评估 , 结果显示经由 AdaBERT 压缩后的小模型在保证精读相当的同时 , 推理速度比原始 BERT 快 12.7 到 29.3 倍 , 参数规模比原始 BERT 小 11.5 到 17.0 倍。
|阿里云开源业界首个面向NLP场景深度迁移学习框架
本文插图


推荐阅读