『搜索引擎』速度×6,模型缩小20倍:华为&华科TinyBERT做搜索,性能达BERT90%( 二 )


本文插图
应用知识蒸馏(knowledge distillation , KD)的方法 , 大型教师模型BERT中编码的大量知识 , 能被很好地迁移到小型学生模型TinyBERT中 。
研究人员还提出了一种专门用于TinyBERT的两段式学习框架 , 分别在预训练阶段和特定任务学习阶段进行transformer蒸馏 。
这样 , 就能确保TinyBERT可以获取教师模型在通用和特定任务知识上的经验 。
『搜索引擎』速度×6,模型缩小20倍:华为&华科TinyBERT做搜索,性能达BERT90%
本文插图
在GLUE基准上 , TinyBERT的性能与BERT相当 , 仅下降了3个百分点 。
『搜索引擎』速度×6,模型缩小20倍:华为&华科TinyBERT做搜索,性能达BERT90%
本文插图
并且 , 模型大小不到不到BERT的1/7 , 推理速度是BERT的9.4倍 。
『搜索引擎』速度×6,模型缩小20倍:华为&华科TinyBERT做搜索,性能达BERT90%
本文插图
传送门 博客:https://towardsdatascience.com/tinybert-for-search-10x-faster-and-20x-smaller-than-bert-74cd1b6b5aec
TinyBERT论文:https://arxiv.org/abs/1909.10351
TinyBERT开源地址:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT
— 完 —
量子位 QbitAI · ***签约
【『搜索引擎』速度×6,模型缩小20倍:华为&华科TinyBERT做搜索,性能达BERT90%】关注我们 , 第一时间获知前沿科技动态


推荐阅读