|阿里云开源业界首个面向NLP场景深度迁移学习框架
机器之心发布
机器之心编辑部
阿里云正式开源了深度迁移学习框架 EasyTransfer , 本文详细介绍了 EasyTransfer 框架的核心功能
近日 , 阿里云正式开源了深度迁移学习框架 EasyTransfer , 这是业界首个面向 NLP 场景的深度迁移学习框架 。
开源链接:https://github.com/alibaba/EasyTransfer
该框架由阿里云机器学习 PAI 团队研发 , 让自然语言处理场景的模型预训练和迁移学习开发与部署更加简单和高效 。
面向自然语言处理场景的深度迁移学习在现实场景里有巨大的需求 , 因为大量新的领域不断涌现 , 传统的机器学习需要对每个领域都积累大量训练数据 , 这将会耗费大量标注的人力与物力 。 深度迁移学习技术可以将源领域学到的知识迁移到新的领域的任务 , 进而大大减少标注的资源 。
尽管面向自然语言场景的深度迁移学习有很多的需求 , 目前开源社区还没有一个完善的框架 , 而且构建一个简单易用且高性能的框架有巨大挑战 。
首先 , 预训练模型加知识迁移现在是主流的 NLP 应用模式 , 通常预训练模型尺寸越大学习到的知识表征越有效 , 然而超大的模型给框架的分布式架构带来了巨大挑战 。 如何提供一个高性能的分布式架构 , 从而有效支持超大规模的模型训练 。
其次 , 用户应用场景的多样性很高 , 单一的迁移学习算法无法适用 , 如何提供一个完备的迁移学习工具来提升下游场景的效果 。
第三 , 从算法开发到业务落地通常需要很长的链路 , 如何提供一个简单易用的从模型训练到部署的一站式服务 。
面对这三大挑战 , PAI 团队推出了 EasyTransfer , 一个简单易用且高性能的迁移学习框架 。 框架支持主流的迁移学习算法 , 支持自动混合精度、编译优化和高效的分布式数据 / 模型并行策略 , 适用于工业级的分布式应用场景 。
值得一提的是 , 配合混合精度、编译优化和分布式策略 , EasyTransfer 支持的 ALBERT 模型比社区版的 ALBERT 在分布式训练的运算速度上快 4 倍多 。
同时 , 经过了阿里内部 10 多个 BU , 20 多个业务场景打磨 , 给 NLP 和迁移学习用户提供了多种便利 , 包括业界领先的高性能预训练工具链和预训练 ModelZoo , 丰富易用的 AppZoo , 高效的迁移学习算法 , 以及全面兼容阿里巴巴 PAI 生态产品 , 给用户提供一个从模型训练到部署的一站式服务 。
阿里云机器学习 PAI 团队负责人林伟表示:本次开源 EasyTransfer 代码 , 希望把阿里能力赋能给更多的用户 , 降低 NLP 的预训练和知识迁移的门槛 , 同时也和更多伙伴一起深入合作打造一个简单 , 易用 , 高性能的 NLP 和迁移学习工具 。
本文插图
框架六大亮点
简单高性能的框架:屏蔽复杂的底层实现 , 用户只需关注模型的逻辑结构 , 降低了 NLP 和迁移学习的入门门槛;同时 , 框架支持工业级的分布式应用场景 , 改善了分布式优化器 , 配合自动混合精度 , 编译优化 , 和高效的分布式数据 / 模型并行策略 , 做到比社区版的多机多卡分布式训练在运算速度上快 4 倍多;
语言模型预训练工具链:支持完整的预训练工具链 , 方便用户预训练语言模型如 T5 和 BERT , 基于该工具链产出的预训练模型在中文 CLUE 榜单和英文 SuperGLUE 榜单取得很好的成绩;
丰富且高质量的预训练模型 ModelZoo:支持 PAI-ModelZoo , 支持 Bert , Albert , Roberta , XLNet , T5 等主流模型的 Continue Pretrain 和 Finetune 。 同时支持自研的多模态模型服装行业的 Fashionbert 等;
丰富且易用的应用 AppZoo:支持主流的 NLP 应用和自研的模型应用 , 比方说文本匹配下支持 DAM++、HCNN 等单塔模型 , 以及 BERT 双塔 + 向量召回模型;阅读理解下支持 BERT-HAE 等模型;
推荐阅读
- 用户|拼多多涨超20%,用户数增长逼近阿里,疯狂地创造长期价值
- 农业|西安仓开仓 阿里数字农业再布局
- 路遇十三|提取阿里、淘宝小视频软件,可快速批量提取淘宝视频事前准备:步骤演示:
- 京东|BATJ的江湖:腾讯称雄文娱,阿里京东逐鹿电商物流
- 京东|京东健康上市在即,能与阿里健康一战否?
- 腾讯|“收割者”:腾讯阿里的“20万亿帝国”
- 城外诚|城外诚与阿里天淘“联姻” AI新零售成“秘密武器”
- 北京商报|城外诚与阿里天淘“联姻”AI新零售成“秘密武器”
- Kaldi|Daniel Povey:Kaldi 核心算法K2 0.1版本已发布,未来将坚持开源
- AI烽火|小米和阿里都在用的产品研制之道