|预训练语言模型:还能走多远?( 三 )


2孙宇:百度语义理解技术与平台——文心(ERNIE)
我这里主要介绍百度在预训练语言模型这方面的工作 。 我们去年发布了第一版预训练语言模型 , 名字叫ERNIE , 中文名叫“文心” 。
|预训练语言模型:还能走多远?
本文插图

我们的工作主要有两大方面:一是预训练算法 , 在算法方面我们布局了包括基础技术、应用技术、领域技术和拓展技术 , 对于不同的语言粒度和任务层次构建不同的预训练模型 , 同时在类似金融和法律等多领域去探索相关行业模型 。 二是平台 , 我们基于预训练模型构建成了一个平台 , 提供给企业NLP开发者使用 , 助力产业智能化发展 。
|预训练语言模型:还能走多远?
本文插图

接下来我介绍一下ERNIE的整体发展历程 。 在2019年3月 , 我们发布了ERNIE1.0模型 , 它在中文上超越了BERT 。 在7月份 , 我们发现持续的引入知识对预训练模型有一定的效果 , 于是又提出了ERNIE2.0 。
在11月份 , 我们将ERNIE进行了开源 , 为企业开发者提供给基于ERNIE预训练技术的NLP产业化的工具 。 在12月份 , 我们在ERNIE2.0的基础上又做了很多的改进 , 最后在GLUE上获得了第一 。
今年1月份 , 我们在语言生成的领域也取得了一些新的突破 。 3月 , 我们基于ERNIE做了SemEval国际语义测评 , 在情感分析和文本审核等方面都取得了冠军 , 文心这个工作也获得了中国人工智能学会的优秀成果奖 。 7月份 , 我们又在跨模态领域进行了预训练的迁移 , 提出了ERNIE-ViL , 即一个语言与视觉的模型 , 效果也非常好 。 在9月份 , 我们把预训练模型产品化 , 发布了文心平台 , 助力整个产业的智能化升级 。
第一部分 , 主要介绍文心(ERNIE)算法与应用 。 重点介绍几个典型的算法工作和它们在百度的一些应用 。
ERNIE1.0是一个知识增强的语义表示模型 , 它通过把词、短语、实体进行掩码 , 再去预测 , 让模型去学习这个知识 , 这个效果其实很明显 , 提升也比较大 。 我们后来也将之扩展到英文上 , 发现可推广性也是很强的 。
七月份的时候我们发现 , 虽然mask看起来手段比较简单 , 但确实能学习知识 , 能预测出丢失的知识 , 因而我们思考是否能引入更多的类似知识来进行学习 。 然而我们在进行这项工作的时候发现一个了问题 , 就是学新忘旧 。
所以我们提出了一个比较巧妙的思想 , 即通过持续不断地学习新任务的方式 , 多阶段地去学习海量数据 , 这就是ERNIE2.0核心方法之一 。
这里面我们提了三个比较有意思的任务 。 第一个刚才已经讲过 , 即预测掩码 。 第二个是小学语文题 , 比如说我们让模型去排序被我们打乱了的句子 , 让模型去学习逻辑关系 。 这些知识是我们通过人工构建的 , 比如去掉句子中的逻辑关系词等 。
前面的工作都是面向语言理解领域的 , 其实我们在语言生成的领域也做了一些比较有意思的工作 , 这也是第三个任务 。 这个工作跟刚才ERNIE1.0的思路比较像 , 它核心思想就是逐词生成 。 例如当我们想到New York的时候 , 其实是New York两个词是一个整体 , 因而在生成的时候 , 是直接片段的生成 , 即在生成York的时候是看不到New的 。 而传统的方法是在生成York的时候 , 再看到New的这种机制 。 这个技术也在百度内部取得了很多应用 。
跨模态学习也是非常热门的一个方向 。 我们终于能看到NLP技术运用在视觉领域 。 在这里跨模态任务其实是起一个中间桥梁作用 。 例如视觉模态和语言模态是两个模态 , 我们让机器去看一些图像 , 然后去理解并回答一些问题 , 以及去做跨模态的检索 , 这在工业界是非常有应用价值的 。
|预训练语言模型:还能走多远?


推荐阅读