|预训练语言模型：还能走多远？( 三 )

2孙宇：百度语义理解技术与平台——文心(ERNIE)
我这里主要介绍百度在预训练语言模型这方面的工作。我们去年发布了第一版预训练语言模型，名字叫ERNIE ，中文名叫“文心” 。

本文插图

我们的工作主要有两大方面：一是预训练算法，在算法方面我们布局了包括基础技术、应用技术、领域技术和拓展技术，对于不同的语言粒度和任务层次构建不同的预训练模型，同时在类似金融和法律等多领域去探索相关行业模型。二是平台，我们基于预训练模型构建成了一个平台，提供给企业NLP开发者使用，助力产业智能化发展。

本文插图

接下来我介绍一下ERNIE的整体发展历程。在2019年3月，我们发布了ERNIE1.0模型，它在中文上超越了BERT 。在7月份，我们发现持续的引入知识对预训练模型有一定的效果，于是又提出了ERNIE2.0 。
在11月份，我们将ERNIE进行了开源，为企业开发者提供给基于ERNIE预训练技术的NLP产业化的工具。在12月份，我们在ERNIE2.0的基础上又做了很多的改进，最后在GLUE上获得了第一。
今年1月份，我们在语言生成的领域也取得了一些新的突破。 3月，我们基于ERNIE做了SemEval国际语义测评，在情感分析和文本审核等方面都取得了冠军，文心这个工作也获得了中国人工智能学会的优秀成果奖。 7月份，我们又在跨模态领域进行了预训练的迁移，提出了ERNIE-ViL ，即一个语言与视觉的模型，效果也非常好。在9月份，我们把预训练模型产品化，发布了文心平台，助力整个产业的智能化升级。
第一部分，主要介绍文心（ERNIE）算法与应用。重点介绍几个典型的算法工作和它们在百度的一些应用。
ERNIE1.0是一个知识增强的语义表示模型，它通过把词、短语、实体进行掩码，再去预测，让模型去学习这个知识，这个效果其实很明显，提升也比较大。我们后来也将之扩展到英文上，发现可推广性也是很强的。
七月份的时候我们发现，虽然mask看起来手段比较简单，但确实能学习知识，能预测出丢失的知识，因而我们思考是否能引入更多的类似知识来进行学习。然而我们在进行这项工作的时候发现一个了问题，就是学新忘旧。
所以我们提出了一个比较巧妙的思想，即通过持续不断地学习新任务的方式，多阶段地去学习海量数据，这就是ERNIE2.0核心方法之一。
这里面我们提了三个比较有意思的任务。第一个刚才已经讲过，即预测掩码。第二个是小学语文题，比如说我们让模型去排序被我们打乱了的句子，让模型去学习逻辑关系。这些知识是我们通过人工构建的，比如去掉句子中的逻辑关系词等。
前面的工作都是面向语言理解领域的，其实我们在语言生成的领域也做了一些比较有意思的工作，这也是第三个任务。这个工作跟刚才ERNIE1.0的思路比较像，它核心思想就是逐词生成。例如当我们想到New York的时候，其实是New York两个词是一个整体，因而在生成的时候，是直接片段的生成，即在生成York的时候是看不到New的。而传统的方法是在生成York的时候，再看到New的这种机制。这个技术也在百度内部取得了很多应用。
跨模态学习也是非常热门的一个方向。我们终于能看到NLP技术运用在视觉领域。在这里跨模态任务其实是起一个中间桥梁作用。例如视觉模态和语言模态是两个模态，我们让机器去看一些图像，然后去理解并回答一些问题，以及去做跨模态的检索，这在工业界是非常有应用价值的。

|预训练语言模型：还能走多远？( 三 )

推荐阅读

杨幂|杨幂，成毅，伦，易梦玲，奚梦瑶

汽车减速只会踩刹车作为合格的车主，这3种减速方式应切换自如

职业教育|为什么在毕业五六年之后，才发现公务员是真的香？现在也不晚！

新的平底锅买回来第一次怎么用

捡到10万元钻戒以为是道具■跑车掉下10万元钻戒，拾到者以为是道具

「娱乐密探」而黑过张馨予的人，远远多过喜爱她的人。，作为明星总有会被黑的时分

「郑智」抬价开始？内马尔转会定价1.64亿，皇马参与追逐战！巴萨这下难了

中国银行保险报|年内第6家汇丰银行（中国）支行关闭

『树诚教育』全世界都一样，学习是辛苦的

声带麻痹会呼吸困难吗

时尚星闻|真的是团队的锅吗？，粉丝越管越宽？一言不合就开骂

猫眼看数码三款适合大学生的5G手机盘点用满四年无压力，价格不超3000元高通骁龙865：红米K30 Pro联发科天玑1000 Plus：iQOO Z1麒麟990 5G：荣耀V30 Pro

扬子晚报|热心群众报警疑似酒驾，司机被查后还坚称自己没开车

罗志祥@罗志祥干妈再发声，对周扬青态度360度大转变

内双眼皮如何画眼妆！内双眼皮化妆技巧

「减肥」减肥怎么吃？这样的健身食谱想不瘦都难！

立案后多久通知被告(民事诉讼立案后多久通知被告人)

8月出生的属于什么星座 8月出生的是什么星座

上大学怀念高中生活?好想念高中的日子

#育妈记#普通人很少用，为什么女明星更容易怀上双胞胎？这两个秘诀