|预训练语言模型：还能走多远？( 四 )

本文插图

这里我们也延续了知识增强的思路，例如语言维度其实是难以正确预测这个词是什么，所以它必须去借助视觉知识去预测细粒度的语义。
应用方面，预训练语言模型在产业界也非常有应用价值。 ERNIE的技术用到了百度搜索、视频推荐、百度地图、小度音箱里等，都取得了很多的不错的效果，这在百度内部已经用得非常广泛了。
以上讲的都是算法方面的工作，接下来再讲讲我们最近发布的文心ERNIE平台。

本文插图

先从产业的角度去分析预训练语言模型的特点，首先这个技术非常通用，它在绝大部分自然语言处理任务上提升都十分显著；它的使用方式也很标准，通过预训练微调的方式就可以适配应用。所以，我们推出了文心平台，把一整套的预训练语言模型和NLP算法集成到平台里面，然后让企业界的开发者使用我们的平台，能够通过平台Fine-tuning他们自己的模型，定制自己的算法。因为NLP算法的定制需要投入大量人力、物力、财力，但是通过我们的平台去开展工作会降低相当大的成本。我们这个平台自推出来以后，国内大概有2万个的开发者都在使用，包含了金融、通信、教育等行业。
3尚利峰：华为诺亚预训练语言模型的研究与思考
各位老师同学下午好，非常高兴有这个机会跟大家一起分享我们华为诺亚最近在预训练语言模型上的一些研究和思考。主要是我们最近两年的研究工作，从三个方面来进行分享。
第一点是关于如何做一个更好的大模型。第二点是如何对大模型进行压缩加速，以实现模型的产品化。第三点是我们对未来的一些思考，即如何更好地进行知识的获取。

本文插图

首先来看一下我们今年ACL的一个模型解释分析的工作。我们想知道预训练语言模型到底学到了什么东西？它是否学到了一些底层的句法结构？
我们提出了一个比较简单的无监督非参的分析方法，首先定义了一个任何两个词之间的影响函数。有了它之后，便可以很容易地得到这样一个热力图，可以算出任何两个词之间的相互关系。之后便可以按照一个简单的算法来抽取出一些句法结构。这种自动抽取的句法结构可以达到和人工设计相当的一个效果，这是非常令人震惊的。当然，我们也可以把它用到下游任务上，发现效果也是非常不错的。除了句法结构，我们还扩展到了文档的篇章结构。
预训练语言模型在抽取句法结构上是不错，那么它是否也学到了浅层语义呢？例如：一些类似语义角色标注的能力。我们在CoQA任务上进行了验证。 DistilBERT、BERT、和RoBERTa ，是三个非常典型的预训练模型，它们在结构上非常一致，主要的差别在于模型的大小以及训练语料的多少。
最终，我们得出了结论：BERT或者DistilBERT非常依赖于词序的一些表面特征，很多时候并非真的理解了语义。虽然RoBERTa的表现有进一步提升，但它还是不能解决合成语义的问题。

本文插图

除了更好地理解预训练语言模型，我们在预训练语言模型本身创新上也做了一些研究工作。
我们知道预训练模型非常依赖于预训练任务的设计，刚才大家也提到了概率掩码已经被验证是非常成功的，但是原始的掩码概率是一个固定的值，为什么是0.15这样的一个值呢？
后来我们就假设它服从一个先验分布，如果它是一个均匀分布的话，我们从理论上证明了它其实等效于一个autoregressive permutated language model 。

|预训练语言模型：还能走多远？( 四 )

推荐阅读

杨幂|杨幂，成毅，伦，易梦玲，奚梦瑶

汽车减速只会踩刹车作为合格的车主，这3种减速方式应切换自如

职业教育|为什么在毕业五六年之后，才发现公务员是真的香？现在也不晚！

新的平底锅买回来第一次怎么用

捡到10万元钻戒以为是道具■跑车掉下10万元钻戒，拾到者以为是道具

「娱乐密探」而黑过张馨予的人，远远多过喜爱她的人。，作为明星总有会被黑的时分

「郑智」抬价开始？内马尔转会定价1.64亿，皇马参与追逐战！巴萨这下难了

中国银行保险报|年内第6家汇丰银行（中国）支行关闭

『树诚教育』全世界都一样，学习是辛苦的

声带麻痹会呼吸困难吗

时尚星闻|真的是团队的锅吗？，粉丝越管越宽？一言不合就开骂

猫眼看数码三款适合大学生的5G手机盘点用满四年无压力，价格不超3000元高通骁龙865：红米K30 Pro联发科天玑1000 Plus：iQOO Z1麒麟990 5G：荣耀V30 Pro

扬子晚报|热心群众报警疑似酒驾，司机被查后还坚称自己没开车

罗志祥@罗志祥干妈再发声，对周扬青态度360度大转变

内双眼皮如何画眼妆！内双眼皮化妆技巧

「减肥」减肥怎么吃？这样的健身食谱想不瘦都难！

立案后多久通知被告(民事诉讼立案后多久通知被告人)

8月出生的属于什么星座 8月出生的是什么星座

上大学怀念高中生活?好想念高中的日子

#育妈记#普通人很少用，为什么女明星更容易怀上双胞胎？这两个秘诀