|预训练语言模型:还能走多远?( 四 )


本文插图

这里我们也延续了知识增强的思路 , 例如语言维度其实是难以正确预测这个词是什么 , 所以它必须去借助视觉知识去预测细粒度的语义 。
应用方面 , 预训练语言模型在产业界也非常有应用价值 。 ERNIE的技术用到了百度搜索、视频推荐、百度地图、小度音箱里等 , 都取得了很多的不错的效果 , 这在百度内部已经用得非常广泛了 。
以上讲的都是算法方面的工作 , 接下来再讲讲我们最近发布的文心ERNIE平台 。
|预训练语言模型:还能走多远?
本文插图

先从产业的角度去分析预训练语言模型的特点 , 首先这个技术非常通用 , 它在绝大部分自然语言处理任务上提升都十分显著;它的使用方式也很标准 , 通过预训练微调的方式就可以适配应用 。 所以 , 我们推出了文心平台 , 把一整套的预训练语言模型和NLP算法集成到平台里面 , 然后让企业界的开发者使用我们的平台 , 能够通过平台Fine-tuning他们自己的模型 , 定制自己的算法 。 因为NLP算法的定制需要投入大量人力、物力、财力 , 但是通过我们的平台去开展工作会降低相当大的成本 。 我们这个平台自推出来以后 , 国内大概有2万个的开发者都在使用 , 包含了金融、通信、教育等行业 。
3尚利峰:华为诺亚预训练语言模型的研究与思考
各位老师同学下午好 , 非常高兴有这个机会跟大家一起分享我们华为诺亚最近在预训练语言模型上的一些研究和思考 。 主要是我们最近两年的研究工作 , 从三个方面来进行分享 。
第一点是关于如何做一个更好的大模型 。 第二点是如何对大模型进行压缩加速 , 以实现模型的产品化 。 第三点是我们对未来的一些思考 , 即如何更好地进行知识的获取 。
|预训练语言模型:还能走多远?
本文插图

首先来看一下我们今年ACL的一个模型解释分析的工作 。 我们想知道预训练语言模型到底学到了什么东西?它是否学到了一些底层的句法结构?
我们提出了一个比较简单的无监督非参的分析方法 , 首先定义了一个任何两个词之间的影响函数 。 有了它之后 , 便可以很容易地得到这样一个热力图 , 可以算出任何两个词之间的相互关系 。 之后便可以按照一个简单的算法来抽取出一些句法结构 。 这种自动抽取的句法结构可以达到和人工设计相当的一个效果 , 这是非常令人震惊的 。 当然 , 我们也可以把它用到下游任务上 , 发现效果也是非常不错的 。 除了句法结构 , 我们还扩展到了文档的篇章结构 。
预训练语言模型在抽取句法结构上是不错 , 那么它是否也学到了浅层语义呢?例如:一些类似语义角色标注的能力 。 我们在CoQA任务上进行了验证 。 DistilBERT、BERT、和RoBERTa , 是三个非常典型的预训练模型 , 它们在结构上非常一致 , 主要的差别在于模型的大小以及训练语料的多少 。
最终 , 我们得出了结论:BERT或者DistilBERT非常依赖于词序的一些表面特征 , 很多时候并非真的理解了语义 。 虽然RoBERTa的表现有进一步提升 , 但它还是不能解决合成语义的问题 。
|预训练语言模型:还能走多远?
本文插图

除了更好地理解预训练语言模型 , 我们在预训练语言模型本身创新上也做了一些研究工作 。
我们知道预训练模型非常依赖于预训练任务的设计 , 刚才大家也提到了概率掩码已经被验证是非常成功的 , 但是原始的掩码概率是一个固定的值 , 为什么是0.15这样的一个值呢?
后来我们就假设它服从一个先验分布 , 如果它是一个均匀分布的话 , 我们从理论上证明了它其实等效于一个autoregressive permutated language model 。


推荐阅读