|预训练语言模型：还能走多远？( 六 )

本文插图

现实生产中有许多不同的要求，端的或者云的，得将模型推理做到很快。我们和诺亚AI使能团队进行合作，基于他们开发的深度学习加速库BOLT ，实现了不同硬件平台的进一步加速。

本文插图

下面是我们对未来的一些思考，首先做一个非常简单的预训练模型发展历史回顾。我从两个维度来说，即更好的大模型和更快的小模型。
关于更好的大模型，大家已经做了很多解释分析，在NLP这一块已经非常成功了。那怎么来扩展到其他领域，比如视觉、信息检索和软件工程，还包括怎么来做多模态视觉文本实现更好的视频内容理解。
在更快的小模型研究这块，首先存在一个现实挑战是，很多工业应用仍然部署在CPU或端侧设备上。有一个非常核心的问题，就是不同业务或者硬件平台上，最逼近大模型的小模型是什么？它的结构到底是怎么样的？其实不同的任务还是非常不一样的。
最后一个问题就是 GPT-3出来之后，我们是否就可以做知识的表示和推理了，是否就可以做所谓的第三代人工智能了？
我们回过头来再看一下这个问题，语言是我们研究的对象，那它到底是什么？刚才邱老师讲到有两类知识，一个是语言知识，一个是世界知识。语言的本质是什么？我很喜欢的一句话“语言其实是生活形式论下的世界万物流变” ，语言不仅仅是一个序列，其实还依赖于真实的世界，而真实世界又是不断变化的。所以很多知识是非常离散的，要用一个统计模型来表达世界知识还是很难的。
但是不可否认预训练模型已经在语言结构知识建模方面发展到了一个极致。无论如何预训练语言模型还是一种统计方法，因此必然存在“语义盲区”的问题。我们现实中也发现它非常倾向于给出一些安全的预测。
我们再看另外一个问题，即推理的问题。到现在为止还没有一个通用的推理工具。就算Transformer是这么强大的模型，那它是否可以来实现通用推理呢？
我们推理是为了举一反三，是为了建模一种获取新知识的能力。但我们知道人类获得新知识的能力是丰富多样的，不仅仅依靠理性推理，可能还依靠直觉等其他方式。所以用一个通用的GPT大模型来表达知识和推理，还是存在一些问题的。

本文插图

既然要完全实现知识表达和推理，还有一定的距离。那我们是否可以思考另外一个问题，是否可以通过预训练模型从现有的大规模的文本知识里快速获取知识？换言之，现有的海量文本、图像、视频等已经包含大量的知识，怎么从现有的海量知识中更加准确快速地来获取想要的信息？
4讨论环节
问题纲要：

预训练语言模型还能给我们带来哪些惊喜？
“大力出奇迹”这条路还能继续下去吗？
预训练语言模型还有哪些潜在的突破口？
预训练语言模型亟待解决的问题有哪些？

刘知远：GPT-3依赖超大算力，别说小公司，可能很多大公司也都承受不起。那么这条路还能不能走下去？大家可以畅想一下。
然后就是预训练语言模型可能还有潜在的突破口？它的面临的问题有哪些，有什么样的解决办法？
我觉得目前预训练语言模型应该是NLP一个非常前沿的方向，从很多今年的论文来看，基本上都在和这个相关。
关于未来的发展方向，我认为光“大力出奇迹”可能不行。很多学者都提到：其实我们的大脑并不是一个白板，可能是有一些更高级或者结构性的东西。