“怪胎”ChatGPT的前世今生,以及未来( 二 )


这个最初的Transformer模型 , 一共有6500万个可调参数 。谷歌大脑团队使用了多种公开的语言数据集来训练这个最初的Transformer模型 。这些数据集包括2014年英语-德语机器翻译研讨班(WMT)数据集(有450万组英德对应句组) , 2014年英语-法语机器翻译研讨班数据集(3600万英法对应句组) , 以及宾夕法尼亚大学树库语言数据集中的部分句组(分别取了其中来自《华尔街日报》的4万个句子 , 以及另外在该库中选取1700万个句子) 。而且 , 谷歌大脑团队在文中提供了模型的架构 , 任何人都可以用其搭建类似架构的模型来并结合自己手上的数据进行训练 。
经过训练后 , 这个最初的Transformer模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一 , 成为当时最先进的大型语言模型(Large Language Model, LLM) 。

“怪胎”ChatGPT的前世今生,以及未来

文章插图
大型语言模型(LLM)主要大事记
Transformer模型自诞生的那一刻起 , 就深刻地影响了接下来几年人工智能领域的发展轨迹 。短短的几年里 , 该模型的影响已经遍布人工智能的各个领域——从各种各样的自然语言模型、到预测蛋白质结构的AlphaFold2模型 , 用的都是它 。
2. 不断迭代:寻找语言模型的极限
在这么多跟进、研究Transformer模型团队中 , OpenAI公司是少数一直在专注寻找它的极限的一支 。
2015年12月 , OpenAI公司美国旧金山成立 。特斯拉的创始人马斯克也是该公司创始人之一 , 为公司早期提供了资金支持(后来他从该公司退出 , 但保留了金主身份 , 并未撤资) 。成立早期 , OpenAI是一家非营利组织 , 以研发对人类社会有益、友好的人工智能技术为使命 。2019年 , OpenAI改变了其性质 , 宣布成为营利机构 , 这个改变与Transformer模型不无相关 。
2018年 , 在Transformer模型诞生还不到一年的时候 , OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”(用创造型预训练提高模型的语言理解力)(Generative一般译为“生成型” , 但我认为译为“创造型”更合适)[2] , 推出了具有1.17亿个参数的GPT-1(Generative Pre-training Transformers, 创造型预训练变换器)模型 。这是一个用大量数据训练好的基于Transformer结构的模型 。他们使用了经典的大型书籍文本数据集(BookCorpus)进行模型预训练 。该数据集包含超过7000本从未出版的书 , 类型涵盖了冒险、奇幻、言情等类别 。在预训练之后 , 作者针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练(又称为微调 , fine-tuning) 。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景 , 都取得了比基础Transformer模型更优的结果 , 成为了新的业内第一 。
2019年 , 该公司公布了一个具有15亿个参数的模型:GPT-2 。该模型架构与GPT-1原理相同 , 主要区别是GPT-2的规模更大(10倍) 。同时 , 他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners” (语言模型是无监督的多任务学习者)[3] 。在这项工作中 , 他们使用了自己收集的以网页文字信息为主的新的数据集 。不出意料 , GPT-2模型刷新了大型语言模型在多项语言场景的评分记录 。在文中 , 他们提供了GPT-2模型回答新问题(模型训练数据中未出现过的问题及其答案)的结果 。
“怪胎”ChatGPT的前世今生,以及未来

文章插图
GPT-2模型回答新问题的结果(图片来源[3])
2020年 , 这个创业团队再次战胜自己 , 发表论文“Language Models are Few-Shot Learner”(语言模型是小样本学习者)[4] , 并推出了最新的GPT-3模型——它有1750亿个参数 。GPT-3模型架构与GPT-2没有本质区别 , 除了规模大了整整两个数量级以外 。GPT-3的训练集也比前两款GPT模型要大得多:经过基础过滤的全网页爬虫数据集(4290亿个词符)、维基百科文章(30亿词符)、两个不同的书籍数据集(一共670亿词符) 。


推荐阅读