通俗解构语言大模型的工作原理 _语言大模型

编译：OneFlow
作者｜Tim Lee、Sean Trott

文章插图
图片来源：由无界 AI生成
语言大模型内部究竟是如何工作的？本文用最少的数学知识和术语进行解释。
本文作者Tim Lee曾任职科技媒体Ars Technica ，他近期推出了一份Newsletter《Understanding AI》，主要探讨人工智能的工作原理。Sean Trott是加利福尼亚大学圣迭戈分校助理教授，他在研究人类语言理解和语言模型。（以下内容经授权后由OneFlow编译发布，转载请联系OneFlow获得授权。原文：https://www.understandingai.org/p/large-language-models-explained-with）
当ChatGPT在去年秋天推出时，在科技行业乃至世界范围内引起了轰动。当时，机器学习研究人员尝试研发了多年的语言大模型（LLM），但普通大众并未十分关注，也没有意识到它们变得多强大。
如今，几乎每个人都听说过LLM ，并有数千万人用过它们，但是，了解工作原理的人并不多。你可能听说过，训练LLM是用于“预测下一个词” ，而且它们需要大量的文本来实现这一点。但是，解释通常就止步于此。它们如何预测下一个词的细节往往被视为一个深奥的谜题。
其中一个原因是，这些系统的开发方式与众不同。一般的软件是由人类工程师编写，他们为计算机提供明确的、逐步的指令。相比之下， ChatGPT是建立在一个使用数十亿个语言词汇进行训练的神经网络之上。
因此，地球上没有人完全理解LLM的内部工作原理。研究人员正在努力尝试理解这些模型，但这是一个需要数年甚至几十年才能完成的缓慢过程。
然而，专家们确实对这些系统的工作原理已有不少了解。本文的目标是将这些知识开放给广大受众。我们将努力解释关于这些模型内部工作原理的已知内容，而不涉及技术术语或高级数学。
我们将从解释词向量（word vector）开始，它是语言模型表示和推理语言的一种令人惊讶的方式。然后，我们将深入探讨构建ChatGPT等模型的基石Transformer 。最后，我们将解释这些模型是如何训练的，并探讨为什么要使用庞大的数据量才能获得良好的性能。
词向量
要了解语言模型的工作原理，首先需要了解它们如何表示单词。人类用字母序列来表示英文单词，比如C-A-T表示猫。语言模型使用的是一个叫做词向量的长串数字列表。例如，这是一种将猫表示为向量的方式：
[0.0074, 0.0030, -0.0105, 0.0742, 0.0765, -0.0011, 0.0265, 0.0106, 0.0191, 0.0038, -0.0468, -0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]
（注：完整的向量长度实际上有300个数字）
为什么要使用如此复杂的表示法？这里有个类比，华盛顿特区位于北纬38.9度，西经77度，我们可以用向量表示法来表示：
• 华盛顿特区的坐标是[38.9 ， 77]
• 纽约的坐标是[40.7 ， 74]
• 伦敦的坐标是[51.5 ， 0.1]
• 巴黎的坐标是[48.9 ， -2.4]
这对于推理空间关系很有用。你可以看出，纽约离华盛顿特区很近，因为坐标中38.9接近40.7 ， 77接近74 。同样，巴黎离伦敦也很近。但巴黎离华盛顿特区很远。
语言模型采用类似的方法：每个词向量代表了“词空间（word space）”中的一个点，具有相似含义的词的位置会更接近彼此。例如，在向量空间中与猫最接近的词包括狗、小猫和宠物。用实数向量表示单词（相对于“C-A-T”这样的字母串）的一个主要优点是，数字能够进行字母无法进行的运算。
单词太复杂，无法仅用二维表示，因此语言模型使用具有数百甚至数千维度的向量空间。人类无法想象具有如此高维度的空间，但计算机完全可以对其进行推理并产生有用的结果。
几十年来，研究人员一直在研究词向量，但这个概念真正引起关注是在2013年，那时google公布了word2vec项目。Google分析了从Google新闻中收集的数百万篇文档，以找出哪些单词倾向于出现在相似的句子中。随着时间的推移，一个经训练过的神经网络学会了将相似类别的单词（如狗和猫）放置在向量空间中的相邻位置。

通俗解构语言大模型的工作原理

推荐阅读

不同风格的精彩碰撞，华为Mate 30 Pro手机壳

三伏贴上午贴还是下午贴三伏贴入伏第一天贴还是第二天贴好

卫衣@卫衣＋烟管裤＝2020巨in混搭，时髦炸了！

魏吉娜丘比特手账魏吉娜是什么意思?

中国日报网|特朗普曾叫他们“挨枪子的笨蛋”...

央视网：捷克总统泽曼驳斥有关对于中国防疫物资质量的指责

典故故事(成语典故)

吃货|被大家误以为是西餐其实是国货，网友：被肯德基骗了多年

穆剑：十首梅花诗，阅尽古今情关于梅花的诗句

奥迪Q5|18万开出60万面子，起步2.0T，一月卖9239辆，迟早逼死奥迪Q5

肺部ct有两张

防汛|3天强降雨致直接损失超十亿元，湖北12地启动防汛应急响应

2022考研笔试什么时候出成绩,2022考研笔试成绩公布时间

过年回家，到底应该给爸妈送啥

创业板|从“鸡犬升天”到“一地鸡毛”，创业板对监管者的新考验

「摩丽星座」是开朗活泼，还是率真烂漫？，十二星座中谁是真正的“外貌协会”

「篮球那些趣事」开衩的设计显得腿很白，黑色制服长裙穿搭

Aggro电竞|Rookie解说S10破防，“小IG”晋级后：明年IG一定重返世界赛

要闻早知道|低于全国！看看你拖后腿了没？，葫芦岛各县市区GDP排名

游戏日报|在个人主页挂了一年半，2年没有再碰过，腐团儿压箱底的COS