GPT太「奢侈」，平替大汇总来了，再也不用担心部署大难题 _GPT

近年来，生成式预训练模型（如 GPT）的兴起彻底颠覆了自然语言处理领域，其影响甚至已经延伸到其他多种模态。然而，像 ChatGPT 和 GPT-4 这样的模型，由于其巨大的模型规模与计算复杂度、复杂的部署方式以及未开源的训练模型，这些因素都限制了他们在学术界和工业界的推广与应用。因此，易于计算和部署的语言模型成为了人们关注的焦点。

文章插图

论文地址：http://arxiv.org/abs/2308.14149
项目地址：https://Github.com/GPT-Alternatives/gpt_alternatives

本文将从以下几个方面，对 GPT 的平替模型进行研究，从多个维度出发，进行大量实验验证，只为得到更全面更真实的模型测评结果，帮助研究者和从业者更加深入地理解这些模型的基本原理、发展趋势和主要的挑战，并且根据不同需求选择合适的模型。
1. 总结了平替模型的架构、设计方式以及效率与性能的权衡；
2. 梳理了现有的公开数据集并分析了预训练数据源、数据质量、数量、多样性、微调数据（包括指令数据、对齐数据），以及特定领域数据的特点；
3. 介绍了高效训练与部署大规模语言模型的方式，并总结了现有的开源平替模型；
4. 评测了不同平替模型在多个常用基准数据集上的效果；
5. 设计了人工评测任务，并在不同平替模型上进行了人工评估；
6. 讨论和评测了大规模语言模型在图文多模态领域的研究现状及模型表现；
7. 评测了各个平替模型在科学研究领域的基准数据集上的性能。

文章插图
大规模语言模型发展历程

文章插图
GPT 的平替模型

文章插图
持续更新在 github……
开源工具
近年来，深度学习的飞速发展与开源社区的繁荣息息相关。本节中，我们整理了大规模语言模型相关的开源工具库，这些工具库包含了训练、部署、加速、模型评测等方面。

文章插图
基准数据集评测
为了全面评估各种语言模型在不同任务上的性能，我们首先从不同角度在多个常用的测试基准上进行了详尽的评估。选定的任务旨在测试模型的常识推理、信息抽取、文本理解、数学解题以及跨学科知识的能力。
评测方式
我们采用了两种评测方式：
1.Zero-shot 方式。该方式主要关注模型在未见过的新任务上的性能，即 zero-shot 学习。在没有给定与任务相关的训练样本的情况下，模型需要依赖其在大规模语料库中学到的知识和理解，来给出准确的答案。这种方式对模型的归纳、推理以及泛化能力都提出了很高的挑战。
2.Few-shot 方式。小样本学习方式要求模型在仅给定少数示例答案的情况下，能够产生合适的回答。这种评估方式主要测试模型的迁移和泛化能力。在实际应用中，这种能力尤为重要，因为它允许模型在数据稀缺的情境中仍然表现出色。
评测数据集
在 Zero-Shot 设定下，我们测试了 BoolQ，Hellaswag，WinoGrande, PIQA，ARC，OpenbookQA，RACE，DROP 和 GSM8K 数据集。在 Few-Shot 设定下，我们测试了 MMLU 和 TriviaQA 数据集。

文章插图
实验结果

文章插图
上图展示了不同语言模型在 zero-shot 设定下的测试结果。值得注意的是，尽管本研究分析的许多模型都基于 LLaMA-7B 架构，但它们的个体性能差异显著。这些模型之间的性能差异主要归因于它们在开发过程中采用的调优方法，这凸显了调优策略在决定模型性能上的核心作用。此外，这些结果也揭示了语言模型在不同任务中的效能差异。没有单一模型可以在所有数据集和任务上完全占优。另外，这些语言模型在涉及带有选项的任务中表现得相对较好，但在生成任务中则有所不及。这种差异是可以理解的，因为生成连贯、与上下文相符的内容远比简单的分类任务更为挑战，它需要模型具备更深入的语言和上下文理解能力。

文章插图
该图为我们呈现了模型在 few-shot 设置下的表现。从表格中，我们可以观察到几个显著的特点。首先，这些语言模型的性能并没有随着示例数量的增加而明显上升。这可以归因于模型相对较小的规模以及其有限地利用样本学习的能力，导致模型难以从所给示例中充分吸取知识。其次，模型在不同的示例设置下的性能相对稳定。因此，如果某模型在 zero-shot 设置下已经表现得很好，那么在其他设置下，它很可能也能保持这种优势。