GPT太「奢侈」,平替大汇总来了,再也不用担心部署大难题( 二 )


不过,需要承认的是,部分经过测试的语言模型并未达到最佳表现 。这些模型可能需要更合适的提示或进一步的微调来获取必要的知识并提高其整体性能 。
人工评测
现有的基准数据集通常用于评估传统的语言模型,但它们往往只专注于某一特定的任务或主题 。与此同时,大规模语言模型展现出的多样化能力,很难仅通过这些基准数据集来进行全面的评价 。为了更深入地了解这些模型的性能,我们继续对现有的平替模型进行了人工评测 。
评测方式
人工评价模型性能的关键在于评测问题的选择与评测人员的客观性 。为此,我们采用常见的两两对比的方式来评测模型的表现 。与直接打分或排序相比,两两对比的方式降低了参与测试人员的评测难度,从而提高了评测结果的客观性和准确性 。我们设计了 50 个问题,涵盖了 9 个不同的方面,包括:日常问答、书面能力、推理、编程、数学、物理、化学、生物和有害内容检测 。在 16 个模型上进行了这些问题的评估,并采用 Elo 评分系统对测试结果进行了最终的模型得分计算 。

GPT太「奢侈」,平替大汇总来了,再也不用担心部署大难题

文章插图
评测结果
GPT太「奢侈」,平替大汇总来了,再也不用担心部署大难题

文章插图
上图展示了各个模型的 Elo 得分,所有模型的初始 Elo 分数均为 1000,且我们采用了 K 因子为 16 来控制评分的最大波动 。在这 16 个模型中,Vicuna-7B 位列榜首,其 Elo 得分高达 1222 。ChatGLM 和 Moss 分别位居第二和第三 。值得注意的是,从第 7 名到第 15 名的模型,它们的表现相差无几,都非常接近 。从另一个角度看,Elo 评分系统确实具有显著的区分能力,这意味着各模型在性能上存在着明显的层次差异 。
GPT太「奢侈」,平替大汇总来了,再也不用担心部署大难题

文章插图
我们还可以利用 Elo 分数来预测模型两两之间的胜率 。在一定的区间内,Elo 分数每相差 10 分,胜率就会有大约 1.5% 的变化 。因此,我们基于 Elo 分数绘制了一对一胜率的热图,如图(b)所示 。同时,图(a)展示了代表各模型间实际胜率的热图 。显然,Elo 分数能够很好地反映模型之间的性能差异 。例如,Vicuna-7B 与 ChatGLM 之间大约有 50 分的 Elo 分数差距,而 Vicuna-7B 对 ChatGLM 的胜率为 57% 。这与实际胜率 55% 非常接近 。
GPT太「奢侈」,平替大汇总来了,再也不用担心部署大难题

文章插图
我们展示了不同模型在书写任务上的例子,排名最高的 Vicuna-7B 无论是在内容上还是在格式上都要显著地优于其他的方法 。为了确认不同评测人员之间回答的一致性,我们随机选取了 20 个问题进行了人工一致性评测(Human Consistency) 。评测指标为 tie-discounted 准确率:当两名评测人员的答案完全相同时,得 1 分;若其中一名评测人员给出的答案为 tie,则得 0.5 分;两者答案完全不同则得 0 分 。经过评测,我们获得了 80.02 的一致性得分,这表明不同的评测人员之间的评估标准是大体一致的 。
图文多模态模型
随着大规模语言模型在自然语言处理领域的大放光彩,越来越多的研究开始探索如何将这些模型与多模态信息融合 。在本节中,我们将探讨并评估近期一些图文多模态大语言模型在常见基准上的性能 。
模型简介
GPT太「奢侈」,平替大汇总来了,再也不用担心部署大难题

文章插图
常见的多模态大语言模型一般由三部分组成:视觉编码器(Vision Encoder)、视觉 - 语言转换器(Vision-to-Language Converter)和大规模语言模型 。视觉编码器旨在从图像中提取视觉信息,它通常采用如 CLIP 和 Flamingo 这类视觉 - 语言预训练模型初始化的 ViT 结构 。视觉 - 语言转换器的作用是将视觉嵌入映射到语言嵌入空间,其设计目的是最大程度地减少视觉和语言之间的模态差异 。而大规模语言模型则利用从视觉和语言两个模态中获得的信息来生成最终的答案 。
评测方式
本节中,我们采用 ScienceQA 数据集来评测多模态模型在科学领域的推理能力 。ScienceQA 数据集包含约 2 万道选择题,覆盖了丰富的学科领域 。同时,大多数问题提供了相应的知识背景(Context),有助于模型进行思维链式推理 。评测方式上,我们采用 2-Shot 的实验设置,即给定两个示例回答,要求模型根据示例回答给出最终答案 。每个问答中,我们给出了问题文本(Q)、背景知识(C)和多个选项内容(M),要求模型给出答案(A) 。
实验结果


推荐阅读