
文章插图
首先,我们对纯语言模型和多模态模型在整个测试集上的准确率进行了评估 。结果显示,Vicuna 模型及其微调版本 MiniGPT4 在各自的领域中取得了最好的成果 。

文章插图
针对测试集中包含图片的样本,我们进一步测试了多模态模型的表现 。在这方面,基于 Vicuna 的 MiniGPT4 和 VPGTrans 模型在各自的评价指标上分别取得了最好的成绩 。
科学领域模型
如何将 AI 技术与科学研究相结合是研究的热点之一 。近年来,通过对大规模自然语言模型在特定科学数据集上进行微调,使其更加适应科学研究的需求,已逐渐成为研究的新趋势,尤其在药物发现和材料设计等领域 。在本节,我们将深入研究 GPT 平替模型在科学研究中的表现,并对其性能进行评估 。
评测方式
我们对大规模语言模型在 MedQA、MedMCQA、PubMedQA、NLPEC 和 SciQ 等数据集上进行了评估 。特别地,对于 MedQA 数据集,我们还考虑了不同的 few-shot 设置以及不同语言的数据 。评估结果主要以准确率为指标进行展示 。
在这里,为了探究提示指令对模型性能的影响,我们使用了标准提示指令 “Results with standard prompts” 和模型默认系统指令 “Results with specific system meta instructions” 两种方式对模型进行了评估 。
实验结果

文章插图
上表展示了各模型在 MedQA 数据集上的表现 。得益于数据集的多语言支持,我们对模型在英文、简体中文和繁体中文三种语言上的性能进行了评估 。在中文数据集评测中,ChatGLM-6B 和 BELLE-7B 的表现优于其他模型,其中在 “ 简体中文(5-Shot)” 和 “ 繁体中文(4-Shot)” 的测试中,准确率分别达到了约 34% 和 30% 。这表明,这两款专为中文语料设计的模型在处理中文问题时具有明显的优势 。而在英文数据集的评测中,LLaMA 2-13B 的性能尤为突出,其在 “ 英文(5-Shot)” 和 “ 英文(4-Shot)” 的测试中,准确率分别高达约 33% 和 42% 。

文章插图
如上表所示,我们使用相同的模型在其他科学领域的数据集上也进行了评估 。在 MedMCQA 数据集中,LLaMA 2-13B 和 Vicuna (FastChat)-13B 的表现超过了其他模型 。而在 PubMedQA 数据集上,Stanford Alpaca-7B 和 Alpaca-LoRA 的性能尤为突出 。在 NLPEC(英语 / 中文)和 SciQ 数据集上,LLama 2-13B 和 ChatGLM-6B 均展现了出色的性能 。值得注意的是,在不同的 few-shot 设置中,部分模型的表现有所上升,但也有部分出现了下降,这说明:(1)并非所有模型在与 few-shot 的设置相结合时都一定会有更好的表现;(2) 性能并不一定会随着 few-shot 实例数量的增加而提高 。
此外,对比两种提示词设置的结果,我们发现,在使用模型默认系统指令时,某些模型如 Stanford Alpaca-7B、Vicuna (FastChat) 13B、StableLM-Tuned-Alpha-7B 和 Databricks Dolly-v2-7B 展现了更佳的性能 。这些模型对指令提示非常敏感,并能有效地利用这些指令优化输出 。然而,也有如 BELLE-7B 这样的模型,在此设置下并未获得明显的性能提升,甚至可能有所下降 。
从实验结果中,我们可以清晰地看到,尽管规模较小的模型(如 6B、7B、13B)在某些任务上表现不错,但它们在整体数据集上的表现仍然有限,距离达到 100% 或 50% 的准确率还有很长的路要走 。这些模型的一个主要限制因素是其参数数量,这直接影响了它们的处理能力和泛化性能 。
主要挑战与发展方向
根据上述的整体调研,以及我们大量的实验验证,我们也提出了未来值得注意的发展方向 。
1. 实现模型规模与性能之间的平衡,比如探索更高效的模型架构以及轻量化方法;
2. 提高数据的利用效率以减少数据收集和标注的成本;
3. 增强模型的可解释性;
4. 提高模型的安全性与隐私性;
5. 更加详细且用户友好的使用说明 。
【GPT太「奢侈」,平替大汇总来了,再也不用担心部署大难题】
推荐阅读
- 宁愿吃快餐也不碰舒淇?冯德伦被拍深夜现身街头按摩店,狗仔称网友想太多了
- 众人点评周姐新恋情,男主播都在撇清关系,战鹰:rapper不太聪明
- 太卷了!勘察综甲招聘要求:35岁以下博士!
- 同是香港豪门富太,徐子淇愿当金丝雀,刘惠娟却弃千亿资产而不顾
- 女大学生毕业找工作,面试多次被拒绝,无奈崩溃痛哭:真的太难了
- 董洁停工陪儿子,14岁顶顶长相走偏不似潘粤明,自曝身高被嘲太矮
- 13万的爱马仕用来装大葱?朱珠这波“炫富”太接地气了
- 因老公长得太帅倒追5年,婚后生双胞胎儿子,取名一模一样
- 冰箱结冰太厚怎么处理?
- 抖音生活服务「经营分」上线
