十个2023年最具影响力的开源大语言模型

由于大型语言模型(LLM)的崛起 , 2023年被认为是开源领域的关键一年 。下面精心挑选了一些在2023年上半年掀起波澜的最有影响力的模型 。这些模型几乎可以与band、GPT-3.5、GPT4、Claude、文心一言等商业大模型竞争 。

十个2023年最具影响力的开源大语言模型

文章插图
本文仅针对当前开源大语言模型中一些比较有影响力的项目进行信息收集与分析,但由于2023年大模型的快速发展,有些信息可能已经滞后,读者可进一步跟踪官方网站或者开源社区了解相关进展 。
  • LLaMA
  • LLaMA 2
  • Alpaca
  • Vicuna
  • Guanaco
  • RedPajama
  • Falcon
  • FLAN-T5
  • Stable Beluga (formerly ‘FreeWilly’)
  • MPT
 对于这些模型,下面表格列出了关键信息,例如:架构设计、训练所用的数据库、训练过程、许可协议信息和特征等 。
十个2023年最具影响力的开源大语言模型

文章插图
1.LLaMA
十个2023年最具影响力的开源大语言模型

文章插图
LLaMA不仅仅是一个单一的模型;它是一个包含多个大小不一的大型语言模型的集合,参数从70亿到650亿不等 。可用的尺寸包括6.7B、13.0B、32.5B和65.2B参数,每种参数在不同的任务中表现出色,而较大的型号通常在更复杂的任务中表现更好 。
LLaMA由Meta开发 , 基于Transformer架构,自2018年以来一直是语言建模的标准架构 。它与GPT-3有相似之处,但也有一些架构差异 。LLaMA使用SwiGLU激活函数代替ReLU激活函数,使用旋转位置嵌入代替绝对位置嵌入 , 并且均方根层归一化代替标准层归一化 。
这些模型是在不同的领域训练出来并被开源 。研发人员可以将其用于各种应用,包括翻译、问答、文本生成等 。LLaMA的多功能性使其能够针对众多任务进行微调,使其成为各种AI项目的理想基础模型 。
LLaMA的训练数据非常广泛 , 模型是在来自公开数据源的1.4万亿个令牌上训练的 。这些来源包括CommonCrawl抓取的网页、Github的开源代码库、多种语言的维基百科、Gutenberg项目中公共领域书籍以及Stack Exchange网站上的问题和答案 。这些模型的研发通过增加训练数据量来提高模型性能 。
至于许可协议,Meta在非商业许可下向研究社区发布了LLaMA的模型权重 。
为了训练LLaMA模型,开发人员使用了带有余弦学习速率计划的AdamW优化器 。最终学习率为最大学习率的10% 。此外 , 模型使用0.1的权重衰减和1.0的梯度剪裁 。学习速率和批量大小是根据每个模型的大小定制的,进一步优化其在训练期间的性能 。
2.LLaMA 2LLaMA 2是Meta的LLaMA模型的第二次迭代,专门为对话场景设计.它经过了深度微调,使其与ChatGPT等模型相媲美 。LLaMA 2模型有三种大?。?0亿、130亿和700亿参数 。
LLaMA 2比其前身LLama 1有了重大的进步和改进 。它是在一个新的公开可用数据的混合上训练的,预训练语料库增大40% 。该模型的上下文长度增加了一倍,并利用了分组查询注意机制 。
Llama 2-Chat是一个针对基于聊天的交互而优化的微调版本 。LLaMA 2和Llama 2-Chat的开发旨在确保其输出的内容对人类有益且安全 。这些自回归模型基于输入生成文本,非常适合助理式聊天和各种自然语言生成任务 。        根据基准评估,它比大多数其他模型(包括ChatGPT)更有优秀 。
十个2023年最具影响力的开源大语言模型

文章插图
LLaMA 2被授权给研究人员和商业实体 , 坚持开放的原则 。这使得无论是研究、商业应用还是项目开发都能够使用LLaMA 2 。
LLaMA 2的训练数据非常广泛,包括来自公开来源的2万亿个代币 。微调数据包括公开可用的指令数据集和超过一百万个新的人类注释示例 。值得注意的是 , 预训练数据集和微调数据集都不包括Meta用户数据,从而确保了用户隐私和数据安全 。
LLaMA 2采用Llama 1模型的修改版本来增强性能,并使用带有标准Transformer架构的AdamW优化器 。它使用与Llama 1相同的标记器 , 采用字节对编码(BPE)算法,词汇量为32 k个标记 。Llama 2-Chat的发展经历了两个阶段 。第一个阶段,LLaMA 2使用公开的在线数据 。然后,通过监督微调创建了Llama 2-Chat的初始版本 。在第二阶段 , Llama 2-Chat使用来自人类反馈的强化学习(RLHF)进行了改进 。这个过程涉及拒绝采样和邻近策略优化(PPO),以提高其在基于对话的应用程序的性能 。


推荐阅读