由于大型语言模型(LLM)的崛起 , 2023年被认为是开源领域的关键一年 。下面精心挑选了一些在2023年上半年掀起波澜的最有影响力的模型 。这些模型几乎可以与band、GPT-3.5、GPT4、Claude、文心一言等商业大模型竞争 。
文章插图
本文仅针对当前开源大语言模型中一些比较有影响力的项目进行信息收集与分析,但由于2023年大模型的快速发展,有些信息可能已经滞后,读者可进一步跟踪官方网站或者开源社区了解相关进展 。
- LLaMA
- LLaMA 2
- Alpaca
- Vicuna
- Guanaco
- RedPajama
- Falcon
- FLAN-T5
- Stable Beluga (formerly ‘FreeWilly’)
- MPT
文章插图
1.LLaMA
文章插图
LLaMA不仅仅是一个单一的模型;它是一个包含多个大小不一的大型语言模型的集合,参数从70亿到650亿不等 。可用的尺寸包括6.7B、13.0B、32.5B和65.2B参数,每种参数在不同的任务中表现出色,而较大的型号通常在更复杂的任务中表现更好 。
LLaMA由Meta开发 , 基于Transformer架构,自2018年以来一直是语言建模的标准架构 。它与GPT-3有相似之处,但也有一些架构差异 。LLaMA使用SwiGLU激活函数代替ReLU激活函数,使用旋转位置嵌入代替绝对位置嵌入 , 并且均方根层归一化代替标准层归一化 。
这些模型是在不同的领域训练出来并被开源 。研发人员可以将其用于各种应用,包括翻译、问答、文本生成等 。LLaMA的多功能性使其能够针对众多任务进行微调,使其成为各种AI项目的理想基础模型 。
LLaMA的训练数据非常广泛 , 模型是在来自公开数据源的1.4万亿个令牌上训练的 。这些来源包括CommonCrawl抓取的网页、Github的开源代码库、多种语言的维基百科、Gutenberg项目中公共领域书籍以及Stack Exchange网站上的问题和答案 。这些模型的研发通过增加训练数据量来提高模型性能 。
至于许可协议,Meta在非商业许可下向研究社区发布了LLaMA的模型权重 。
为了训练LLaMA模型,开发人员使用了带有余弦学习速率计划的AdamW优化器 。最终学习率为最大学习率的10% 。此外 , 模型使用0.1的权重衰减和1.0的梯度剪裁 。学习速率和批量大小是根据每个模型的大小定制的,进一步优化其在训练期间的性能 。
2.LLaMA 2LLaMA 2是Meta的LLaMA模型的第二次迭代,专门为对话场景设计.它经过了深度微调,使其与ChatGPT等模型相媲美 。LLaMA 2模型有三种大?。?0亿、130亿和700亿参数 。
LLaMA 2比其前身LLama 1有了重大的进步和改进 。它是在一个新的公开可用数据的混合上训练的,预训练语料库增大40% 。该模型的上下文长度增加了一倍,并利用了分组查询注意机制 。
Llama 2-Chat是一个针对基于聊天的交互而优化的微调版本 。LLaMA 2和Llama 2-Chat的开发旨在确保其输出的内容对人类有益且安全 。这些自回归模型基于输入生成文本,非常适合助理式聊天和各种自然语言生成任务 。 根据基准评估,它比大多数其他模型(包括ChatGPT)更有优秀 。
文章插图
LLaMA 2被授权给研究人员和商业实体 , 坚持开放的原则 。这使得无论是研究、商业应用还是项目开发都能够使用LLaMA 2 。
LLaMA 2的训练数据非常广泛,包括来自公开来源的2万亿个代币 。微调数据包括公开可用的指令数据集和超过一百万个新的人类注释示例 。值得注意的是 , 预训练数据集和微调数据集都不包括Meta用户数据,从而确保了用户隐私和数据安全 。
LLaMA 2采用Llama 1模型的修改版本来增强性能,并使用带有标准Transformer架构的AdamW优化器 。它使用与Llama 1相同的标记器 , 采用字节对编码(BPE)算法,词汇量为32 k个标记 。Llama 2-Chat的发展经历了两个阶段 。第一个阶段,LLaMA 2使用公开的在线数据 。然后,通过监督微调创建了Llama 2-Chat的初始版本 。在第二阶段 , Llama 2-Chat使用来自人类反馈的强化学习(RLHF)进行了改进 。这个过程涉及拒绝采样和邻近策略优化(PPO),以提高其在基于对话的应用程序的性能 。
推荐阅读
- 十个提高VS Code工作效率的技巧
- 三部已播,一部在拍,一部待官宣,2023年肖战这份成绩单太亮眼
- 属马的不能带什么东西 属马2023年必有一难
- 女属鼠的佩戴什么最好 女属鼠的佩戴什么最好2023年
- 2023年请财神最佳时间 安放财神爷有什么讲究
- 十个基本礼仪图片 十个基本礼仪
- 2023年可直接晋级年度提名的10大烂片,多部被吹上天的电影上榜
- 2023年明明很火你却一集都没看过的10部剧,你上榜了几部?
- 端午节高速收费吗 端午节高速收费吗?2023年
- 冬奥会宣传语简短 冬奥会宣传语简短十个字