Falcon-40B在25000亿个RefinedWeb数据Token上进行训练,训练时间为两周,使用384个A100 40GB GPU 。Falcon-7B模型在RefinedWeb数据集的15000亿个Token上进行训练,也使用相同的384 A100 40GB GPU设置进行了为期两周的训练 。高效的训练过程是通过2D并行策略(PP=2,DP=192)与ZeRO优化相结合来实现的,从而使模型在使用更少的训练计算资源的情况下,性能不亚于其他开源模型 。
关于Falcon 180B,它是40B的升级版本 。据官方介绍,Falcon 180B 是当前最好的开源大模型 。在 MMLU上 的表现超过了 Llama 2 70B 和 OpenAI 的 GPT-3.5 。在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及 ReCoRD 上与谷歌的 PaLM 2-Large 不相上下 。
文章插图
它在 Hugging Face 开源大模型榜单上以 68.74 的成绩被认为是当前评分最高的开放式大模型,评分超过了 Meta 的 LlaMA 2 (67.35) 。
文章插图
文章插图
对于训练过程,Falcon 180B基于亚马逊云机器学习平台Amazon SageMaker , 在多达4096个GPU上完成了对3.5万亿token的训练 。总GPU计算时 , 大约7,000,000个 。Falcon 180B的参数规模是Llama 2(70B)的2.5倍,而训练所需的计算量是Llama 2的4倍 。具体训练数据中,Falcon 180B主要是RefinedWe数据集(大约占85%)。此外,它还在对话、技术论文,以及一小部分代码等经过整理的混合数据的基础上进行了训练 。这个预训练数据集足够大,即使是3.5万亿个token也只占不到一个epoch 。
硬件要求:
文章插图
Falcon模型是在Apache 2.0许可证下发布,允许在商业场合使用,没有版税或其他限制 。但Falcon-180b 在商业用途的使用条件非常严格 , 不包括任何“托管用途” 。建议您查看开源许可证并咨询您的法律团队 。
总之,Falcon模型的多功能性和有效性使其适用于广泛的场景 。它们可以用于大型语言模型的研究,并作为进一步专业化和微调打下坚实基?。?以满足特定场合应用 , 如摘要,文本生成和聊天机器人功能 。
8.FLAN-T5FLAN-T5系列包括几种不同参数的模型:
- Flan-T5 small (80M)
- Flan-T5 base (250M)
- Flan-T5 large (780M)
- Flan-T5 XL (3B)
- Flan-T5 XXL (11B)
FLAN-T5在多任务语言理解和跨语言问答等方面表现出色 。它在文本生成、常识推理、问答、情感分类、翻译、代词解析等方面十分优秀 。它为研究零镜头NLP任务和上下文少镜头学习NLP任务(如推理和问答)提供了宝贵资源 。此外,它理解当前大型语言模型的局限性,有助于推进公平性和安全性的研究 。
Google于2022年底在Apache许可下开源FLAN-T5 。
Flan-T5在训练过程中,有两个阶段的过程中使用了大量的文本数据:预训练和微调 。预训练阶段使用T5架构 , 模型在给定的Token序列中预测中的下一Token 。在指令微调阶段,FLAN-T5的功能通过特定指令进行了细化,以增强其在各种任务和语言上的性能 。
FLAN-T5的微调数据类型非常广泛,包括473个数据集、146个任务类别和1836个任务 。微调过程中混合四种任务:Muffin、T0-SF、NIV 2和CoT 。这些混合包括各种任务 , 例如:对话数据、程序合成数据、算术推理、多跳推理(multi-hop reasoning)、自然语言推理等等 。
文章插图
Flan-T5模型不限于特定的任务或语言 , 为研究人员和开发人员提供了一个强大的工具,推动了自然语言理解和文本生成的发展 。
9.Stable Beluga (Formerly Free Willy)Stable AI以及CarperAI实验室的Stable Beluga项目产生了两个模型,Stable Beluga 1和Stable Beluga 2 。这些模型建立在Meta的Llama模型之上 , 并使用标准Alpaca格式的合成生成的新数据集进行微调 。该项目旨在弥合开放模型和封闭模型之间的质量差距,允许研究人员和开发人员探索和定制这些模型,以满足各种自然语言处理任务 。
推荐阅读
- 十个提高VS Code工作效率的技巧
- 三部已播,一部在拍,一部待官宣,2023年肖战这份成绩单太亮眼
- 属马的不能带什么东西 属马2023年必有一难
- 女属鼠的佩戴什么最好 女属鼠的佩戴什么最好2023年
- 2023年请财神最佳时间 安放财神爷有什么讲究
- 十个基本礼仪图片 十个基本礼仪
- 2023年可直接晋级年度提名的10大烂片,多部被吹上天的电影上榜
- 2023年明明很火你却一集都没看过的10部剧,你上榜了几部?
- 端午节高速收费吗 端午节高速收费吗?2023年
- 冬奥会宣传语简短 冬奥会宣传语简短十个字