Stable Beluga 1和Stable Beluga 2分别采用LLaMA-65B和LLaMA 2-70B基础模型 。这两种模型在各种基准测试中都表现良好 。Stable Beluga 2 甚至在某些基准测试中超过了Llama 2 。
文章插图
Stable Beluga大语言模型擅长解决类似法律、数学等专业领域的复杂问题,并专注于微妙的语言细节 。
Stable Beluga模型目前作为一项研究实验,提供了非商业许可(non-commercial license),强调致力于促进AI社区的开放研究和可访问性 。该许可证确保模型可免费用于学术和非商业目的,鼓励自然语言处理领域的合作和创新 。
Stable Beluga模型的训练过程基于Orca方法,类似于微软的渐进式学习方法 。然而,Stable Beluga项目中使用的数据集与Orca论文不同 。该团队使用Enrico Shippole的数据集 , 包括COT Submix Original、NIV2 Submix Original、FLAN 2021 Submix Original和T0 Submix Original,来作为提示词语言模型 。数据集包含60万个高质量的样本,约为Orca数据集大小的10% 。Stable Beluga使用了删除测试数据并过滤后的数据集进行了微调,以实现其卓越的性能 。
10.MPT由MosaicML开发的MPT模型是一系列基于transformers的语言模型 。这些模型专为商业用途而设计,是开源的 , 并建立在GPT-3模型的基础上,旨在在各种自然语言处理任务中更加高效和灵活 。
MPT系列由多个版本组成,其中MPT-7B、MPT-7B-StoryWriter、 MPT-30B是几个个重要的模型 。MPT-7B 是一个只有解码器的Transformer模型 , 它在MosaicML数据团队策划的1万亿个文本和代码标记的大型语料库上训练出来,具有67亿个参数 。模型主要使用了FlashAttention算法 , 为了处理大上下文,它还使用了ALiBi算法 。而MPT-30B,拥有 300 亿参数,其功能明显比前一代 MPT-7B 语言模型更强大,并且性能优于 GPT-3 。
MPT-7B的开源许可是Apache-2.0 。但是,需要注意的是 , 不推荐在没有微调的情况下使用基础模型 。
MPT-7B-StoryWriter-65k+是MPT-7B的一个变体,专为阅读和写作等具有极长上下文长度的场景而定制 。这是在books3数据集的小说子集上进行微调的结果,上下文长度为65k Token 。MPT-7B-StoryWriter-65k+可以在A100-80GB GPU的单个节点上生成多达84k个Token的内容 。与MPT-7B一样 , 它的开源许可也是Apache-2.0 。
MPT-7B-Chat 是个类似聊天机器人的对话生成模型,它是在包括ShareGPT-Vicuna、HC 3、Alpaca、Helpful and Harmless和Evol-Instruct等多个数据集上进行微调的结果 。其开源许可为CC-By-NC-SA-4.0,意味着它只能在非商业用途使用 。
MPT-7B-Instruct是一个专门为短格式指令而量身定制的模型,基于MosaicML发布的MPT-7B数据集进行微调创建的结果,该数据集的来源是Databricks Dolly-15k和Anthropic的Helpful和Harmless数据集 。它的开源许可是CC-By-SA-3.0 。
MPT 7B的训练过程使用了8个A100-80GB的GPU,具有分片数据并行性、LION优化器和完全分片数据并行性(FSDP)技术 。梯度检查点用于优化训练期间的内存 。该模型由67亿个参数、32个Transformer层(每个层的隐藏大小为4096)、16个关注点以及50432个单词的词汇表组成,序列长度为65536 。
MPT-30B 是由MosaicML用2个月的时间训练的新一代产品 , MPT-30B通过数据混合进行预训练,从10个不同的开源文本语料库中收集了1T个预训练数据的token,并使用 EleutherAI GPT-NeoX-20B分词器对文本进行分词 , 并根据一定比例进行采样 。
文章插图
MPT-30B使用英伟达的H100 GPU 集群进行训练 。采用Apache 2.0开源许可协议,性能强于原始的 GPT-3,并且与LLaMa-30B和 Falcon-40B 等其他开源模型具有竞争力 。
文章插图
总之,MPT是自然语言处理方面一个有价值的开源模型 。它们专注于处理长上下文的处理效率、灵活性和令人印象深刻的性能,使它们适合于各种语言相关的任务和应用场景 。
推荐阅读
- 十个提高VS Code工作效率的技巧
- 三部已播,一部在拍,一部待官宣,2023年肖战这份成绩单太亮眼
- 属马的不能带什么东西 属马2023年必有一难
- 女属鼠的佩戴什么最好 女属鼠的佩戴什么最好2023年
- 2023年请财神最佳时间 安放财神爷有什么讲究
- 十个基本礼仪图片 十个基本礼仪
- 2023年可直接晋级年度提名的10大烂片,多部被吹上天的电影上榜
- 2023年明明很火你却一集都没看过的10部剧,你上榜了几部?
- 端午节高速收费吗 端午节高速收费吗?2023年
- 冬奥会宣传语简短 冬奥会宣传语简短十个字