为此,他们编译了名为"CommitPack"的数据集 , 包含了4TB的Git提交数据,涵盖了350种编程语言 。他们将CommitPack与其他自然和合成的代码指令(如xP3x、Self-Instruct、OASST)进行了基准测试,并在16B参数的StarCoder模型上取得了卓越的性能 。在HumanEval Python/ target=_blank class=infotextkey>Python基准测试上 , 该模型达到了46.2%的pass@1准确率 。
此外,研究者还引入了"HumanEvalPack",将HumanEval基准测试扩展到了3种编码任务(代码修复、代码解释、代码合成)和6种语言(Python、JAVAScript、Java、Go、C++、Rust) 。他们的模型,OctoCoder和OctoGeeX , 在HumanEvalPack中的所有模型中表现最佳,证明了CommitPack在泛化到更广泛的语言集和自然编码任务上的优势 。
第三名介绍:
Parsel (GPT-4 + CodeT): 排名第三,其Pass@1得分为85.1,发布于2022年 。相关论文为:"Parsel: Algorithmic Reasoning with Language Models by Composing Decompositions"
文中详细探讨了"Parsel",一个专为增强大型语言模型(LLMs)在代码生成和层次化多步推理任务中的能力而设计的框架 。为了更好地生成复杂的程序代码 , Parsel采用了一种独特的方法:它首先自动将算法任务分解为层次化的自然语言函数描述,然后利用测试来寻找可能的函数实现方式 。这种方法不仅适用于代码生成 , 还可以广泛应用于其他需要层次化推理的领域,如机器人规划 。实验结果证明 , Parsel在代码生成任务上,特别是在解决高难度的竞赛级问题时,相较于传统的直接生成方法,展现出了更为出色的性能 。
第八名介绍
值得关注的是,中国的模型在这个排行榜上也有显著的表现 。
例如,PanGu-Coder2 15B,其Pass@1得分为61.64,而Pass@100得分高达91.76分 。排名第八 , 紧随GPT系列,相关论文为” PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback”:
文章插图
文中探讨了关于OpenAI发布了Codex之后,许多其他的代码生成模型如AlphaCode、PaLM-Coder和PanGu-Coder相继发布 。但是,大多数代码LLM在性能上仍然落后于最新的商业模型,如OpenAI的GPT-3.5和GPT-4 。
提出了RRTF框架:为了解决现有基于强化学习的方法的问题,并进一步挖掘Code LLM的潜力,作者提出了RRTF框架 。与之前的工作如CodeRL和RLTF不同,RRTF采用了与InstructGPT/ChatGPT相似的RLHF(Reinforcement Learning from Human Feedback)的思想,但采用了一种更简单且高效的训练方法,使用排名响应作为反馈而不是奖励模型的绝对值 。
通过广泛的评估,PanGu-Coder2在多个基准测试上都取得了最佳性能,尽管与如GPT系列的通用模型仍有一定差距 , 但是超越了之前所有发布的Code LLMs 。
第29名介绍
清华大学开源的CodeGeeX-13B,其Pass@1得分为22.9分 , 排名29
文章插图
相关论文为:”CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X”,介绍了CodeGeeX,用于代码生成的多语言模型,拥有130亿参数 。CodeGeeX在2022年6月之前的23种编程语言上预训练了8500亿个TOKENS 。广泛的实验表明,CodeGeeX在HumanEval-X上的代码生成和翻译任务上均超越了类似规模的多语言代码模型 。此外,清华团队还在Visual Studio Code、JetBrains和Cloud Studio上构建了基于CodeGeeX的扩展,每周为数万活跃用户生成47亿TOKENS 。用户研究显示,83.4%的用户认为CodeGeeX可以帮助提高编码效率 。并且开源了其代码、模型权重、API、扩展和HumanEval-X 。
而后面紧跟的CodeGeeX2-6B,Pass@1得分为35.9分,能力大幅加强,提升了12名
文章插图
按照Pass@1分数(35.9)排序,位列17名左右,在开源CODE LLM中有相当的竞争力 。
总结总的来说,大型语言模型在代码生成领域的进展是显而易见的,各大研究团队都在不断推动技术的边界,努力提高模型的性能和实用性 。特别是中国的模型,如PanGu-Coder2和CodeGeeX , 不仅在排行榜上取得了骄人的成绩,更展现了中国在人工智能研究领域的实力和潜力 。随着技术的不断进步 , 我们有理由相信,未来的语言模型将为编程和软件开发带来更多的便利和创新 。
参照文献:
Large Language Model Evaluation in 2023: 5 Methods (aimultiple.com)
https://arxiv.org/pdf/2304.10778.pdf
推荐阅读
- 开源大模型正在“杀死”闭源?
- 详细解析BIOS如何清除硬盘数据
- AI大模型下一步怎么走?百度世界五大亮点给出行业风向标
- LLM 解读大模型的token
- 生成式AI与大模型有什么区别和联系?
- 2022年虎年运势解析 2022年虎年的运势
- 锤!baby携好友看疯马秀,走侧门躲记者,曝将与疯马秀深度合作
- 实锤?baby看秀细节曝光,疑与助理暗渡陈仓,曝疯马秀有深度合作
- 2022年12生肖运势解析完整版免费 2022年12生肖运势解析
- 2022年12生肖运势 2022年12生肖运势解析