这可能是关于昆仑万维天工模型,最详尽的一次评测了


这可能是关于昆仑万维天工模型,最详尽的一次评测了

文章插图
昆仑万维天工大模型自4月17日宣布启动邀测,官方宣布:天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型 。
“大”模型有一个重要的特性“涌现” 。所谓涌现现象就是在越过了某个参数量和头尾数据量后,其能力曲线就会陡然提升,包括但不限于知识库的扩大和推理能力的提升 。
昆仑万维表示天工用到了两个千亿模型 —— 千亿预训练基座模型和千亿 RLHF(Reinforcement Learning from Human Feedback)模型 。
而其中的 RLHF 就是“涌现”能力的最重要由来 。千亿级别的 RLHF 或许是未来模型进步的最重要模块 。
LLM(大语言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型 。
RLHF 需要收集大量高质量的人类偏好数据,包括人工生成的文本和对模型输出的排名标签 。除此之外,RLHF 还需要处理标注者的偏见和不一致以及模型输出的有害或不真实的风险 。
总体来说,相较于传统算法,RLHF 需要更多的人工标注和数据清洗以向模型提供充足的带标注的文本数据(又或者是图片数据以训练多模态模型) 。
本次天工还有一个重要宣传点为:超过20轮的对话能力和1万字以上的长篇文本记忆能力 。这也是当前大部分国产模型最为欠缺的 。
之前测试文心一言和 ChatGLM 的时候也表现出了明显的记忆丢失现象 。而长记忆能力也是大语言模型的“涌现”现象的一个表征 。本文也将着重于测试这项能力 。
模型能力测试
本次测试我们主要将天工与 ChatGPT3.5做对比 。在部分较难问题(ChatGPT3.5 和天工均无法完成),会引入当前公认最强大语言模型 ChatGPT4 作为参考模型 。
对大语言模型能力的测试,常常使用三个模块来评价,分别为语言生成能力,逻辑推理能力,代码分析能力以及长对话连续生成能力 。
一、语言生成能力
1.问题:“猜谜语:埋在奴家心底,打一字” 。
本题中,仅有天工正确回答了这个字谜,而 OpenAI 旗下的两款 AI 模型都未正确答复 。
ChatGPT4 则是看似正确地给出了一个不正确的答案 。而这正说明本土的语言模型的优势,即针对本国语言的专业调优能力以更符合本地人的使用习惯 。
2.“这首诗是什么意思:女娲炼石补天处,石破天惊逗秋雨 。梦入神山教神妪,老鱼跳波瘦蛟舞 。吴质不眠倚桂树,露脚斜飞湿寒兔 。”
这可能是关于昆仑万维天工模型,最详尽的一次评测了

文章插图

这可能是关于昆仑万维天工模型,最详尽的一次评测了

文章插图

这可能是关于昆仑万维天工模型,最详尽的一次评测了

文章插图
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
事实上这一段句子是出自于李贺的《李凭箜篌引》 。虽然天工和ChatGPT3.5均根据这首诗本身给出了解读,但是很显然由于知识库的欠缺,都无法基于诗词本身的背景解读,只能从文字本身推断诗词含义,自然水平有限 。
3.“请帮我列举一个一份赛博朋克世界观的科幻小说的故事大纲和主要人物设定” 。
这可能是关于昆仑万维天工模型,最详尽的一次评测了

文章插图

这可能是关于昆仑万维天工模型,最详尽的一次评测了

文章插图

这可能是关于昆仑万维天工模型,最详尽的一次评测了

文章插图
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
从本题结果来看,生成效果 ChatGPT4>天工>ChatGPT3.5。天工在面对中文类题目时表达能力不错,可以较好地理解中文问题并给出相关答案 。
ChatGPT3.5在理解问题和给出答案方面表现也不错,但相较于 ChatGPT4 和天工,生成结果的流畅度和准确性稍有欠缺 。ChatGPT4表现最好,能够更加准确地理解问题和生成相关内容,输出结果的流畅度和准确性也更高 。
4.“从这封电子邮件中提取收货人姓名和地址:亲爱的凯利,很高兴在研讨会上与您交谈 。我觉得简的演讲很好,谢谢你要送我的书,这是我的地址 2111 Ash Lane, Crestview CA 92002 。Best, Maya” 。
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
从本题结果来看,天工的表现好于 ChatGPT3.5 和 ChatGPT4 。天工能够准确地识别并提取出邮件中的收货人姓名而ChatGPT3.5 则识别错误 。
二、逻辑推理能力


推荐阅读