国产AI大模型哪家强?十大维度横评四款主流大模型!( 二 )


国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图

国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图

国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
③ 摘要提炼
这部分的最后,我们来看看四款大模型对文本的总结提炼能力 。小编从IT之家随机选择了一篇新闻资讯,分别让四款大模型将这篇新闻总结成一句话的摘要 。
先看文心一言的表现,虽然是总结了,意思也正确,但总结得比较啰嗦,而且不符合“一句话”的要求:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
通义千问也有类似的问题,总结啰嗦,而且超过一句话的限制:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑在这一项中表现不错,一句话准确总结了这段文章的大意:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
讯飞星火提炼得也很精炼,一句话搞定,而且意思准确 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
在这一环节,四款大模型产品的得分分别为:
讯飞星火:10 分通义千问:8 分(摘要提炼 - 2)360 智脑:8 分(语意理解 - 2)文心一言:8 分(摘要提炼 - 2)
三、知识丰富性测试很多人会用 AI 大模型会取代搜索引擎,因为用大模型搜索各种知识类信息很方便,还没有广告 。这时候大模型的知识丰富度就比较重要了 。本次测试IT之家针对四个类别的知识对所选大模型进行考验测试 。
① 生活常识类
生活常识方面,IT之家首先用“平桥豆腐属于哪个菜系?”分别问四款大模型 。其中,讯飞星火和文心一言给出了正确回答,属于淮扬菜,而且还给出了这道菜的做法 。
这个问题中,通义千问和 360 智脑回答错误,分别说成了豫菜和川菜 。
② 工作技能类
在工作技能类知识方面,IT之家用“如何在 wps 中连续使用格式刷”这个问题来询问 。
文心一言给出了两个方法,分别是点击按钮和快捷键,其中快捷键的方法正确,按钮法错误,应该扣 1 分 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
讯飞星火之给出了双击格式刷按钮的方法,虽然正确,但缺少快捷键法,也应扣 1 分 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑和通义千问给的方法,都不是小编需要的格式刷连续刷的方法,也没有给出快捷键法,因此扣 2 分 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
③理工专业知识类
理工专业知识方面,小编随便选择一个大学物理相关的知识点来考这四款大模型 。从结果来看,四款产品的回答都是不错的,其中百度文心一言的回答尤其详细,还顺带介绍了横波与纵波的定义 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
④ 历史人文类
接下来是历史人文类知识,IT之家用“《红楼梦》中结的两个大型诗社和社长分别是谁?”这个问题来考验 。这是一个相对难且小众的问题 。
首先看文心一言,两个诗社答对了,但是社长答错了一个,海棠社的社长是李纨 。
通义千问对这个问题的回答有点离谱,诗社和社长都答错了,而且会让人有一种“咱们看的是同一本《红楼梦》吗”的感觉 。
360 智脑的回答也不太好,第二个大型诗社应该是桃花社,而且两位社长的回答都不对 。
最后是讯飞星火,这是这个问题中唯一把两个小问都答对的选手:
也许是因为科大讯飞本身有做 AI 教育业务的因素,掌握大量的教育大数据,因此整体测下来在知识丰富性和准确性方面的表现是比较亮眼的 。这个环节中,四款大模型最终的评分分别为:
讯飞星火:9 分(工作技能类 - 1)文心一言:8 分(工作技能类 - 1,历史人文类 - 1)360 智脑:5 分(生活常识类 - 1,工作技能类 - 2,历史人文类 - 2)通义千问:5 分(生活常识类 - 1,工作技能类 - 2,历史人文类 - 2)
四、逻辑推理能力测试AI 大模型是否足够聪明,很大程度上取决于大模型是否具备足够强大的逻辑推理能力 。因此本次横评,IT之家也准备了一些逻辑思维相关的考题来分别考验四款大模型 。
① 逻辑推理问题测试


推荐阅读