国产AI大模型哪家强？十大维度横评四款主流大模型！( 二 ) _AI大模型

文章插图

文章插图
③ 摘要提炼
这部分的最后，我们来看看四款大模型对文本的总结提炼能力。小编从IT之家随机选择了一篇新闻资讯，分别让四款大模型将这篇新闻总结成一句话的摘要。
先看文心一言的表现，虽然是总结了，意思也正确，但总结得比较啰嗦，而且不符合“一句话”的要求：

文章插图
通义千问也有类似的问题，总结啰嗦，而且超过一句话的限制：

文章插图
360 智脑在这一项中表现不错，一句话准确总结了这段文章的大意：

文章插图
讯飞星火提炼得也很精炼，一句话搞定，而且意思准确。

文章插图
在这一环节，四款大模型产品的得分分别为：

讯飞星火：10 分通义千问：8 分（摘要提炼 - 2）360 智脑：8 分（语意理解 - 2）文心一言：8 分（摘要提炼 - 2）

三、知识丰富性测试很多人会用 AI 大模型会取代搜索引擎，因为用大模型搜索各种知识类信息很方便，还没有广告。这时候大模型的知识丰富度就比较重要了。本次测试IT之家针对四个类别的知识对所选大模型进行考验测试。
① 生活常识类
生活常识方面，IT之家首先用“平桥豆腐属于哪个菜系？”分别问四款大模型。其中，讯飞星火和文心一言给出了正确回答，属于淮扬菜，而且还给出了这道菜的做法。
这个问题中，通义千问和 360 智脑回答错误，分别说成了豫菜和川菜。
② 工作技能类
在工作技能类知识方面，IT之家用“如何在 wps 中连续使用格式刷”这个问题来询问。
文心一言给出了两个方法，分别是点击按钮和快捷键，其中快捷键的方法正确，按钮法错误，应该扣 1 分。

文章插图
讯飞星火之给出了双击格式刷按钮的方法，虽然正确，但缺少快捷键法，也应扣 1 分。

文章插图
360 智脑和通义千问给的方法，都不是小编需要的格式刷连续刷的方法，也没有给出快捷键法，因此扣 2 分。

文章插图
③理工专业知识类
理工专业知识方面，小编随便选择一个大学物理相关的知识点来考这四款大模型。从结果来看，四款产品的回答都是不错的，其中百度文心一言的回答尤其详细，还顺带介绍了横波与纵波的定义。

文章插图
④ 历史人文类
接下来是历史人文类知识，IT之家用“《红楼梦》中结的两个大型诗社和社长分别是谁？”这个问题来考验。这是一个相对难且小众的问题。
首先看文心一言，两个诗社答对了，但是社长答错了一个，海棠社的社长是李纨。
通义千问对这个问题的回答有点离谱，诗社和社长都答错了，而且会让人有一种“咱们看的是同一本《红楼梦》吗”的感觉。
360 智脑的回答也不太好，第二个大型诗社应该是桃花社，而且两位社长的回答都不对。
最后是讯飞星火，这是这个问题中唯一把两个小问都答对的选手：
也许是因为科大讯飞本身有做 AI 教育业务的因素，掌握大量的教育大数据，因此整体测下来在知识丰富性和准确性方面的表现是比较亮眼的。这个环节中，四款大模型最终的评分分别为：