国产AI大模型哪家强?十大维度横评四款主流大模型!( 三 )


首先,小编用一个经典的逻辑推理问题来考验参与评测的 AI 大模型产品,问题如下:
“小明牵着一只狗和两只小羊回家,路上遇到一条河,没有桥,只有一条小船,并且船很小,他每次只能带一只狗或一只小羊过河 。你能帮他想想办法,把狗和小羊都带过河去,又不让狗吃到小羊吗?”
对于这个问题,文心一言的回答第一步就错了,先带一只羊过河,那么原岸的狗就会将另一只羊吃掉 。而且看文心一言的回答,基本属于“一本正经地胡说八道”,五个步骤看得人云里雾里 。

国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
通义千问的回答也不对,而且比较敷衍 。
讯飞星火的回答基本正确,但是如果较真的话,最后还差一个把狗带到对岸的步骤,因此应该扣 1 分 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑这次的回答还是比较完美的,步骤全,而且能看懂 。
② 常识错误、陷阱识别能力测试
接着更进一步,小编在提问中设置一些陷进、错误,看看这四款大模型能否准确判断出题目中的陷进,并成功避坑 。
这里小编用的问题是“赵云失荆州的原因是什么?”
对于这个问题,360 智脑和讯飞星火都没有指出题干的错误,但是从回答中能看到,他们的回答还是以“关羽失荆州的原因”来回答的 。因此这里我们就扣 1 分吧 。
通义千问的回答全程都深信是“赵云失了荆州”,而且它的回答看起来有点离谱,还有“导致荆州被曹操攻占”的诡异发言 。
这个问题中回答的最好的是文心一言,不仅指出了题干的错误,也准确分析了关于丢失荆州的原因 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
本环节四款大模型产品的评分分别为:
360 智脑:9 分(避坑 - 1)讯飞星火:8 分(逻辑问题 - 1,避坑 - 1)文心一言:8 分(逻辑问题 - 2)通义千问:6 分(逻辑问题 - 2,避坑 - 2)
五、内容生成能力测试用户使用大模型的另一大用途就是让它们帮助写一些实用性文案,比如招聘文案、通知文书、店面评价、甚至让他们创作文章、小说、论文等等 。我们把这些统称为内容生成能力 。这也应该成为评测体验大模型的重要项目之一 。
① 文案创作
我们首先来看四款大模型产品的实用文案创作能力,小编让分别它们写一段招聘文案,并给出了详细要求 。
还是先看文心一言的回答,它创作的文案是符合要求的,并且条理清晰,风格也没跑偏,属于稍微改改就能直接用的水平 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
通义千问创作的文案整体是不错的,但是最后一段让人看着有点蒙圈,可见它对要求的理解还是有点问题,这里需要扣 1 分 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑创作的文案有点过于简洁了,虽然条件也都符合,但文案看着有些机械,格式也不够清晰明了,因此也扣 1 分 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
最后是讯飞星火,它创作的文案也是挺好的,基本没什么问题,也是稍微改改就能直接使用了 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
② 故事接龙
故事接龙也是考验大模型创作能力的好方法,因此在第二部分,小编主要考验四款大模型产品的故事接龙创作能力 。我们以那个经典的开头做引子:世界末日后,我成为地球上唯一幸存的人,独自坐在房间里,这时,突然想起了敲门声…… 然后让大模型续写后面的故事 。
文心一言的续写整体不错,只是在最后稍微有一些逻辑不通畅的地方,但瑕不掩瑜,而且语言表达中还夹杂着讲述者的情感,不是仅仅在陈述一个故事 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
通义千问的续写也不错,条理清楚逻辑完整,是一个比较合格的续写 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
讯飞星火的续写也很好,描写比较细致,设定也还算合理,和通义千问类似,中规中矩 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑的续写相对简单,没有细节,因此需要扣 1 分 。


推荐阅读