谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告( 三 )


谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
总结评价:都是“半斤八两”
鉴于其卓越的多模态推理能力,Gemini确实是GPT-4V的有力挑战者 。
在大多数情况下,与GPT-4V相比,Gemini的回答准确性具有竞争力 , 并展示了不同的回答风格和偏好 。
GPT-4V倾向于生成对感知任务更详细的描述,并为认知任务提供深入的分析和逐步的中间推理,而Gemini更喜欢对答案提供直接而简洁的回应,这有助于用户快速找到相关信息 。
不过,两个模型也存在一定的共性问题,比如空间感知能力不强,复杂OCR和抽象视觉理解不理想,推理过程可能存在不自洽结果,对提示设计的鲁棒性不足……在很多情况下仍然陷入困境 。
所以 , 从现阶段成果来看,两者都点“半斤八两”的意思 。
作者最后的结论就是:
大模型的多模态能力总的来说都还有很长的路要走 。
具体往哪走?
三个方面:视觉表示编码(细粒度外观、空间关系感知)、多模态对齐(减轻幻觉、OCR准确性)以及模型推理能力(定量处理、逻辑一致性) 。
关于Gemini Pro与GPT-4V、SPHNIX的更多评估比较,请查看原论文 。
链接:
[1]https://arxiv.org/pdf/2312.12436.pdf
[2]https://Github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
— 完—




推荐阅读