谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告( 三 ) _Gemini

文章插图
总结评价：都是“半斤八两”
鉴于其卓越的多模态推理能力，Gemini确实是GPT-4V的有力挑战者。
在大多数情况下，与GPT-4V相比，Gemini的回答准确性具有竞争力，并展示了不同的回答风格和偏好。
GPT-4V倾向于生成对感知任务更详细的描述，并为认知任务提供深入的分析和逐步的中间推理，而Gemini更喜欢对答案提供直接而简洁的回应，这有助于用户快速找到相关信息。
不过，两个模型也存在一定的共性问题，比如空间感知能力不强，复杂OCR和抽象视觉理解不理想，推理过程可能存在不自洽结果，对提示设计的鲁棒性不足……在很多情况下仍然陷入困境。
所以，从现阶段成果来看，两者都点“半斤八两”的意思。
作者最后的结论就是：
大模型的多模态能力总的来说都还有很长的路要走。
具体往哪走？
三个方面：视觉表示编码（细粒度外观、空间关系感知）、多模态对齐（减轻幻觉、OCR准确性）以及模型推理能力（定量处理、逻辑一致性）。
关于Gemini Pro与GPT-4V、SPHNIX的更多评估比较，请查看原论文。
链接：
[1]https://arxiv.org/pdf/2312.12436.pdf
[2]https://Github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
— 完—

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告( 三 )

推荐阅读

优雅|美女穿搭：优雅的女人味，呈现出魅力的曲线

突然觉的人失去动力了该咋办?

果实会粘头发，一斤却要10元，但农村常当杂草，你们认识吗？

海外网|美国海军两栖攻击舰仍在持续燃烧至少57人受伤

看图猜成语！多动脑，很多人都败在第3个！第2回合难度不小

网络营销方式有哪些，六种常用的网络营销手段

香酥茄子

如何才能成佛

伊能静|伊能静说丈夫并不是你的医生：看破鞋谈感情？

8.18万元起，今年不知道买啥车？这5款买了错不了

国际足球|冠军之夜！内马尔姆巴佩冲击五冠王，欧冠有望创造历史

中芯国际集成电路制造有限公司关于媒体报道的澄清公告

监管|方星海：强化跨境上市公司审计监管合作，严打财务造假

医疗|河北邯郸：改革医保支付方式遏制过度医疗

『美食大谱TB』糖醋排骨的做法+配方，色香味俱全，看着就流口水的糖醋排骨

项乐宏|上市仅1年股价跌掉90%！涉及数十万人这次彻底暴雷了

手机中国 iOS版今年夏天支持Live Photos实况照片，OneDrive

金星▲她曾是金星的妻子，离婚时金星已是女儿身，如今的她怎么样了？

入选“国家队”！清远人医成为国家呼吸医学中心首批广东地区协同医院

北京青年报|保姆屡对老人施暴被控虐待，当庭求饶获刑一年