文章插图
总结评价:都是“半斤八两”
鉴于其卓越的多模态推理能力,Gemini确实是GPT-4V的有力挑战者 。
在大多数情况下,与GPT-4V相比,Gemini的回答准确性具有竞争力 , 并展示了不同的回答风格和偏好 。
GPT-4V倾向于生成对感知任务更详细的描述,并为认知任务提供深入的分析和逐步的中间推理,而Gemini更喜欢对答案提供直接而简洁的回应,这有助于用户快速找到相关信息 。
不过,两个模型也存在一定的共性问题,比如空间感知能力不强,复杂OCR和抽象视觉理解不理想,推理过程可能存在不自洽结果,对提示设计的鲁棒性不足……在很多情况下仍然陷入困境 。
所以 , 从现阶段成果来看,两者都点“半斤八两”的意思 。
作者最后的结论就是:
大模型的多模态能力总的来说都还有很长的路要走 。
具体往哪走?
三个方面:视觉表示编码(细粒度外观、空间关系感知)、多模态对齐(减轻幻觉、OCR准确性)以及模型推理能力(定量处理、逻辑一致性) 。
关于Gemini Pro与GPT-4V、SPHNIX的更多评估比较,请查看原论文 。
链接:
[1]https://arxiv.org/pdf/2312.12436.pdf
[2]https://Github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
— 完—
推荐阅读
- 谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题
- Google Play谷歌开发者公司邓白氏编码办理流程
- 一个GPT的幽灵在Gemini上空徘徊
- 兼容性视图设置在哪,谷歌浏览器兼容性视图设置方法?
- 谷歌邮箱格式,gmail.com是哪个区的邮箱后缀?
- 谷歌Pixel6A和PixelWatch的发布推迟到7月
- ios怎么下载谷歌play,如何下载谷歌play?
- 谷歌是干什么的,谷歌派是干什么的?
- 谷歌Bard「破防」,用自然语言破解,提示注入引起数据泄漏风险
- SRE 从谷歌 20 年的站点可靠性工程中学到的 11 个经验教训