多模态大模型,阿里通义千问能和GPT-4V掰手腕了

 

通义千问的图像推理能力,最近有了大幅提升 。
2024 年,大模型领域要卷什么?
如果没有思路的话,不妨看看各家大厂都在押注什么方向 。
最近一段时间,先是 AI target=_blank class=infotextkey>OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
谷歌随后跟上,发布的 Gemini 成为了业界第一个原生的多模态大模型,它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
很明显,新的方向就是多模态 。继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为「视觉」是下一个爆发的赛道 。毕竟人类的五感之中有 80% 是视觉信息,未来的大模型也应该充分利用更多种类的感官,以此探索实现 AGI 的路径 。
不只有 GPT-4V、Gemini,在这个充满潜力的方向上,国内的技术力量同样值得关注:最近的一个重要发布就来自阿里,他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布,在多个测评基准上取得了好成绩,并实现了强大的图像理解的能力 。
我们还记得 Gemini 发布之后 , 谷歌马上被曝出给 Demo 加速 。这让人们对新技术产生了一些质疑,并开始好奇:在当下的各路多模态大模型中 , 到底哪家比较强?
Demo 不作数 , 实际一测便知 。有人拿着自己的名片给 GPT-4V 和 Qwen-VL-Plus 看,高下立见了:值得注意的是,去年底升级的 Plus 版还不是 Qwen-VL 的最强版本,最近发布的 Max 才是 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图

多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
图源:https://x.com/altryne/status/1742597044781395982?s=20
在 Qwen-VL-Plus 发布后,国内也有人拿 Gemini 演示视频里的问题对它进行了测试,发现所有问题 Qwen-VL-Plus 完全都能回答上来 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
一系列测评看下来 , 我们确实可以说,Qwen-VL 的整体能力已经达到了媲美 GPT-4V 和 Gemini 的水平,在多模态大模型领域实现了业内领先 。
Qwen-VL 如何追平 GPT-4V、Gemini?
事实上,通义千问的视觉理解大模型已经经历了几轮迭代 。
早在去年 8 月 , 阿里就放出了 Qwen-VL 模型的第一个版本,并很快对通义千问进行了升级 。Qwen-VL 支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了「看」世界的能力 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
图片来源:https://Twitter.com/Gorden_Sun/status/1696021151753855331
经历了几个月的改进,Qwen-VL 的整体能力又有了一个跃升,陆续推出 Plus 和 Max 两大升级版本,限时免费使用 。用户可以在通义千问官网、通义千问 App 直接体验 Max 版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型 API 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
相比于开源版本的 Qwen-VL,这两个模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
在多模态大模型性能整体榜单 OpenCompass 中,Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V , 占据了前三名的位置 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
图片来源:https://opencompass.org.cn/leaderboard-multimodal
Qwen-VL Plus 和 Max 支持百万像素以上的高清图,甚至各种极端长宽比的图片 。
多模态大模型,阿里通义千问能和GPT-4V掰手腕了

文章插图
它们不仅有高水平的基准评测性能 , 在真实场景中展现出来的解决问题的能力也有显著提高,不仅可以轻松进行对话,识别名人、地标,生成文本内容,视觉推理能力也有明显改善 。
开发者一手实测
Qwen-VL 发布以来,从开源社区到社交网络上,我们已经看到了一系列「花活」 。
接下来,我们从普通用户的角度,再来考验一下升级版的 Qwen-VL 。
给它一张《繁花》里面 90 年代初的上海滩照片:
多模态大模型,阿里通义千问能和GPT-4V掰手腕了


推荐阅读