多模态大模型，阿里通义千问能和GPT-4V掰手腕了 _多模态大模型

通义千问的图像推理能力，最近有了大幅提升。

2024 年，大模型领域要卷什么？
如果没有思路的话，不妨看看各家大厂都在押注什么方向。
最近一段时间，先是 AI target=_blank class=infotextkey>OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。

文章插图
谷歌随后跟上，发布的 Gemini 成为了业界第一个原生的多模态大模型，它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

文章插图
很明显，新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息，未来的大模型也应该充分利用更多种类的感官，以此探索实现 AGI 的路径。
不只有 GPT-4V、Gemini，在这个充满潜力的方向上，国内的技术力量同样值得关注：最近的一个重要发布就来自阿里，他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布，在多个测评基准上取得了好成绩，并实现了强大的图像理解的能力。
我们还记得 Gemini 发布之后，谷歌马上被曝出给 Demo 加速。这让人们对新技术产生了一些质疑，并开始好奇：在当下的各路多模态大模型中，到底哪家比较强？
Demo 不作数，实际一测便知。有人拿着自己的名片给 GPT-4V 和 Qwen-VL-Plus 看，高下立见了：值得注意的是，去年底升级的 Plus 版还不是 Qwen-VL 的最强版本，最近发布的 Max 才是。

文章插图

文章插图
图源：https://x.com/altryne/status/1742597044781395982?s=20
在 Qwen-VL-Plus 发布后，国内也有人拿 Gemini 演示视频里的问题对它进行了测试，发现所有问题 Qwen-VL-Plus 完全都能回答上来。

文章插图
一系列测评看下来，我们确实可以说，Qwen-VL 的整体能力已经达到了媲美 GPT-4V 和 Gemini 的水平，在多模态大模型领域实现了业内领先。
Qwen-VL 如何追平 GPT-4V、Gemini？
事实上，通义千问的视觉理解大模型已经经历了几轮迭代。
早在去年 8 月，阿里就放出了 Qwen-VL 模型的第一个版本，并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了「看」世界的能力。

文章插图
图片来源：https://Twitter.com/Gorden_Sun/status/1696021151753855331
经历了几个月的改进，Qwen-VL 的整体能力又有了一个跃升，陆续推出 Plus 和 Max 两大升级版本，限时免费使用。用户可以在通义千问官网、通义千问 App 直接体验 Max 版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型 API 。

文章插图
相比于开源版本的 Qwen-VL，这两个模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准，并大幅超越此前开源模型的最佳水平。

文章插图
在多模态大模型性能整体榜单 OpenCompass 中，Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V ，占据了前三名的位置。

文章插图
图片来源：https://opencompass.org.cn/leaderboard-multimodal
Qwen-VL Plus 和 Max 支持百万像素以上的高清图，甚至各种极端长宽比的图片。

文章插图
它们不仅有高水平的基准评测性能，在真实场景中展现出来的解决问题的能力也有显著提高，不仅可以轻松进行对话，识别名人、地标，生成文本内容，视觉推理能力也有明显改善。
开发者一手实测
Qwen-VL 发布以来，从开源社区到社交网络上，我们已经看到了一系列「花活」。
接下来，我们从普通用户的角度，再来考验一下升级版的 Qwen-VL 。
给它一张《繁花》里面 90 年代初的上海滩照片：