多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页( 二 )

2026-07-29 大模型

5、多模态agent
所谓多模态agent，就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法。
这部分，作者主要先带大家回顾了这种模式的转变，总结该方法与传统方法的根本差异。
【多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页】然后以MM-REACT为代表带大家看了这种方法的具体运作方式。
接着全面总结了如何构建多模态agent，它在多模态理解方面的新兴能力，以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中。
当然，最后也是一些高阶主题讨论，包括如何改进/评估多多模态agent，由它建成的各种应用程序等。

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

文章插图
作者介绍
本报告一共7位作者。
发起人和整体负责人为Chunyuan Li 。
他是微软雷德蒙德首席研究员，博士毕业于杜克大学，最近研究兴趣为CV和NLP中的大规模预训练。
他负责了开头介绍和结尾总结以及“利用LLM训练的多模态大模型”这章的撰写。

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

文章插图
核心作者一共4位：

Zhe Gan

目前已进入Apple AI/ML工作，负责大规模视觉和多模态基础模型研究。此前是Microsoft Azure AI的首席研究员，北大本硕毕业，杜克大学博士毕业。

Zhengyuan Yang

微软高级研究员，罗切斯特大学博士毕业，获得了ACM SIGMM杰出博士奖等荣誉，本科就读于中科大。

Jianwei Yang

微软雷德蒙德研究院深度学习小组首席研究员。佐治亚理工学院博士毕业。

Linjie Li（女）

Microsoft Cloud & AI计算机视觉组研究员，普渡大学硕士毕业。
他们分别负责了剩下四个主题章节的撰写。
综述地址：
https://arxiv.org/abs/2309.10020
— 完—

推荐阅读

上一篇：什么是类生命机器人呢

下一篇：cad倒角怎么操作？工具比方法更加重要！