多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页( 二 )


5、多模态agent
所谓多模态agent,就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法 。
这部分,作者主要先带大家回顾了这种模式的转变,总结该方法与传统方法的根本差异 。
【多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页】然后以MM-REACT为代表带大家看了这种方法的具体运作方式 。
接着全面总结了如何构建多模态agent,它在多模态理解方面的新兴能力,以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中 。
当然,最后也是一些高阶主题讨论 , 包括如何改进/评估多多模态agent,由它建成的各种应用程序等 。

多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页

文章插图
作者介绍
本报告一共7位作者 。
发起人和整体负责人为Chunyuan Li 。
他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为CV和NLP中的大规模预训练 。
他负责了开头介绍和结尾总结以及“利用LLM训练的多模态大模型”这章的撰写 。
多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页

文章插图
核心作者一共4位:
  • Zhe Gan
目前已进入Apple AI/ML工作,负责大规模视觉和多模态基础模型研究 。此前是Microsoft Azure AI的首席研究员,北大本硕毕业,杜克大学博士毕业 。
  • Zhengyuan Yang
微软高级研究员,罗切斯特大学博士毕业,获得了ACM SIGMM杰出博士奖等荣誉 , 本科就读于中科大 。
  • Jianwei Yang
微软雷德蒙德研究院深度学习小组首席研究员 。佐治亚理工学院博士毕业 。
  • Linjie Li(女)
Microsoft Cloud & AI计算机视觉组研究员,普渡大学硕士毕业 。
他们分别负责了剩下四个主题章节的撰写 。
综述地址:
https://arxiv.org/abs/2309.10020
— 完—




推荐阅读