多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页( 二 )
5、多模态agent
所谓多模态agent,就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法 。
这部分,作者主要先带大家回顾了这种模式的转变,总结该方法与传统方法的根本差异 。
【多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页】然后以MM-REACT为代表带大家看了这种方法的具体运作方式 。
接着全面总结了如何构建多模态agent,它在多模态理解方面的新兴能力,以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中 。
当然,最后也是一些高阶主题讨论 , 包括如何改进/评估多多模态agent,由它建成的各种应用程序等 。

文章插图
作者介绍
本报告一共7位作者 。
发起人和整体负责人为Chunyuan Li 。
他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为CV和NLP中的大规模预训练 。
他负责了开头介绍和结尾总结以及“利用LLM训练的多模态大模型”这章的撰写 。

文章插图
核心作者一共4位:
- Zhe Gan
- Zhengyuan Yang
- Jianwei Yang
- Linjie Li(女)
他们分别负责了剩下四个主题章节的撰写 。
综述地址:
https://arxiv.org/abs/2309.10020
— 完—
推荐阅读
- 李易峰打篮球被偶遇,消瘦太多黑眼圈加重,手腕全是伤惹猜测
- 让男人爱不释手、深爱入骨的女人,多半是这3种,跟外貌无关
- 养老保险缴15年、25年、30年,养老金差别有多大?
- 每天吃 1 个梨好处可太多了!
- 为何女生的内裤总是“卡缝”?原来,挑选内裤讲究还有这么多
- 被骗、涉黄……“旅游搭子”暗藏多少陷阱?
- “多巴胺穿搭”真能使人快乐吗
- 张杰谢娜结婚12周年,小夫妻牵手压马路,他们爱情细节还有多少?
- 杨梅怎么清洗?杨梅泡盐水多久会出虫子?
- 玉米要煮多久?糯玉米怎么才能煮的又软又甜?