大模型都会标注图像了，简单对话即可！来自清华&NUS( 二 ) _大模型

通过将pix2seq与pix2emb结合，作者训练了全新的NExT-Chat模型。
NExT-Chat模型

文章插图
△NExT-Chat模型架构NExT-Chat整体采用了LLaVA架构，即通过Image Encoder来编码图像信息并输入LLM进行理解，并在此基础上添加了对应的Box Encoder和两种位置输出的Decoder 。
为了解决LLM不知道何时该使用语言的LM head还是位置解码器的问题，NExT-Chat额外引入一个全新的token类型来标识位置信息。
如果模型输出了，则该token的embedding会被送入对应的位置解码器进行解码而不是语言解码器。
此外，为了维持输入阶段和输出阶段位置信息的一致性， NExT-Chat额外引入了一个对齐约束：

文章插图
△位置输入、输出约束如上图所示，box和位置embedding会被分别通过解码器、编码器或解码器编码器组合，并要求前后不发生变化。
作者发现该方法可以极大程度促进位置输入能力的收敛。
而NExT-Chat的模型训练主要包括3个阶段：
第一阶段：训练模型基本的框输入输出基本能力。NExT-Chat采用Flickr-30K ， RefCOCO，VisualGenome等包含框输入输出的数据集进行预训练。训练过程中， LLM参数会被全部训练。
第二阶段：调整LLM的指令遵循能力。通过一些Shikra-RD，LLaVA-instruct之类的指令微调数据使得模型可以更好的响应人类的要求，输出更人性化的结果。
第三阶段：赋予NExT-Chat模型分割能力。通过以上两阶段训练，模型已经有了很好的位置建模能力。作者进一步将这种能力扩展到mask输出上。实验发现，通过使用极少量的mask标注数据和训练时间(大约3小时)，NExT-Chat可以快速的拥有良好的分割能力。
这样的训练流程的好处在于：检测框数据丰富且训练开销更小。
NExT-Chat通过在充沛的检测框数据训练基本的位置建模能力，之后可以快速的扩展到难度更大且标注更稀缺的分割任务上。
论文地址：
https://arxiv.org/abs/2311.04498

【大模型都会标注图像了，简单对话即可！来自清华&NUS】