通过将pix2seq与pix2emb结合,作者训练了全新的NExT-Chat模型 。
NExT-Chat模型
文章插图
△NExT-Chat模型架构NExT-Chat整体采用了LLaVA架构,即通过Image Encoder来编码图像信息并输入LLM进行理解,并在此基础上添加了对应的Box Encoder和两种位置输出的Decoder 。
为了解决LLM不知道何时该使用语言的LM head还是位置解码器的问题,NExT-Chat额外引入一个全新的token类型来标识位置信息 。
如果模型输出了,则该token的embedding会被送入对应的位置解码器进行解码而不是语言解码器 。
此外,为了维持输入阶段和输出阶段位置信息的一致性 , NExT-Chat额外引入了一个对齐约束:
文章插图
△位置输入、输出约束如上图所示,box和位置embedding会被分别通过解码器、编码器或解码器编码器组合,并要求前后不发生变化 。
作者发现该方法可以极大程度促进位置输入能力的收敛 。
而NExT-Chat的模型训练主要包括3个阶段:
第一阶段:训练模型基本的框输入输出基本能力 。NExT-Chat采用Flickr-30K , RefCOCO,VisualGenome等包含框输入输出的数据集进行预训练 。训练过程中 , LLM参数会被全部训练 。
第二阶段:调整LLM的指令遵循能力 。通过一些Shikra-RD,LLaVA-instruct之类的指令微调数据使得模型可以更好的响应人类的要求 , 输出更人性化的结果 。
第三阶段:赋予NExT-Chat模型分割能力 。通过以上两阶段训练,模型已经有了很好的位置建模能力 。作者进一步将这种能力扩展到mask输出上 。实验发现 , 通过使用极少量的mask标注数据和训练时间(大约3小时),NExT-Chat可以快速的拥有良好的分割能力 。
这样的训练流程的好处在于:检测框数据丰富且训练开销更小 。
NExT-Chat通过在充沛的检测框数据训练基本的位置建模能力 , 之后可以快速的扩展到难度更大且标注更稀缺的分割任务上 。
论文地址:
https://arxiv.org/abs/2311.04498
【大模型都会标注图像了,简单对话即可!来自清华&NUS】
推荐阅读
- 大模型平台都在用的SSE协议是怎么样的?
- cad尺寸标注输入格式 cad尺寸标注及打印设置
- cdr该咋得才可以标注尺寸
- OpenAI微软被诉侵权,大模型时代下的版权问题该如何处理?
- 英雄联盟手游中有哪些英雄,英雄联盟手游所有英雄都会出
- 大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好
- Java Lambda 表达式各种用法,你都会了吗
- 狗的寿命是多少年?为何狗临死前都会离家出走?它们在害怕什么?
- cdr标尺寸快捷键,cdr标注尺寸应该怎样进行操作
- cad如何调标注数字大小,cad要怎么样才可以更改字体的大小