深兰科技 深兰科技-机器也能看图说话( 三 )


深兰科技 深兰科技-机器也能看图说话
文章图片
CLEVR中的每个问题都与一个可以在图像的场景图(SceneGraph)上执行的功能程序(FunctionalProgram)相关联 , 从而得到问题的答案 。 CLEVR中的每个问题都以自然语言和功能性程序表示 。 功能程序表示精确确定回答每个问题所需的推理技能 。
深兰科技 深兰科技-机器也能看图说话
文章图片
我们使用问题族的方法 , 以最小化问题条件偏差的方式将功能程序转换为自然语言 。
CLEVR包含总共90个问题族 , 每个族都有一个程序模板和平均四个文本模板;
文本模板是通过为每个族手动编写一个或两个模板然后众包问题重写生成的;
为了进一步增加语言多样性 , 我们对每种形状 , 颜色和材料使用一组同义词;
每个模板最多有19个参数 , 少数族可以生成大量独特的问题;右图显示了CLEVR中近一百万个问题 , 超过85.3万个是独一无二的 。 通过添加新的问题族可以轻松扩展CLEVR 。
CLEVR数据集上六种VQA方法:在每个问题类型的准确度(越高越好)
深兰科技 深兰科技-机器也能看图说话
文章图片
Q-typemode:该Baseline对于每个问题类型预测最常见的训练集答案 。 LSTM:问题是用学习得到的单词嵌入和单词级LSTM进行处理的 。 最终的LSTM隐藏状态被传递给多层感知器(MLP) , 以预测可能答案的分布 。 此方法不使用图像信息 , 因此它只能建模了(学习了)问题条件偏差 。 CNN+BoW:BoW(BagofWords,词袋),问题中的每个单词的词向量求平均来编码该问题 , 并且使用卷积网络(CNN)提取的图像特征对图像进行编码 。 问题和图像特征被级联然后传递给多层感知器(MLP) , MLP预测可能答案的分布 。 我们使用在Google-News语料库中训练的词向量;这些在训练期间没有经过微调 。 CNN+LSTM:图像和问题分别使用CNN特征和LSTM的最终隐藏状态进行编码 , 这些特征被级联并传递给MLP以预测答案分布 。 CNN+LSTM+MCB:图像和问题分别使用CNN特征和LSTM的最终隐藏状态进行编码 , 但接下来不是级联 , 而是使用紧凑的多模池化(MCB)汇集它们的特征 。 (MCB,MultimodalCompactBilinearpooling,多模紧凑双线性池化)CNN+LSTM+SA:同样 , 问题和图像分别使用CNN和LSTM编码 。 使用一轮或多轮柔性空间注意力来组合这些表示 , 然后用MLP预测最终答案分布 。 (StackedAttentionNetworks,SANs,堆叠注意力网络)Human:使用土耳其机器人从测试集中随机收集5500个问题的人工响应 , 对每个问题在三个工人响应中进行投票取多数 。 查询问题询问特定对象的属性(例如“红色球体右侧物体是什么颜色?”)CLEVR数据集中物体有两种尺寸(大 , 小) , 八种颜色 , 两种材料(金属 , 橡胶)和三种形状(立方 , 球 , 圆柱) 。 在询问这些不同属性的问题上 , Q-typemode和LSTM都分别获得接近50% , 12.5% , 50%和33%的准确度 , 表明数据集对这些问题具有最小的问题条件偏差 。 CNN+LSTM+SA在这些问题上大大优于所有其他模式;它的注意力机制可以帮助它专注于目标对象并识别其属性 。
深兰科技 深兰科技-机器也能看图说话
文章图片
我们比较“两个空间关系的链式结构问题“和”沿着每个分支都有一个关系的树状结构问题“性能 。 在查询问题上 , CNN+LSTM+SA在链式和树状问题之间存在较大差距(92%对74%);在计数问题上 , CNN+LSTM+SA在链式问题上略胜LSTM(55%对49%)但在树问题上没有任何方法优于LSTM 。 树问题可能更难 , 因为它们需要模型在融合其结果之前并行执行两个子任务 。 数据集构建好了 , 就可以在此基础上探索视觉语义推理算法用于机器推理的组合注意网络斯坦福Christ师生提出了组合注意力网络 , 是一种新的、完全可区分的神经网络架构 , 旨在促进显性和表达性推理 。 其特点包括:1、许多常见类型的神经网络在学习和泛化大量数据方面是有效的 , 然而是单一黑盒架构 。 2、该‘组合注意推理网络’为迭代推理提供强大优先级的设计 , 支持可解释和结构化学习 , 从小样本数据的泛化能力强 。 3、该模型基于现有循环神经网络 , 对单个循环记忆、注意力和控制(MAC)单元进行序列化 , 对每个单元和它们之间的相互作用施加结构约束 , 将显式控制和软注意机制合并到它们的接口中 。 4、该模型在具有挑战性的CLEVR数据集上展示了极好强度和稳健性 , 用于视觉推理 , 实现了最新的98.9%的精确度 , 将之前最佳模型的错误率减半 。 更重要的是 , 我们新模型的计算效率更高 , 数据效率更高 。 该模型是一个基于注意力的循环神经网络 , 使用了一种新的MAC架构:记忆(Memory) , 注意力(Attention) , 合成(Composition) 。 MAC架构 , 是一个循环架构 , 类似于LSTM , 每个Cell的结构如上图 , 由控制单元CU , 读单元RU和写单元WU组成 。 蓝色显示控制流(ControlFlow) , 红色显示记忆流(MemoryFlow) 。


推荐阅读