深兰科技 深兰科技-机器也能看图说话( 四 )


深兰科技 深兰科技-机器也能看图说话
文章图片
每个cell的MACi包含两个双重状态:1、控制态ci、记忆态mi2、都是d维连续空间矢量3、控制ci表示:MACcell在当前步骤中应该完成的推理操作 , 仅关注整个问题的某些方面 。 由加权平均后基于注意力问题词的总和表示4、记忆态mi表示:那些被认为与响应查询或者回答问题相关的当前上下文信息 , 实际上 , mi通过对来自知识库(KB)的元素的加权平均来表示 , 或者对于VQA的情况 , 对图像中的区域进行加权平均 。 5、将m0和c0分别初始化为d随机矢量6、控制态ci和记忆态mi以循环方式从一个cell传递到下一个cell , 并以类似键值记忆网络(Key-Valuememorynetworks)的方式运行MAC原理精心设计和限制MACcell内部单元之间的相互作用的接口 , 限制了其可以学习的假设空间 , 从而引导其获得预期的推理行为 , 因此 , 该结构有助于增强学习过程并减轻过度拟合问题 。 MAC允许问题与知识库(对于VQA的情况 , 就是指图像)仅仅通过间接方式进行交互 , 引导cell关注知识库KB中的不同元素 , 通过门控机制控制其操作 。 因此 , 在这两种情况下 , 这些媒介(视觉和文本 , 或知识和查询)之间的相互作用 , 或者以注意力图(AttentionMaps)的形式、或者作为门 , 通过概率分布来调节 。
三、场景图
深兰科技 深兰科技-机器也能看图说话
文章图片
现实世界的场景表示要复杂的多 , 不仅仅是物体之间的前后左右位置关系 , 还有on,has,wearing,of,in等等关系 。 2015年 , 李飞飞参与的一篇图像检索的文章中提到 , 可以用场景图(SceneGraph)的方法来提升图像检索的性能 , 也是一个开创性的工作 , 文章里首次对场景图进行了定义 。 场景图是用来描述场景中的内容的结构化数据 , 把目标的属性做编码 , 把目标的关系提炼出来作为机器的输入 。
深兰科技 深兰科技-机器也能看图说话
文章图片
场景图生成的新算法之一 , 在CVPR2019的一篇论文中有所体现 , 它采用图卷积网络、知识嵌入式路由网络 , 生成了场景图 。 场景图应用基本在四大方面:图像检索、ImageCaptioning(看图说话)、VideoCaptioning、VisualReasoning(视觉推理) 。 文章开头提到的“智慧交通协管员”正是VideoCaptioning的表现形式 。


推荐阅读