深兰科技深兰科技-机器也能看图说话( 四 ) 机器看到图像或视频就能像人类一样进行

文章图片
每个cell的MACi包含两个双重状态：1、控制态ci、记忆态mi2、都是d维连续空间矢量3、控制ci表示：MACcell在当前步骤中应该完成的推理操作，仅关注整个问题的某些方面。由加权平均后基于注意力问题词的总和表示4、记忆态mi表示：那些被认为与响应查询或者回答问题相关的当前上下文信息，实际上， mi通过对来自知识库(KB)的元素的加权平均来表示，或者对于VQA的情况，对图像中的区域进行加权平均。 5、将m0和c0分别初始化为d随机矢量6、控制态ci和记忆态mi以循环方式从一个cell传递到下一个cell ，并以类似键值记忆网络(Key-Valuememorynetworks)的方式运行MAC原理精心设计和限制MACcell内部单元之间的相互作用的接口，限制了其可以学习的假设空间，从而引导其获得预期的推理行为，因此，该结构有助于增强学习过程并减轻过度拟合问题。 MAC允许问题与知识库(对于VQA的情况，就是指图像)仅仅通过间接方式进行交互，引导cell关注知识库KB中的不同元素，通过门控机制控制其操作。因此，在这两种情况下，这些媒介（视觉和文本，或知识和查询）之间的相互作用，或者以注意力图（AttentionMaps)的形式、或者作为门，通过概率分布来调节。
三、场景图

文章图片
现实世界的场景表示要复杂的多，不仅仅是物体之间的前后左右位置关系，还有on,has,wearing,of,in等等关系。 2015年，李飞飞参与的一篇图像检索的文章中提到，可以用场景图（SceneGraph）的方法来提升图像检索的性能，也是一个开创性的工作，文章里首次对场景图进行了定义。场景图是用来描述场景中的内容的结构化数据，把目标的属性做编码，把目标的关系提炼出来作为机器的输入。

文章图片
场景图生成的新算法之一，在CVPR2019的一篇论文中有所体现，它采用图卷积网络、知识嵌入式路由网络，生成了场景图。场景图应用基本在四大方面：图像检索、ImageCaptioning（看图说话）、VideoCaptioning、VisualReasoning（视觉推理）。文章开头提到的“智慧交通协管员”正是VideoCaptioning的表现形式。

深兰科技深兰科技-机器也能看图说话( 四 )

推荐阅读

小米 11现身Geekbench 这性能跑分感受下

袁崇焕|解析明朝战争：袁崇焕引兵捍卫京城，崇祯无辜冤杀

#日食#敬请期待！6月21日的“火环”将持续30秒，覆盖太阳98.8%

人类|1亿年之后，人还是人吗？科学家给出的模拟图让人惊讶

|新房装修，家用净水器是骗局？仔细想想是对的

新线投产里程超1000公里长三角铁路版图再扩容

确诊|上海昨日无新增本地新冠确诊病例，新增2例境外输入病例

《奇葩说》正确的废话，还要说吗？

烹饪|中秋将至，教你自制转化糖浆，做法超简单，放一年都不坏

A股|A股明天走势预测！

『掌上石家庄V』热心司机驾车追击2公里拦停！，路见车辆肇事逃逸

：世界上最短命的几种动物，活着为了等死，一生只有5分钟

蒋介石|“浮厝”了四十五年的蒋氏父子灵柩，何日才能“奉安”故乡？

为啥现在有些人对别人介绍的对象表示很抵触和排斥呢这是一种怎么样的心理

|空有其名，不得其形！六种不靠谱的广义和田玉！

李林▲为母则刚！两儿子同患罕见病，江苏瘦弱妈妈与死神搏斗13年，从没向命运低过头

邓伦|疑邓伦赴上海处理税务画面曝光，神情疲惫显沮丧，目前已经回北京

拼多多回应“特斯拉秒杀”：不存在订单转卖，将落实交付

适合一人开店的加盟店有哪些？

『每日谈汽车』“优等生”威马上交“硬核作业”，年轻中国车企成抗疫范本

深兰科技 深兰科技-机器也能看图说话( 四 )

推荐阅读

深兰科技深兰科技-机器也能看图说话( 四 )