深兰科技 深兰科技-机器也能看图说话( 二 )
文章图片
基于更复杂的视觉特征提取模型的ImageCaptioning 。 其中利用人的常识构建了一个知识库(ConceptNet) , 然后把它加入Encoding-Decoding模型里 , 赋予模型一定程度的常识能力 。 我们一直希望机器能有所谓的认知智能 , 实际上就是希望机器能够像人一样具有常识 。

文章图片
基于ImageCaptioning的VQA(视觉问答)
ImageCaptioning是实现视觉认知的一个重要方面 , 现在基于上文提及的谷歌提出的ImageCaptioning模型来构造对场景的理解 , 并进行问答 。
问题:地面上覆盖着什么?
模型回答:积雪

文章图片
问题:地面上覆盖着什么?模型回答:积雪情况变得不那么乐观了
文章图片
深度学习系统 , 例如用于VQA的系统 , 可能会发展出类似的“作弊”方法 , 表面上似乎“解决了”任务 , 而无需学习潜在的推理过程 。 例如 , 模型可以正确回答“地面覆盖着什么?”这个问题 , 不是因为它理解了场景 , 而是因为有偏差的数据集经常在积雪时提出有关地面的问题 。 我们怎样才能确定一个系统是否能够进行复杂的推理而不仅仅是利用数据的偏差?模型即使给出了正确的回答 , 我们仍然要明确重要一点:这个正确答案是模型真正通过一步一步推理得到的 , 还是通过对图像和问题的肤浅理解 , 利用数据集偏差 , 得到的统计结果 。 因此就需要在图像感知基础上进行理解、推理、认知 , 并构建数据集 。 VisualGenome(视觉基因组)这是斯坦福李飞飞团队构建的数据集 , 它就是尝试解决这样的问题 。
现有模型能够检测照片中的离散对象(人或物);
但无法解释它们之间的交互(interactions)或它们之间的关系;
大多数模型停留在感知智能阶段;
对视觉世界的推理与认知理解要求计算机不仅具有检测对象的能力 , 还要具有描述这些对象的能力 , 并理解它们在场景中的相互作用 。

文章图片
采用自然语言对图像内容进行描述 , 加进去人类的认知理解构造训练集 。 进一步通过知识图谱工程(关系抽取、实体链接等等) , 标注出对象(Objects)、属性(Attribute)和关系(Relationships) 。 构造视觉概念到语义层面的数据集:
提供目标对象的交互和属性的详细标注;
对人、事、物、关系进一步密集标注;
将注释词汇映射到WordNet中实现规范化;
对每个区域构建一个组织关系图;
【深兰科技 深兰科技-机器也能看图说话】联结一张图片上的所有区域图 , 构成一个完整的场景图 。
然而 , 上述数据集构造人力成本大 , 下面介绍生成式推理数据集CLEVR 。
生成式推理数据集CLEVR
CLEVR是一个诊断数据集 , 用于构成语言和基本视觉推理的场景 , 由斯坦福李飞飞团队和FacebookAI研究所合作研发 。 CLEVR数据集包含:
10万幅渲染图像;
100万条自动生成的问题 , 其中85.3万条独一无二的问题 。
它具有挑战性的图像和问题对 , 可以测试视觉推理能力 , 如计数、比较、逻辑推理和在记忆中存储信息 。 下面是来自CLEVR的示例图像和问题 , 问题测试视觉推理的方面 , 例如属性识别、计数、比较、多重注意和逻辑操作 。

文章图片
问:大型物体和金属球体的数量是否相等?问:大球体左边的棕色金属物体的左边的圆柱体是什么尺寸的?问:有一个和金属立方体大小相同的球体 , 它是由和小红球相同的材料制成的吗?问:有多少物体是小圆柱体还是红色的?CLEVR数据集优于其他数据集的两点:(1)CLEVR最大限度地减少了先前VQA数据集的偏差 , 避免学习系统在没有视觉推理的情况下就可以正确回答问题的情况;(2)CLEVR的合成性质和详细注释有助于深入分析现有数据集无法实现的推理能力 。 下图可以直观呈现出CLEVR数据集是如何生成的 。
推荐阅读
- 科技一哥|荣耀30青春版图集赏析:触觉与视觉的完美享受
- 科技犬君|vs 索尼A9G 谁强?,上半年用户喜爱手机盘点;小米电视大师65英寸OLED
- 精选泛科技|结果如何?,一加8续航遭质疑:上半年最全机型横评出炉
- 科技犬君上半年用户喜爱手机盘点;小米电视大师65英寸OLED vs 索尼A9G 谁强?
- 科技生活快报TB5000mAh大电池还有65W超级快充!这些手机让你摆脱充电焦虑
- 精选泛科技一加8续航遭质疑:上半年最全机型横评出炉,结果如何?
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 华为Mate30美科技界:华为再强大也只是一家民企,我们究竟在怕什么?
- 行业|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
- 阿拉图图科技说 给做了!,雷军服不服?苹果要把雷军敢说不敢做的事情
