MIT、DeepMind发布CLEVRER数据集,推动视频理解的因果逻辑推理
机器之心发布
机器之心编辑部
大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别 , 而不是基于因果结构 。 在这篇ICLR2020论文中 , 麻省理工、DeepMind的研究者提出了一种针对时间和因果推理问题的数据集 , 包含20,000个关于碰撞物体的合成视频以及300,000多个问题和答案 , 从互补的角度研究了视频中的时间和因果推理问题 。

文章图片
论文链接:https://arxiv.org/abs/1910.01442
项目链接:http://clevrer.csail.mit.edu/
从视频的物理事件中识别物体并推断其运动轨迹的能力是人类认知发展的核心 。 人类 , 即使是幼儿 , 也能够通过运动将图片区域划分为多个物体 , 并使用物体的永久性、实体性和连贯性的概念来解释发生了什么 , 推断将发生什么以及想象在反事实情况下会发生什么 。
【MIT、DeepMind发布CLEVRER数据集,推动视频理解的因果逻辑推理】在静态图像和视频上提出的各种数据集的推动下 , 复杂视觉推理问题已经在人工智能和计算机视觉领域得到了广泛研究 。 然而 , 大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别 , 而不是基于因果结构 。 尽管这些数据集涵盖了视觉的复杂性和多样性 , 但推理过程背后的基本逻辑、时间和因果结构却很少被探索 。
在这篇论文中 , 麻省理工和DeepMind的研究者从互补的角度研究了视频中的时间和因果推理问题 。 受视觉推理数据集CLEVR的启发 , 他们简化了视觉识别问题 , 但增强了交互对象背后的时间和因果结构的复杂度 。 结合从发展心理学中汲取的灵感 , 他们提出了一种针对时间和因果推理问题的数据集 。
CLEVRER
研究者将这个数据集称为基于碰撞事件的视频推理(CLEVRER) 。 CLEVRER的设计遵循两个准则:首先 , 发布的任务应侧重于在时间和因果上的逻辑推理 , 同时 , 保持简单以及在视觉场景和语言上出现的偏差最小;其次 , 数据集应完全可控并正确标注 , 以承载复杂的视觉推理任务并为模型提供有效的评估 。
CLEVRER包含20,000个关于碰撞物体的合成视频以及300,000多个问题和答案 。 问题的类型包括以下四种 , 如下图所示:
描述性(「什么颜色」)
解释性(「什么原因」)
预测性(「将发生什么」)
反事实(「如果…会发生什么」)

文章图片
CLEVRER附带有视频中每个对象的真实运动轨迹和事件历史记录 。 每个问题都与代表其基本逻辑的程序匹配 。 如下表所示 , CLEVRER在多个方面补充了现有的视觉推理数据集 , 并引入了一些新颖的任务 。

文章图片
研究者对各种最新的视觉推理模型在CLEVRER上进行了评估 , 结果如下表所示 。 尽管这些模型在描述性问题上表现良好 , 但它们缺乏因果推理的能力 , 在解释性 , 预测性和反事实问题上表现不佳 。

文章图片
他们认为视觉推理任务包含三个关键要素:视频中的物体和事件的识别;物体与事件之间动力学和因果关系的建模;理解问题背后的符号逻辑 。 作为对此原理的初步探索 , 他们提出了一种新的预测模型——结合神经网络和符号表征的动态推理(NS-DR) , 通过视频符号表征将这些要素明确地联结在一起 。
NS-DR模型
NS-DR模型结合了用于模式识别和动力学预测的神经网络 , 以及用于因果推理的符号逻辑 。 如下图所示 , NS-DR模型由视频解析器(Ⅰ)、动态预测器(Ⅱ)、问题解析器(Ⅲ)和程序执行器组成(Ⅳ) 。

文章图片
视频解析器
研究者使用ResNet-50FPN作为主干网络 , 通过MaskR-CNN在每帧视频上执行物体检测和场景去渲染 。 对于输入的每帧视频 , 网络输出物体的固有属性(颜色、材料、形状)标签、物体的maskproposals以及proposal的置信度 , 由此获得以物体为中心的视频表征 。
动态预测器
他们将PropNet应用到动态建模中 , 将物体的proposals作为输入 , 预测其运动轨迹和碰撞事件 。
PropNet将动态系统表示为有向图G=?O,R? , 其中顶点O={o_i}表示物体 , 边R={r_k}表示关系 。 每个物体o_i和关系r_k可以进一步写成

文章图片
,

文章图片
, 其中s_i表示物体的状态;

文章图片
表示物体的固有属性;u_k和v_k表示由边r_k连接的接收方和发送方顶点的索引;

文章图片
表示边的状态 , 即两个物体之间是否存在碰撞 。 PropNet通过多步信息传递来处理物体之间的状态转移 。
问题解析器
使用基于注意力机制的Seq2Seq模型将输入的问题解析为相应的程序 , 模型由双向LSTM编码器和注意力LSTM解码器组成 。 给定输入单词序列 , 编码器首先在每个步骤生成双向潜在编码

文章图片
然后 , 解码器使用注意力机制从潜在编码中生成一系列程序token:

文章图片
其中 , 编码器和解码器均使用两层隐藏层和300维度单词嵌入向量 。
程序执行器
程序执行器在动态预测器提取的运动轨迹和碰撞事件上执行程序 , 并输出问题的答案 。 它包含多个通过Python实现的程序模块 , 其中共有三种类型:输入模块 , 过滤器模块和输出模块 。 输入模块是程序树的入口点;过滤器模块基于固有属性、运动状态、时间顺序或因果关系对输入物体/事件执行逻辑运算;输出模块返回答案标签 。
NS-DR性能评估
研究者在CLEVRER上评估了NS-DR的性能 , 结果如下表所示 。 对于描述性问题 , 他们的模型可达到88.1%的准确率 , 显著优于其他基准方法 。 在解释性、预测性和反事实问题上 , 他们的模型获得了更大的提升 。

文章图片
NS-DR将动态规划纳入视觉推理任务中 , 能够直接对未观察到的运动和事件进行预测 , 并能够对预测性和反事实性任务进行建模 。 这表明动态规划对基于语言的视觉推理任务具有很大的潜力 , NS-DR朝着这个方向迈出了初步探索 。 此外 , 符号表征为视觉、语言、动力学和因果关系提供了强大的共同基础 。 通过设计 , 它使模型能够明确地捕获视频因果结构和问题逻辑 。
总结
视频中时间和因果推理 , 这个深刻且具有挑战性的问题已深深植根于人工智能的基础之上 , 最近才开始使用「现代」人工智能方法进行研究 。 他们引入了一系列基准任务 , 以更好地促进这一领域的研究 , 新提出的CLEVRER数据集和NS-DR模型是朝着这个方向迈出的初步尝试 。
研究者希望随着图网络、视觉预测模型和结合神经网络和符号表征算法的最新发展 , 深度学习领域可以在将来更加现实的设置中重新审视这一经典问题 , 从而获得超越模式识别的真正智能 。
推荐阅读
- 情商高、会说话,相处起来很舒服的星座,走到哪里都受欢迎
- 水花、格林加维金斯,能吹响勇士反攻的号角吗?能否再创5年3冠?
- 中美关系直击要点!外交部长王毅记者会核心内容精炼 提及中美关系、病毒源头、香港事务等问题
- 超美的露肩装穿衣指南,溜肩、宽肩也能穿,不用羡慕别人了
- 普拉多车尾的TX、TXL、VXL是啥意思?老司机:搞不懂会闹笑话
- 新华网内地学者解读全国人大会议涉港议程:守护国家安全、维护“一国两制”的必要之举
- 支付宝、微信未必安全?手机出现这3种征兆,你或许已被黑客监听
- 中国最强CMOS芯片厂商:打败索尼、三星,年销10亿多颗,全球第一
- 电机正转与反转的几种解决方法(附电路图的分析)
- 终于知道生啤、熟啤、干啤、原浆、纯生之间的区别,口味大不同
