|李飞飞团队最新研究,真实场景中识别物体具体属性


白交 发自 凹非寺量子位 报道 | 公众号 QbitAI
现在 , 细微到物体表面的纹理 , AI都可以识别 。
这就是李飞飞团队新研究 。
我们知道 , 卷积神经网络在识别视觉对象方面很出色 , 但还不能很好的识别出物体的具体属性 , 比如表面形状、纹理等 。
而最近 , 李飞飞团队的最新研究——Learning Physical Graph Representations from Visual Scenes , 就一举解决了这个问题 。
|李飞飞团队最新研究,真实场景中识别物体具体属性
本文插图

还引入了物理场景图(Physical Scene Graphs , PSG)和对应的PSGNet网络架构 。
PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路 , 力求能够在几何上处理复杂的物体形状和纹理 。
这样 , 在真实世界的视觉数据中学习 , 可以做到自监督 , 因而不需要大量和繁琐的场景组件标记 。
具体研究是如何呢?我们一起来看看吧!
PSGNet的建构
简单来说 , 用一张图就可以表示 。
|李飞飞团队最新研究,真实场景中识别物体具体属性
本文插图

棕色方框表示PSGNet的三个阶段 。
首先 , 特征提取 。 采用ConvRNN从输入中提取特征 。
然后 , 构建图形 , 负责优化现有PSG级别 。
最后 , 用于端到端训练的图形渲染 。
其中 , 在构建图形这一阶段 , 由一对可学习的模块组成 , 即池化和向量化 。
前者在现有图节点上动态的构建一个池化核的分区 , 作为学习的、成对的节点 affinities函数 。
后者在与每个池化核相关联的图像区域及其边界上 , 聚合节点统计 , 来产生新节点的属性向量 。 这样便可以直观的表示出真实场景中的物体属性 。
在「图形渲染阶段」 , PSG相当于通过一个解码器 。
在每个时间点将图节点属性 , 以及图节点顶层空间配准(SR) , 渲染成RGB、深度、段和RGB变化图z 。
举个例子 , 除开棕色方框部分 , 就是一个PSG的三个层次以及与其纹理(QTR)和形状(QSR)渲染图 。
|李飞飞团队最新研究,真实场景中识别物体具体属性
本文插图
实验结果
随后 , 将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 测试集上训练 , 并与最近基于CNN场景分割方法进行性能比较 。
首先说一说这三个数据集 , 为什么要选择这三个数据集呢?
Primitives和Playroom中的图像由ThreeDWorld (TDW)生成 。 其中 , Primitives是在一个简单的3D房间中渲染的原始形状(如球体、圆锥体和立方体)的合成数据集 。
Playroom是具有复杂形状和逼真纹理的物体的合成数据集 , 如动物、家具和工具 , 渲染为具有物体运动和碰撞的图形 。
Gibson则是由斯坦福大学校园内部建筑物的RBG-D扫描组成 。
这三个数据集都提供了用于模型监督的RGB、深度和表面法线图 。
性能的比较结果如下:
|李飞飞团队最新研究,真实场景中识别物体具体属性
本文插图

注意的是 , OP3和PSGNetM没有在Gibson或Primitives上进行训练 , 因为它们有静态测试集 。
可以看到与其他模型相比 , PSGNet表现出了更优的性能 。
|李飞飞团队最新研究,真实场景中识别物体具体属性
本文插图

△PSGNets的场景分解
此外 , 文中还通过「手动编辑」PSG顶层的节点 , 观察其渲染效果 , 来说明PSG能够正确的将场景表示为离散的对象及其属性 。
就像这样 。
|李飞飞团队最新研究,真实场景中识别物体具体属性
本文插图


推荐阅读