|李飞飞团队最新研究,真实场景中识别物体具体属性
白交 发自 凹非寺量子位 报道 | 公众号 QbitAI
现在 , 细微到物体表面的纹理 , AI都可以识别 。
这就是李飞飞团队新研究 。
我们知道 , 卷积神经网络在识别视觉对象方面很出色 , 但还不能很好的识别出物体的具体属性 , 比如表面形状、纹理等 。
而最近 , 李飞飞团队的最新研究——Learning Physical Graph Representations from Visual Scenes , 就一举解决了这个问题 。
本文插图
还引入了物理场景图(Physical Scene Graphs , PSG)和对应的PSGNet网络架构 。
PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路 , 力求能够在几何上处理复杂的物体形状和纹理 。
这样 , 在真实世界的视觉数据中学习 , 可以做到自监督 , 因而不需要大量和繁琐的场景组件标记 。
具体研究是如何呢?我们一起来看看吧!
PSGNet的建构
简单来说 , 用一张图就可以表示 。
本文插图
棕色方框表示PSGNet的三个阶段 。
首先 , 特征提取 。 采用ConvRNN从输入中提取特征 。
然后 , 构建图形 , 负责优化现有PSG级别 。
最后 , 用于端到端训练的图形渲染 。
其中 , 在构建图形这一阶段 , 由一对可学习的模块组成 , 即池化和向量化 。
前者在现有图节点上动态的构建一个池化核的分区 , 作为学习的、成对的节点 affinities函数 。
后者在与每个池化核相关联的图像区域及其边界上 , 聚合节点统计 , 来产生新节点的属性向量 。 这样便可以直观的表示出真实场景中的物体属性 。
在「图形渲染阶段」 , PSG相当于通过一个解码器 。
在每个时间点将图节点属性 , 以及图节点顶层空间配准(SR) , 渲染成RGB、深度、段和RGB变化图z 。
举个例子 , 除开棕色方框部分 , 就是一个PSG的三个层次以及与其纹理(QTR)和形状(QSR)渲染图 。
本文插图
实验结果
随后 , 将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 测试集上训练 , 并与最近基于CNN场景分割方法进行性能比较 。
首先说一说这三个数据集 , 为什么要选择这三个数据集呢?
Primitives和Playroom中的图像由ThreeDWorld (TDW)生成 。 其中 , Primitives是在一个简单的3D房间中渲染的原始形状(如球体、圆锥体和立方体)的合成数据集 。
Playroom是具有复杂形状和逼真纹理的物体的合成数据集 , 如动物、家具和工具 , 渲染为具有物体运动和碰撞的图形 。
Gibson则是由斯坦福大学校园内部建筑物的RBG-D扫描组成 。
这三个数据集都提供了用于模型监督的RGB、深度和表面法线图 。
性能的比较结果如下:
本文插图
注意的是 , OP3和PSGNetM没有在Gibson或Primitives上进行训练 , 因为它们有静态测试集 。
可以看到与其他模型相比 , PSGNet表现出了更优的性能 。
本文插图
△PSGNets的场景分解
此外 , 文中还通过「手动编辑」PSG顶层的节点 , 观察其渲染效果 , 来说明PSG能够正确的将场景表示为离散的对象及其属性 。
就像这样 。
本文插图
推荐阅读
- 戒毒|防治毒品复吸新靶点 研究团队“擦除”小鼠成瘾记忆
- 中年|法国研究团队利用超级计算机首次完成整台航空发动机高保真仿真
- 团队|自己招人做运营,真就比找代运营便宜吗?
- 中年|江西师范大学Zhipeng Wang研究团队--简易合成碳球插层石墨烯片用作超级电容器电极
- 青年|《对马岛之魂》采访:一个美国团队咋就做起了日本游戏?
- 张玉忠|刘鲁宁/张玉忠团队合作取得光合膜天然结构研究重要进展
- led|韩国研究团队开发无线Micro LED供电系统,有望用于这类医疗设别…
- 团队|心海学院调研团队及131领袖们莅临东莞市德泰公司参观指导
- |《星际战甲》团队并购案升级!腾讯入局PK索尼,世纪华通退出
- |校企如何对接?他们请川大3个科研团队向7家企业介绍科研成果