|李飞飞团队最新研究，真实场景中识别物体具体属性

白交发自凹非寺量子位报道 | 公众号 QbitAI
现在，细微到物体表面的纹理， AI都可以识别。
这就是李飞飞团队新研究。
我们知道，卷积神经网络在识别视觉对象方面很出色，但还不能很好的识别出物体的具体属性，比如表面形状、纹理等。
而最近，李飞飞团队的最新研究——Learning Physical Graph Representations from Visual Scenes ，就一举解决了这个问题。

本文插图

还引入了物理场景图（Physical Scene Graphs ， PSG）和对应的PSGNet网络架构。
PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路，力求能够在几何上处理复杂的物体形状和纹理。
这样，在真实世界的视觉数据中学习，可以做到自监督，因而不需要大量和繁琐的场景组件标记。
具体研究是如何呢？我们一起来看看吧！
PSGNet的建构
简单来说，用一张图就可以表示。

本文插图

棕色方框表示PSGNet的三个阶段。
首先，特征提取。采用ConvRNN从输入中提取特征。
然后，构建图形，负责优化现有PSG级别。
最后，用于端到端训练的图形渲染。
其中，在构建图形这一阶段，由一对可学习的模块组成，即池化和向量化。
前者在现有图节点上动态的构建一个池化核的分区，作为学习的、成对的节点 affinities函数。
后者在与每个池化核相关联的图像区域及其边界上，聚合节点统计，来产生新节点的属性向量。这样便可以直观的表示出真实场景中的物体属性。
在「图形渲染阶段」， PSG相当于通过一个解码器。
在每个时间点将图节点属性，以及图节点顶层空间配准（SR），渲染成RGB、深度、段和RGB变化图z 。
举个例子，除开棕色方框部分，就是一个PSG的三个层次以及与其纹理（QTR）和形状（QSR）渲染图。

本文插图
实验结果
随后，将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 测试集上训练，并与最近基于CNN场景分割方法进行性能比较。
首先说一说这三个数据集，为什么要选择这三个数据集呢？
Primitives和Playroom中的图像由ThreeDWorld (TDW)生成。其中， Primitives是在一个简单的3D房间中渲染的原始形状（如球体、圆锥体和立方体）的合成数据集。
Playroom是具有复杂形状和逼真纹理的物体的合成数据集，如动物、家具和工具，渲染为具有物体运动和碰撞的图形。
Gibson则是由斯坦福大学校园内部建筑物的RBG-D扫描组成。
这三个数据集都提供了用于模型监督的RGB、深度和表面法线图。
性能的比较结果如下：

本文插图

注意的是， OP3和PSGNetM没有在Gibson或Primitives上进行训练，因为它们有静态测试集。
可以看到与其他模型相比， PSGNet表现出了更优的性能。

本文插图

△PSGNets的场景分解
此外，文中还通过「手动编辑」PSG顶层的节点，观察其渲染效果，来说明PSG能够正确的将场景表示为离散的对象及其属性。
就像这样。

本文插图

|李飞飞团队最新研究，真实场景中识别物体具体属性

推荐阅读

南京雨花茶是什么茶？

梅花自健康|不是山药，平时可劲吃，健脾胃，排湿气，补脾王被发现

什么鱼可以做生鱼片(日本生鱼片种类)

西方无神论者的婚礼怎样进行

黑暗之魂|PS5《黑暗之魂》数字豪华版特典公开，11月重回帕雷塔尼亚

『西安』成渝、南京、西安、福州被点名？你可能想简单了

为什么长江叫“江”，黄河叫“河”？江和河究竟有什么区别？

娱乐小羊宝|妹子，这回你不能饶了他，否则下次他还会搞笑的，搞笑GIF:

手机中毒者联想现在无手机可卖，怪不得这个618消失了呢？

基层最高检：基本实现行政非诉执行违法情形监督全覆盖

美国|轮到中方行动了！蓬佩奥没料到，对华疯狂出手后，美反遭三重打击

2021年八月出生的鼠宝宝取名-2021年八月出生宝宝取名禁忌

说自己是钮祜禄是什么梗？钮祜禄是什么梗钮祜禄梗的意思？

旅游|长白山突然发生山体滑坡：游客飞奔避险逃命

明星八卦|演禁片成名，艳压群芳拿影后，这个「双面」尤物，才是真正的女神

问董秘|贵公司是否有措施...，投资者提问：贵公司近期是否有增持或扩股计划？在证监处罚后

『新发现杂志』大数据时代可怕的能耗

无人机创客教育进入课堂，“创客火”编程无人机助推落地

「中新网」法国东南部遭暴雨侵袭引发洪灾已致6人遇难

十月一烧纸能提前吗七月十五可以提前几天烧纸