IT世界|CMU研究员让机器人学会了听音辨物,不止视觉( 二 )
在问题设置中 , 模型将物体交互(物体碰撞等动作)之前和之后的观测作为输入 , 具体而言交互之前物体的图像 , 以及交互期间产生的声音 , 模型输出的是交互期间的动作 。 由于逆模型学习可以在以前未见过的物体上进行测试 , 因此作者在论文中提到 , 此模型不仅可以在训练中测试音频特征的泛化 , 而且还可以在新对象上测试音频特征的泛化 。
在前面两个问题中 , 我们已经看到声音确实包含细粒度实例和动作的因果关系的信息 。 但是用什么样的损失函数训练适用于多个下游任务的音频嵌入呢?
一种方法是在Tilt-Bot数据上训练实例识别任务上的嵌入 , 而另一种选择是在逆模型任务上进行训练 。 这两个任务都编码不同形式的信息 , 其中分类编码对象的可识别属性 , 反向模型编码对象的物理属性 。
但是 , 作者从多任务学习的工作中得到了启发 , 训练了一种联合嵌入 , 可以同时对分类和动作信息进行编码 。
另外 , 作者在论文中还提到 , 理解音频嵌入中包含的信息还有一种方法 , 即给定输入对象实例的前三个最近(最相似)的对象实例 。 例如 , 将长螺丝刀与长蝴蝶刀相匹配;将黄色物体与其他颜色物体相匹配 。 如下图的TSN特征图所示 , 进一步证明了相似的物体是如何接近的 , 而物理上不同的物体是如何相距较远的 。
2总结
卡内基梅隆大学的“听音辨物”工作主要有三个贡献:
第一 , 创建了最大的声音-动作-视觉机器人数据集;
第二 , 证明了可以使用声音进行细粒度的物体识别;
第三 , 证明了声音是动作的指示器 。
推荐阅读
- |世界上最大洞穴,可以容纳70亿人,人类的避难所
- 科学家|本可以改变世界,但却未能真正实现的10项发明和研究
- 青山绿水那些事|很少有中国文化影子,却能影响全世界,中国茶文化最年轻的“学生”
- 宝石流云|迈入芯片强国吗?,中国光刻机明年可以达到世界较为先进的水平
- 外星人|世界观即将崩塌?地心人与地底文明,空洞学说地底文明是真的吗?
- 帝释天|为什么世界各地的神话竟然惊人地相似?也许宙斯跟帝释天是同一人
- 星球狂想战队|世界科技格局
- |世界上“智商最高”的4个人:3个已离世,剩下一个是中国血统
- 华为|白宫也没想到,任正非向全世界摊牌了?没有光刻机华为也能活下去
- 芯片|中国光刻机明年可以达到世界较为先进的水平,迈入芯片强国吗?