IT世界|CMU研究员让机器人学会了听音辨物，不止视觉( 二 ) 作者|蒋宝尚

在逆学习模型的任务中，主要解决“物体动作识别”任务。另外，此模型研究的是声音是否包含有关行为、动作的因果信息。
在问题设置中，模型将物体交互（物体碰撞等动作）之前和之后的观测作为输入，具体而言交互之前物体的图像，以及交互期间产生的声音，模型输出的是交互期间的动作。由于逆模型学习可以在以前未见过的物体上进行测试，因此作者在论文中提到，此模型不仅可以在训练中测试音频特征的泛化，而且还可以在新对象上测试音频特征的泛化。
在前面两个问题中，我们已经看到声音确实包含细粒度实例和动作的因果关系的信息。但是用什么样的损失函数训练适用于多个下游任务的音频嵌入呢？
一种方法是在Tilt-Bot数据上训练实例识别任务上的嵌入，而另一种选择是在逆模型任务上进行训练。这两个任务都编码不同形式的信息，其中分类编码对象的可识别属性，反向模型编码对象的物理属性。
但是，作者从多任务学习的工作中得到了启发，训练了一种联合嵌入，可以同时对分类和动作信息进行编码。
另外，作者在论文中还提到，理解音频嵌入中包含的信息还有一种方法，即给定输入对象实例的前三个最近（最相似）的对象实例。例如，将长螺丝刀与长蝴蝶刀相匹配；将黄色物体与其他颜色物体相匹配。如下图的TSN特征图所示，进一步证明了相似的物体是如何接近的，而物理上不同的物体是如何相距较远的。
而在卡内基梅隆大学的这项工作中，具体是通过把探测交互产生的声音，用作表示对象的潜在参数。
2总结
卡内基梅隆大学的“听音辨物”工作主要有三个贡献：
第一，创建了最大的声音-动作-视觉机器人数据集；
第二，证明了可以使用声音进行细粒度的物体识别；
第三，证明了声音是动作的指示器。

IT世界|CMU研究员让机器人学会了听音辨物，不止视觉( 二 )

推荐阅读

肥牛|早餐必备的它，别再干吃了！换个做法就光盘~

商家|长虹经销商被薅羊毛到破产：依约办事，也要查漏补缺

|戏骨林雪身体状况引担忧！体态严重走样，脸颊出现泡泡龙同款黑斑

|RNG合同又出问题了？女主持控诉：同意解约后被要求赔钱

『星座萝卜苏』天蝎座性格特质

梦幻西游电脑版|梦幻西游：开发测试丨凌波城史诗级加强，变最强后期，一刀秒人

好看|街拍：小姐姐的发色真好看，看完想去理发店

都有哪些文学作品深刻揭示了人们内心的孤独

组词葡组词萄

音乐之父巴赫巴赫简介

调皮的小孩|测你的悟性有多好！，心理测试：选一款喜欢的樱桃

电竞腹黑君|我的世界：冰龙城堡！冰雪之中的建筑？玩家们看后都喜欢上了

《原神》角色有哪些？

土耳其红茶粉怎么喝？[红茶]

比埃拉|国安2比0泰达，成绩出现反弹

腊梅花茶的制作方法,花茶的感官鉴赏

黄景瑜■《亲爱的戎装》杀青，黄景瑜造型俊美霸气，女主李沁又甜又灵

四方|证监会四方面推进 “金融支持保市场主体”工作

最后一次看海这首歌?最后一次看海的英文

乳液放冰箱里可以用吗水乳霜可以放在冰箱里吗