IT世界|CMU研究员让机器人学会了听音辨物，不止视觉作者|蒋宝尚

编辑|陈大鑫
在机器人技术中，虽然我们已经在视觉和触觉方面取得了巨大的进步，但是对声音的研究一直稍有欠缺。
近日，来自卡内基梅隆大学的研究员们，首次对声音和机器人动作之间的相互作用进行了大规模研究。
Tilt-Bot本质上是个托盘机器人，由多个关节的机械臂、托盘和固定装置组成，托盘四周有边框，上面贴着用于记录物体撞击的声波捕捉装置。
如上图所示，托盘的正上方还固定了一个摄像头，用于捕捉物体运动轨迹，后期再与声音变化相匹配。
实验时，研究人员会把不同的物体放到托盘中，机械臂随后开始向前后左右倾斜，托盘中的物体也随之移动。
如果倾斜过大，物体就会撞到边框并发出响声，撞击力度越大，捕捉到的声波波峰也就越高。
【IT世界|CMU研究员让机器人学会了听音辨物，不止视觉】因此，受过训练的机器人只需要分析物体滑动和撞击的声音记录，就可以区分不同物体。另外，作者在论文中提到，即使同是金属质地的螺丝刀和扳手也可以成功分辨，总体成功率接近80% 。
值得一提的是，作者在实验过程中，根据收集的信息还创建了包含60个物体， 15,000个交互（碰撞等）的声音-动作-视觉数据集。数据收集过程如下动图所示：
其中，第一个观察意味着：仅仅根据一个物体发出的声音，一个AI学习模型就可以从60个物体中以79.2%的准确率识别该物体；第二个观察意味着，通过声音， AI学习模型就可以预测外力对该物体施加了什么动作；第三个观察意味着，通过声音可以测试物体隐含的物理特性。
以上三个观察，作者用了三种研究方法进行证明。
1研究方法
为了理解和研究声音与动作的协同作用，卡内基梅陇大学的研究人员重点研究了三大类学习任务：1、细粒度分类(或实例识别)；2、逆向模型学习；3、下游正向模型学习（downstreamforward-modellearnin）。
其中，在细粒度识别任务中，一般是用视觉图像作为输入来完成的。在作者的论文中，主要是以音频作为输入研究“声音”中包含什么样的信息。
具体而言，对于作者TiltBot数据集中的60个物体，作者先创建一个包含80%数据的训练集和一个包含20%数据的测试集。
然后，作者训练一个简单的CNN ，只把音频信息作为输入，并输出产生声音的对象的实例标签。这个架构类似于下图?

IT世界|CMU研究员让机器人学会了听音辨物，不止视觉

推荐阅读

环球网|视频来了：新西兰总理皱着眉头反驳特朗普

【】中国履行中美经贸第一阶段协议情况如何？权威回应来了

油菜籽有哪些做法

超能网|QLC企业级SSD，2.5英寸7mm就可提供15.36TB超大容量，群联推出S12DC

尴尬！20岁姑娘未婚未育，胸口却总有乳汁溢出…检查后吓懵

宝宝体温比大人高多少

@孕妇内分泌高怎么办？

次元快讯|天花板变歪遭网友吐槽，太尬！知名女星晒素颜照暴露P图痕迹

睡觉流口水不都是姿势不当

每经12点丨高铁暂无规定禁止摘口罩饮食

王晓晨|曝胡歌跟王晓晨隐婚生女，刚出月子多次大秀钻戒，本尊紧张回应

央视|美国纽约新冠病毒测试阳性率超过2％

季乐|生涯四次拿下CBA总冠军，退役后成警察，娶篮球宝贝为妻

一岁宝宝吃牛肉怎么做一岁宝宝吃牛肉怎么做

白牡丹是属于红茶吗,老白茶属于红茶吗

封面新闻|封面评论｜爱心善举，永续循环

LOL|S10迎来好消息，LCK一支顶级强队提前淘汰！LPL赛区面临相同难题

证书尺寸8k和12k哪个大？职业资格证书尺寸是多少？

超人爸爸谈育儿|宝爸上来就是一巴掌，宝妈：打得好，小孩任性打奶奶

虎扑|湖人明年可能聆听关于他的报价，库兹马休赛期有资格续约