ICRA2020论文分享:基于视触融合感知的可形变物体抓取状态评估
??随着学会的队伍不断发展壮大 , 分支机构的发展愈发完善 , 丰富多彩的分支活动与学术分享也频频呈现 。 疫情期间 , CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松 , 学习充电不间断”的理念 , 与大家分享ICRA2020论文《基于视触融合感知的可形变物体抓取状态评估》 。
1、引言人类可以通过视觉和触觉融合感知快速确定抓取可变形物体所需力的大小 , 以防止其发生滑动或过度形变 , 但这对于机器人来说仍然是一个具有挑战性的问题 。 为了提升机器人通用抓取能力 , 精准而高效的抓取状态评估是其中十分关键的一环 。 传统意义上的抓取状态评估更加关注抓取过程是否稳定[1](左下图)以及是否发生滑动[2](右下图) 。

文章图片
然而 , 对于可变形或易碎的物体 , 仅在抓取过程中检测滑动时不够的 。 例如对于图中这种抓取纸杯的任务 , 如果将抓握力设置得太大 , 尽管可以防止纸杯滑动 , 但是过大的抓握力可能会使纸杯发生形变 , 从而对其造成不可逆的损坏 。

文章图片
因此 , 中科院自动化研究所王硕研究员团队在研究了一种更全面的方法来评估可变形物体的抓握状态 。 我们将可形变物体的抓取状态评估任务定义为对抓取状态的滑动、适当和过力三个类别的分类问题 。 这三种抓取状态用于描述各种可形变对象的抓取状态 , 如下图所示 , (a)滑动(b)适当(c)过力 。 上下两列图像分别由旁置及腕部相机拍摄 。

文章图片
人类在抓取任意物体时可以自动确定抓取是否合适 。 这来源于我们优秀的视觉与触觉感知 。 对机器人而言也是如此 , 我们重点关注如何赋予机器人使用视触融合感知来评估可形变物体抓取状态的能力 。 对于本任务而言 , 关键在于如何从两个异质模态时空序列中学习有效的融合时空特征 。 虽然已有相关研究工作采用视触融合感知进行材质分类[3]、物体识别[4]、物体三维重建[5]等任务中 , 但大多只采用时刻数据 。 Li等人通过构构卷积+循环神经网络对视触时空序列进行处理 , 从而实现滑动检测[6] 。 但是 , 此框架的前提是视、触传感器具有相同的采样率 , 但实际触觉采样率要远高于视觉 。 因此 , 本文提出了一种新颖的3D卷积(C3D)视触融合感知框架(C3D-VTFN) , 对不同采样率下的视触时空序列进行融合特征提取 , 并在此基础上构建了分类网络 , 用于评估可形变物体的抓取状态 。
2、方法本文所提框架如图所示该网络通过3D卷积神经网络将原始时空信号编码为两个特征 , 并将这两个特征合并输入到分类网络 , 从而输出最终的抓取状态评估结果 。 其网络参数如下图所示 , 相关代码请参见:https://github.com/swchui/Grasping-state-assessment 。

文章图片

文章图片
3、数据采集为了训练和测试所构建深度神经网络 , 我们首先构建了抓取状态评估数据集(GSADataset) 。 整个数据采集实验是在配备了OnRobotRG2夹手的UR3机械臂上进行的 。 其中 , 夹手的一个指尖采用XELA触觉传感器[7] , 并且在顶部安装有一个1080PUSB腕部摄像头摄像头 。
GSA数据集通过对16个不同大小 , 形状 , 纹理 , 材料和重量的可形变物体进行抓取和提升实验采集抓取数据 , 其中一些如下图所示 。

文章图片
本文选择采用不同的抓取宽度和力对不同物体进行抓取 , 从而平衡三种标签的数量 。 此外 , 在每次抓取和提升试验中 , 将针对每个物体的合适抓取宽度和力自动标记抓取状态 。 在每个抓取实验中 , 以预设的宽度和力抓取对象 , 然后缓慢提升20.0mm(提升速度设置为10.0mm/s) 。

文章图片
【ICRA2020论文分享:基于视触融合感知的可形变物体抓取状态评估】?
在抓取实验中 , 数据分别由30Hz的视觉传感器和60Hz的触觉传感器收集 。 我们对每个物体进行了50~60次抓取 , 每次抓取试验收集大约30~40帧的视觉图像和60~80帧的触觉数据 。 最终 , GSA数据集由大约20,000个5帧图像序列和相应的触觉图像序列样本组成 。 其中 , 将13个对象的抓取数据用于训练模型 , 将其余3个对象的抓取数据用于测试 。 有关GSA的详细数据集 , 请参见https://github.com/swchui/Grasping-state-assesssment/graspingdata 。
4、实验我们首先对不同参数设定下的模型性能进行了对比实验 , 包括输入序列长度、采样率、图片尺寸等 。 结果表明 , 当视觉输入序列长度设定为5、采样率设定为最高、图片尺寸设定为112x112时 , 模型取得了最好的分类性能 。 此外 , 本文还对不同输入模态进行了消融研究 。 结果表明 , 视触融合感知实现了远超单模态的分类性能 , 且视觉模态较触觉模态性能更为显著 。

文章图片
此外 , 为了验证所构建模型的有效性 , 我们在此基础上开展了精准抓取实验 。 首先 , 我们根据实时抓取状态评估结果制定了一个粗略的抓取调整策略:

文章图片
当模型评估当前抓取状态为滑动时 , 抓取力度和宽度均减去1个单位;反之相反 。 首先 , 我们将初始抓取力度设定为5N , 抓取宽度设定为66m开展抓取和提升实验 , 此设定对于所选目标物体来说是滑动的 , 其抓取动态调整实验过程如下所示 。 此曲线图表明了有无抓取状态调整策略的区别 。 可见 , 加入基于C3D-VTFN所构建的抓取动态调整策略后 , 可实现动态的抓取策略调整 , 实现精准抓取的目标 。

文章图片
?

文章图片
其次 , 我们将我们将初始抓取力度设定为32N , 抓取宽度设定为44m开展抓取和提升实验 , 此设定对于所选目标物体来说是过力的 , 其抓取动态调整实验过程如下所示:

文章图片
?

文章图片
上述两个实验很好地验证了所构建模型对可形变物体的当前抓取状态的评估性能 。 此外 , 由于在数据收集过程中使用相对固定的采集视角 , 训练后的模型在固定的角度下具有更高的精度 , 而在其他视角下则性能相对较弱 。 一种可行的方法是在每个实验中添加多个不同的采集视角 , 从而显着增加GSA数据集的规模 , 从而使模型更加通用 。 幸运的是 , 此限制并不妨碍我们验证所构建模型和所提方案的可行性和有效性 。
5、总结本文通过构建C3D-VTFN深度神经网络 , 采用视觉-触觉融合感知来评估各种可变形物体的抓取状态 。 首先 , 通过3D卷积层提取视觉和触觉模态特征 , 这为视觉-触觉融合感知任务提供了新的特征提取方案 。 其次 , 我们建立了GSA数据集来采集抓取数据 , 进而训练和测试所提出的模型 。 实验结果表明 , 本文所提出的视觉融合感知框架在可形变物体抓取状态评估任务获得良好的性能 。 最后 , 我们基于C3D-VTFN模型进行了两次精细抓取实验 , 并采用了动态调整策略 , 取得了令人信服的结果 。 此后 , 我们将探索更符合人类视觉-触觉融合本质的感知模型及其在机器人抓取和操作任务中的应用 。
推荐阅读
- 新个体经济为啥这么"火" 分享也是一项"严肃创业"
- 新华网|白俄罗斯总统卢卡申科说愿根据宪法程序分享总统权力
- 奇迹暖暖缘觅七夕小精灵送礼技巧分享|奇迹暖暖缘觅七夕小精灵送礼技巧分享
- 穿搭分享指南|伊能静穿“露胃装”录综艺,谁注意秦昊手放的位置?这也太腻歪了
- 穿搭分享指南|曾经杨幂助理,九年后逆袭成顶流,被誉圈内“最佳励志姐”
- 卢卡申科|白俄罗斯总统卢卡申科说愿根据宪法程序分享总统权力
- 部门|如何做好一场部门内部分享?
- 书展|上海书展·专访 | 戴锦华:我想跟孩子们分享电影艺术
- 口腔|好物分享丨李佳琦这个魔鬼,OMG每次都被他种草!
- 爱车分享,吉利博瑞
