CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA

CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

【CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA】新智元推荐
编辑:白峰
【新智元导读】上海交大、三菱电机实验室联合提出将人体骨架建模为一个可学习的多尺度图 , 并且对不同层次的特征 , 多尺度图呈现动态变化 。 通过学习综合的多尺度特征表达 , DMGNN实现了更准确的未来运动预测 , 超越SOTA 。 现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系 , 或是仅考虑单一尺度的关节点关系 。 然而 , 很多时候是一组关节一起运动 , 抽象地表达动作的整体特征;相反 , 如果过度关注细节的关节 , 模型的整体性能也容易被复杂的运动影响 。 这种新的动态多尺度图神经网络(DMGNN) , 实现了更精准的运动预测 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

动态多尺度图建模3D人体骨架
基于3D人体骨架的运动预测目的是基于观测的人体骨架运动序列生成未来的姿态 , 被广泛应用于众多领域如人机交互、自动驾驶和行人跟踪等 。 现有方法通常无法显式地挖掘不同身体部位之间的关系或约束 , 或者仅构建了单一尺度下关节点之间的关系 , 却不足以反应一组运动的关节 , 例如 , 在行走中 , 包含多个关节的上肢和下肢之间的交互运动至关重要 , 不应该过度关注手指和脚趾 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

行走
CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

拍照
CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

买东西
本文提出一种多尺度图用来描述不同尺度下的人体部位和人体结构 。 每个多尺度图包含两个子图:单尺度图和跨尺度图 。 单尺度图逐步抽象人体骨骼;跨尺度图连接相邻的两个单尺度图 。 多尺度图是可训练的 , 并且在不同的网络层中呈现动态变化 , 可灵活的表达不同层级的身体部位之间的关联关系 。 基于多尺度图 , 作者提出动态多尺度图神经网络(DMGNN) , 其整体框架为一个编码器-解码器结构 , 分别用于提取运动特征和生成未来姿态 。 编码器的核心是一系列基本组分「多尺度图计算单元」(MGCU) , 解码器核心是「基于图的门控循环单元」(G-GRU) 。基于动态多尺度图的运动预测算法
动态多尺度图为了建模人体中综合的关联关系 , 作者提出建立多尺度图 , 其中图的节点是不同尺度下的身体部位 , 边为身体部位之前的关系 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

多尺度图包含两个子图:单尺度图和跨尺度图 , 其中单尺度图用于描述单个尺度中的人体内部关联 , 而跨尺度图连接了不同的单尺度图 , 描述了不同尺度中的身体部位的相互作用 。 例如 , 在粗尺度中的「上肢」节点可与细尺度中的「手」和「肘」建立连接 。 基于人类先验 , 多尺度图由一种预定义的物理性质的连接作为初始化 , 在模型的训练过程中被自适应地调整;针对网络不同层中的人体特征 , 多尺度图呈现动态变化 , 灵活地描述不同层级中的人体表达 。 模型框架CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

动态图神经网络包含一个编码器和一个解码器 , 其中编码器内部包含串联的的动态多尺度图计算单元(MGCU) , 用来逐层地提取人体运动的多尺度特征 。 每个MGCU包含多个单尺度图卷积块(SS-GCB)和跨尺度融合模块(CS-FB)CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

其中SS-GCB利用单尺度图的空间图卷积以及时间卷积提取单个尺度中运动的时空特征;CS-FB通过两个相邻尺度中的特征表达 , 学习两个尺度中不同身体部位之间的关联关系 , 以构建跨尺度图 , 并实现两个尺度中特征的交替融合 。 解码器中包含了基于图的门控循环单元(G-GRU) , 可以利用图卷积增强动作隐含特征中的信息传播 , 以更准确地生成未来姿态 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

此外 , 本文还提出了差分算子 , 用来获取运动的速度、加速度等高阶特征 , 有效地辅助运动预测 。 目标函数DMGNN通过L1loss进行训练 , 原因主要是相比于L2loss , L1loss在loss小的情况下保持足够大的梯度 , 在loss大的情况下降低了梯度爆炸的情况 , 可训练模型生成更准确的预测 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

Human3.6M和CMUMocap数据集验证效果超SOTA
作者在Human3.6M和CMUMocap两个数据集上进行了实验 , 通过计算预测结果与真实序列之间的平均角度误差进行定量评价 , 通过展示生成样本进行定性评价 。 Human3.6实验结果在短期预测中 , 可以超过绝大多数state-of-the-art方法 。 在长期预测中 , DMGNN可达到十分具有竞争力的表现 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

CMUMocap实验结果在短期和长期预测中 , DMGNN均可超过大多数state-of-the-art方法 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

实验结果可视化
通过生成样本可视化 , 可以看出 , 相比于众多前人工作 , DMGNN可以生成准确且合理的未来动作;而其他方法 , 容易在短期或长期出现较大的误差或偏移 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

消融实验
通过改变不同的身体尺度 , 可以发现:1)当利用3个尺度时 , 模型的表达效果最优;2)当尺度过少时 , 模型没有足够的抽象能力 , 无法准确把握动作的整体特征 , 故表达效果不够强;3)当尺度过多时 , 模型引入了过多抽象的特征表达 , 而动作预测本身对抽象和精度的要求都很高 , 过于粗化的特征反而影响了模型的预测能力 。CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
文章图片

通过定量和定性的实验分析 , 本文证明了DMGNN对比state-of-the-art方法 , 可以实现准确且合理的短期或长期人体运动预测 。 本文作者:MaosenLi,SihengChen,YaZhang等论文地址:https://arxiv.org/abs/2003.08802项目地址:https://github.com/limaosen0/DMGNN(待完善)视频链接:https://www.bilibili.com/video/BV1hf4y1U7Ri


    推荐阅读