打开,体验流畅的单目三维手势技术( 三 )


第二类 [13,14] 是在神经网络输出的关键点之后引入物理约束 , 通过损失函数让网络在训练中学会避免不合理手型 。 同样地 , 在数据量不足的情况下 , 该方法很容易对当前数据产生过拟合 , 影响模型泛化性 。
针对这些问题 , 研究人员提出了基于显式教师网络的人手物理约束方法 。 该方法的设计思路借鉴了真实的教学过程 。
在现实中 , 老师往往通过发现学生行为的错误来指导学生学习某种知识 。 老师首先允许学生给出自己的答案 , 然后去评判答案 , 如果其中有错误 , 老师会给出正确方案 。 学生在接收到老师的反馈后 , 反思自己答案中的问题 , 并在之后的预测中避免类似的错误 。 该过程如图 8 所示 。
打开,体验流畅的单目三维手势技术文章插图
图 8:教师教学过程
基于这个思想 , 研究人员设计了用于指导人手物理约束的教师网络 。 该网络包含两个部分:角度约束模块以及偏移修正网络 , 如图 9 所示 。
打开,体验流畅的单目三维手势技术文章插图
图 9:显式教师网络示意图
角度约束模块通过关节点之间的角度是否满足预先设定的合理范围 , 来判断学生预测结果是否合理 。 当发现预测手势为不合理手型时 , 将该样本送入偏移修正网络进行修正 , 得到修正后的结果后再通过损失函数反向传播至学生网络 , 让学生网络在之后的预测中避免相似的错误 。
图 10 展示了使用该方法训练模型的手势预测结果和基准模型的结果 , 可以看到 , 使用显式教师模型训练的结果更倾向于输出满足人手物理约束的手势 。
打开,体验流畅的单目三维手势技术文章插图
图 10:可视化结果
应用
作为常用的自然交互方式之一 , 手势是近乎本能的一种表达方式 , 早在语言出现之前就已经是日常沟通的主要手段 。 在未来的数字时代 , AR、VR 和 MR 等沉浸式场景将成为主流的数码和交互设备 , 而手势因其自然、非接触式特点 , 打破了现实和虚拟之间的鸿沟 , 无疑是未来设备标配技术之一 。 事实上 , 三维手势等手势识别技术已经广泛应用于虚拟现实、游戏等领域 。 然而 , 目前三维手势技术严重依赖于深度摄像头等专业设备 , 导致使用门槛过高 , 不适合普通用户使用 。 在快手 , 得益于自研的高效端上推理引擎 YCNN 和大量神经网络结构优化经验 , 三维手势能够中低端机型上实时运行 , 为数亿快手用户提供了新的交互方式 , 激发了用户的创作热情 。
目前快手已经上线了 “指尖小怪物” 等魔表效果 , 也在打磨多款具有 3D 感知的特效 。 与此同时 , 该技术也将与快手混合现实 (MR) 技术结合起来 , 打造具有沉浸感的虚拟现实互动系统 。
后续计划
未来快手将进一步探索 CG 数据在神经网络训练中的领域迁移等技术 , 提升生成数据训练的效果 。 另一方面 , 该团队同时也在研发轻量级的手部 Mesh 重建技术 , 期待为用户提供更多的交互形式 。
参考文献
[1] Zimmermann C, Brox T. Learning to Estimate 3D Hand Pose from Single RGB Images[C]. IEEE international conference on computer vision. 2017.
[2] Cai Y, Ge L, Cai J, et al. 3D Hand Pose Estimation Using Synthetic Data and Weakly Labeled RGB Images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[3] Cai Y, Ge L, Cai J, et al. Weakly-supervised 3D Hand Pose Estimation from Monocular RGB Images[C]. European Conference on Computer Vision. 2018.
[4] Ganin Y, Lempitsky V. Unsupervised Domain Adaptation by Backpropagation. International Conference on Machine Learning. 2015.


推荐阅读