机器之心一上台就紧张?这个模型生成演讲替身,肢体语言比总统候选人还丰富( 二 )
接下来 , 我们来看该模型的实现原理和具体效果 。
实现原理
该研究提出的概率生成模型基于近期关于归一化流的工作构建 , 尤其是 MoGlow [HAB19] 。 该模型可在大型非结构化运动数据集上进行训练 , 且数据无需手动标注 。
与直接基于语音合成动作的方法不同 , 该模型的训练过程中将语音作为输入 , 建模动作的条件概率分布 。 这样就可以基于概率分布采样新的姿势 , 从而每一次都可以生成不同却合理的姿势 。 这与人类行为一致 , 并且可以为虚拟智能体和动画行业提供不错的应用优势 。
该方法的优势包括:
数据集无需手动标注;
具备不确定性(因而可以得到无限种类的姿势变体);
能够输出全身姿势 。
具体而言 , 在实现语音驱动姿势合成的过程中 , 研究者使用了归一化流(normalising flow) 。 完整的动作生成流程如下图 1 所示:
本文插图
该模型的思路是在使用归一化流的姿势序列
本文插图
稳定自回归模型中 , 学习姿势 X 的多维下一步(next-step)分布 。 归一化流这一通用技术在表示大量连续值分布 p(x) 时能够同时实现高效推理(概率计算)以及高效的分布采样 。
【机器之心一上台就紧张?这个模型生成演讲替身,肢体语言比总统候选人还丰富】整体转换和中间结果表示如下:
本文插图
此外 , 归一化流的核心难题是设计出一个灵活、可逆、可微分且具有快速计算雅克比行列式(Jacobian determinant)的 f_n 变换参数族 。 2018 年 , Diederik P. Kingma 等研究者提出了 Glow 方法 , 在生成面部图像上实现了显著的效果 。 之后 , 又出现了改进版 MoGlow 。
MoGlow 专注于零算法延迟的运动控制 , 并不非常适合语音驱动姿势合成任务 。 与语音同时出现的人体姿势可以分割为准备、执行(stroke)和撤回三个阶段 。
基于此 , 该研究令时间实例 t 时的控制输入 c_t 同时包含当前语音特征 a_t 以及周围语音特征
本文插图
的视窗(window) , 从而将足够的未来信息考虑在内 。 完整的动作生成流程如上图 1 所示 。
实现效果如何?
在所有实验中 , 评分者需要观看和聆听人体姿势的 18 秒视频片段(如下图所示) , 并根据给定的评分标准进行打分(5 分制) 。
本文插图
人体相似性和适当性评估
下图 3 和表 1 展示了人体相似性、适当性、风格控制人体相似性和全身姿势人体相似性的平均得分:
本文插图
风格控制评估
下图 4 展示了风格控制对系统生成动作的影响 , 其中每一行表示不同的风格控制系统(分别是 M-H、MG-V、MG-R 和 MG-S) 。
本文插图
全身姿势评估
评估结果如上图 3 中最右侧图 , 全身 GT 平均得分为 4.005 , FB-C 平均得分为 3.764 , FB-U 平均得分为 3.421 。
本文插图
推荐阅读
- 小i机器人|小i机器人对苹果提起侵权诉讼索赔人民币100亿元
- 天气早知道|操纵“魔杖”、和AI机器人互动……科技课原来可以这么好玩
- 吃喝攻略|让你上台演讲5分钟,你会提前准备多久?从中能看出你能否成功!
- 黄子韬和机器人吵起来了|【铁憨憨的日常】黄子韬和机器人吵起来了 幼稚鬼韬三岁无疑了
- 小i机器人对苹果提起诉讼并索赔100亿人民币
- 黄子韬和机器人吵起来了|黄子韬和机器人吵起来了什么情况?终于真相了,原来是这样!
- 寂静岭|《寂静岭》注册官推账号 新作猜测再次被推上台面
- |腾讯搜索之心不死欲拿下搜狗 搜索市场将再起波澜
- 机器|比亚迪宋MAX怎么样,值得购买吗?都说比亚迪燃油版不怎么样?
- 腾讯|腾讯搜索之心不死欲拿下搜狗 搜索市场将再起波澜
