机器之心一上台就紧张？这个模型生成演讲替身，肢体语言比总统候选人还丰富( 二 )

接下来，我们来看该模型的实现原理和具体效果。
实现原理
该研究提出的概率生成模型基于近期关于归一化流的工作构建，尤其是 MoGlow [HAB19] 。该模型可在大型非结构化运动数据集上进行训练，且数据无需手动标注。
与直接基于语音合成动作的方法不同，该模型的训练过程中将语音作为输入，建模动作的条件概率分布。这样就可以基于概率分布采样新的姿势，从而每一次都可以生成不同却合理的姿势。这与人类行为一致，并且可以为虚拟智能体和动画行业提供不错的应用优势。
该方法的优势包括：
数据集无需手动标注；
具备不确定性（因而可以得到无限种类的姿势变体）；
能够输出全身姿势。
具体而言，在实现语音驱动姿势合成的过程中，研究者使用了归一化流（normalising flow）。完整的动作生成流程如下图 1 所示：

本文插图
该模型的思路是在使用归一化流的姿势序列

本文插图
稳定自回归模型中，学习姿势 X 的多维下一步（next-step）分布。归一化流这一通用技术在表示大量连续值分布 p(x) 时能够同时实现高效推理（概率计算）以及高效的分布采样。
【机器之心一上台就紧张？这个模型生成演讲替身，肢体语言比总统候选人还丰富】整体转换和中间结果表示如下：

本文插图
此外，归一化流的核心难题是设计出一个灵活、可逆、可微分且具有快速计算雅克比行列式（Jacobian determinant）的 f_n 变换参数族。 2018 年， Diederik P. Kingma 等研究者提出了 Glow 方法，在生成面部图像上实现了显著的效果。之后，又出现了改进版 MoGlow 。
MoGlow 专注于零算法延迟的运动控制，并不非常适合语音驱动姿势合成任务。与语音同时出现的人体姿势可以分割为准备、执行（stroke）和撤回三个阶段。
基于此，该研究令时间实例 t 时的控制输入 c_t 同时包含当前语音特征 a_t 以及周围语音特征

本文插图
的视窗（window），从而将足够的未来信息考虑在内。完整的动作生成流程如上图 1 所示。
实现效果如何？
在所有实验中，评分者需要观看和聆听人体姿势的 18 秒视频片段（如下图所示），并根据给定的评分标准进行打分（5 分制）。

本文插图
人体相似性和适当性评估
下图 3 和表 1 展示了人体相似性、适当性、风格控制人体相似性和全身姿势人体相似性的平均得分：

本文插图
风格控制评估
下图 4 展示了风格控制对系统生成动作的影响，其中每一行表示不同的风格控制系统（分别是 M-H、MG-V、MG-R 和 MG-S）。

本文插图
全身姿势评估
评估结果如上图 3 中最右侧图，全身 GT 平均得分为 4.005 ， FB-C 平均得分为 3.764 ， FB-U 平均得分为 3.421 。

本文插图

机器之心一上台就紧张？这个模型生成演讲替身，肢体语言比总统候选人还丰富( 二 )

推荐阅读

出门在外有口罩，那室内如何有效防护？

『糖酥饼』酥脆掉渣的糖酥饼，外面卖10元一斤，在家做成本才2元赶紧来试试吧

厨师长教你自制番茄酱番茄酱做法

幽门螺旋杆菌@被幽门螺杆菌“缠上”还不知道？这3个信号，或许早就出现了

湖泊|为何内蒙古里的湖泊，常常会有“吃人”现象？说出来你可能不信

老照片|《卖油翁》最后一句为何要删除？专家：你看最后说了啥

行车视线|采用独特车身涂装设计，迈凯伦765LT特别版官图发布

黄山毛尖如何泡,黄山毛峰如何泡

小程序创业者如何做好社区团购？先搞清楚社区团购的几种模式！

国航发布公告：取消或备降部分进出港航班，将增加北深航线运力投

过路旅人|郑爽为杭州女子发声，遭网友痛批怒骂：热搜你家开的啊？

光遇蓝色光芒在哪儿？

银行|信用卡逾期协商“黑产”滋生！小心“反催收联盟”最终坑了你……

孤独酒馆|10000mAh电池金立新机入网

加仓|险资二季度如何调仓？继续加仓贵州茅台、金城医药等7股，二季度持股市值大增1200亿

【掌上社会】颜值撞脸蔡徐坤，看清近照：想嫁，11岁kimi“整容式”长大

德易车科技成功通过“双软认证”，技术实力获权威认可

有何|出土的伏羲女娲图中，两人的手中各拿着曲尺和圆规，有何寓意？

老年人吃猪血好处多

央视|纳卡地区冲突持续 3岁女孩战火中失去父母和姐姐