|MIT、IBM打造AI配音师：动作自动加音效，视频无声胜有声( 二 )

本文插图

图 2：整体架构。
视觉编码器
在从视频中提取的 2D 关键点坐标基础上，研究者采用 GCN 对身体和手部不同关键点之间的时空关系进行显式建模。与 ST-GCN 类似，首先，将人体骨架序列表示为无向时空图

本文插图

，其中节点对应于人体关键点，边反映了人体关键点的自然连通性。
每个节点的输入是检测到的人体关键点的 2D 坐标。为了对时空信息进行建模，研究者首先采用空间 GCN 对每帧上的姿态特征进行独立编码，然后对得到的张量采用时间卷积来聚合时间信息。编码后的姿态特征 P 定义为：

本文插图

其中，

本文插图

是输入特征；V 和C_n分别是关键点数和每个节点的特征维度；是邻接矩阵，根据身体和手指的关节连接定义；W_S 和 W_T 分别是空间 GCN 和时间卷积的权重矩阵。研究者通过 GCN 更新节点特征。最后对节点特征进行聚合得到编码姿态特征

本文插图

，其中，T_v 和 C_v 分别是时间维度和特征通道数。
MIDI 解码器
由于音乐信号表示为 MIDI 事件序列，因此研究者将根据人体运动生成音乐视为序列预测问题。为此，研究者使用 Transformer 模型的解码器部分，该部分已展示出在序列预测中捕获长期结构的强大能力。
研究者将此模型应用于运动 MIDI 转换问题。具体而言，给定视觉表征

本文插图

， Transformer 解码器负责预测 MIDI 事件序列

本文插图

，其中 T_m 和 L 表示视频片段中包含的 MIDI 事件的总数以及词汇量。在每个时间步长，解码器都会将之前在 MIDI 事件上生成的特征编码和视觉姿态特征作为输入，并预测下一个 MIDI 事件。
Transformer 中的核心机制是自注意力模块。该模块首先将向量序列转换为 Query ， Key 和 Value ，之后输出 Value 的加权和，其中权重通过 Key 和 Query 点积获得

本文插图

与仅使用位置正弦波来表示时序信息的 Transformer 模型不同，研究者采用相对位置使注意力明确地知道序列中两个 token 之间的距离。这对于建模音乐至关重要，因为音乐具有丰富的和弦声音，并且相对差异与音长和音高息息相关。为了解决这个问题，研究者为每个 Query 和 Key 之间可能的成对距离学习一个有序相对位置嵌入R ，如下所示：

本文插图

对于 MIDI 解码器，研究者首先使用具有相对位置嵌入的掩模自注意力模块来对输入的 MIDI 事件进行编码，其中 Query ， Key 和 Value 均来自相同的特征编码。之后将掩模自注意力模块的输出

本文插图

和姿态特征

|MIT、IBM打造AI配音师：动作自动加音效，视频无声胜有声( 二 )

推荐阅读

超人爸爸谈育儿|三招让娃信心满满，孩子内向没自信？可能是“自我效能感”太低

淘宝怎么国际转运淘宝国际转运流程

马方明医生@脾大的常见原因？脾大能自己恢复吗？

大S|大S前经纪人曝小S秘辛，徐妈难耐寂寞再找男友，大S被催复出赚钱

网友热议|疫情加剧！教育部：中高风险地区将暂缓秋季开学、学生暂缓返校

油皮用补水面膜还是保湿面膜,最适合油性皮肤的补水面膜-

闽南|世界级非遗！深藏于闽南的“送王船”，是怎样一种盛况？

河南|太极之乡——河南陈家沟

个人如何出书如何出书

华为2019年年报发布 HMS生态加速全球布局

中金网原油主题基金套牢抄底客，净值暴跌规模反升

保护个人信息安全四部门开展新一轮App治理

北京经纬恒润科技深圳分公司咋样

咋对待聊天时突然不说话的人

二地黄酒方的功效与作用

bobo妈妈|单亲家长该如何做，马伊琍“人设”崩了！女儿喊话：妈妈不要装了

28岁女没结婚,该发愁吗,女生28岁了还没有结婚的想法-

魔道祖师：金凌大小姐团宠背后是无尽的心酸，无父无母让人泪目！

花间雨屋星座2020年下半年运气极佳的四大星座，好运来报道

【cnBeta|Pencil笔尖适配器增加力感应按键，苹果公司研究Apple】