|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声( 二 )


|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

图 2:整体架构 。
视觉编码器
在从视频中提取的 2D 关键点坐标基础上 , 研究者采用 GCN 对身体和手部不同关键点之间的时空关系进行显式建模 。 与 ST-GCN 类似 , 首先 , 将人体骨架序列表示为无向时空图
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

, 其中节点对应于人体关键点 , 边反映了人体关键点的自然连通性 。
每个节点的输入是检测到的人体关键点的 2D 坐标 。 为了对时空信息进行建模 , 研究者首先采用空间 GCN 对每帧上的姿态特征进行独立编码 , 然后对得到的张量采用时间卷积来聚合时间信息 。 编码后的姿态特征 P 定义为:
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

其中 ,
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

是输入特征;V 和C_n分别是关键点数和每个节点的特征维度;是邻接矩阵 , 根据身体和手指的关节连接定义;W_S 和 W_T 分别是空间 GCN 和时间卷积的权重矩阵 。 研究者通过 GCN 更新节点特征 。 最后对节点特征进行聚合得到编码姿态特征
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

, 其中 ,T_v 和 C_v 分别是时间维度和特征通道数 。
MIDI 解码器
由于音乐信号表示为 MIDI 事件序列 , 因此研究者将根据人体运动生成音乐视为序列预测问题 。 为此 , 研究者使用 Transformer 模型的解码器部分 , 该部分已展示出在序列预测中捕获长期结构的强大能力 。
研究者将此模型应用于运动 MIDI 转换问题 。 具体而言 , 给定视觉表征
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

, Transformer 解码器负责预测 MIDI 事件序列
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

, 其中 T_m 和 L 表示视频片段中包含的 MIDI 事件的总数以及词汇量 。 在每个时间步长 , 解码器都会将之前在 MIDI 事件上生成的特征编码和视觉姿态特征作为输入 , 并预测下一个 MIDI 事件 。
Transformer 中的核心机制是自注意力模块 。 该模块首先将向量序列转换为 Query , Key 和 Value , 之后输出 Value 的加权和 , 其中权重通过 Key 和 Query 点积获得
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

与仅使用位置正弦波来表示时序信息的 Transformer 模型不同 , 研究者采用相对位置使注意力明确地知道序列中两个 token 之间的距离 。 这对于建模音乐至关重要 , 因为音乐具有丰富的和弦声音 , 并且相对差异与音长和音高息息相关 。 为了解决这个问题 , 研究者为每个 Query 和 Key 之间可能的成对距离学习一个有序相对位置嵌入R , 如下所示:
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

对于 MIDI 解码器 , 研究者首先使用具有相对位置嵌入的掩模自注意力模块来对输入的 MIDI 事件进行编码 , 其中 Query , Key 和 Value 均来自相同的特征编码 。 之后将掩模自注意力模块的输出
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
本文插图

和姿态特征
|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声


推荐阅读