爱奇艺提BC-GNN:时序动作提名生成任务融合边界内容的图神经网络
机器之心专栏
机构:爱奇艺
近日 , 计算机视觉顶会ECCV2020已正式公布论文接收结果 。 本文介绍的是来自爱奇艺团队一篇论文 , 研究者提出了BoundaryContentGraphNeuralNetwork(BC-GNN) , 通过图神经网络对边界和内容预测之间的关系进行建模 , 生成更精确的时序边界和可靠的内容置信度分数 。

文章图片
时序动作提名生成(Temporalactionproposalgeneration)任务需要从未处理的长视频中精确定位包含高质量动作内容的片段 , 该任务在视频理解中起着重要的作用 。 现有的方法多为先生成起止边界 , 再将起止边界组合成候选动作提名 , 然后再生成候选时序片段的内容置信度 , 这种处理方式忽略了边界预测与内容预测之间的联系 。
为了解决这个问题 , 爱奇艺提出了BoundaryContentGraphNeuralNetwork(BC-GNN) , 通过图神经网络对边界和内容预测之间的关系进行建模 , 通过利用两者之间的内在联系生成更精确的时序边界和可靠的内容置信度分数 。
在BC-GNN中 , 将候选时序片段的内容(content)作为图的边(edge) , 将候选时序片段的边界(boundary , 开始点和结束点)作为图的节点(node) , 然后设计了一种更新边和节点特征的推理方法 , 将更新之后的特征用来预测起始点概率和内容的置信度 , 最终生成高质量的proposal 。 该方法最终在ActivityNet-1.3和THUMOS14这两个公开数据集的时序动作提名生成任务以及时序行为检测任务上均达到了领先水平 。
论文链接:https://arxiv.org/abs/2008.01432
研究方法

文章图片
【爱奇艺提BC-GNN:时序动作提名生成任务融合边界内容的图神经网络】上图是BC-GNN的整体框架图 , 主要包括五个流程 , 分别为:
1)特征提取(FeatureEncoding)
2)基础模块(BaseModule)
3)图构建模块(GraphConstructionModule,GCM)
4)图推理模块(GraphReasoningModule,GRM)
5)输出模块(OutputModule)
特征提取模块
研究者使用在视频行为识别中取得良好效果的two-stream网络将视频编码成特征 。 Two-stream由spatial和temporal两个分支网络构成 , spatial分支网络的输入是单张rgb图像 , 用来提取空间特征 , temporal分支网络的输入是多张光流图像 , 用来提取运动特征 。 对于一个未处理的长视频 , 将对应的视频帧切分为T个可处理单元(snippet) , 每个可处理单元经two-stream之后被编码成为D维的特征向量 , 其中D维特征向量由spatial和temporal分支网络的最后一层输出拼接而成 , 从而视频被编码成一个TxD的特征矩阵 , T是特征序列的长度 , D表示特征的维度 。
BC-GNN主要包括四个模块:基础模块、图构建模块、图推理模块和输出模块 。
基础模块
基础模块由两层1D卷积组成 , 主要用来扩大感受野并作为整个网络的基础 。
图构建模块

文章图片
图构建模块用来构建一个边界内容图 , 构建图的过程如上图所示 。 研究者构建的边界内容图是一个二分图 , 二分图是一类特殊的图 , 它的顶点由两个独立集U和V组成 , 并且所有的边都是连结一个U中的点和一个V中的点 。 在构建图的过程中 , 视频的每个处理单元snippet对应的时刻可以看作是proposal的起始点和结束点 , 从而可以得到起始点集合N_s和结束点集合N_e , N_s和N_e作为边界内容图的两个互相独立的顶点集 。 用t_s,i、t_e,j分别表示Ns中的任意起始点n_s,i和N_e中的任意结束点n_e,j对应的时刻 , 其中i,j=1,2,…,T , 当满足t_e,j>t_s,i时n_s,i和n_e,j之间有边连接 , 用d_i,j表示 。
当连接起始点和结束点之间的边没有方向时可以得到(a)所示的无向图 。 由于起始点代表proposal的开始时间 , 结束点代表proposal的结束时间 , 连接起始点和结束点的边应该带有方向性 , 并且从起始点到结束点的边代表的信息与从结束点到起始点的边代表的信息是不同的 , 因此研究者将(a)所示的无向图转换为图(b)所示的有向图 。 具体的转换过程为 , 将无向图中的无向边分成两个有相同节点和相反方向的有向边 。
在进行图推理操作之前 , 研究者为构建的边界内容图中的每个节点和边赋予其特征 。 为了得到节点和边的特征 , 研究者在基础模块后面连接三个并行的1D卷积 , 从而得到三个特征矩阵 , 分别为起始点特征矩阵F_s、结束点特征矩阵F_e和内容特征矩阵F_c , 这三个特征矩阵的时间维度和特征维度均相同 , 大小为TxD 。 对于任意起始节点n_s,i , 对应的时间为t_s,i , 则该节点的特征为F_s特征矩阵第i-1行对应的特征向量 。 同理 , 对于任意的结束节点n_e,j , 其特征为Fe特征矩阵第j-1行对应的特征向量 。 若n_s,i和n_e,j之间有边连接 , 边d_i,j对应的特征获取过程为:1)首先对F_c特征矩阵第i-1行到j-1对应的特征矩阵在时序方向上进行线性插值 , 得到固定大小的特征矩阵NxD’(N为人为设置的常数);2)然后将NxD’转化为(N·D’)x1;3)在(N·D’)x1特征后连接一个全连接层 , 得到维度为D’的特征向量即为边d_i,j对应的特征 。 在有向图中 , 节点和边的特征更新之前 , 连接两个节点方向不同的两条边共享同一个特征向量 。
图推理模块
为了实现节点和边缘之间的信息交换 , 研究者提出了一种新的图推理方法 , 该推理方法可分为边特征更新和节点特征更新两个步骤 。 边特征更新步骤旨在汇总有边连接的两个节点的属性 , 更新过程如下所示:
其中σ表示激活函数ReLU , θs2e和θe2s代表不同的可训练的参数 , ×代表矩阵相乘 , ?代表element-wise相乘 。
节点特征更新步骤旨在聚合边及其相邻节点的属性 , 更新过程如下所示:
其中e_(h,t)表示从头结点h指向尾节点t的边对应的特征 , K表示以h为头节点的边的总数 。 为了避免输出特征数值规模的增加 , 研究者在更新节点特征前先对对应的边的特征进行归一化 , 之后再把更新后的边的特征作为相应头结点特征的权重 。 σ表示激活函数ReLU , θ_node代表可训练的参数 。
输出模块
如BC-GNN的整体框架图所示 , 候选proposal由一对节点与连接它的边产生 , 并且其起始点、结束点和内容的置信度分别基于更新后的节点特征和边特征生成 , 具体过程如下所示:

文章图片
实验
研究者在ActivityNet-1.3和THUMOS-14这两个公开数据集上分别进行时序动作提名生成实验和时序行为检测实验 。
时序动作提名生成实验

文章图片
从上面两个表中可以看出 , 研究者在两个通用的数据集上的效果均达到领先水平 。
时序行为检测实验

文章图片

文章图片
采用对proposal进行分类的方式得到时序行为检测结果 , 从上面两个图中可以看出 , 在两个数据上研究者提出的方法均取得领先的结果 。
消融实验
在BC-GNN算法中 , 相比于直接使用传统的GCN , 将无向图转变成有向图 , 并且增加了边特征更新步骤 , 为了验证这两个策略的有效性 , 在ActivityNet-1.3数据集的时序动作提名生成任务上进行了消融实验 。 从下图的表格和结果曲线上可以看出 , 这两种策略均有利于结果的提升 。
推荐阅读
- 爱奇艺|爱奇艺出耳机了? 从“无人问津”到“万人追捧”, 有望超越苹果AirPods
- 增长|爱奇艺艰难突围:会员增长放缓、内容成本上升、遭遇SEC调查
- 中国新说唱2020|为什么说RapStar将在爱奇艺《中国新说唱2020》诞生?
- 机器人|美国盯上爱奇艺
- 上市后亏掉237亿,股价大跌逼近破发,爱奇艺如何破局?
- 股票|爱奇艺回应遭美国证监会调查:积极配合 充满信心
- 中年|爱奇艺发布Q2财报:营收同比增19%至74亿元,订阅会员达1.05亿
- 爱奇艺|2020年爱奇艺会员五折年卡99元:《如此可爱的我们》免费观看
- 爱奇艺|促营收降成本显著,爱奇艺这份财报透露出哪些信号?
- [爱奇艺]|亏损收窄 爱奇艺正在证明自己
