GAITC专题论坛丨杨易:训练机器自主学习提高检测效率
7月26日 , 由中国人工智能学会主办、新浪新闻联合浙江大学承办的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕 , 新浪集团首席信息官、新浪AI媒体研究院院长王巍 , 浙江大学特聘教授 , 悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席 。
浙江大学特聘教授 , 悉尼科技大学教授、百度访问教授杨易在本次专题论坛上 , 与来自业界、学术界的嘉宾们分享了《媒体的智能理解、分析与合成》 。
杨易认为 , 大规模网络视频智能分析面临许多挑战 , 如视频数据复杂度高 , 标注数据量少且标注过程缓慢等 。 如何利用无标注的海量网络视频协助视频特征学习 , 并提升模型性能是视频分析领域重要的研究问题 。
他提到 , 以前训练一个模型做一件事 , 现在更多的是让机器自主学习 , 培养机器的自我学习能力 。 不仅让机器学会做事 , 更要教会它怎么去学习 , 这是元学习的基本想法 。 比如 , 让机器学会怎么去做事 , 新的任务就很容易做自适应 。

文章图片
图注:浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易作主题演讲 。
以下为杨易演讲实录 , 内容经编辑略有删减:
尊敬的李院士 , 新浪的王总 , 以及在场的各位嘉宾和网上观看今天会议的朋友们大家好!今天我的报告比较偏技术一点 , 因为视频在网络媒体传播里面是最重要的载体 , 而且今天李院士也讲了 , 跨媒体是人和设备 , 计算机交互最重要的一个载体 , 我觉得视频它有声音 , 也有文字的信息 , 可能还有视觉的信息 , 所以可能是最接近跨媒体信息的媒体类型 。
我今天给大家分享一下我们怎么样能够比较智能的去分析、理解和利用、推荐视频的内容 。 今天是娱乐论坛 , 其实在娱乐这个领域 , 我们用得场景视频还是比较多的 , 比如说体育运动类的视频 , 比如说社交媒体的视频 , 电影和电视里的视频 。 为什么我们要做视频的分析和理解?接下来我将用几个比较典型的应用展开论述 。
当我们在发布媒体内容的时候 , 我们希望对它做比较好的管理和分类 。 我们希望媒体对这个内容做推荐 , 我们也希望媒体对这个内容做审查 。 不管是在国外还是国内都有这种需求 , 在国外很多的时候有的人会通过媒体发一些极端主义的内容 , 所以我们无论是推荐 , 还是审查 , 还是组织、检索 , 都需要对视频的内容做比较智能的分析 。
实际上为什么视频分析是比较难的 , 因为视频的规模是非常大的 , 它和图像比起来 , 时间和空间的信息复杂度会很高 , 而且现在我们学术界用的数据相较于我们真实的网络视频和我们要处理的视频还是有一些差距的 。 比如说这个是我们在训练神经网络用得比较多的数据 , 但是这些数据可能是运动数据 , 可是我们真正遇到的数据是用户拍摄的数据 , 这些数据和我们学术界训练神经网络的数据有一定的鸿沟 。 另外 , 我们现在和图像比起来 , 我们可以训练一个相对比较好的神经网络来做图像的表达 。 但是视频数据我们可以访问到、标注好的数据规模非常小 , 而且视频数据又比图像数据更复杂 , 所以一方面我们的训练数据少 , 另一方面我们数据的内容又非常的复杂 , 所以在这种情况下 , 就使得训练一个很好的可用的神经网络变得非常有挑战性 。
我举个例子 , 我们对视频的理解其实是非常主观的 , 因为图像相对内容比较简单 , 所以我标注的时候比较容易 , 但是对于视频来说 , 主观性会造成很大的区别 , 标注有的时候不一致 。 可能这个小朋友玩的是小朋友的独轮车 , 这种也是自行车的一种 , 很多人就把它直接标注成了骑自行车 , 但是有的时候大人骑自行车 , 甚至骑一些电动车 , 也会被标注成骑自行车 , 所以这个时候 , 我们标注和现实是非常不统一的 。
另外一个问题 , 我们在做视频研究的时候遇到了一个很大的问题 , 现在大家标注的视频很多都是与场景相关的视频 , 大家标注的比较多 , 真正我们做动作识别 , 很多时候其实做的是场景识别 , 不是真正的时序建模 。 在我们做动作识别的时候 , 什么动作识别得好呢 , 是游泳 , 打篮球这类的运动 , 为什么这类识别得好呢?因为游泳我们只要识别游泳池我就知道是游泳了 , 打篮球我只要识别篮球场 , 就知道是在打篮球 。
所以很多时候 , 我们视频分析里面做得好的这些动作还是和场景相关的 , 但是真正有动作的 , 比如说这是举手还是把手放下来 , 我是站起来 , 还是坐下 , 中间的状态 , 时序建模现在做的是不太好的 。 一方面是因为数据库非常少 , 现在有一个专门讲物体和人的交互的数据集 , 人的时序建模的数据现在有一些了 , 但是还是非常少 。
现在的深度学习静态的识别已经很好了 , 我们再进一步是给网络规模的视频做分析 , 我认为最大的一个挑战是效率的问题 。 实际上图像为什么快 , 一方面是因为它是没有时间特征的 , 我们计算机做时序建模是非常耗费资源的 。 另外因为一分钟视频就有上百帧 , 所以视频帧数本来就很大 。
另外还有一个效率的问题 , 我们标注视频的效率也很低 , 如果人 , 比如我看到这个的时候 , 这是一个会场 , 我一下子就标记出来了 , 但是如果给大家一个一小时的视频 , 我让你标出来什么时候人在跑 , 什么时候人在吃东西 , 什么时候人在切割 。 那么我标注视频的标注量也是非常大的 。 而且我在大量的视频中找相关的视频 , 比如说在100段视频中找人在切黄瓜的视频就是非常困难的 。
所以整个来说 , 我觉得一方面是计算机计算的效率要提高 , 另一方面我们标注的效率也要提高 , 我大概主要是围绕效率问题在讲 。
第一个我在讲怎么样提高视频的标注效率 , 视频有一个很重要的应用 , 我要把它定位出来 , 一个是空间定位 , 这有车 , 另外一个是时间定位 , 比如说我知道这一段视频有一个小松鼠 , 我知道它什么时候在进食 , 其实这个视频可能总共有10分钟或者20分钟 , 但是只有几帧是在进食 。 大家可以想像 , 如果我是一个动物学家 , 要看它的生活习性 , 看动物是怎么吃东西的 , 可能我就是对这一部分感兴趣 , 定位实际上是比较复杂 。 我要在很长的视频里面 , 把这个定位出来 , 计算量是非常大的 。
不仅计算量是很大的 , 人要标注的也很多 。 传统方法下的视频定位操作是比较多的 。 人工做视频 , 每一段视频 , 小松鼠什么时候开始吃 , 什么时候完成吃 , 把这一段都要标出来 , 这个标注工程的工作量是非常大的 。
因此大家就提出了弱监督做定位 , 我有一段视频可能有10分钟 , 我知道这里面至少有一段视频是小动物在吃东西 , 那么在这种情况下 , 这段视频有小东西在吃东西的镜头 , 但是可能10分钟长的视频只有5秒在吃东西 , 这种效果虽然标注很快 。
这是我们今年和Facebook合作的一个工作 , 我们能不能这样做 , 这段视频 , 我标注它有小动物在吃东西 , 但是我不用标注它的起始帧和结束帧 , 我在浏览这个视频的时候 , 我发现这一帧它在吃东西 , 我只标一帧 , 我鼠标点一下就好了 , 这个时候我在视频中标注一帧 , 这样计算机基于单帧标注可以逐渐的扩展信息 。 其实这个东西Facebook最早想做这样的的概念 , 但是我们把这个东西做完之后 , 他们产品部门去研究 , 说这个技术是可行的 , 现在可能是在往产品里面加入 。
这是我们研究的一个过程 , 简单来说其实就是这样的 , 我标了一帧之后 , 我通过单帧监督的数据不断的扩展 , 往两边扩展 , 在时间轴上不断的扩展 , 通过内容分析 , 可能这些都是进食的帧 , 或者相关的帧 , 然后把这个例子自动的照出来再不断的扩展 , 这是一个迭代的过程 。
【GAITC专题论坛丨杨易:训练机器自主学习提高检测效率】另外还有一个比较重要的问题 , 我要做背景的检测 , 其实我要找最接近正例的背景 , 我们一般是通过置信度 , 也是找出正例和负例不断的扩展 。 这个是在讲我们在做视频检测的时候怎么提高检测的效率 。
推荐阅读
- 易软信息盛情赞助“2020第五届中国国际物业管理高峰论坛”
- 行业互联网|易软信息盛情赞助“2020第五届中国国际物业管理高峰论坛”
- 【部门动态】治安大队召开“坚持政治建警全面从严治警”专题学习会
- 疫情|尹弘在防范境外疫情输入工作专题会议上强调 担当使命服务大局严格落实外防输入措施
- 人大常委会|河南省人大常委会组织召开农村人居环境整治情况专题调研汇报会
- 不良贷款|内乡法院会同内乡农商行召开依法清贷工作专题研讨会
- 【保市场主体 护民营经济】三分院:陆军检察长到丰都县检察院开展专题督导,重点谈了这个主题
- 反洗钱|西平农商银行组织反洗钱及授权业务专题培训
- | 中国云体系联盟亮相2020中国数字经济安全与发展50人论坛
- | 博鳌房地产论坛圆满闭幕,好屋大数据营销模式成焦点
