深兰科技 深兰科技-机器也能看图说话

文章图片
机器看到图像或视频就能像人类一样进行精准地表述 , 这看似不可能 , 但已在深兰科学院诞生的“智慧交通协管员” , 已把它变为了现实 。
这段视频的场景就是在城市繁忙的十字路口 , 尤其上下班高峰 , 行人违章现象非常多 , 即使有交警在路口执勤也很难做到面面俱到 , 此时“智慧交通协管员”将大大发挥作用 。 其中涉及到的技术比较多 , 概括起来就是视觉理解、认知推理、自然语言生成和语音合成 。
视觉理解+认知推理
一、认知智能概述
人工智能的发展可以粗略划分为三个阶段:计算智能、感知智能和认知智能 。 计算智能通俗来说就是计算机能存储、记忆会运算 , 这方面 , 计算机的智能水平早已经远远超过人类 。 感知智能就是计算机具备类似于人类的视觉和听觉等方面的能力 , 比如 , 听到了什么 , 对应语音识别;看到了什么 , 对应图像的分类检测和语义分割 。 其中人脸识别就是包含感知智能技术的一种人工智能应用 , 近年来 , 随着深度学习技术在视觉感知领域的蓬勃发展 , 目前机器感知智能的性能已经可与人类媲美 , 甚至在许多场景下已经超过人类 。 认知智能强调知识、推理等技能 , 要求机器能理解、会思考 , 目前机器远不及人类 。 从计算智能到感知智能 , 标志着人工智能走向成熟;从感知智能到认知智能 , 是人工智能质的飞跃 。 认知智能 , 与人的语言、知识、逻辑相关 , 是人工智能的更高阶段 , 涉及到语义理解、知识表示、小样本学习甚至零样本学习、联想推理和自主学习等等 。 相比于计算智能和感知智能 , 认知智能是更复杂和更困难的任务 , 也是未来数十年最重要的任务 。 二、视觉理解与推理Imagecaptioning的发展历程1996-2000年符号规则方法
追溯到1996年 , Gerber发表了一篇知识表示的论文 , 限定于交通场景 , 在图像序列中用知识表示来进行自然语言描述的问题 。 2010年时 , 朱松纯(S.-C.Zhu)教授团队首次提出与或图(And-OrGraph)的模型 。 进一步与D.Mumford合作进行了框架的完善 , 融入随机上下文相关语法(StochasticContextSensitiveGrammar) , 能对复杂物体的多层次构造特性(HierarchicalCompositionality)建模 , 完全表示图像语法(ImageGrammar) 。
与或图表示突破了传统单一模板(Template)的表示方法 , 对每类物体用多个图结构表示 , 该结构可以通过语法(Grammar)、产生规则(ProductionRule)进行动态调制 , 从而可以用相对小的视觉字典(VisualVocabulary) , 表达大量类间结构变化很大的物体的图像表现形式(Configuration) 。
这些方法实际上都基于逻辑体系和规则的系统 , 对图像的内容设计很多规则 , 继而产生自然语言描述 。 由于强依赖于手工定制 , 人工特征工程的工作量就非常大 , 这也是当时亟待改善的问题 。
2011-2013年无明显进展2014年至今深度学习方法等2014年 , 谷歌的OriolVinyals等人公开论文《ShowandTell:ANeuralImageCaptionGenerator》 , 并发表于2015年CVPR , 开了深度学习在Imagecaptioning中使用的先河 。 该方法来源于以前的机器翻译 。 输入图形后 , 深度卷积神经网络对图形特征进行提取 , 通过固定长度矢量形成输入(Input)进入循环神经网络(RNN) , 经过一系列训练后 , 输出一段描述性的自然语言文字 。 按照时间序列的顺序 , 逐个词进行输出 , 条件依附于之前的词 。

文章图片
使用如下公式最大化给定图像的正确描述概率:
文章图片
Encoding-Decoding灵感来源于翻译模型 。 
推荐阅读
- 科技一哥|荣耀30青春版图集赏析:触觉与视觉的完美享受
- 科技犬君|vs 索尼A9G 谁强?,上半年用户喜爱手机盘点;小米电视大师65英寸OLED
- 精选泛科技|结果如何?,一加8续航遭质疑:上半年最全机型横评出炉
- 科技犬君上半年用户喜爱手机盘点;小米电视大师65英寸OLED vs 索尼A9G 谁强?
- 科技生活快报TB5000mAh大电池还有65W超级快充!这些手机让你摆脱充电焦虑
- 精选泛科技一加8续航遭质疑:上半年最全机型横评出炉,结果如何?
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 华为Mate30美科技界:华为再强大也只是一家民企,我们究竟在怕什么?
- 行业|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
- 阿拉图图科技说 给做了!,雷军服不服?苹果要把雷军敢说不敢做的事情
