【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?

【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图
【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

Mask-RCNN做对象检测和实例分割
作者 | George Seif
译者 | 天道酬勤 , 责编 | Carol
出品 | AI科技大本营(ID:rgznai100)
Mask-RCNN做对象检测和实例分割:
https://miro.medium.com/max/1200/1*s9raSe9mLeSSuxE3API-ZA.gif你想做计算机视觉吗?如今 , 深度学习是必经之路 。 大规模数据集以及深层卷积神经网络(CNN)的表征能力可提供超准确和强大的模型 。 但目前仍然只有一个挑战:如何设计模型?像计算机视觉这样广泛而复杂的领域 , 解决方案并不总是清晰明了的 。 计算机视觉中的许多标准任务都需要特别考虑:分类、检测、分割、姿态估计、增强和恢复以及动作识别 。 尽管最先进的网络呈现出共同的模式 , 但它们都需要自己独特的设计 。 那么 , 我们如何为所有这些不同的任务建立模型呢?
作者在这里向你展示如何通过深度学习完成计算机视觉中的所有工作!
【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

分类
计算机视觉中最出名的就是分类 。 图像分类网络从一个固定大小的输入开始 。 输入图像可以有任意数量的通道 , 但对于RGB图像通常为3 。 在设计网络时 , 分辨率在技术上可以是任意大小 , 只要足够大到能够支持在整个网络中将要进行的向下采样量即可 。 例如 , 如果你对网络内的4个像素进行向下采样 , 则你的输入大小至少应为42= 16 x 16像素 。 随着深入网络 , 当我们尝试压缩所有信息并降至一维矢量表示形式时 , 空间分辨率将降低 。 为了确保网络始终有能力将其提取的所有信息进行处理 , 我们根据深度的比例增加特征图的数量 , 来适应空间分辨率的降低 。 也就是说 , 我们在向下采样过程中损失了空间信息 , 为了适应这种损失 , 我们扩展了特征图来增加我们的语义信息 。 在选择了一定数量的向下采样后 , 特征图被矢量化并输入到一系列完全连接的图层中 。 最后一层的输出与数据集中的类一样多 。
【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

目标检测目标检测器分为两种:一级和二级 。 他们两个都以锚框开始 。 这些是默认的边界框 。 我们的检测器将预测这些框与地面真相之间的差异 , 而不是直接预测这些框 。
在二级检测器中 , 我们自然有两个网络:框提议网络和分类网络 。 框提议网络在认为很有可能存在物体的情况下为边界框提供坐标 。 再次 , 这些是相对于锚框 。 然后 , 分类网络获取每个边界框中的潜在对象进行分类 。
在一级检测器中 , 提议和分类器网络融合为一个单一阶段 。 网络直接预测边界框坐标和该框内的类 。 由于两个阶段融合在一起 , 所以一级检测器往往比二级检测器更快 。 但是由于两个任务的分离 , 二级检测器具有更高的精度 。
【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

快速RCNN二级目标检测架构
【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

【【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?】SSD一级目标检测架构
【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?


推荐阅读