##谷歌继续开源新AI框架,可实现手机高效实时3D目标检测
如何从2D图像中做3D目标检测 , 对于计算机视觉研究来说 , 一直是个挑战 。
3月12日 , 谷歌AI在其官方博客上发布了一款名为MediaPipe Objectron的算法框架 , 利用这个算法框架 , 只要一部手机 , 就能实时从2D视频里识别3D物品的位置、大小和方向 。这一技术可以帮助机器人 , 自动驾驶汽车 , 图像检索和增强现实等领域实现一系列的应用 。
文章图片
文章图片
分开来解释 , MediaPipe是一个开源代码跨平台框架 , 主要用于构建处理不同形式的感知数据 , 而 Objectron在MediaPipe中实现 , 并能够在移动设备中实时计算面向对象的3D边界框 。
【##谷歌继续开源新AI框架,可实现手机高效实时3D目标检测】在计算机视觉领域里 , 跟踪3D目标是一个棘手的问题 , 尤其是在有限的计算资源上 , 例如 , 智能手机上 。由于缺乏数据 , 以及需要解决物体多样的外观和形状时 , 而又仅有可2D图像可用时 , 情况就会变得更加困难 。
文章图片
文章图片
为了解决这个问题 , 谷歌Objectron团队开发了一套工具 , 可以用来在2D视频里为对象标注3D边界框 , 而有了3D边界框 , 就可以很容易地计算出物体的姿态和大小 。注释器可以在3D视图中绘制3D边界框 , 并通过查看2D视频帧中的投影来验证其位置 。对于静态对象 , 他们只需在单个帧中注释目标对象即可 。
文章图片
文章图片
右:在3D世界中检测表面和点云标注3D边界框 。左:带注释3D边界框的投影叠加于视频帧 , 从而便以验证注释 。
为了补充现实世界的训练数据以提高AI模型预测的准确性 , 该团队还开发了一种名为AR Synthetic Data Generation(增强现实合成数据生成)的新颖方法 。它可以将虚拟对象放置到具有AR会话数据的场景中 , 允许你利用照相机 , 检测平面和估计照明 , 来生成目标对象的可能的位置 , 以及生产具有与场景匹配的照明 。这种方法可生成高质量的合成数据 , 其包含的渲染对象能够尊重场景的几何形状并无缝地适配实际背景 。
文章图片
文章图片
网络的样本结果:左边是带有估计边界框的原始2D图像;中间是高斯分布的对象检测;右边是预测的分割蒙版 。
通过上述两个方法 , 谷歌结合了现实世界数据和增强现实合成数据 , 将检测准确度度提高了10% 。
文章图片
文章图片
增强现实合成数据生成的一个示例:虚拟白褐色谷物盒渲染到真实场景中 , 紧邻真实蓝皮书 。
准确度的提升是一方面 , 谷歌表示 , 当前版本的Objectron模型还足够“轻巧” , 可以在移动设备上实时运行 。借助LG V60 ThinQ , 三星Galaxy S20 +和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片 , 它能够每秒处理约26帧图像 , 基本做到了实时检测 。
文章图片
文章图片
推荐阅读
- 「IT之家」对标Apple Card:谷歌拟推Google Card借记卡
- 华为Mate30:华为宣布!P40基本已去谷歌!外媒:华为P40去谷歌依然是顶级旗舰
- 大型机@IBM危险了!谷歌云收购大型机公司
- 「图像处理」李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源
- 「全媒体聚焦」要和高通说再见了,谷歌宣布一大消息,华为又将迎来对手
- 『谷歌』外泄谍照显示谷歌拟推Google Card借记卡
- 软件:看看我写的啥破程序!就值3000?
- 『谷歌』Google Pixel 4系列手机即日起支持双卡双待
- 机器之心:几行代码搞定ML模型,低代码机器学习Python库正式开源
- [英伟达]继续与英伟达合作 小鹏P7智能驾驶系统大升级
