##谷歌继续开源新AI框架，可实现手机高效实时3D目标检测

如何从2D图像中做3D目标检测，对于计算机视觉研究来说，一直是个挑战。
3月12日，谷歌AI在其官方博客上发布了一款名为MediaPipe Objectron的算法框架，利用这个算法框架，只要一部手机，就能实时从2D视频里识别3D物品的位置、大小和方向。这一技术可以帮助机器人，自动驾驶汽车，图像检索和增强现实等领域实现一系列的应用。

文章图片

文章图片

分开来解释， MediaPipe是一个开源代码跨平台框架，主要用于构建处理不同形式的感知数据，而 Objectron在MediaPipe中实现，并能够在移动设备中实时计算面向对象的3D边界框。
【##谷歌继续开源新AI框架，可实现手机高效实时3D目标检测】在计算机视觉领域里，跟踪3D目标是一个棘手的问题，尤其是在有限的计算资源上，例如，智能手机上。由于缺乏数据，以及需要解决物体多样的外观和形状时，而又仅有可2D图像可用时，情况就会变得更加困难。

文章图片

文章图片

为了解决这个问题，谷歌Objectron团队开发了一套工具，可以用来在2D视频里为对象标注3D边界框，而有了3D边界框，就可以很容易地计算出物体的姿态和大小。注释器可以在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置。对于静态对象，他们只需在单个帧中注释目标对象即可。

文章图片

文章图片

右：在3D世界中检测表面和点云标注3D边界框。左：带注释3D边界框的投影叠加于视频帧，从而便以验证注释。
为了补充现实世界的训练数据以提高AI模型预测的准确性，该团队还开发了一种名为AR Synthetic Data Generation（增强现实合成数据生成）的新颖方法。它可以将虚拟对象放置到具有AR会话数据的场景中，允许你利用照相机，检测平面和估计照明，来生成目标对象的可能的位置，以及生产具有与场景匹配的照明。这种方法可生成高质量的合成数据，其包含的渲染对象能够尊重场景的几何形状并无缝地适配实际背景。

文章图片

文章图片

网络的样本结果：左边是带有估计边界框的原始2D图像；中间是高斯分布的对象检测；右边是预测的分割蒙版。
通过上述两个方法，谷歌结合了现实世界数据和增强现实合成数据，将检测准确度度提高了10% 。

文章图片

文章图片

增强现实合成数据生成的一个示例：虚拟白褐色谷物盒渲染到真实场景中，紧邻真实蓝皮书。
准确度的提升是一方面，谷歌表示，当前版本的Objectron模型还足够“轻巧” ，可以在移动设备上实时运行。借助LG V60 ThinQ ，三星Galaxy S20 +和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片，它能够每秒处理约26帧图像，基本做到了实时检测。

文章图片

文章图片

##谷歌继续开源新AI框架，可实现手机高效实时3D目标检测

推荐阅读

吃柑桔上火吗？柑桔的营养价值有哪些?

小泽的健康管家|什么才是饮酒人士最关心的事？

高中生怎样戒掉手机瘾变得自律

「央视」驰援在德同胞，江苏省6万只“健康包”陆续发往德国

温暖先生|除了成毅配音，还有3大原因让长安诺难超琉璃热度，跟女主有关

用牛奶敷脸能美白吗？牛奶敷脸能美白吗

男朋友过生日我应该送啥礼物

中方：反对任何导致委内瑞拉局势紧张，甚至引发动乱的行为

新年开工大吉祝福语-新年开工大吉的句子-新年开工第一天祝福语

办公楼办公室怎么设计办公室设计有什么注意事项

卫浴用品铸铁浴缸安装高度是多少?铸铁浴缸怎么样进行安装?

索证指的是什么索证索票是什么意思

商朝最后一位皇帝是谁？商朝最后一个国王是

天眼查做对了啥而超越了企查查

北京头条|82岁国画大师国博开画展名家云集共同感受中国画“笔墨”之美

『意昂神州』电机HiL硬件在环仿真测试

亚马逊DSP广告平台功能3大更新！亚马逊DSP广告功能怎么用？

\＂凸点文胸\＂是不是一种好设计为啥

美国经济笔记 | 又是一年收获季美国农民愁容不减

『小莉情感励志说』决不能高估自己，人可以低估别人