谷歌|谷歌发布Objectron数据集,推进三维物体几何理解的极限
【新智元导读】谷歌人工智能实验室近日发布 Objectron 数据集 , 这是一个以3D目标为中心的视频剪辑的集合 , 这些视频剪辑从不同角度捕获了较大的一组公共对象 。数据集包括 15K 带注释的视频剪辑 , 并补充了从地理多样的样本中收集的超过 4M 带注释的图像(覆盖五大洲的 10 个国家) 。
机器学习(ML)的最新技术已经在许多计算机视觉任务上取得了SOTA的结果 , 但仅仅是通过在2D照片上训练模型而已 。
在这些成功的基础上 , 提高模型对 3D 物体的理解力有很大的潜力来支持更广泛的应用场景 , 如增强现实、机器人、自动化和图像检索 。
今年早些时候 , 谷歌发布了 MediaPipe Objectron , 一套为移动设备设计的实时 3D 目标检测模型 , 这个模型是基于一个已标注的、真实世界的 3D 数据集 , 可以预测物体的 3D 边界 。
文章图片
文章图片
然而 , 理解3D 中的对象仍然是一项具有挑战性的任务 , 因为与2D 任务(例如 , ImageNet、 COCO 和 Open Images)相比 , 缺乏大型的真实世界数据集 。
为了使研究团体能够继续推进3D 对象理解 , 迫切需要发布以对象为中心的视频数据集 , 这些数据集能够捕获更多的对象的3D 结构 , 同时匹配用于许多视觉任务(例如 , 视频或摄像机流)的数据格式 , 以帮助机器学习模型的训练和基准测试 。
近期谷歌发布了 Objectron 数据集 , 这是一个以对象为中心的短视频剪辑数据集 , 从不同的角度捕捉了一组更大的普通对象 。
文章图片
文章图片
每个视频剪辑都伴随着 AR 会话元数据 , 其中包括摄像机姿态和稀疏点云 。数据还包含为每个对象手动注释的3D 边界 , 这些 bounding box 描述了对象的位置、方向和尺寸 。
每个视频剪辑都随附有 AR 的元数据 , 其中包括相机姿势和稀疏点云 。数据还包含每个对象的手动注释的 3D 边界框 , 用于描述对象的位置 , 方向和尺寸 。
该数据集包括15K 注释视频剪辑与超过4M 注释图像收集的地理多样性样本(涵盖10个国家横跨五大洲) 。
文章图片
文章图片
3D 目标检测解决方案
除了这个数据集 , 谷歌还分享了一个 3D 目标检测解决方案 , 可以用于4类物体:鞋子、椅子、杯子和相机 。
这些模型是在 MediaPipe 中发布的 , MediaPipe 是谷歌的开源框架 , 用于跨平台可定制的流媒体机器学习解决方案 , 它同时也支持机器学习解决方案 , 比如设备上的实时手势、虹膜和身体姿态跟踪 。
文章图片
文章图片
与之前发布的 single-stage Objectron 模型相比 , 这些最新版本采用了两级架构 。
第一级使用 TensorFlow 目标检测模型来寻找物体的 2D 裁剪 , 第二级使用图像裁剪来估计三维bounding box , 同时计算下一帧对象的二维裁剪 , 使得目标检测器不需要运行每一帧 。第二阶段的三维 bounding box 预测器是以83 FPS在 Adreno 650 GPU 上运行 。
文章图片
文章图片
3D 目标检测的评估指标
推荐阅读
- 色彩|色彩的力量有多大?明基&Pantone零售色准解决方案即将发布
- 新机发布,华为手机|荣耀 V40 和华为 nova8 相机造型曝光:或 12 月发布
- 行业互联网|理光发布全新RICOH M C2000,打造恰到好处的新精彩
- 新机发布,红米手机|Redmi Note9开启预热 王腾说新机高像素别人总想借!
- 华为手机|Mate系列刚发布,P50pro曝光,看到配置后网友表示真香
- 新机发布|小米11 Pro爆料:要用2K 120Hz挖孔屏
- 理光|理光发布全新RICOH M C2000,打造恰到好处的新精彩
- 行业互联网|英国运输技术论坛发布网络安全标准和指南摘要
- 新机发布|内置骁龙875的OnePlus 9跑分数据现身GeekBench
- 新机发布|首款6nm A78芯!联发科MT6893曝光:跑分比肩骁龙865