|业界首个！大规模多相机通用物品场景数据集MessyTable

本文插图

作者 | 商汤、南洋理工大学
编辑 | 陈大鑫
众所周知巧妇难为无米之炊，在如今深度学习大行其道的时代，一个数量大、质量好的数据集犹如一块璞玉，就等着算法去雕刻。
今天介绍的就是来自商汤与新加坡南洋理工大学联合制作的大规模多相机通用物品场景数据集MessyTable ， MessyTable包括5500+ 手工设计的场景，共计5万多张图片和120万个密集标注的检测框，其对应论文已被ECCV 2020接收。
针对现实生活中多相机系统应用的难点，如相似相同的物品、密集遮挡、大角度差等问题，我们设计了大量真实、有趣又极富挑战的场景：围绕着混乱的餐桌（Messy Table）部署了多个视角的相机，其任务是关联不同相机视角中的实例。看似简单任务却要求算法能够分辨细微的外观差别、从邻近的区域获取线索以及巧妙地使用几何约束等。我们同时提出了利用多相机场景下周围信息的新算法。我们希望MessyTable不仅可以作为极富挑战的基线为后续研究指明方向，也可以作为高度真实的预训练源为算法落地开辟道路。
论文链接：https://arxiv.org/pdf/2007.14878.pdf
代码链接：https://github.com/caizhongang/MessyTable
项目主页：caizhongang.com/projects/MessyTable
MessyTable
图1：MessyTable中的一个场景示例（只可视化了4个视角中的5个物体）
本文我们以7次问答的方式总结了我们的工作：

问题1：MessyTable与现有的ReID和跟踪有什么关系？
问题2：MessyTable有哪些挑战？
问题3：MessyTable的规模有多大？
问题4：MessyTable有哪些设计上的考量？
问题5：各种算法在MessyTable上的表现如何？
问题6：多相机关联还没有解决的问题和下一步的研究方向有什么?
问题7：我可以怎么使用 MessyTable？

1
MessyTable与现有的ReID和跟踪有什么关系？
答：
ReID和跟踪本质上都可以理解为实例的关联，往往需要利用外观信息等。 MessyTable虽然主要是为了多相机场景中实例的关联的研究，但是它包含的分辨细微的外观差别、密集遮挡、大角度差等挑战都是和其它实例关联共通的。我们希望MessyTable在服务多相机这个特定场景之外，成为一个实例关联任务通用的数据集，成为新算法的测试场。
2 MessyTable有哪些挑战？
答：
主要的挑战有：
1、相机之间有大角度差，实例的外观在不同视角中差别很大（如图1的Instance ID为5的罐头）；
2、部分（图2a）甚至完全（图2b）遮挡，为依靠外观信息的关联算法增加了困难；
3、相似（图2c）或相同（图2d）的物体，因此仅仅使用类似传统ReID的基于外观的算法是不足够的；
4、物体的堆叠（图2e/f）贴近现实生活中的混乱程度，使用传统的单应性矩阵投影等方法无法解决。

本文插图

图2：MessyTable中的各种挑战：a）部分遮挡；b）完全遮挡；c）相似物体；d）相同物体；e）和f）复杂的堆叠
3 MessyTable的规模有多大？
答：
我们在表1中与其它类似的多相机数据集的规模的对比。 MessyTable包括5500+ 手工设计的场景，共计5万多张图片和120万个密集标注的检测框，每个检测框都有一个Instance ID（同一个物体在不同视角下的Instance ID相同）。