Sparse4D v3来了!推进端到端3D检测和跟踪

_原题为:Sparse4D v3 Advancing End-to-End 3D Detection and Tracking
论文链接:https://arxiv.org/pdf/2311.11722.pdf
代码链接:https://Github.com/linxuewu/Sparse4D
作者单位:地平线

Sparse4D v3来了!推进端到端3D检测和跟踪

文章插图
论文思路:在自动驾驶感知系统中 , 3D检测和跟踪是两项基本任务 。本文基于 Sparse4D 框架更深入地研究了该领域 。本文引入了两个辅助训练任务(时序实例去噪-Temporal Instance Denoising和质量估计-Quality Estimation),并提出解耦注意力(decoupled attention)来进行结构改进,从而显着提高检测性能 。此外,本文使用一种简单的方法将检测器扩展到跟踪器,该方法在推理过程中分配实例 ID,进一步突出了 query-based 算法的优势 。在 nuScenes 基准上进行的大量实验验证了所提出的改进的有效性 。以Re.NET50为骨干,mAP、NDS和AMOTA分别提高了3.0%、2.2%和7.6%,分别达到46.9%、56.1%和49.0% 。本文最好的模型在 nuScenes 测试集上实现了 71.9% NDS 和 67.7% AMOTA 。
主要贡献:本文提出了 Sparse4D-v3 , 这是一个强大的 3D 感知框架,具有三种有效的策略:时序实例去噪、质量估计和解耦注意力 。
本文将 Sparse4D 扩展为端到端跟踪模型 。
本文展示了 nuScenes 改进的有效性,在检测和跟踪任务中实现了最先进的性能 。
网络设计:首先,本文观察到与 dense-based 算法相比 , sparse-based 算法在收敛方面遇到了更大的挑战,最终影响了它们的最终性能 。这个问题已经在 2D 检测领域得到了彻底的研究[17,48,53],并且主要归因于一对一正样本匹配的使用 。这种匹配方式在训练初期不稳定 , 而且与一对多匹配相比,正样本数量有限,从而降低了解码器训练的效率 。此外 , Sparse4D 使用稀疏特征采样而不是全局交叉注意力,由于正样本稀缺 , 这进一步阻碍了编码器收敛 。在 Sparse4Dv2 [27] 中,引入了密集深度监督(dense depth supervision)来部分缓解图像编码器面临的这些收敛问题 。本文主要旨在通过关注解码器训练的稳定性来增强模型性能 。本文将去噪任务作为辅助监督 , 并将去噪技术(denoising techniques)从 2D 单帧检测扩展到 3D 时序检测 。不仅保证了稳定的正样本匹配,而且显着增加了正样本的数量 。此外,本文引入了质量评估(quality estimation)任务作为辅助监督 。这使得输出的置信度分数更加合理,提高了检测结果排名的准确性,从而获得更高的评估指标 。此外,本文增强了Sparse4D中实例自注意力(instance self-attention)和时序交叉注意力模块(temporal cross-attention modules)的结构,引入了一种解耦注意力机制(decoupled attention mechanism),旨在减少注意力权重计算过程中的特征干扰 。如图 3 所示,当添加 anchor embedding 和实例特征作为注意力计算的输入时,所得注意力权重中存在异常值的实例 。这无法准确反映目标特征之间的相互关联,导致无法聚合正确的特征 。通过用 concatenation 代替 attention,本文显着减少了这种错误现象的发生 。此增强功能与 Conditional DETR [33] 具有相似之处 。然而 , 关键的区别在于本文强调 queries 之间的注意力,与 Conditional DETR 不同 , 其专注于 queries 和图像特征之间的交叉注意力 。此外,本文的方法涉及独特的编码方法 。
最后,为了提高感知系统的端到端能力,本文探索将3D多目标跟踪任务集成到Sparse4D框架中,从而能够直接输出目标运动轨迹 。与 tracking-by-detection 方法不同 , 本文消除了数据关联和过滤的需要,将所有跟踪功能集成到检测器中 。此外,与现有的联合检测和跟踪方法不同,本文的跟踪器不需要修改训练过程或损失函数 。它不需要提供 ground truth IDs,但可以实现预定义的 instance-to-tracking 回归 。本文的跟踪实现最大限度地集成了检测器和跟踪器,不需要修改检测器的训练过程,也不需要额外的微调 。
Sparse4D v3来了!推进端到端3D检测和跟踪

文章插图
图1:Sparse4D框架概述 , 输入多视图视频并输出所有帧的感知结果 。
Sparse4D v3来了!推进端到端3D检测和跟踪

文章插图
图 2:不同算法的 nuScenes 验证数据集上的推理效率 (FPS) - 感知性能 (mAP) 。
Sparse4D v3来了!推进端到端3D检测和跟踪

文章插图
图 3:实例自注意力中的注意力权重的可视化:1)第一行显示了普通自注意力中的注意力权重,其中红色圆圈中的行人显示出与目标车辆(绿色框)的意外相关性 。2)第二行显示了解耦注意力中的注意力权重,有效解决了该问题 。


推荐阅读