DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection
摘要
单目3D检测由于其低成本和简单的设置引起了广泛关注。它通过输入一张RGB图像来预测3D空间中的目标框。最具挑战性的任务是实例深度估计,过去的方法通常采用直接估计的方法。然而,本文指出,RGB图像上的实例深度并不直观,因为它由视觉深度线索和实例属性线索耦合而成,使得在网络中难以直接学习。因此,本文提出将实例深度重新表述为实例视觉表面深度(视觉深度)和实例属性深度(属性深度)的组合。视觉深度与物体在图像中的外观和位置相关,而属性深度依赖于物体的固有属性,这些属性不受图像上仿射变换的影响。通过结合不同类型的深度和相关的不确定性,最终获得实例深度。此外,单目3D检测中的数据增强通常由于物理性质而受限,阻碍了性能的提升。基于所提出的实例深度解耦策略,可以缓解这一问题。通过在KITTI上的评估,我们的方法实现了新的最先进的结果,并通过广泛的消融研究验证了方法中每个组件的有效性。代码已在论文中提供的链接中公开。
Keywords: monocular 3D detection, instance depth estimation.
1. 引言
单目三维物体检测是自动驾驶和计算机视觉领域的一个重要课题。它因价格低廉、配置简单而广受欢迎。近年来,该技术得到了快速改进 [6,5,29,37,62,26]。在这项任务中,一个众所周知的挑战在于实例深度估计,这是提高性能的瓶颈,因为深度信息在相机投影过程后就会丢失。
之前的许多研究 [2,12,40] 直接回归实例深度。这种方式没有考虑实例深度本身带来的模糊性。如图 1 所示,对于右侧物体,其实例深度是汽车尾部深度与汽车半长之和,其中汽车长度是模糊的,因为汽车的左右两侧都是不可见的。对于左侧物体,除了直观的可见表面深度外,实例深度还取决于汽车的尺寸和方向。我们可以看到,实例深度是非直观的。这就要求网络对实例深度头进行额外的实例固有属性学习。以往的直接估计和中介优化方法没有充分考虑到这种耦合性质。因此,它们在实例深度估算方面的性能不够理想,结果不够准确。
基于上述分析,本文建议将实例深度与实例视觉表面深度(视觉深度)和实例属性深度(属性深度)解耦。我们在图 1 中举例说明。对于物体上的每个点(或小块),视觉深度表示朝向代理(汽车/机器人)摄像头的绝对深度,而我们将属性深度定义为该点(或小块)到物体三维中心的相对深度偏移。这种解耦方式鼓励网络学习实例深度的不同特征模式。单目图像上的视觉深度取决于图像上物体的外观和位置[11],这是对仿射敏感的。相比之下,属性深度高度依赖于物体的固有属性(如尺寸和方向)。它侧重于 RoI 内部的特征,而 RoI 是仿射不变的。(详细讨论见第 4.1 和 4.2 节)。因此,属性深度与视觉深度无关,而解耦实例深度允许我们使用单独的头为不同类型的深度提取不同类型的特征。
具体来说,对于一个物体图像补丁,我们将其划分为 m × n 个网格。每个网格可以表示物体上的一个小区域,并分配一个视觉深度和相应的属性深度。考虑到遮挡和三维位置的不确定性,我们用不确定性来表示每个深度预测的置信度。在推理过程中,每个对象都能产生 m × n 个实例深度预测,因此我们利用这些预测和相关的不确定性,自适应地获得最终的实例深度和置信度。
此外,由于在二维图像中执行仿射变换时保持二维和三维物体对齐的复杂性,先前的工作通常受限于数据增强的多样性。基于解耦实例深度,我们证明了我们的方法可以有效地执行数据增强,包括使用仿射变换的方式。这分别是通过视觉深度和属性深度的仿射敏感性和仿射不变性实现的(见第 4.3 节)。为了证明我们方法的有效性,我们在广泛使用的 KITTI 数据集上进行了实验。结果表明,我们的方法在很大程度上优于之前的研究成果。
总之,我们的贡献如下:
1. 我们指出了实例深度的耦合特性。由于存在纠缠特征,以往直接预测实例深度的方法并不理想。因此,我们建议将实例深度解耦为属性深度和视觉深度,并对其进行独立预测。
2. 我们提出了两种不确定性来表示深度估计的置信度。在此基础上,我们提出将不同类型的深度自适应地汇总到最终的实例深度中,并相应地获得三维定位置信度。
3. 借助所提出的属性深度和视觉深度,我们缓解了在单目三维检测的数据增强中使用仿射变换的限制。
4. 在 KITTI 基准测试中,我们的方法创造了新的技术水平(SOTA)。广泛的消融研究证明了我们方法中每个组件的有效性。