南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题，即插即用真的很香

智源社区2年前 (2023)发布智源社区

594 0 0

点击下方卡片，关注「集智书童」公众号

点击加入?「集智书童」交流群

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题，即插即用真的很香

多目标跟踪（Multi-Object Tracking，MOT）是计算机视觉领域中一项关键任务，旨在同时预测目标的边界框和身份。尽管最先进的方法通过共同优化检测和ReID特征学习的多任务问题取得了显著进展，但鲜有方法探索如何解决遮挡问题，这是MOT领域长期存在的挑战之一。

通常，被遮挡的目标可能会妨碍检测器估计边界框，导致轨迹出现断片。而且学习到的遮挡的ReID嵌入向量由于包含了干扰因素，所以区分度较低。为此，作者提出了一种面向多目标跟踪的遮挡感知检测和ReID校准网络，称为ORCTrack。

具体而言，作者在检测器中引入了一种遮挡感知注意力（Occlusion-Aware Attention，OAA）模块，它能够突出目标特征并抑制遮挡的背景区域。OAA可以作为一个调制器，增强对一些潜在被遮挡的目标的检测能力。此外，作者设计了一个基于最优传输问题的ReID嵌入匹配块，通过不同相邻帧的补充性增强和校准ReID表示。

为验证所提方法的有效性，作者在两个具有挑战性的VisDrone2021-MOT和KITTI基准测试数据集上进行了大量实验。实验结果表明，作者的方法优于其他方法，达到了最新的最优性能，并具有高运行效率。

1、简介

多目标跟踪是计算机视觉中的一项重要任务，旨在同时预测视频中多个目标的边界框和身份。它在视频监控分析、群体活动识别、自动驾驶等领域具有广泛的应用。

近年来，深度学习检测网络使得多目标跟踪取得了显著进展，现有的多目标跟踪方法大致可分为三种类型。

基于检测的跟踪方法，如SORT和ByteTrack ，尝试通过每帧中的边界框检测感兴趣的目标，然后仅使用运动特征将每个目标关联起来。这些方法忽略了外观特征（即Re-ID表示），可能导致一旦目标丢失，难以再次检测到它。

基于独立检测和嵌入的方法利用独立的目标检测器和特征提取器来结合运动和外观信息，从而在一定程度上缓解目标ID丢失的问题。但是，SDE方法的过程非常耗时，无法实现实时性能。

而基于联合检测和嵌入的框架则提出了使用共享模型同时执行目标检测和特征提取任务的方法，从而减少网络的冗余计算量，并实现实时性能。本文采用JDE结构网络来执行多目标跟踪，以在网络性能和速度之间取得平衡。

尽管现有的先进方法显示出了很大的竞争力，但其中很少有方法尝试解决遮挡问题，这是多目标跟踪中一个基本而具有挑战性的问题。

如图1(a)和(b)所示，在面对更复杂的场景时（例如道路上有更多行人和车辆，并且一些目标被遮挡），之前的方法无法准确估计目标的位置，从而导致目标的轨迹被分割。因此，作者认为遮挡感知的检测器和Re-ID特征提取器是跟踪的两个关键组成部分。

具体而言，如果检测器无法定位目标的边界框，后续的关联算法也将无法从与每个边界框相对应的图像区域中提取Re-ID特征。这将使网络无法创建与现有轨迹相关联的新轨迹。

其次，即使检测器足够强大以检测出一些潜在遮挡的目标，由于遮挡问题，Re-ID特征提取器可能无法捕捉到有用的特征。例如，提取器可能在同一目标的不同帧中注意到被遮挡区域和遮挡物特征，这将阻碍网络根据学习表示匹配和关联准确的目标ID。

基于上述分析，本文提出了一种针对多目标跟踪的遮挡感知检测和Re-ID校准网络，称为ORCTrack。具体而言，作者首先提出了一种遮挡感知注意力（OAA）模块，该模块可以插入到检测器中，利用整体表示的高阶统计特征来突出特征通道的空间细节。该模块负责强调前景可见目标区域，同时抑制被遮挡的背景区域。更一般地说，目标特征在通过分类和检测头进行评分之前会经过OAA模块的调制。

此外，作者设计了一个Re-ID嵌入匹配块来增强和校准学习表示。它利用两个不同帧来基于最优运输问题获得共现目标特征的全面Re-ID嵌入。通过采用所提出的技术，作者的方法可以更准确地检测潜在被遮挡的目标并进行跟踪，如图1(c)所示。

为了验证作者方法的有效性，作者在两个具有挑战性的基准数据集VisDrone2021-MOT和KITTI上进行了大量实验证明了作者提出的方法的优越性，作者可以达到新的最先进性能并实现实时跟踪。

作者论文的主要贡献如下：

作者通过实验证明在遮挡条件下对先前的多目标跟踪方法进行了调查。作者分析得出，遮挡感知检测器和Re-ID特征提取器对于跟踪至关重要。
作者引入了一个遮挡感知注意力（OAA）模块，在将目标特征输入分类和检测头之前，对其进行调节，这有助于网络检测更多潜在被遮挡的目标。此外，作者设计了一个Re-ID嵌入匹配块，通过优化不同帧中共现的目标，增强学习表示。
作者对两个具有挑战性的基准数据集进行了广泛的实验评估，结果显示作者提出的方法的有效性。它可以达到最新的最先进性能，并且具有很高的运行效率。

2、本文方法

2.1 总体架构

针对某一场景的视频序列，作者的目标是检测感兴趣的目标并通过分配身份来跟踪它们。为了实现这个目标，作者提出了一种遮挡感知检测和Re-ID校准网络，用于多目标跟踪，称为ORCTrack。如图2所示，包含共存目标的给定输入图像对首先通过作者提出的随机擦除算法转换为遮挡样本，这与其他方法（如简单地添加噪声或填充某种颜色）非常不同。

然后，它们被送入检测器中，其结构类似于FPN，以提取Fou层特征。接下来，将提取的特征经过OAA处理，产生遮挡感知特征Foa，然后通过3个Head进行分类、检测和Re-ID学习。为了提高嵌入，Re-ID特征通过互相之间的最佳匹配流进行补充增强。整个网络的总体架构类似于之前的JDE工作，使得作者的模型能够在精度和速度之间实现良好的平衡。

2.2 随机擦除

如图3（a）所示，在某些场景中，遮挡是不可避免的，包括目标被背景（例如树木、杆子和建筑物等）遮挡，以及被其他前景目标遮挡。

其中，后者已经通过当前的软非极大值抑制（Soft-NMS）策略有效解决，因此，作者在本文中重点研究背景遮挡的问题。使网络更加感知遮挡的一种直接方法是增加训练中的遮挡样本，这可以使网络对前景被遮挡物更敏感，同时排除背景遮挡物。一些先前的方法尝试通过添加噪声（图3（b））或填充颜色（图3（c））来擦除目标，然而，这类伪遮挡物与真实遮挡物之间仍存在很大差距。

为了解决这些缺点，作者提出了一种新的随机擦除策略，将原始数据增强为遮挡样本。具体而言，作者根据边界框随机裁剪背景区域，并将其粘贴到选定的前景目标上。这更符合真实的遮挡情况，遮挡物的模式是有意义的。

此外，作者在当前帧中随机选择一定比例的包含边界框的总目标进行遮挡。这保证了两个不同帧中的被遮挡目标不相同，这对于后续的Re-ID特征匹配是有用的。

此外，作者还考虑遮挡物的位置（即上、下、左、右位置）和大小，在每个训练时期中有不同的组合，这可以有效增加样本的多样性。作者提出的随机擦除算法的整个过程可以参考算法1。值得注意的是，作者还返回相应的掩码M，其中所有遮挡物的位置为零，这提供给OAA模块进行监督。

正式地说，在对输入图像进行随机擦除操作后，作者可以得到。然后，它通过检测器主干进行编码和解码，得到粗糙的不考虑遮挡的特征。为了改进特征使其在遮挡下更加敏感，作者提出了遮挡感知注意力（OAA），以强调可见目标区域并排除遮挡部分的干扰。

具体而言，如图2所示，作者首先对应用1×1卷积，将特征通道数从减少到，其中和表示特征图的空间尺寸。然后，作者计算张量的成对通道相关性，生成协方差矩阵。这一步类似于二次阶池化，它对整体表示的高阶统计进行建模。

接下来，作者使用线性函数将协方差矩阵转换为1×1×c的向量。然后，通过将输入与在通道维度上的向量相乘，作者可以获得输出，突出显示重要的空间特征，同时抑制冗余信息。

然后，作者通过对二进制掩码和进行逐元素操作，得到掩码。注意，可以通过张量缩放操作将二进制掩码扩展到与相同的维度。然后，作者可以如下形式化损失：

这个函数使网络能够突出显示前景可见目标的特征，同时忽略背景遮挡区域的响应。更具体地说，它可以被看作是一种自监督方法，任意自生成的遮挡掩码对进行监督学习。一旦网络训练得到良好，将更加鲁棒并且对遮挡有意识。

2.3 Re-ID Embedding Matching

Re-ID嵌入提供了额外的外观线索，帮助网络更准确地分配目标的身份，在一些先前的JDE作品中已被证明是有效的。

然而，这些作品并未考虑作者文中讨论过的特征偏差问题。具体来说，网络可能会在第帧学习到一个人的某个局部特征，而在第帧学习到另一个区域特征。这两个特征之间的相似性较低，这将阻止算法识别它们是同一个人。在这部分中，作者的目标是学习更全面的Re-ID表示。

提出的Re-ID嵌入匹配模块利用来自两个不同帧的协作信息来校准学习特征。具体而言，作者将来自Re-ID的这两个帧的初始特征视为源集合和目标集合，它们分别由所有位置的特征向量展平。作者的目标是最小化源集合和目标集合之间的传输流，如下所示：

其中，从源集合s传输到目标集合t的单位传输成本可以通过亲和矩阵定义，如公式3所示。亲和矩阵表示相似特征将产生较小的传输成本，并产生更多的传输流。

请注意，和是约束匹配矩阵的两个值，以避免多对一的匹配。它们可以设定为均匀分布。然后，可以使用Sinkhorn-Knopp算法高效解决公式2中的最优传输问题，该算法可以得到两个特征之间相应区域的最优匹配流。

最后，作者通过将匹配流与两个初始源特征和目标特征进行相乘来重新加权。由于最优流在两个特征之间的共现区域具有较高的响应，这一步能够增强并校准模型，使其专注于更全面的Re-ID特征提取表示。

2.4 Network Training

作者的网络以端到端的方式进行训练，包含了3个用于学习的Head，分别是多类别识别、检测框回归和Re-ID嵌入学习。这样设计的网络能够同时学习多个任务，使得模型能够综合利用各种信息进行训练和推理。

对于多目标分类，作者采用二元交叉熵损失函数，如下所示：

其中，表示样本数量，表示真实标签，表示预测得分，表示函数。

对于检测框回归任务，作者采用CIOU损失，如下所示：

其中，和分别表示标注的真实框和预测的框。表示和的外接矩形的对角线长度。表示计算中心点之间欧几里得距离的函数。表示和之间纵横比的惩罚项。

对于Re-ID嵌入学习，它类似于分类任务，通过将Re-ID特征映射到类别分布向量来进行建模，可以表示如下：

其中，表示特征向量的数量，表示所有ID的数量。表示第个特征向量属于第个ID的预测值。而则是对应的真实标签。

整个框架通过将所有目标函数整合在一起进行优化，如下所示：

2.4 Data Association

数据关联是多目标跟踪的重要组成部分，其目的是将轨迹与检测框进行一对一匹配。在本文中，作者同时利用运动特征（即检测框）和外观特征（即Re-ID嵌入），然后基于这两种特征制定了一个数据关联算法。具体而言，在使用运动特征评估轨迹跟踪框与目标检测框之间的相似度时，作者采用IOU距离，表示为

其中表示跟踪框，表示检测框。对于外观特征度量，作者采用余弦距离来评估相似度，表示为

其中表示跟踪框的嵌入，表示检测框的嵌入。

如算法2所描述的，作者首先使用基于卡尔曼滤波器的运动模型来预测当前帧中前一帧轨迹的跟踪框。在BtyeTrack的基础上，作者还设置了高分阈值和低分阈值，并将关联任务分为两个阶段。这样可以确保网络尽可能多地使用检测框进行匹配，避免目标ID的丢失。

随后，作者使用匈牙利算法首先根据特征向量和目标框来关联高分的目标和轨迹，然后根据目标框来关联低分的目标和轨迹。最后，作者收集成功跟踪的轨迹，并将无法匹配的高分目标重新初始化为新的轨迹，从而获得当前帧的轨迹集合。

3、实验

3.1 消融研究

在本节中，作者将在VisDrone2021-MOT数据集上进行几项消融研究，以探索作者提出的方法的每个组成部分。

（1）随机擦除的效果

作者提出的随机擦除算法与其他方法不同，因为在不同的训练轮次中，遮挡物的模式、位置和形状是不同的。表Ia显示了不同随机擦除方法之间的性能。这里，作者采用mAP50指标评估网络的目标检测能力。可以看出，作者提出的策略可以取得最佳性能，反映了它的有效性。

（2）OAA的效果

此外，作者还探索了提出的OAA模块的结构和有效性。具体而言，OAA中的注意力操作可以替换为SE注意力或使用一个简单的1×1标准卷积层。如表Ib所示，与其他替代方法相比，作者的OAA模块可以帮助网络更加关注潜在的遮挡物，并在检测中实现更高的mAP50。需要注意的是，OAA是轻量级的，带有较小的开销，可以很容易地插入到其他任意检测器中。

（3）跟踪的效果

如表Ic所示，作者比较了提出的OAA和Re-ID匹配模块与Baseline模型的效果。可以看出，每个模块都可以在不同程度上提升Baseline模型的跟踪性能。具体而言，提出的OAA模块帮助网络对潜在的遮挡物更加敏感，从而增加更多的检测结果。Re-ID校准模块使网络能够捕捉到更全面和稳健的Re-ID特征，从而提高IDF1分数并减少ID切换分数（IDs）。

通过结合这两个模块，网络可以进一步提升跟踪性能，验证了作者提出方法的有效性和优越性。图6展示了在遮挡情况下的一些检测和跟踪的定性结果。这也符合作者在第一节中的论述，即良好的遮挡感知检测器和稳健的Re-ID特征提取器是跟踪的两个重要组成部分。

（4）不同检测器的效果

为了研究作者提出的组件的普适性，作者使用了两个其他轻量级检测器，包括YOLOXs和YOLOX tiny。YOLOX是基于YOLOv5的改进的Anchor-Free模型。表Id显示，通过采用作者提出的OAA和Re-ID校准模块（称为全模型），所有三个检测器都可以获得不同程度的跟踪性能提升。

而Anchor-Base的YOLOV5s模型在性能上优于Anchor-Free的YOLOX模型。此外，由于在Re-ID模块中引入了匹配算法，与Baseline模型相比，使用3个不同的检测器的作者的方法的FPS有所下降。然而，尽管在速度上稍有损失，但在跟踪方面却取得了竞争力的提升，这是可以接受的。

（5）数据关联阈值的效果

一旦网络训练得当，数据关联对于跟踪非常重要。在这里，作者分析了作者数据关联算法2中不同阈值的效果。如图4所示，作者分别展示了MOTA和IDF1指标与初始化新轨迹得分阈值Sinit、高得分阈值Shigh以及低得分阈值Slow之间的曲线关系。为了在评估MOTA和IDF1之间取得平衡，最终作者设置了Sinit = 0.35，Shigh = 0.25和Slow = 0.05。

3.2 Comparison with State-of-the-arts

（1） VisDrone2021-MOT.

作者将作者的方法与现有的最先进方法进行了比较，包括基于典型DBT方法（SORT，ByteTrack），基于SDE的方法（如DeepSORT，MOTDT）以及最新的基于JDE的框架FairMOT。跟踪指标是基于每个类别的加权统计数据报告的。

如表II所示，通过使用基准模型，作者的方法在IDF1、MT、ML和FN指标方面已经可以与其他方法相比取得竞争力的表现。其中，基于SDE范式的DeepSORT和MOTDT的跟踪指标相对较高，但FPS较低。这是因为当跟踪目标数量很大时，基于SDE的模型会非常耗时，无法实现实时性能。基于DBT的模型SORT和ByteTrack 具有较高的FPS，但跟踪指标较差。这是因为它们没有使用外观特征进行Re-ID跟踪。作者的方法基于JDE范式，在跟踪性能上可以大幅优于类似的工作FairMOT。

此外，作者还使用相同的YOLOv5s检测器报告了其他方法的结果。可以看出，作者的框架仍然可以胜过它们，这验证了所提出的数据关联算法的有效性。当作者使用额外的COCO数据集预训练作者的方法并利用提出的全模块时，性能进一步提升。

总体而言，作者的方法可以在跟踪精度和速度之间取得良好的平衡，这是合理的。图7展示了使用作者的方法在VisDrone2021-MOT数据集上的一些定性可视化结果。

另外，作者还将提出的方法与已有的方法在KITTI基准测试上进行了比较。按照之前的方法的做法，作者对在额外数据集上预训练的KITTI模型进行了微调。如表III所示，作者的方法1也可以取得比其他方法更好的性能。图5展示了使用作者的方法在KITTI基准测试上的一些定性可视化结果。

4、参考

[1].Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking.

5、推荐阅读

CSUNet | 完美缝合Transformer和CNN，性能达到UNet家族的巅峰！

InstructionGPT-4 | 200个数据集微调，源于MiniGPT-4又高于MiniGPT-4

Lite-HRNet-Plus来袭 | 解决LiteHRNet的多尺度特征融合复杂的弊端

扫码加入?「集智书童」交流群

（备注：方向+学校/公司+昵称）

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题，即插即用真的很香

想要了解更多：

前沿AI视觉感知全栈知识?「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案?「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战?「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

点击下方“阅读原文”，

了解更多AI学习路上的「武功秘籍」

# 智源社区 # 视觉 # 图神经网络 # 机器学习 # 视觉

文章版权归作者所有，未经允许请勿转载。

中国大模型的顶流聚会，都聊了什么？

智源社区

550

J. Med. Chem. | 利用网络科学和机器学习预测专利关键化合物的创新框架

智源社区

513

我的机器学习入门书籍

智源社区

563

首个快速知识蒸馏的视觉框架：ResNet50 80.1%精度，训练加速30%

智源社区

555

Nat. Mach. Intell.速递：在人工智能中结合神经启发的适应性进行持续学习

智源社区

414

社区供稿 | LMDrive: 大语言模型加持的闭环端到端自动驾驶框架

智源社区

702

暂无评论

暂无评论...

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题，即插即用真的很香

1、简介