大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型

智源社区1年前 (2023)发布智源社区

594 0 0

点击下方卡片，关注「集智书童」公众号

点击加入?「集智书童」交流群

大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型

在空域图像分析领域，物体检测起着关键作用，对诸如遥感、城市规划和灾害管理等领域具有重大影响。Transformer是一种用于处理序列数据的神经网络结构，它能够有效地捕捉输入数据中的长距离依赖关系。CNN是一种卷积神经网络，它能够有效地提取图像中的特征，并用于物体检测等任务。

本研究针对该领域所固有的挑战，特别是小目标的检测、密集元素的管理以及考虑各种方向。作者对一种将大型选择性核网络（LSKNet）作为Backbone网络与DiffusionDet Head 相结合的目标检测模型进行了深入评估，使用iSAID数据集进行实证分析。作者的方法包括引入新的方法和进行广泛的消融研究。这些研究对损失函数、边界回归技术和分类策略等各个方面进行了批判性评估，以提高对象检测模型的精确度。

本文详细介绍了将LSKNet Backbone网络与DiffusionDet Head 相结合的实验应用，这是一种针对空域图像物体检测特定挑战的定制组合。本研究的发现表明，模型性能得到了显著提升，尤其是在准确度和时间权衡方面。

所提出的模型在平均平均精确度（MAP）上达到了约45.7%，这是显著的改进，在相同的数据集上超过了RCNN模型4.7%。这种进步强调了所提出修改的有效性，并在空域图像分析中设立了新的基准，为更准确、更高效的物体检测方法奠定了基础。

代码：https://github.com/SashaMatsun/LSKDiffDet

1 Introduction

空中图像中的物体检测已成为一个动态且关键的研究领域，主要关注通过空中平台（如卫星、无人机或飞机）捕获的高分辨率图像中物体的识别和定位。这种技术在众多领域得到应用，包括但不限于城市规划，精确农业，灾害管理，以及军事监视。

将尖端机器学习方法（特别是深度学习和卷积神经网络）的集成，使得这些物体检测模型能够有效地处理庞大的空中图像数据集，识别特定的物体，如车辆、建筑和植被。然而，该领域面临几个挑战，如处理不同的图像分辨率，管理遮挡，需要大量且准确标注的训练数据集，以及实时处理高分辨率图像。

针对这些挑战进行应对至关重要，有助于充分挖掘空中成像在物体检测方面的潜力，从而促进各领域的更有效、数据驱动的决策制定。

在本文中，作者提出了一系列创新性的贡献，极大地推动了空中图像分析领域的前进。作者全面而多面的方法包括引入新的Backbone架构，合并扩散模型，以及应用各种损失函数。此外，作者还探索了不同激活函数和超参数优化对实现最优性能的影响。这些元素共同代表了空中图像分析领域的一个飞跃，下面将详细说明：

作者将Large Kernel Convolutions和空间核选择与特征金字塔网络(FPN) 相结合，构建了一个强大且有效的工作流，用于空中图像分析。这种创新设计显著提高了空中图像的特征提取和表示。作者将扩散模型(DiffusionDet) 的适应性应用于空中成像，并进行了定制修改，这导致了复杂空中场景中物体检测准确度的显著提高。

作者引入了一种创新和精化的模型架构，显著提高了空中图像分析的准确性。这些修改导致了更强大、更高效的针对空中成像场景的定制模型。作者进行了大量的实验来评估各种_激活函数_对作者的模型性能的影响。这项调查确定了最有效的激活函数，提高了模型的整体性能和鲁棒性。

为解决普遍存在的类别不平衡问题，作者开发了一种_加权焦损失函数_，并研究了其他损失函数在边界回归方面的适应性。这种方法有效地解决了类别不平衡问题，同时提高了模型的准确性。作者详细分析了_超参数_和_后处理方法_的影响，并对它们进行了微调以优化结果。这种精心优化的过程确保了作者的建议模型在复杂空中图像分析领域达到峰值性能。作者的工作引入了一种广泛而创新的方法论来进行空中图像分析，实现了卓越的性能，并超越了现有的方法。作者方法的关键方面之一是其在资源利用上的高效性。

尽管使用了有限的GPU数量和更少的迭代次数，但作者的模型在准确度和鲁棒性方面取得了显著的进步。这种高效的计算资源利用强调了作者的模型在效率和可持续性方面的优势，使其成为空中图像分析中更节能的解决方案。通过精心解决模型设计和优化的各个方面，作者的研究设定了一个新的基准，以实现具有降低环境影响的卓越性能的高空图像分析。

2 Dataset

在这项工作中，作者使用了实例分割在空中图像数据集（iSAID）的划分为patch的版本，这是一个专门为空中图像物体检测和实例分割任务设计的全面数据集。该数据集包含来自各种来源的高分辨率空中图像，包括卫星和无人驾驶飞行器（UAVs）。该数据集涵盖了广泛的场景，如城市、农村和自然环境，为训练和评估物体检测和分割模型提供了坚实的基础。

iSAID的原版数据集中包含了15个类别，共655,451个物体实例，这些实例属于2,806张高分辨率图像。iSAID数据集内的图像与DOTA-v1.0数据集中的图像相同，主要来源于Google Earth。

一些图像是由中国资源卫星数据与应用中心运营的JL-1卫星捕获的，而另一些则是由GF-2卫星捕获的，两者都是由中国资源卫星数据与应用中心运营的。作者的研究采用了iSAID数据集的划分为patch的版本，包括28029张图像。这些图像通过将原始数据集划分为800×800大小的patch得到。这种划分导致了训练子集中实例数量的大幅增加，达到704428个。实例数量增加可以很大程度上归因于数据集patch之间的重叠。使用这种批处理方法提供了两个关键优势：首先，它显著丰富了训练数据的多样性和复杂性，从而提高了模型在各种空中成像场景中的鲁棒性。

第二，它允许模型接触到各种实例和上下文环境，从而使其在不同的空中图像上具有更强的泛化能力。这是提高模型在不同空中图像上的泛化能力的关键。重要的是，尽管进行了分割和增强处理，作者仍然精心保持了训练、验证和测试集之间的分离，确保它们之间没有数据泄漏。这种仔细的划分保证了作者的评估过程的完整性和可靠性。

尽管iSAID数据集非常丰富，但它为空中物体检测领域的研发人员和从业者带来了几个挑战。解决这些挑战需要开发出更先进、更强大的机器学习模型，以处理空中图像的独有复杂性。这些挑战包括：

对象尺寸的多样性： 空中图像包含各种尺寸的对象，从大型建筑到小型车辆，这使得模型难以准确地识别和分割实例。
遮挡： 空中图像中的物体经常被其他物体或自然特征部分遮挡，这使得分割和检测它们变得具有挑战性。
比例变化： 数据集中包含具有不同尺度和 aspect ratio 的图像，这会影响在这类数据上训练的模型的性能，如图1所示。
复杂的背景： 空中图像通常具有复杂且杂乱的背景，这使得模型难以区分物体和其周围环境。
照明和天气条件： 照明和大气条件的变化可能会影响空中图像中物体的可见性和外观，为物体检测和分割模型带来额外的挑战。

3 Related Works

空中成像和物体检测已经成为各种应用中不可或缺的工具，为陆地现象和人类活动提供了深刻的洞察。遥感技术的出现，包括卫星和无人机图像，已经彻底改变了大规模环境地理研究的观察和分析方法。空中成像有助于在广阔区域内获取高分辨率数据，这在诸如土地使用分类、灾害应对和环境监测等多样化任务中具有宝贵的价值。在这个背景下，空中图像中的物体检测对于从这些大量数据中提炼出可操作的信息至关重要，有助于识别和定位各种物体和特征。

近年来，基于深度学习的物体检测算法在空中图像分析方面的准确性与效率得到了显著提高。空中成像与物体检测的结合对许多领域产生了深刻影响，为解决全球挑战做出了重要贡献。一阶段物体检测模型由于其操作效率和有效性而受到广泛关注。这些模型将物体定位和分类任务融合到单个流畅的网络中，从而减少了推理时间。一个典型的例子是You Only Look Once (YOLO)框架，它将输入图像分割成一个网格系统，预测每个网格单元的边界框和类别概率。类似地，由刘等人提出的单阶段多目标检测器（SSD）采用了多尺度特征图来有效地处理各种大小的对象。这些一阶段模型在各种实际场景中表现出色。

相反，两阶段物体检测模型通常包括一个区域提议网络和一个分类网络。第一阶段为对象生成候选区域，而第二阶段将这些区域分类到特定的物体类别。区域卷积网络（R-CNN）家族是两阶段模型的一个典型例子。R-CNN模型利用选择性搜索进行区域提议生成，然后通过CNN进行分类。像Fast R-CNN和Faster R-CNN这样的后续模型通过创新如ROI池化和区域提议网络，增强了原R-CNN模型的效率和准确性。

空中图像中的物体检测领域的最新进展迅速发展，得益于像DOTA和xView这样的大规模空中图像数据集的出现。这些数据集使得针对空中环境定制的物体检测模型得到了有针对性的训练和评估。空中图像通常具有独特的挑战，包括显著的对象尺寸变化、杂乱的背景和多样的视角。为了解决这些挑战，已经开发了一些专门的模型，例如定向区域提议网络（ORPN），可以检测到不受其方向影响的对象。

高分辨率网络（HRNet）通过在整个模型中维持高分辨率特征图来有效管理大小不同的对象。此外，自适应大小对象检测器（ASOD）通过调整感受野和锚尺度来适应不同大小的对象。这些进步大大提高了空中图像中的物体检测，增强了数据分析的准确性和效率。

4 Methodology

在这个部分，作者将阐述构建作者的模型所采用方法的 technical 复杂性。

Model Architecture

4.1.1 LSKNet

作者的模型框架类似于常见的模型架构，如[25]中讨论的那些模型，由重复的具有相似结构的块组成。作者方法的关键创新在于将 Large Selective Kernel（LSK）机制集成到每个Backbone块中。

这种集成对于增强模型的特征提取能力至关重要，因为它提供了更广泛的上下文区域。

Large Kernel Convolutions：这些卷积层被实现为一系列的逐点卷积层。这些卷积使用逐渐增加的核大小和膨胀率。这种配置可以快速扩展感受野，如[7, 23]中所述。这种结构的主要优点有两点：一是它有助于提取涵盖各种上下文区域的多个特征。二是相对于具有同等感受野的单个大型核，它提供了更好的效率。

例如，对于一个具有64个通道的输入，一个具有结构的连续机制只需要11.3K的参数。相比之下，一个大小为29的单个卷积层需要60.4K的参数。

Spatial Kernel Selection：根据[15]，该过程根据提取的特征动态选择适合不同物体的核。最初，来自不同大小核的特征被拼接成一个大小为的特征图。然后，对每个通道计算平均值和最大值，并将它们集成到一个大小为的特征描述符中。接下来，应用一个卷积层和一个 sigmoid 激活函数，将这些特征描述符转换成一个大小为的空间注意力图。这个模块的最终输出是输入特征图的拼接和空间注意力图的元素乘积。

最后，作者使用一系列下采样块构建了一个特征金字塔网络，每个下采样块都包含一系列 Large Selective Kernel块。这种配置确保了Backbone网络的最终输出包括多个由输入通过不同数量的块产生的不同分辨率的特征图。作为创新修改，作者还引入了与空间滤波操作并行的残差连接。这一添加允许保留并传递可能被前一个LSK块过滤掉的特征。图2显示了作者对LSK块的修改与原始块的比较。

4.1.2 DiffusionDet

作者选择DiffusionDet Head 作为作者的模型[2]。DiffusionDet是一个新颖的框架，将物体检测视为一个去噪扩散过程，从噪声框过渡到实际物体框。在训练阶段，物体框从真实框扩散到一个随机分布，模型学习如何反转这个过程。

在推理阶段，模型逐步优化一组随机生成的框，以产生最终输出。在包括MS-COCO和LVIS在内的标准基准测试上的全面评估表明，DiffusionDet在许多公认的检测器上具有优越性能。这项工作揭示了物体检测的两大关键洞察：

首先，尽管随机框与预定义的锚点或学习查询存在显著差异，但它们仍然可以作为有效的物体候选项。
其次，作为代表性的感知任务，物体检测可以使用生成方法来解决。

扩散模型需要多次运行在推理阶段生成数据样本，这需要对原始图像进行多次应用。为了应对在每一步应用在原始图像上的计算不可行性，模型被分为图像编码器和检测解码器。图像编码器从原始输入图像中提取高级特征，而检测解码器则使用这些特征从噪声框中精炼边界框预测。

受到Sparse R-CNN的启发，检测解码器接收提议框，从特征图上裁剪RoI-特征，并将它们发送到检测 Head 进行边界框回归和分类。DiffusionDet与Sparse R-CNN的主要区别在于使用随机框而不是学习得到的框，输入需求以及在不同步骤共享参数的检测器头在迭代采样步骤中重复使用。

作者选择这个模型，因为它在处理噪声图像和关注小目标方面具有优势。在空中图像中，这两个问题是主要挑战，因此作者认为它可能适合这个任务。作者用作者修改过的LSKNetBackbone网络替换了默认的Swin TransformerBackbone网络，并使用COCO数据集的预训练权重初始化了模型。

Augmentations

数据增强是提高机器学习模型性能的关键技术，尤其是在空中图像分析中。这个过程涉及通过应用一系列变换对现有图像生成新的训练样本。这些变换包括旋转、缩放、翻转和颜色修改，显著增加了训练数据集的多样性。这反过来，使模型具有更好的泛化能力，对新、未见数据进行更好的泛化。

作者的研究专注于两种主要的数据增强技术：翻转和Albumentations。翻转是一种简单而有效的方法，通过水平或垂直镜像原始图像创建新的训练实例。这种方法有助于多样化数据集并发挥关键作用，以降低过拟合的风险。

Albumentations是一个专门针对计算机视觉任务设计的数据增强库。这个库提供了一整套图像变换，旨在增强模型的泛化能力。这些变换包括几何操作，如旋转、平移、缩放、翻转和光度调整，例如改变亮度、对比度和平衡。

在处理空中图像时，应用这些数据增强技术特别有益，因为空中图像面临着独特的挑战。这些挑战包括尺寸和分辨率的变异，几何畸变，多样的环境条件和季节性变化。通过使用翻转和Albumentations，作者的机器学习模型更好地配备了适应和准确解释空中图像复杂特征的能力。

Loss Functions

损失函数选择是物体检测中的一个关键方面，它从根本上指导学习过程。总的来说，物体检测中的损失函数可以分为两类：边界框回归损失和分类损失。边界框回归损失衡量预测框和真实框之间的相似度，考虑诸如形状、方向、宽高比和中心距离等属性。为此，各种损失函数或它们的线性组合被用于此目的。

交并集与互不相交（IOU）： 这是一个广泛使用的评估物体检测模型准确性的指标。IOU损失定义为：

GIOU：_这是IOU的扩展，GIOU考虑了包含GT框和预测框的最小凸包。它比IOU更 robust，因为它考虑了框的形状和方向，从而减少了错位框对最终损失值的影响。

CIOU：CIOU进一步增强了GIOU，通过将GT框和预测框之间的宽高比和中心距离纳入考虑。这种集成改进了收敛性和定位精度，特别是对具有不同宽高比的物体特别有益。

Smooth L1 Loss：这是一种变体L1损失，Smooth L1损失对异常值不太敏感。它将绝对函数应用平滑近似，在原点附近从L1损失过渡到L2损失。这种方法导致了一个更稳定的学习过程，并减轻了噪声样本的影响。

（4）。

各种损失函数适用于分类任务，其中Focal Loss特别有趣。Focal Loss通过引入一个调节因子，降低容易的实例的贡献，并专注于更难、被分类错误的实例。

如图3所示，显著的类不平衡可能会限制Focal Loss的有效性。为了应对这个问题，作者实现了加权Focal Loss，将Focal Loss的原则与分类权重相结合。这种方法为每个类别分配不同的权重，使模型能够优先考虑较小的类别或那些具有更高误分类成本的类别。

这种方法可以提高整体性能，尤其是在类不平衡问题上。方程式6描绘了加权Focal Loss，其中是目标类别的权重因子，为了简单起见，它被计算为每个类别样本数与总样本数之比的倒数。

Activation Function

激活函数在神经网络中至关重要，引入非线性，使模型能够从输入数据中学习复杂的模式。本文讨论了三种先进的激活函数：Mish，Hardswish和Gaussian Error Linear Units（GELU），每个函数都为模型的学习能力带来了独特的优势。

Mish： Mish是一种自正则化的创新激活函数，已经显示出比传统函数如ReLU，Leaky ReLU和Swish更好的性能。它引入了平滑性和非单调性等属性，促进了增强的梯度流动和加速的收敛。Mish函数的定义如下：

这个函数有效地促进了更深入的特征提取和改善了学习动力学。

Hardswish： 作为Swish激活函数的计算高效替代方案，Hardswish在提供可比性能的同时减少了计算开销。它在轻量级模型如MobileNetV3和EfficientNet中找到了用途，这些模型旨在在保持高精度的同时实现低计算复杂性。Hardswish的定义如下：

Hardswish的主要优势在于其效率，特别是在资源受限的环境中。

Gaussian Error Linear Unit（GELU）的定义如下：

GELU受到了高斯误差函数的启发，已在各种模型中得到应用，包括BERT和GPT，尤其是在自然语言处理任务中。GELU的特征如下：

GELU以其促进更细腻和概率化的特征转换而闻名，这有助于提高模型的整体表达能力和性能。

Hyper-parameters

有许多超参数可以调整以提高性能。作者从这些超参数中进行了一次ablation study，研究了每个超参数的影响，这些超参数包括：

学习率： 在梯度下降优化期间所采取的步长由学习率决定。这是一个关键的超参数，它会影响到收敛速度和模型性能。过大的学习率可能导致发散，而过小的学习率可能导致收敛速度慢。
提议框数量： 指的是在物体检测模型中，区域提议网络（RPN）生成的候选边界框的数量。这是一个超参数，它影响了召回率和计算复杂性之间的权衡。
宽高比： 是物体检测模型中使用的锚框的不同比例。它们有助于模型检测具有不同形状和大小的对象。
训练轮数（epochs） 是在训练期间处理整个训练数据集的次数。更高的轮数可以导致更好的模型性能，但过长的训练时间可能会增加模型过拟合的风险。选择最优的轮数取决于具体问题和数据集。
批量大小（batch size） 是在单个优化步骤中计算梯度的训练样本数量。较大的批量大小可能导致更稳定的梯度估计，但可能需要更多的内存和计算资源。
每批图像数（images per batch） 是在训练期间每个批次中使用的图像数量。这个超参数与批量大小相关，并影响内存需求和梯度估计的稳定性。

5 Experiment Setup

为了全面理解作者模型中每个修改的影响，作者在实验中采用了系统性的方法，一次只改变一个变量。这种系统性的过程使作者能够隔离并检查每个更改的特定影响。作者的初始重点是模型架构。作者探索了将LSKNet作为Backbone与DiffusionDet Head 相结合的组合。作者进行了五个不同的实验来评估改变Backbone和 Head 的不同之处。在每个实验中，作者只改变Backbone或 Head 。

具体来说，作者使用了ResNet和LSKNet作为Backbone，并复制了这种配置用于Faster RCNN。此外，Swin Transformer作为Backbone与DiffusionDet结合使用，作者在第五个实验中采用了这种配置。对于所有的后续实验，作者统一了架构，采用LSKNet作为Backbone，并使用DiffusionDet作为 Head 。这个模型配置包括GeLU作为激活函数，并使用了Focal Loss和GIOU作为损失函数。默认为模型还采用了非极大值抑制（NMS）和默认的宽高比[0.5, 2, 4]。

超参数设置如下：批量大小=512，每批图像数=3，学习率=0.00005，提议框数量=300，最大迭代次数为100000。

由于作者有限的工作硬件资源，特别是使用单个GPU（具有24 GB内存）的限制，作者意识到了模型复杂性增加的影响。这种硬件限制影响了关于每批图像数、迭代次数以及其他可能增加性能的方面。

每个修改都基于提高性能的目标：

激活函数：Mish被选择以解决消失梯度问题，已知可以增强模型准确性，尤其是在深度网络中。Hard Swish，因其在计算效率方面被认可，已在某些任务中显示出与ReLU相似或略好的准确性。
架构修改：作者在模型的序列开始处添加了一个深度为32的块。这一扩展旨在增强对较小物体的检测，利用高分辨率特征图。此外，为了防止通过空间选择可能出现的重要特征损失，作者尝试直接从未滤波特征图到LSK块的输出使用残差连接。
损失函数：CIOU被选择来考虑预测框和真实框之间的重叠、宽高比和中心距离。加权Focal Loss通过关注更难的例子来针对类不平衡。平滑L1 Loss被引入以减小离群值的影响，可能改善回归性能。针对超参数的额外实证调整是根据数据集的具体特性和预期结果进行的。
宽高比：调整为[0.25, 0.75, 2, 4]，以更好地适应数据集中 aspect ratios 的大幅度变化。
更多的提议：增加到700，目的是通过提供更广泛的评估区域来提高准确性。
更多的图像每批：从3增加到4，以提供更丰富的数据为算法，增强学习和泛化能力。
软非极大值抑制（Soft NMS）：作为一种替代传统NMS的技术，它降低重叠框的分数而不是丢弃它们，可能在紧密堆叠或部分遮挡的对象场景中保留更准确的预测。

6 Results & Discussion

本节划分了每个实验的结果，并提供了这些结果的启示。需要注意的是，所有实验都只是对基础模型（由LSKNet和DiffusionDet组成）进行单一修改，作为性能比较的参考点。

Model Architectures and Their Impact

表1呈现了不同模型架构的结果。将LSKNet作为Backbone与DiffusionDet Head 相结合产生了最佳结果，与使用ResNetBackbone的基准Diffusion模型相比，mAP提高了大约1.8%。包含残差连接提高了性能近0.5%，这可能是因为它能保留在更深层次特征提取之前初始图像特征的能力。

然而，相反地，添加了一个具有随机初始参数的新块，而不是像其他块一样使用预训练权重，导致性能降低，表明在整体Backbone中适应这些新权重存在挑战。

Effects of Loss and Activation Functions

正如表2所示，实验中尝试不同的损失和激活函数总体上提高了mAP，除了加权Focal Loss。将GIOU替换为CIOU略微提高了准确性，但需要更多的时间收敛。加权Focal Loss表现不佳，可能是因为存在不平衡或过度的类权重。

在激活函数中，Hardswish在检测较小目标方面表现突出，这对于提高准确性至关重要。

Hyperparameter Tuning and Its Effectiveness

表3反映了调整超参数的结果，表明更定制化的设置可以带来性能提升。改变宽高比似乎对中大型物体有显著好处。最具有影响力的单个修改是提议框数量增加，将模型的mAP提高到了44.71%。

更多的图像每批也显示出改进，尽管有时受到GPU内存限制，偶尔可能导致崩溃。软NMS和增强都表现出提升模型性能的潜力。

The Best Model and Its Superior Performance

在寻求最佳模型配置的过程中，作者将各种修改逐个结合，以提高性能。在表4中突出显示的最佳模型，融合了这些更改。它将DiffusionDet与LSKNetBackbone相结合，并增加了额外的残差连接、Hardswish激活函数、平滑L1、Focal Loss和GIOU。

此外，它还包括了定制的宽高比、增加的提议和增强，以及Soft NMS作为后处理技术。该最佳模型在测试集上取得了惊人的结果，特别是平均平均精确度（mAP）达到了45.7%，这在过去的文献和报告中是一个显著的成就。表4详细列出了测试集和验证集上每个类别和不同物体大小的性能指标。

如图4所示，作者在数据集的随机图像上展示了最佳模型的效果。结果表明，模型能够准确地检测到对象，特别是对于基础模型来说具有挑战性的较小对象。

Observations

作者严格的实验使作者得到了一个显著增强空中图像物体检测的模型，并建立了新的性能基准。值得注意的是，作者的模型在单个GPU和有限迭代次数的限制下，与使用了8个GPU和180,000次迭代的最新模型相比，具有竞争力的效率。

这一成就突显了作者的模型的能效和扩展潜力。尽管在模型架构、损失函数、激活函数和超参数方面进行了聚焦修改，并在硬件限制下，这些修改仍显著推进了空中图像分析。这些结果表明，作者的模型在获得更强大的计算资源后，在该领域可以实现进一步显著的改进。

7 Conclusion

在这项研究中，作者引入了一系列创新性的改进，极大地提高了空中图像分析的良好结果。作者的方法包括开发一个强大而复杂的Backbone，集成 Large Kernel Convolutions、空间核选择和特征金字塔网络。这一Backbone进一步增强了，作者专门针对空中图像的复杂性开发了适应的扩散模型，从而提高了物体检测和分类的效果。作者提出的模型架构改进使其成为一个更强大、更高效的工具，用于空中图像分析。作者对各种激活函数进行了广泛调查，最终确定了对作者特定应用中最有效的选项。

为解决普遍存在的类别不平衡问题，作者制定了一个加权Focal损失函数，并探索了其他损失函数在边界回归方面的适应性。作者对超参数和后处理方法的全面检查和微调导致了优化模型的显著改进。这些努力导致了平均平均精确度（mAP）的显著增加，在测试数据集上达到了45.7%的mAP。这一全面的方法在提高空中图像分析的准确性和鲁棒性方面迈出了重要的一步。

8 Limitations & Future Work

这项研究中遇到了一些限制，影响了作者实现更高的性能指标的能力。主要约束是GPU内存容量，这限制了作者的能力来增加每批图像的数量。这种限制特别明显，因为作者最好的模型在更大的批量大小上展示了准确性改进的潜力，但作者也经常遇到内存溢出或系统崩溃的问题。

另一个挑战是COCO数据集中没有LSKNet预训练权重。作者的实验表明，COCO预训练权重通常在物体检测任务上优于ImageNet的权重。作者部分地缓解了这个问题，通过使用COCO预训练权重为DiffusionDet Head ，但这导致了Backbone和 Head 之间权重分布的不一致。尽管作者努力在COCO上微调模型，但由于时间限制和频繁的GPU崩溃，作者的进展有限。

展望未来，作者的工作旨在解决这些限制。获得更高容量GPU和扩展在COCO数据集上的训练时间是作者主要的目标。作者预计，允许每批更多图像可以显著提高模型性能，进一步推进空中图像分析领域。