ACC-UNet | 致敬ConvNeXt，全卷积结构UNet设计，超越SWin-UNet！

大模型2年前 (2023)发布智源社区

969 0 0

点击下方卡片，关注「AI视界引擎」公众号

ACC-UNet | 致敬ConvNeXt，全卷积结构UNet设计，超越SWin-UNet！

这个十年以视觉Transformer的引入为标志，这是广泛的计算机视觉中的一次根本性的转变。医学影像领域也遵循了类似的趋势，UNet作为最有影响力的架构之一，已经被重新设计以融合Transformer。最近，关于视觉中卷积模型的效用正在被重新研究，比如ConvNext，它将ResNet提升到了Swin Transformer的水平。

在此灵感的推动下，作者的目标是改进一个纯粹基于卷积的UNet模型，使其能够与基于Transformer的模型相媲美，例如Swin-Unet或UCTransNet。作者研究了Transformer-based UNet模型的几个优势，主要包括长距离依赖性和跨 Level 的跳跃连接。作者尝试通过卷积操作来模拟它们，因此提出了ACC-UNet，这是一个完全基于卷积的UNet模型，将卷积神经网络的内在归纳偏置与Transformer的设计决策结合在一起，融合了两者的优点。

ACC-UNet在5个不同的医学图像分割基准上进行了评估，始终优于卷积网络、Transformer以及它们的混合模型。值得注意的是，ACC-UNet在Dice分数方面超越了最先进的模型Swin-Unet和UCTransNet，分别提高了2.64±2.54%和0.45±1.61%，同时使用了较少的参数（分别为它们的59.26%和24.24%）。

代码：https://github.com/kiharalab/ACC-UNet

1、简介

语义分割是计算机辅助医学图像分析的重要组成部分，它在各种诊断任务中识别和突出显示感兴趣的区域。然而，由于涉及到图像模态和采集、以及病理和生物变异等各种因素，这通常变得复杂。深度学习在这个领域的应用在这方面显然是有益的。特别值得注意的是，自从UNet模型被引入以来，在医学图像分割中表现出了惊人的效果。因此，UNet及其派生模型已成为事实上的标准。

原始的UNet模型包括对称的编码器-解码器架构（图1a），并采用跳跃连接，这些连接提供了解码器可能在编码器的池化操作期间丢失的空间信息。尽管通过简单的连接传播这些信息可以提高性能，但编码器-解码器特征图之间可能存在明显的语义差距。这导致了第二类UNet的发展（图1b）。U-Net++利用了密集连接，MultiResUNet在跳跃连接中添加了额外的卷积块，作为潜在的解决方案。

直到UNet历史的这一时刻，所有的创新都是通过CNN进行的。然而，2020年代带来了计算机视觉领域的根本性变革，视觉中一直占主导地位的CNN在视觉领域被视觉Transformer所颠覆。Swin Transformer进一步将Transformer用于通用视觉应用。因此，UNet模型开始采用Transformers。Swin-Unet将卷积块替换为Swin Transformer块，因此启动了一类新的模型（图1c）。

然而，CNN在图像分割中仍具有各种优点，因此导致了这两者的融合。这个混合类的UNet模型（图1d）在编码器-解码器中使用卷积块，并在跳跃连接中使用Transformer层。UCTransNet和MCTrans是这个类别的两个代表性模型。最后，还有尝试开发全Transformer UNet架构（图1e）的尝试，例如SMESwin Unet在编码器-解码器块和跳跃连接中都使用了Transformer。

最近，研究开始重新发现在Transformer带来的进步背景下，CNN的潜力。在这方面的开创性工作是A ConvNet for the 2020s，它探讨了Transformer引入的各种思想以及它们在卷积网络中的适用性。通过逐渐吸收来自训练协议和微观-宏观设计选择的思想，这项工作使ResNet模型能够胜过Swin Transformer模型。

在本文中，作者提出了同样的问题，但是在UNet模型的背景下。作者调查了一个纯粹基于卷积的UNet模型是否可以与基于Transformer的UNet竞争。为此，作者从Transformer架构中汲取灵感，开发了一个纯粹基于卷积的UNet模型。作者提出了一种基于Patch的上下文聚合方法，与基于窗口的自注意力相反。此外，作者通过融合来自多个编码器 Level 的特征图来创新跳跃连接。在5个基准数据集上的大量实验证明，作者提出的修改有潜力改进UNet模型。

2、本文方法

首先，作者从高层次分析基于Transformer的UNet模型。从中汲取动力和见解，作者设计了两个卷积块来模拟在Transformer中执行的操作。最后，作者将它们集成到标准UNet Backbone中，开发了作者提出的ACC-UNet架构。

2.1 Transformer在UNet中的高级视图

显然，Transformers在两个不同的方面改进了UNet模型。

利用自注意的长距离依赖性

Transformers可以通过使用（窗口式）自注意力来计算更大范围上下文的特征。此外，它们通过采用Inverted Bottlenecks来提高表达能力，即增加MLP层中的神经元数量。此外，它们包含了Shortcut连接，有助于学习。

通过通道注意力实现自适应多级特征融合

基于Transformer的UNet使用通道注意力自适应地融合来自多个编码器 Level 的特征图。与简单的跳跃连接相比，这产生了丰富的特征，因为它组合了来自不同 Level 的各种感兴趣区域的信息，而后者受到当前 Level 信息的限制。

基于这些观察结果，作者修改了标准UNet模型中的卷积块和跳跃连接，以引入长距离依赖性和多级特征融合的能力。

2.2 邻域上下文的分层聚合（HANC）

作者首先探讨了在卷积块中引入长距离依赖性以及提高表达能力的可能性。作者只使用点卷积和深度卷积来降低计算复杂性。

为了增加表达能力，作者建议在卷积块中包括Inverted Bottlenecks，可以通过使用点卷积将通道数从增加到。由于这些额外的通道会增加模型的复杂性，作者使用3×3深度卷积来进行补偿。因此，输入特征图被转换为如下（图2b）：

接下来，作者希望在作者的卷积块中模拟自注意力，其核心是将一个像素与其邻域中的其他像素进行比较。这种比较可以通过将像素值与其邻域的均值和最大值进行比较来简化。因此，作者可以通过附加相邻像素特征的均值和最大值来提供对邻域比较的近似概念。连续的点卷积因此可以考虑到这些，并捕捉对比视图。

由于分层分析对图像有益，作者不是在单个大窗口中计算此聚合，而是分层地在多个 Level 中进行计算，例如、、…、的小块。对于，它将是普通的卷积操作，但随着值的增加，将提供更多的上下文信息，避免了较大卷积核的需求。

因此，作者提出的分层邻域上下文聚合通过增加上下文信息丰富了特征图，使其成为（图2b），其中表示沿通道维度的连接。

接下来，类似于Transformer，作者在卷积块中包括了一个Shortcut连接，以便更好地传播梯度。因此，作者进行另一次点卷积，将通道数减少到cin并与输入特征图相加。因此，变成了（图2b）。

最后，作者使用点卷积将滤波器数量更改为，作为输出（图2b）

因此，作者提出了一种新颖的基于卷积的分层邻域上下文聚合（HANC）块，带来了Transformer的好处。该块的操作如图2b所示。

2.3 多级特征汇编（MLFC）

接下来，作者调查了多级特征组合的可行性，这是使用基于Transformer的UNet的另一个优点。

基于Transformer的跳跃连接已经展示了来自所有编码器 Level 的有效特征融合，以及通过各个解码器从编译的特征图中适当筛选。这是通过连接来自不同 Level 的投影标记来执行的。按照这个方法，作者调整了从不同编码器 Level 获得的卷积特征图的大小，使它们具有相同的大小，并将它们连接起来。这为作者提供了跨不同语义 Level 的特征图的概览。

作者应用点卷积操作来总结这个表示，并与相应的编码器特征图合并。整体和个体信息的这种融合通过另一个卷积层传递，作者假设这个过程会丰富当前 Level 特征，使其包含来自其他 Level 特征的信息。

对于来自4个不同 Level 的特征、、、，特征图可以通过多级信息进行丰富（如图2d所示）。

这里，是一个将调整到大小的操作，。此操作对所有不同 Level 都进行了单独操作。

因此，作者提出了另一个名为多级特征汇编（MLFC）的新型块，它汇总了来自多个编码器 Level 的信息，并丰富了单个编码器特征图。该块如图2d所示。

2.4 ACC-UNet

因此，作者提出了全卷积ACC-UNet（如图2a所示）。作者从一个标准UNet模型开始，并将滤波器数量减少了一半。然后，作者用作者提出的HANC块替换了编码器和解码器中的卷积块。除了最后一个解码器块在 Level 3（）以外，作者考虑了，以模仿Swin Transformer第3阶段的扩展。，考虑了最多4×4的块，适用于所有 Level ，但瓶颈 Level （）和接近瓶颈 Level 的 Level （）除外。

接下来，作者通过使用残差块（图2c）来修改跳跃连接，以减小语义差距，并堆叠了3个MLFC块。所有的卷积层都进行了批量归一化，激活函数采用了Leaky-RELU，并通过squeeze and excitation进行了重新校准。

总之，在UNet模型中，作者用作者提出的HANC块替换了经典的卷积块，这些块执行了自注意力的近似版本，并通过MLFC块修改了跳跃连接，考虑了来自不同编码器 Level 的特征图。所提出的模型具有1677万参数，比标准UNet模型增加了大约200万个参数。

3、实验

3.1、SOTA方法对比

作者对ACC-UNet进行了与UNet、MultiResUNet、Swin-Unet、UCTransnet、SMESwin-Unet等5个UNet类别的代表性模型的评估（如图1所示）。表1展示了在测试集上获得的Dice分数。

结果显示了一个有趣的模式。显然，对于相对较大的数据集（ISIC-18），基于Transformer的Swin-Unet是第二好的方法，因为Transformer需要更多的数据进行正确的训练。

在光谱的另一端，轻量级卷积模型（MultiResUNet）在小型数据集（GlaS）上获得了第二好的分数。对于其余的数据集，混合模型（UCTransnet）似乎表现为第二好的方法。尽管SMESwin-Unet具有如此大量的参数，但在所有情况下都落后，这反过来可能使其难以在小规模数据集上进行训练。

然而，作者的模型将Transformer的设计原则与CNN的归纳偏差相结合，似乎在所有不同类别中表现最佳，并具有更低的参数。与更大型的最先进模型相比，对于5个数据集，作者分别获得了0.13%、0.10%、0.63%、0.90%、0.27%的Dice分数改进。

因此，作者的模型不仅准确，而且在使用其拥有的适度小参数时也很高效。在FLOPs方面，作者的模型与卷积UNets相当，而基于Transformer的UNets由于大规模分块划分而具有较小的FLOPs。

3.2、5个数据集的定性结果的比较

此外，除了获得更高的Dice分数外，显然，ACC-UNet还生成了更好的定性结果。图3显示了ACC-UNet与其他模型的定性比较。图的每一行包括来自每个数据集的一个示例，右侧两列显示了ACC-UNet预测的分割和地面实况掩模。

在来自ISIC-18数据集的第一个示例中，作者的模型没有过度分割，而是遵循了病变边界。在来自CVC-ClinicDB的第二个示例中，作者的模型几乎完美地区分了手指和息肉。接下来，在来自BUSI的第三个示例中，作者的预测过滤掉了左侧明显的结节区域，而所有其他模型均将其预测为假阳性肿瘤。

同样，在来自COVID数据集的第四个样本中，作者能够更好地视觉建模左肺浓缩中的间隙，从而使Dice分数比第二好的方法高出2.9%。再次，在来自GlaS数据集的最后一个示例中，作者不仅成功地预测了右下角的腺体，还独立地识别了左上角的腺体，而其他模型则大多未能正确识别或合并了它们。

3.3、消融实验

作者在CVC-ClinicDB数据集上进行了一个消融研究，以分析作者路线图中不同设计选择的贡献（如图4所示）。作者从一个将滤波器数量减半的UNet模型作为基础模型开始，结果是Dice分数为87.77%，参数为7.8M。使用深度卷积以及将瓶颈增加4倍将Dice分数提高到88.26%，同时稍微减少参数至7.5M。

接下来，作者添加了HANC块，k值始终为3，这使参数数量增加了340%，Dice分数提高了1.1%。Shortcut连接将性能提高了2.16%。作者还逐渐减小了k和inv_f ctr，从而减少了参数数量，但没有降低性能。

最后，作者添加了MLFC块（4堆栈）并逐渐优化了k和inv_f ctr，同时去掉了一个MLFC阶段，从而开发了ACC-UNet。其他一些有趣的消融实验是ACC-UNet没有MLFC（Dice 91.9%）或没有HANC（Dice 90.96%，同时增加了25%的滤波器以保持参数数量相当）。