多项SOTA！SVDFormer-自增强自结构双生点云补全算法-ICCV2023论文详解

强化学习2年前 (2023)发布智源社区

585 0 0

前言目前，点云补全任务只要存在以下两个挑战：利用不完整的点云中生成真实的全局形状，并生成高精度的局部结构。当前的方法要么仅使用3D坐标系，要么导入额外的标注好相机内部参数的图像，来指导模型补全缺失部分的几何。然而，这些方法并不总是完全利用可用于准确高质量点云补全的跨模态自结构信息。

针对上面的分析，本方案设计了一个自视图融合网络(Self-view Fusion Network)，它利用从多个视角投影得到的深度图像来观察不完整的自形状，并生成一个紧凑的全局形状表示。

Pytorch训练营，花两个星期彻底掌握代码实现

CV各大方向专栏与各个部署框架最全教程整理

CV全栈指导班、基础入门班、论文指导班全面上线!!

1. 方法前瞻

为了揭示的结构的细节，本文引入了一个称为自结构双生成器(Self-structure Dual-generator)的细化模块，该模块结合学习到的形状先验知识和几何自相似性来生成新点。通过感知每个点的不完整性，该双路径设计根据每个点的结构类型，采取细化的策略。

大量实验表明，我们的模型在多项测试中都取得了最先进的性能。

文章链接：https://arxiv.org/abs/2307.08492

代码链接：https://github.com/czvvd/SVDFormer

2. 背景补充

近年来，已经提出了几种方法来直接处理点，通过端到端的网络。一个开创性的基于点的工作是PCN，它使用共享的多层感知器(MLP)来提取特征，并使用从粗到细的折叠操作生成额外的点。

由于点数据中可用的信息有限，辅助输入被用来提高性能，基于跨模态的方法横空出世。这种方法将渲染的彩色图像以及对应的相机参数和局部点云组合起来。虽然这些方法显示了不错的结果，这种对应的额外输入难以获得。

考虑到上述缺陷，本设计提出让模型从多个角度观察输入点云结构的2D图像，并将其作为额外输入来辅助模型理解整体形状。我们的实现了模型对整体形状更全面的感知，而且无需额外的信息或训练期间的可微渲染。我们的的特点是将形状细化任务分解为两个子目标，并针对不同的局部区域自适应地提取可靠的特征。

3. 方法详解

SVDFormer的输入包含三个部分:（1）不完整和低分辨率点云，（2）个相机位置，（3）个深度图。之后，以从粗到细的方式估计一个完整的点云。

模型的整体架构包含两个部分，如图1所示:一个SVFNet和一个配备两个SDG模块的精细化模块。首先SVFNet利用点云从多个视角自投影的产生的深度图生成一个全局补全形状。随后，两个SDG逐渐细化点云和上采样以产生具有高度结构细节的最终点云。

多项SOTA！SVDFormer-自增强自结构双生点云补全算法-ICCV2023论文详解

图1

3.1 SVFNet

SVFNet的目的是从不同的视角观察部分输入，并学习一个有效的描述，来产生一个全局合理的完整形状。首先从中使用基于点的3D骨干网络提取一个全局特征，并从个深度图中使用基于CNN的2D骨干网络提取一组视图特征。这里直接采用了早期成熟的骨干网络。具体来说，采用了三个集合抽象层的PointNet++对进行分层编码，采用ResNet-18模型作为2D骨干网络。

但是，如何有效融合上述跨模态特征是一个挑战。为了解决这个问题，作者提出了一个新的特征融合模块，将和融合产生全局形状描述符，然后是一个解码器生成全局形状。解码器使用1D卷积转置层将变换为一组逐点特征，并用一个自注意力层回归3D坐标。最后，合并和并对合并的结果进行重采样以生成粗略结果。

特征融合。如图2所示，首先通过线性映射变换为查询、键和值标记，并在的指导下计算注意力权重。然后，为了增强视图特征的可辨别性，在投影视点的条件下，根据查询和键标记计算注意力权重。详细地讲，通过线性变换将映射到潜在空间，然后将它们用作特征融合的位置信号。在元素乘积之后，中的每个特征集成了来自其他视图在指导下的关系信息。最后，通过最大池化获得全局形状描述符。

图2

3.2 SDG

SDG的目的是根据缺失表面区域的结构类型，生成一组坐标偏移来微调和上采样粗糙形状。为实现这个目的，SDG被设计为双通道结构，如图3所示，它包含两个并行单元，分别称为结构分析单元和相似度校准单元。总体而言，输入和上一步输出的粗略点云，我们获得组合的逐点特征。包含两种来源的形状信息:一个来自学习到的形状先验，而另一个来自于在中发现的相似几何图案。然后，将投影到更高维空间并重塑来产生一组上采样偏移，其中代表上采样率。预测的偏移量之后被添加回得到一个新完成结果。注意，SDG迭代两次，如图1所示。

图3

3.2.1 结构分析单元

由于来自缺失区域的几何细节很难恢复，本方案嵌入了一个不完整性感知自注意力层，来明确鼓励网络关注更多在缺失的区域。具体来说，首先与形状描述符拼接，然后通过线性层嵌入为一组逐点特征。接下来，被馈送到不完整性感知自注意力层以获得一组特征，其中编码了逐点不完整性信息。计算如下:

多项SOTA！SVDFormer-自增强自结构双生点云补全算法-ICCV2023论文详解

其中、和是可学习矩阵，大小为。是一个向量，表示中每个点的不完整程度。直观来看，缺失区域中的点倾向于与部分输入有更大的距离值。因此我们通过下式计算不完整性:

多项SOTA！SVDFormer-自增强自结构双生点云补全算法-ICCV2023论文详解

其中是一个缩放系数。我们在实验中将其设置为0.2。使用正弦函数确保与查询、键和值的嵌入具有相同的维度。最后将解码为进行进一步分析粗糙形状。

3.2.2 相似度对齐

相似度校准单元为中的每个点利用中的潜在相似局部模式，解决由点云无序性导致的特征不匹配问题。之后，使用三个EdgeConv层提取一组下采样的逐点特征。中的每个向量捕获了局部上下文信息。由于可能存在长程相似结构，作者通过交叉注意力执行特征交换。计算过程与vanilla自注意力类似，唯一的不同在于查询矩阵是由产生的，而充当键和值向量。交叉注意力层输出逐点特征，将中的相似局部结构集成到粗糙形状中的每个点。通过这种方式，这个单元可以建模两个点云之间的几何相似性，并促进带有相似结构的点在输入中的细化点云。与结构分析单元类似，也被解码为一个新的特征。这两个解码器具有相同的架构，都是由两个自注意力层实现。

3.3 损失函数

为了测量生成的点云和真值点云之间的差异，我们使用Chamfer距离(CD)作为我们的损失函数，这是最近工作中的常见选择。为实现从粗糙到精细的生成过程，我们通过以下方式正则化训练:

多项SOTA！SVDFormer-自增强自结构双生点云补全算法-ICCV2023论文详解

值得注意的是，我们对下采样到与、、相同的密度，以便计算损失。

4. 实验结果

综合实验表明，我们的方法在广泛使用的基准测试上实现了最先进的性能。

PCN数据集的定量结果

ShapeNet-55上的定量结果。CD-S、CD-M和CD-H分别代表易难度、中等难度和难难度级别下的CD值

ShapeNet-34上的定量结果

真实世界扫描的定量结果

实验结果可视化

5. 总结分析

本研究提出了一种新的神经网络架构SVDFormer用于点云补全。SVDFormer利用自我投影的多视图分析来理解整体形状，并有效地感知缺失区域。此外，本方案引入了一个称为自监督双生成器的解码器，它将形状细化点云过程分解为两个子目标。最后，实验表明，SVDFormer在各种类型的点云上实现了最先进的点云补全性能。

若觉得还不错的话，请点个 “赞” 或 “在看” 吧

论文指导班

论文指导班面向那些没有导师指导、需要升学申博的朋友，指导学员从零开始调研相关方向研究、尝试idea、做实验、写论文，指导老师会提供一些idea、代码实现部分的指导、论文写作指导和修改，但整体仍然是由学员自主完成。需要说明的是，论文指导班并非帮你写论文，或者直接给一篇论文让你挂名，我们不会做任何灰色产业，因此，想直接买论文或挂名的朋友请勿联系。

指导老师：

海外QS Top-60某高校人工智能科学博士在读, 师从IEEE Fellow，曾在多家AI企业担任研究实习生和全职算法研究员，具备极强的学术届和工业界综合背景。研究领域主要包括通用计算机视觉模型的高效设计，训练，部署压缩以及在目标检测，语义分割等下游任务应用，具体包括模型压缩 (知识蒸馏，模型搜索量化剪枝), 通用视觉模型与应用(VIT, 目标检测，语义分割), AI基础理论(AutoML, 数据增广，无监督/半监督/长尾/噪声/联邦学习)等；共发表和审稿中的15余篇SCI国际期刊和顶级会议论文，包括NeurIPS，CVPR, ECCV，ICLR，AAAI, ICASSP等CCF-A/B类会议。发明专利授权2项。

长期担任计算机视觉、人工智能、多媒体领域顶级会议CVPR, ECCV, NeurIPS, AAAI, ACM MM等审稿人。指导研究生本科生发表SCI, EI，CCF-C类会议和毕业论文累计30余篇，有丰富的保研,申博等方面经验，成功辅导学员赴南洋理工，北大，浙大等深造。

涉及范围：CCF会议A类/SCI一区、CCF会议B类/SCI二区、CCF会议C类/SCI三区、SCI四区、EI期刊、EI会议、核心期刊、研究生毕业设计

报名请扫描下方二维码了解详细情况，备注：“论文班报名”。

多项SOTA！SVDFormer-自增强自结构双生点云补全算法-ICCV2023论文详解

如果有其他想要当论文指导老师的朋友，请发简历给我，同样扫描上方二维码，备注：“论文指导老师”。基本条件：已发表两篇以上一作顶会，或3-5篇其他级别的一作论文，学历在985博士及以上。