Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
解决问题:本篇论文旨在解决生成对抗网络(GAN)中控制生成图像的问题。通过“拖动”图像中的任意点,实现用户交互式精确控制生成图像的姿态、形状、表情和布局。
关键思路:本文提出了DragGAN,通过两个主要组件实现GAN的交互式控制:1)基于特征的运动监督,驱动手柄点向目标位置移动;2)新的点跟踪方法,利用辨别式生成器特征来不断定位手柄点的位置。与现有方法相比,DragGAN不需要手动注释训练数据或先验3D模型,具有更高的灵活性、精度和通用性。
其他亮点:本文的实验结果表明,DragGAN在图像操纵和点跟踪任务中优于先前的方法。同时,本文还展示了通过GAN反演对真实图像进行操纵的能力。作者开源了代码和数据集,为后续研究提供了便利。
关于作者:本文的主要作者来自德国马普计算机科学研究所和香港中文大学。Xingang Pan在CVPR、ICCV等会议上发表过多篇论文,研究方向主要包括计算机视觉、深度学习等。Christian Theobalt是计算机图形学领域的知名学者,曾获得多个国际奖项,发表过多篇高影响力论文。
相关研究:与本文相关的其他研究包括:1)”GANSpace: Discovering Interpretable GAN Controls”(Erik Härkönen等,Aalto University);2)”GAN Prior Embedded Network for Blind Face Restoration in the Wild”(Xin Deng等,University of Technology Sydney);3)”Adversarial Generation of Continuous Implicit Shape Representations”(Jingwei Huang等,University of California, Los Angeles)。
https://arxiv.org/pdf/2305.10973.pdf
论文摘要:这篇论文研究了一种控制生成对抗网络(GAN)的强大方法,即以用户交互的方式“拖动”图像上的任意点,精确地到达目标点。为了实现这一目标,研究人员提出了DragGAN,包括两个主要组件:1)基于特征的运动监督,驱动控制点向目标位置移动;2)一种新的点追踪方法,利用判别式生成器特征来不断定位控制点的位置。通过DragGAN,任何人都可以精确控制图像中像素的位置,从而操纵不同类别的对象的姿态、形状、表情和布局,例如动物、汽车、人类、景观等。由于这些操作是在GAN学习的生成图像流形上执行的,因此它们往往可以产生逼真的输出,即使是在挑战性场景下,如幻觉遮挡内容和形状变形,也能保持对象的刚性。定性和定量比较表明,在图像操作和点追踪任务中,DragGAN相对于先前的方法具有优势。研究人员还展示了通过GAN反演来操纵真实图像的能力。