图像到图像转换文献综述

 2022-11-24 22:30:03

图像到图像的转换是一类常见的视觉和图形问题,其目标是使用对齐图像对(aligned image pairs)的训练集学习输入图像和输出图像之间的映射。然而,对于许多任务来说,配对好的训练数据是不可获得的(或者是需要高昂代价的),比如风格迁移,对象变形,季节转换,图片增强等等任务。因此需要一种在缺乏配对好的样本的情况下的方法来学习从源域X到目标域Y转换图像。

本课题拟用一种基于循环一致性对抗网络的非配对图像到图像的转换的方法来完成图像到图像的转换任务。该方法的目标是找到一种结构来学习映射G: X→Y,同时使用对抗性损失(adversarial loss)使来自G(X)的图像分布与Y的分布尽可能地相近。在这个过程中,由于这个映射是高度欠约束的,需要加入一种约束,将它与逆映射F: Y→X耦合,由此引入一个循环一致性损失(a cycle consistency loss)来推动F (G(X))asymp;X(反之亦然)。[1]

在图像到图像的转换任务中,其他一些参考的相关工作总结如下:

生成对抗网络(Generative Adversarial Networks,GANs) [2,3]已经在图像生成[4,5]、图像编辑[6]和表示学习[5,7,8]方面取得了令人瞩目的成果。最近的方法也采用了同样的思路,用于条件图像生成应用,如text2image[9]、图像修复[10]、未来预测[11],以及其他领域如视频[12]和3D模型[13]。GANs成功的关键在于一种对抗损失的概念,这种概念迫使生成的图像在原则上与真实图像无法区分。

这对于图像生成任务来说是特别强大的,因为这正是许多计算机图形学所追求的目标。我们采用对抗损失来学习映射,这样转换后的图像就不能与目标域中的图像区分开来。

图像-图像转换(Image-to-Image Translation) 的思想至少可以追溯到Hertzmann等人的图像类比[14],他们在单个输入-输出训练图像对上使用了非参数纹理模型[15]。比较新的方法是使用输入输出样本数据集来通过CNN学习一个参数转换的函数,例如[16]。而基于循环一致性对抗网络的非配对图像到图像的转换的方法[1]是建立在Isola等人的[17]的pix2pix框架上,该框架使用条件生成对抗网络[2]来学习从输入到输出图像的映射。类似的想法已经应用于各种任务,如从示意图[18]或特征和语义布局[19]生成照片。

非配对的图像到图像的转换(Unpaired Image-to-Image Translation)其他一些方法也可以处理非配对的集合,其目标是关联两个数据域X和Y。Rosales等人[20]提出了一种贝叶斯框架,该框架包括一个基于从源图像计算的基于补丁的马尔可夫随空域的先验,以及一个从多个样式图像获得的似然项。CoupledGANs[21]和跨模态场景网络[22]使用权重共享策略来学习跨域的共同表示。与我们的方法同时,Liu等人[23]利用变分自编码器[24]和生成式对抗网络的组合扩展了这个框架。另一个并行工作[25,26,27]鼓励输入和输出共享某些内容特性,即使它们在风格上可能不同。它们也使用了对抗网络,在预定义的度量空间(如类标签空间[27]、图像像素空间[25]和图像特征空间[26])中使用附加项强制输出接近输入。

与上述方法不同,基于循环一致性对抗网络的非配对图像到图像的转换的方法的公式[1]不依赖于任何特定于任务的、预定义的输入和输出之间的相似函数,也不假设输入和输出必须位于同一低维嵌入空间。这使得这种方法可以成为许多视觉和图形任务的通用解决方案。在这些研究中,Yi等人[28]在机器翻译的双重学习[29]的启发下,独立地介绍了一个类似的目标,用于非配对图像到图像的转换。

周期的一致性(Cycle Consistency) 使用可传递性作为一种规格化结构化数据的方法的想法由来已久。在视觉跟踪中,执行简单的前向后向一致性已经是几十年来的标准技巧[30]。在语言领域,通过“反向翻译和调解”来验证和改进翻译是人类译者[31]以及机器[29]使用的一种技术。最近,高阶循环一致性已被用于运动恢复结构[32]、3D形状匹配[33]、共同分割[34]、密集语义对齐[35,36]和深度估计[37]。其中,Zhou等人[36]和Godard等人[37]与我们的工作最为相似,因为他们使用循环一致性损失作为使用传递性来监督CNN训练的一种方式。在这项工作中,基于循环一致性对抗网络的非配对图像到图像的转换的方法[1]也引入了一个类似的损失来推动G和F彼此一致。

神经风格迁移(Neural Style Transfer)[38,39] 是另一种进行图像到图像转换的方法,它通过匹配预先训练的深度特征的Gram矩阵统计信息,将一幅图像的内容与另一幅图像(通常是一幅画)的风格相结合,合成出一幅新的图像。另一方面,基于循环一致性对抗网络的非配对图像到图像的转换的方法[1]主要关注的是通过尝试捕捉高级特征结构之间的对应关系来学习两个领域之间的映射,而不是两个特定图像之间的映射,即该方法学习模仿一套完整的艺术作品的风格(如梵高的作品风格),而不是转移单一的选定的艺术作品的风格(如星夜)。因此,后一种方法可以应用于其他单样本转换方法效果不佳的任务,如绘画-gt;照片、物体变形等。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版