一、前言
艺术字是以普通文字为基础,经过专业的字体设计师艺术加工的变形字体。字体特点符合文字含义、具有美观有趣、易认易识、醒目张扬等特性,是一种有图案意味或装饰意味的字体变形。艺术字能从汉字的义、形和结构特征出发,对汉字的笔画和结构作合理的变形装饰,书写出美观形象的变体字。艺术字经过变体后来突出和美化文字,千姿百态,变化万千,是一种字体艺术的创新,常用来创建旗帜鲜明的标志或标题。但是艺术字往往需要设计师依靠技术和经验花费几个小时去创作。如果把这种耗时的工作交给计算机来做,将会大大设提高设计师的工作效率。随着第二代深度神经网络——对抗性神经网络的快速发展,计算机根据需求设计艺术字的想法已经实现,只需要提供一张风格图片,就能打造自己的火焰字、水滴字、闪电字、花瓣字等等,十分便捷。
二、相关文献
对抗生成网络(GAN)自从2014年诞生以来,被广泛应用于图像到图像的转换之中。对于给定一批数据,GAN可以将高斯分布采样的噪声转化成和给定数据相似的新数据,从而达到源源不断地制作逼真的“合成数据”。《Controllable Artistic Text Style Transfer via Shape-Matching GAN》[1]一文介绍了基于形状匹配GAN的可控艺术文本风格转换的方法,提出了第一个文本风格传输网络,它允许通过一个可调参数实时控制字形的关键风格程度,献了个新的双向形状匹配框架,以建立一个有效的字形风格映射在不同的变形水平没有配对的地面真相。基于这一思想,还提出了一个尺度控制模块,使单个网络能够连续地描述风格图像的多尺度形状特征,并将这些特征传递到目标文本中。该方法在生成多样化、可控和高质量的文本方面显示了其优越性。《DualGAN: Unsupervised Dual Learning for Image-to-Image Translation》[2]一文则开发了一种新的双重GAN机制,该机制能够从两个领域的两组未标记图像中训练图像翻译人员。在本文的体系结构中,原始GAN学习将图像从U域转换为域V中的图像,而双GAN学习转换任务。原始任务和双重任务形成的闭环允许来自任一域的图像被转换并重建。因此,一个可以解释图像重建误差的损失函数可以用来训练译者。《Image-to-Image Translation with Conditional Adversarial Networks》[3]一文研究了条件对抗网络作为图像到图像翻译问题的通用解决方案。这些网络不仅学习从输入图像到输出图像的映射,而且学习一个损失函数来训练这种映射。这使得对传统上需要非常不同的损失公式的问题应用相同的通用方法成为可能。证明了这种方法在从标签地图合成照片、从边缘地图重建物体、给图像着色等任务中是有效的。《Multi-Content GAN for Few-Shot Font Style Transfer》[4]一文则关注的挑战是对高度程式化的文本进行局部观察,并将观察结果归纳为在装饰字体中生成未观察到的字形。为了从很少的例子中生成一组风格一致的多内容图像,本文提出了一个端到端堆叠的条件GAN模型,该模型考虑了沿频道的内容和沿网络层的样式。本文提出的网络将给定字形的样式转换为看不见的内容,捕捉现实世界中高度程式化的字体,例如电影海报或信息图表上的字体,试图转移排版风格化(如衬线和耳朵)以及文本风格化(例如颜色渐变和效果)。《One-Sided Unsupervised Domain Mapping》[5]一文则介绍了一种无监督映射方式该方式不仅以单侧映射学习,而且在现有的基于圆度的约束条件下,可以获得更好的数值结果。《Self-Supervised CycleGAN for Object-Preserving Image-to-Image Domain Adaptation》[6]一文提出了一种新的GAN(即OP-GAN)来解决在图像到图像的翻译中很容易无法保存图像对象的问题,它包括一个自监督模块,在图像到图像的翻译过程中,不需要任何额外的注释来增强图像内容的一致性,显著提高了图像的质量基于PSPNet和U-Net等现成的深度学习网络,在不同的领域适应场景下的语义分割精度。《TextureGAN: Controlling Deep Image Synthesis with Texture Patches》[7]一文研究以素描、色彩和纹理为导向的深度影像合成。本文是第一个研究纹理控制的方法。该方法允许用户在草图上的任意位置和比例放置纹理面片,以控制所需的输出纹理,而生成网络学习合成符合这些纹理建议的对象。实现方式是在对抗性和内容丢失的基础上开发了一个局部纹理丢失来训练生成网络。《Toward Multimodal Image-to-Image Translation》[8]一文旨在实现在一个条件生成的建模环境中对可能输出的分布进行建模。映射的模糊性被提取到一个低维的潜在向量中,该向量可以在测试时随机抽样。生成器学习将给定的输入与此潜在代码相结合,映射到输出。该模型明确地激励输出和潜在代码之间的连接是可逆的。这有助于防止在训练期间从潜在代码到输出的多对一映射,也称为模式崩溃问题。《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》[9]一文旨在学习输入图像和输出图像之间的映射,使用一组对齐的图像对进行训练,提出了一种在没有成对例子的情况下学习将图像从源域X转换到目标域Y的方法,在不存在成对训练数据的情况下,给出了一些定性结果,包括收集风格转换、物体变形、季节转换、照片增强等。《Attention-GAN for Object Transfiguration in Wild Images》[10]一文研究了野生图像中的物体变形问题。本文将生成网络分解成两个独立的网络,每个网络只专注于一个特定的子任务。注意网络预测图像的空间注意地图,转换网络关注对象的翻译。注意网络生成的注意力地图鼓励稀疏,这样就可以将主要注意力集中到感兴趣的对象上。无论是在物体变形之前还是之后,注意映射都应该保持不变。另外,在给定图像分割注释的情况下,学习注意网络可以接收更多的指令。《DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Networks》[11]一文提出了一种新颖的深度监督 GAN(DA-GAN)的实例级图像翻译框架。这种设计使得DA-GAN能够在一个高度结构化的潜在空间中,将两个集合中的样本转换成实例的任务分解。具体来说,我们共同学习一个深度注意编码器,通过关注学习到的实例对,可以发现实例级的对应关系。因此,约束可以在集合级和实例级得到利用。《Generative Semantic Manipulation with Contrasting GAN》[12]一文引入了一种新的对抗性对比目标的contras GAN(contrast GAN)。我们的对抗性对比目标不再像以前的GANs那样直接使合成的样本接近目标数据,而是在样本之间的距离上进行优化比较,即强制操纵数据在语义上更接近目标类别的真实数据,而不是输入数据。提出了一种新的掩模条件对比度GAN结构,使图像背景与物体语义变化相分离。《Unsupervised Attention-guided Image-to-Image Translation》[13]一文利用无监督的注意机制解决了无监督的图像到图像的翻译技术很难将注意力集中在单个对象上这一局限性。《Triangle Generative Adversarial Networks》[14]一文提出了一种三角生成对抗网络(△-GAN)以实现半监督跨域联合分布匹配。《Learning to Discover Cross-Domain Relations with Generative Adversarial Networks》[15]一文提出了一种基于生成性对抗网络的方法来学习发现不同域之间的关系(DiscoGAN)以避免代价高昂的配对,以便在给定未配对数据的情况下发现跨域关系的任务。
参考文献:
[1] Yang S, Wang Z, Wang Z, et al. Controllable artistic text style transfer via shape-matching gan[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 4442-4451.
[2] Z Yi, H Zhang, P Tan, M Gong, DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Networks. arXiv preprint arXiv:1704.02510, 2018
[3] P Isola, JY Zhu, T Zhou, AA Efros, Image-to-Image Translation with Conditional Adversarial Networks. arXiv preprint arXiv:1611.07004, 2018
[4] S Azadi, M Fisher, V Kim,Z Wang, E Shechtman, T Darrell, Multi-Content GAN for Few-Shot Font Style Transfer. arXiv preprint arXiv:1712.00516, 2017
[5] S Benaim, L Wolf, One-Sided Unsupervised Domain Mapping. arXiv preprint arXiv:1706.00826, 2017
