掌桥专利:专业的专利平台
掌桥专利
首页

一种基于生成对抗网络的深度可变形艺术字样式迁移方法

文献发布时间:2023-06-19 18:37:28


一种基于生成对抗网络的深度可变形艺术字样式迁移方法

技术领域

本发明属于深度学习技术领域,特别是涉及一种基于生成对抗网络的深度可变形艺术字样式迁移方法。

背景技术

随着多媒体技术的发展和人们审美情趣的提升,越来越多的人开始关注视觉信息的美观程度。其中,文字作为日常生活中最重要的部分之一,对其进行美化,生成艺术字,提升其主观视觉质量成为了一个重要的研究热点。

艺术字生成的关键在于对文字进行纹理合成,将色彩丰富的纹理信息添加到目标文字上。这类技术使用从源纹理图中复制纹理像素或者纹理块的方式在目标图像中合成新的纹理。但是这些方法忽略了艺术字中纹理的多样性和复杂性,因此其合成结果与源艺术字可能相差较大,变得呆板而单一。另一种用于纹理合成的方法是基于统计的纹理合成技术。这类技术对源纹理图中的纹理进行统计上的建模,将纹理描述为统计数字,然后调整目标纹理图使之具有相同的统计数字。这类技术因为建模的准确性问题,难以精确模仿源纹理的视觉特征,合成结果杂乱并且具有很多瑕疵。基于生成对抗网络的艺术文本风格转移提出了第一个文本样式传输网络,它允许通过一个可调参数实时控制字形的关键样式程度。它的主要贡献是建立一个新的双向形状匹配框架,在不同变形水平上建立一个有效的字形映射,而不需要成对的地面真值。

现有的风格迁移方法存在的问题主要有:图像的风格迁移具有很大的随意性,导致很多情况下,效果很不理想,有时候还会产生一些错误,比如说把风格图像中眼睛部分特征迁移到嘴巴上去了,或者图像背景特征迁移到前景物体上,迁移效果非常不理想。近年来,随着深度学习技术的发展,风格迁移技术逐渐成为图像处理领域的热点问题,其目的是将给定的图像渲染成不同的艺术风格,同时保证输入图像的内容不发生改变。CNN(Convolutional Neural Network)用于图像的艺术风格转换,通过利用预训练好的VGG网络提取到的特征来重新组合任意给定图片的内容和艺术图片的风格样式完成风格迁移生成对抗网络(Generative Adversarial Network)出色的生成能力,使得它逐渐在风格迁移领域得到了广泛的应用,其生成的结果在视觉上更加逼真。其中较为经典的有监督风格迁移模型Pix2Pix以及无监督模型cycle生成对抗网络。

字体风格迁移是指提取风格图片特征到文本图片上合成艺术字的过程,是一个长期研究的问题。随着深度学习的兴起,大多数字体合成基于卷积神经网络,这些网络只预测了字形形状。与推断整体字形形状不同,将色彩和纹理的艺术风格转移到新的字形是一个挑战性的问题。

发明内容

本发明的目的是提供一种基于生成对抗网络的深度可变形艺术字样式迁移方法,以克服现有艺术文本风格转移中字形变形程度的主观不确定性和参考图像单一性的不足,从而进一步扩大应用面。

为实现上述目的,本发明提供了如下方案:

本发明提供一种基于生成对抗网络的深度可变形艺术字样式迁移方法,包括:

步骤1:选取文本数据集和一张作为风格图片进行推演;

步骤2:获取特征图片;

步骤3:建立草图模块G

步骤4:基于平滑损失函数、重建损失函数、条件对损失函数计算总的损失函数:

其中,λ为设置的权重,

步骤5:将风格传递过程分解为两个连续的阶段:结构传递和纹理传递,分别由生成器G

步骤6:建立字形网络Gs模块,进行结构传递;

步骤7:Gs在训练阶段学习不同参数l下文本图像的变形程度;

步骤8:建立迁移网络G

步骤9:通过三轮epoch,分别迭代多次,组成损失函数,反向传播梯度,经过三阶段训练,生成需要的模型为G

步骤10对于不同层,分别采用基于梯度下降法的优化算法生成风格迁移结果;

步骤11,输入生成的模型,选择一张文本图片进行测试,得到输出图片。

可选的,所述步骤2包括:利用深度卷积神经网络,先用卷积核提取特征,初始化的卷积核会在反向传播的过程中,在迭代中被一次又一次的更新,得到特征图片。

可选的,所述步骤3包括:

将目标结构图简化为不同的粗级;

通过多层次粗到细的形状映射来表征形状特征,实现多尺度转移,得到不同变形程度的掩膜。

可选的,平滑损失函数表示为:

其中,i,j表示像素点;β表示控制图片平滑程度的参数。

可选的,从所述文本数据集中提取文本图像t,并从[0,1]中提取参数值l,草图模块G

并且施加条件对抗损失,以迫使草图模块G

其中,D

可选的,字形网络G

可选的,所述草图模块的工作过程包括:

将文本图像和样式图片X映射到一个平滑域,将细节消除,显示出平滑的轮廓;

将平滑后的文本图像映射回文本域来学习字形特征,实现结构转移。

可选的,基于结构迁移的结果进行纹理传递:使用随机裁剪的方式,从x和y中获得若干个训练对{x,y},然后利用重建损失和条件对抗损失训练G

可选的,通过加入Neural style Transfer中提出的样式损失

本发明的技术效果为:通过本发明对普通文本进行风格迁移生成艺术字,得到精美得输出图片,不仅减少了艺术字的设计时间,也提高了大众审美。另外还可以有效解决复杂字体经过风格迁移后字形不清晰的问题,针对复杂字体特征提取不够精准问题进行改善,为图像风格迁移方法提供更多的特征供选取,从而使得提取的变形后的图像掩膜具有更好的细节特征。编码器中通过引入可变形卷积,利用卷积特性,通过卷积核用额外的偏移量来增加模块中的空间采样位置,并从目标任务中学习偏移量的思想,扩大训练范围。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例中残差模块的结构示意图;

图2为本发明实施例中模型的架构图;

图3为本发明实施例中采用的一个内容图像;

图4为本发明实施例中采用的一个风格图像;

图5为本发明实施例中基于生成对抗网络的深度可变形艺术字样式迁移方法生成的风格迁移结果示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

下面结合图1-5描述本发明的一种基于生成对抗网络的深度可变形艺术字样式迁移方法。

如图1所示,本实施例中提供一种基于生成对抗网络的深度可变形艺术字样式迁移方法,包括:

步骤1:选取文本数据集和一张作为风格图片进行推演;

具体地,步骤1中利用提出的深度可变形艺术字样式转移网络,将需要的图片进行预处理,将风格图片裁剪成训练对,为数据驱动学习提供了鲁棒的多尺度形状映射。文本数据集引用TE141K包含152个专业设计的在字形上呈现的文本效果,包括英文字母、汉字和阿拉伯数字。这是迄今为止最大的文本风格迁移数据集,该数据集可以用于文本风格迁移、多域转移、图像与图像之间的翻译等研究领域。

步骤2:获取特征图片;

具体地,所述步骤2包括:利用深度卷积神经网络,先用卷积核提取特征,初始化的卷积核会在反向传播的过程中,在迭代中被一次又一次的更新,无限地逼近真实解,得到特征图片。

步骤3:建立草图模块G

所述步骤3包括:将目标结构图简化为不同的粗级;通过多层次粗到细的形状映射来表征形状特征,实现多尺度转移,得到变形后的图像掩膜。

草图模块又称向后结构转移。本实施例中,草图模块G

步骤4:基于平滑损失函数、重建损失函数、条件对损失函数计算总的损失函数:

其中,λ为设置的权重,

其中,平滑损失函数表示为:

即求每一个像素和横向下一个像素的差的平方,加上纵向下一个像素的差的平方,然后对其开β/2次根,β表示控制图片平滑程度的参数,默认为数值2,i,j表示像素点。

对于训练草图模块G

并且施加条件对抗损失,以迫使G

其中,D

其中,λ为设置的权重,

通过应用训练G

步骤5:将风格传递过程分解为两个连续的阶段:结构传递和纹理传递,分别由生成器G

具体地,假设Y和I分别表示用户提供的样式图像和文本图像,参数l∈[0,1]控制的不同变形程度下的艺术文本,其中较大的l对应较大的变形;

风格转移过程转换成结构传递和纹理传递后,即G=G

其中程式化图像

假设给出了掩盖Y中样式主体形状的结构映射样式图片X;在向后结构转移的阶段,对样式图片X进行预处理以获得训练对

步骤6:建立字形网络Gs模块,进行结构传递;通过训练Gs模块,将普通卷积修改为深度可分离卷积加快推理速度,通过控制参数得到风格图片纹理样式模型。

字形网络G

进一步的,提出了一个可选的字形易读性损失,以使结构传递结果G

其中

故G

步骤7:Gs在训练阶段学习不同参数l下文本图像的变形程度。

具体地:在损失方面,G

故G

步骤8:建立迁移网络G

进一步优化方案,通过加入Neural style Transfer中提出的样式损失

步骤9:通过三轮epoch,分别迭代多次,组成损失函数,反向传播梯度,经过三阶段训练,生成需要的模型为G

步骤10:对于不同层,分别采用基于梯度下降法的优化算法生成风格迁移结果;即采用梯度下降法,通过迭代计算生成风格迁移的梯度,并利用总的损失函数,沿负梯度方向逼近原内容和风格,以让每次迭代生成的风格迁移尽可能地分别与原内容和风格相似;本发明定义一个新损失函数,与传统的风格迁移损失函数相比,增加了对图像的平滑处理,使得字体细节提取更加细化。避免了由于字体特征提取不细节导致的复杂字形不够清晰,能更好的保存原内容图像的字形特征,提高了风格迁移的效果。

步骤11,输入生成的模型,选择一张文本图片进行测试,得到输出图片。

以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

技术分类

06120115636033