掌桥专利:专业的专利平台
掌桥专利
首页

一种基于双阶段深度网络的文字风格迁移方法

文献发布时间:2023-06-19 09:58:59


一种基于双阶段深度网络的文字风格迁移方法

技术领域

本发明属于深度学习与图像风格迁移领域,具体涉及一种基于双阶段深度网络的文字风格迁移方法。

背景技术

图像的风格迁移,是指将一种风格从一幅图像迁移至另一幅图像,合成一幅新的艺术图像的任务。近年来,随着人工智能技术与全球创意产业的不断发展,实现文字图像的风格迁移逐渐成为人们的需求。人们希望生成更具艺术性的字体,应用于商业、文化等产业的设计与宣传。

文字图像的风格迁移不同于普通图像的风格迁移,它涉及文字的字体(font)迁移和纹理特征(texture)迁移两方面。前者实现同样内容的文字的字体变换,后者实现文字的样式外观变换。人工合成的特定字体和纹理的文字图像耗费大量时间和精力,因此使用自动高效的方法实现文字风格迁移成为人们的关注点。然而,现有的文字风格迁移方法仅局限于单阶段的直接转化,即文字的字体(font)和纹理(texture)两方面只在同一阶段一次性进行迁移,这样取得的效果往往不够理想。

发明内容

本发明的目的是克服现有技术中存在的上述问题,提供一种迁移效果更优的基于双阶段深度网络的文字风格迁移方法。

为实现以上目的,本发明提供了以下技术方案:

一种基于双阶段深度网络的文字风格迁移方法,依次包括以下步骤:

步骤一、构建训练数据集A和训练数据集B,其中,所述训练数据集A包括多种不同纹理的风格化文字图片和与之对应的去风格化文字图片,训练数据集B包括参考字体和其他多种字体的去风格化文字图片;

步骤二、先构造去风格化网络,再采用训练数据集A训练去风格化网络,得到实现对带有纹理的风格化文字图像去风格化的去风格化网络模型;

步骤三、先构造字体迁移网络,再利用去风格化网络模型得到的去风格化图片和训练数据集B训练字体迁移网络,得到实现多种字体转换迁移的字体迁移网络模型,然后利用该模型将某一待转换的字体图片迁移为目标参考字体图片;

步骤四、先构造纹理迁移网络,再利用步骤三生成的目标参考字体图片和训练数据集A训练纹理迁移网络,得到实现对字体图片的风格化纹理渲染的纹理迁移网络模型,最后利用该模型得到文字风格迁移的最终结果。

步骤二中,所述去风格化网络包括编码器E

2.1、去风格化网络从训练数据集A中随机选择一个图像对(x,y),分别输入编码器E

2.2、编码器E

2.3、将上述特征图传输给解码器G

所述去风格化网络还包括判别器D

2.4、将重构的去风格化文字图片输入判别器D

所述去风格化网络采用的待优化总损失函数为:

L

L

z=S

L

上式中,L

步骤三中,所述字体迁移网络包括生成器G、判别器D,所述利用去风格化网络模型得到的去风格化图片和训练数据集B训练字体迁移网络依次包括以下步骤:

3.1、字体迁移网络从训练数据集B中随机选择一个图片x输入生成器G,生成器G根据图片x和目标字体标签c生成假图片G(x,c);

3.2、一方面,将假图片G(x,c)再次输入生成器G中生成重构图片G(G(x,c)),并在重构的过程中以去风格化网络模型的去风格化图片作为目标字体图片进行监督,再计算生成器的字体分类损失L

所述字体迁移网络采用的待优化损失函数为:

L

L

L

L

L

L

上式中,L

步骤3.1中,所述假图片G(x,c)的生成方法为:先将图片x和目标字体标签c进行特征映射和融合,然后传入深层卷积网络中进行训练即可。

步骤四中,所述纹理迁移网络包括编码器f、解码器g、位于编码器f和解码器g之间的AdaIN自适应归一化层,其中,编码器f、解码器g以VGG-19网络结构为基准构建得到,编码器f选取预训练的VGG-19网络的前L层,解码器g为编码器f的对称结构,但将所有池化层替换为上采样层;

所述利用步骤三生成的目标参考字体图片和训练数据集A训练纹理迁移网络依次包括以下步骤:

4.1、首先,采用编码器f将字体图片c和纹理风格图片s映射至特征空间,得到f(c)和f(s),随后通过AdaIN自适应归一化层对两者进行特征变换,得到特征图t=AdaIN(f(c),f(s));

4.2、采用解码器g将特征图t映射回原特征空间,得到风格化结果图g(t);

4.3、将风格化结果图g(t)和纹理风格图片s输入编码器f,通过损失函数的优化以实现纹理迁移网络的训练。

步骤4.3中,所述损失函数为:

L

L

上式中,L

步骤4.1中,所述AdaIN自适应归一化层的特征变换公式为:

上式中,σ、μ分别为各图像通道的方差、均值。

与现有技术相比,本发明的有益效果为:

本发明一种基于双阶段深度网络的文字风格迁移方法先构建训练数据集A和训练数据集B,再采用训练数据集A训练去风格化网络,得到实现对带有纹理的风格化文字图像去风格化的去风格化网络模型,然后利用去风格化网络模型得到的去风格化图片和训练数据集B训练字体迁移网络,得到实现多种字体转换迁移的字体迁移网络模型,并利用该模型将某一待转换的字体图片迁移为目标参考字体图片,最后利用目标参考字体图片和训练数据集A训练纹理迁移网络,得到实现对字体图片的风格化纹理渲染的纹理迁移网络模型,通过该模型就能得到文字风格迁移的最终结果,本设计通过将字体、纹理进行分阶段的迁移,即进行文字字体的第一阶段迁移,再进行文字纹理的第二阶段迁移,能够获得更好的文字风格迁移效果。因此,本发明可获得更优的文字风格迁移效果。

附图说明

图1为本发明的整体流程图。

图2为本发明中训练数据集A的示意图。

图3为本发明中训练数据集B的示意图。

图4为本发明中去风格化网络的结构示意图。

图5为本发明中字体迁移网络的结构示意图。

图6为本发明中纹理迁移网络的结构示意图。

具体实施方式

下面结合具体实施方式和附图对本发明作进一步的说明。

参见图1-图6,一种基于双阶段深度网络的文字风格迁移方法,依次包括以下步骤:

步骤一、构建训练数据集A和训练数据集B,其中,所述训练数据集A包括多种不同纹理的风格化文字图片和与之对应的去风格化文字图片,训练数据集B包括参考字体和其他多种字体的去风格化文字图片;

步骤二、先构造去风格化网络,再采用训练数据集A训练去风格化网络,得到实现对带有纹理的风格化文字图像去风格化的去风格化网络模型;

步骤三、先构造字体迁移网络,再利用去风格化网络模型得到的去风格化图片和训练数据集B训练字体迁移网络,得到实现多种字体转换迁移的字体迁移网络模型,然后利用该模型将某一待转换的字体图片迁移为目标参考字体图片;

步骤四、先构造纹理迁移网络,再利用步骤三生成的目标参考字体图片和训练数据集A训练纹理迁移网络,得到实现对字体图片的风格化纹理渲染的纹理迁移网络模型,最后利用该模型得到文字风格迁移的最终结果。

步骤二中,所述去风格化网络包括编码器E

2.1、去风格化网络从训练数据集A中随机选择一个图像对(x,y),分别输入编码器E

2.2、编码器E

2.3、将上述特征图传输给解码器G

所述去风格化网络还包括判别器D

2.4、将重构的去风格化文字图片输入判别器D

所述去风格化网络采用的待优化总损失函数为:

L

L

z=S

L

上式中,L

步骤三中,所述字体迁移网络包括生成器G、判别器D,所述利用去风格化网络模型得到的去风格化图片和训练数据集B训练字体迁移网络依次包括以下步骤:

3.1、字体迁移网络从训练数据集B中随机选择一个图片x输入生成器G,生成器G根据图片x和目标字体标签c生成假图片G(x,c);

3.2、一方面,将假图片G(x,c)再次输入生成器G中生成重构图片G(G(x,c)),并在重构的过程中以去风格化网络模型的去风格化图片作为目标字体图片进行监督,再计算生成器的字体分类损失L

所述字体迁移网络采用的待优化损失函数为:

L

L

L

L

L

L

上式中,L

步骤3.1中,所述假图片G(x,c)的生成方法为:先将图片x和目标字体标签c进行特征映射和融合,然后传入深层卷积网络中进行训练即可。

步骤四中,所述纹理迁移网络包括编码器f、解码器g、位于编码器f和解码器g之间的AdaIN自适应归一化层,其中,编码器f、解码器g以VGG-19网络结构为基准构建得到,编码器f选取预训练的VGG-19网络的前L层,解码器g为编码器f的对称结构,但将所有池化层替换为上采样层;

所述利用步骤三生成的目标参考字体图片和训练数据集A训练纹理迁移网络依次包括以下步骤:

4.1、首先,采用编码器f将字体图片c和纹理风格图片s映射至特征空间,得到f(c)和f(s),随后通过AdaIN自适应归一化层对两者进行特征变换,得到特征图t=AdaIN(f(c),f(s));

4.2、采用解码器g将特征图t映射回原特征空间,得到风格化结果图g(t);

4.3、将风格化结果图g(t)和纹理风格图片s输入编码器f,通过损失函数的优化以实现纹理迁移网络的训练。

步骤4.3中,所述损失函数为:

L

L

上式中,L

步骤4.1中,所述AdaIN自适应归一化层的特征变换公式为:

上式中,σ、μ分别为各图像通道的方差、均值。

本发明的原理说明如下:

本发明提供了一种基于双阶段深度网络的文字风格迁移方法,该方法基于两个编码器、一个解码器和一个判别器所构成的去风格化网络,通过优化特征损失、像素损失和对抗损失,实现对带纹理文字的去风格化处理;基于一个生成器和一个判别器的字体迁移网络,通过优化对抗损失与字体分类损失,实现对文字字体的第一阶段迁移;基于一个编码器和一个解码器外加AdaIN自适应归一化层的纹理迁移网络,通过均值和方差做特征变换,对内容损失和风格损失进行优化,实现对文字纹理的第二阶段迁移。本发明所得到的风格迁移文字图像具有较高的艺术效果,在视觉设计领域中有广泛用途,可用于艺术图像设计、文化商业图像宣传、绘画文本加工等众多方面,不仅适用于数字和字母图像,在汉字方面的迁移也具有较优的表现。

判别器D

判别器的字体分类损失L

生成器的字体分类损失L

重构损失L

对于对抗损失L

纹理迁移网络定义了两种损失:内容损失L

实施例1:

参见图1,一种基于双阶段深度网络的文字风格迁移方法,依次按照以下步骤进行:

1、参考文献:Yang S,Liu J,Wang W,et al.TET-GAN:Text Effects Transfervia Stylization and Destylization[J].2018.构建训练数据集A和训练数据集B,其中,所述训练数据集A包括多种不同纹理的风格化文字图片和与之对应的去风格化文字图片,训练数据集B包括参考字体和其他多种字体的去风格化文字图片(参见图2、图3);

2、构造去风格化网络,所述去风格化网络包括编码器E

表1去风格化网络结构表

所述去风格化网络采用的待优化总损失函数为:

L

上式中,L

3、参见图4,采用训练数据集A训练去风格化网络,具体为:

(1)去风格化网络从训练数据集A中随机选择一个图像对(x,y),分别输入编码器E

(2)编码器E

编码器的任务是使结果更加接近内容特征的Ground Truth。用S

L

(3)将上述特征图传输给解码器G

去风格化网络需要使生成的重构结果接近于图片x,因此使用1范式进行像素损失约束,像素损失定义为:

L

(4)将重构的去风格化文字图片输入判别器D

上式中,λ

并使用Adam优化器对其进行优化,设置学习率参数为0.0002,λ

4、构造字体迁移网络,所述字体迁移网络包括生成器G、判别器D,生成器G包含2个卷积层,6个残差层,2个反卷积层,且使用了归一化处理,总的网络流程为生成器G先对模型降维缩小为原来4倍,再使用6个残差网络获得等维度输出,接着使用转置卷积放大4倍,最后通过一层尺寸不变的卷积,取tanh作为输出,生成器G采取的网络结构如表2所示:

表2生成器G的结构表

每个卷积层中卷积核大小为4*4,步长为2,每进行一次卷积操作将维度下降1/2。归一化层在一个图像通道内做归一化,按H*W计算均值(IN);由于生成结果主要依赖于某个图像实例,所以对整个batch的归一化(BN)不适合图像的风格化中,因而对H*W做归一化,可以加速模型收敛,并且保持每个图像实例之间的独立。激活函数采用的是LeakyReLU,由于函数输出对负值输入有很小的坡度,所以导数总是不为零,这能减少静默神经元的出现,允许基于梯度的学习,解决了Relu函数进入负区间后,导致神经元不学习的问题。

此外,为尽量避免过拟合问题,我们不再用多个堆叠的层直接拟合期望的特征映射,而是显式的用它们拟合一个残差映射。假设期望的特征映射为H(x),则堆叠的非线性层拟合的是另一个映射,也就是F(x)=H(x)-x。假设最优化残差映射比最优化期望的映射更容易,也就是F(x)=H(x)-x比F(x)=H(x)更容易优化,则极端情况下,期望的映射要拟合的是恒等映射,此时残差网络的任务是拟合F(x)=0,普通网络要拟合的是F(x)=x,明显前者更容易优化。

所述判别器D采用PatchGAN结构,对局部图像块进行真假分类,不使用归一化层,使用Conv1的输出代表目标字体的预测概率,Conv2的输出代表图片是否为真的判断,这两者的关系是并行的;

所述字体迁移网络采用的待优化损失函数为:

L

L

L

上式中,L

5、参见图5,利用去风格化网络模型得到的去风格化图片和训练数据集B训练字体迁移网络,得到实现多种字体转换迁移的字体迁移网络模型,具体为:

(1)字体迁移网络从训练数据集B中随机选择一个图片x输入生成器G,生成器G对图片x和目标字体标签c进行特征映射和融合,然后传入深层卷积网络中进行训练以生成假图片G(x,c);

(2)一方面,将假图片G(x,c)再次输入生成器G中生成重构图片G(G(x,c)),并在重构的过程中以去风格化网络模型的去风格化图片作为目标字体图片进行监督,保证图片转换过程中图片内容的保存,只改变领域差异的部分,再计算生成器的字体分类损失L

L

L

L

上式中,λ

本模型的训练采用参数为β

6、利用得到的字体迁移网络模型将某一待转换的字体图片迁移为目标参考字体图片;

7、构造纹理迁移网络,所述纹理迁移网络包括编码器f、解码器g、位于编码器f和解码器g之间的AdaIN自适应归一化层,其中,编码器f、解码器g以VGG-19网络结构为基准构建得到,编码器f选取预训练的VGG-19网络的relu1_1至relu4_1部分,解码器g为编码器f的对称结构,但将所有池化层替换为上采样层,纹理迁移网络的具体结构如表3所示:

表3纹理迁移网络结构表

该网络卷积层的卷积核均采用3*3大小,步长为1,MaxPool最大池化层的窗口大小为2*2,上采样层采用最近邻插值算法;

8、参见图6,利用目标参考字体图片和训练数据集A训练纹理迁移网络,得到实现对字体图片的风格化纹理渲染的纹理迁移网络模型,具体为:

(1)首先,采用编码器f将字体图片c和纹理风格图片s映射至特征空间,得到f(c)和f(s),随后通过AdaIN自适应归一化层对两者进行特征变换,得到特征图t=AdaIN(f(c),f(s)):

上式中,σ、μ分别为各图像通道的方差、均值;

(2)采用解码器g将特征图t映射回原特征空间,得到风格化结果图g(t);

(3)将风格化结果图g(t)和纹理风格图片s输入编码器f,通过损失函数的优化以实现纹理迁移网络的训练,其中,所述损失函数为:

L

L

上式中,L

优化损失选择Adam优化器,并设置batch size为8。

相关技术
  • 一种基于双阶段深度网络的文字风格迁移方法
  • 一种基于双通路深度网络的雾天能见度检测方法
技术分类

06120112372625