掌桥专利:专业的专利平台
掌桥专利
首页

基于生成对抗式风格迁移的场景文本识别方法

文献发布时间:2023-06-19 11:42:32


基于生成对抗式风格迁移的场景文本识别方法

技术领域

本发明属于场景文本识别领域,具体涉及一种采用生成对抗式合成方法进行文本图像识别的方法。

背景技术

场景文本识别是计算机视觉领域的一个重要挑战,它的任务是在自然图像中自动检测和识别文本。在文本检测和识别技术的帮助下,可以解码出视觉影像中的重要语义信息。由于场景文本识别存在巨大的应用价值,近年来在工业界和学术界引起很多人的研究和探索。现有的场景文本识别方法使用的训练数据都是合成的数据。合成数据具有数据量大、标注准确、可扩展性好的优点,但由于与真实数据存在一定差异,从而影响了使用合成数据训练的性能。

发明内容

本发明目的在于提供一种基于生成对抗式风格迁移的场景文本识别,该方法能够有效处理真实数据较少的场景识别问题。

本发明考虑实现图片数据增广的一个方法可以是使用风格迁移的方法,能够将数据从一个风格迁移到另一种风格,在本发明的技术问题中具体是从合成数据迁移到真实数据的风格。然而,单纯的数据增广仍不能直接解决场景文本识别网络的训练问题。本发明主要用于真实数据较少的场景文本识别,提出一种基于生成对抗式风格迁移的场景文本识别方法,由处理器执行程序指令实现以下步骤:

在预热训练阶段,使用第一场景文本图片数据集对一场景文本识别网络实施监督学习训练;

在同步训练阶段,在所述场景文本识别网络输入端设置一个协训网络,并使用第二场景文本图片数据集对所述协训网络和所述协训网络和场景文本识别网络组成的整体网络进行基于生成对抗的同步训练;所述协训网络包括一个为所述场景文本识别网络提供场景文本图片的生成器;

根据在同步训练后所述场景文本识别网络在验证集上的准确率,选择其模型参数,并在此模型参数下,使用所述场景文本识别网络识别场景文本图片的文本信息。

一个方面的优选技术方案在于,所述场景文本识别网络由特征提取器、编码器、解码器以及二维注意力机制模块组成,所述编码器按照一个方向所述二维注意力机制模块分列提供所述特征提取器提取的特图;所述解码器根据二维注意力机制模块输出的注意力张量对所述编码器从所述特征图获得的整体特征向量解码,以便获得向所述特征提取器输入的场景文本图片中包含的文本信息。

另一个方面的优选技术方案在于,所述协训网络为生成对抗式的风格迁移网络;所述风格迁移网络包含根据合成风格图片生成真实风格图片的生成器G,以及,根据真实风格图片生成合成风格图片的生成器F;在所述同步训练阶段,生成器G向所述场景文本识别网络提供输入图片数据。

另一个方面的优选技术方案在于,在所述预热训练阶段;使用交叉验证的监督学习方式训练所述场景文本识别网络;所述第一场景文本图片数据集包含由合成风格图片组成的训练集;预热训练的损失函数为文本识别的损失。在一些选用难以收敛的场景文本识别网络的实施例中,在所述预热训练阶段,当梯度下降小于0.1后结束学习。

另一个方面的优选技术方案在于,在所述同步训练阶段:使用生成对抗的方式对所述场景文本识别网络和所述风格迁移网络迭代训练;所述第二场景文本图片数据集包括由真实风格图片组成的训练集;同步训练中,所述生成器G的损失包含所述场景文本识别网络提供的文本识别的损失L

该方面进一步的优选在于,在所述同步训练阶段,总的损失函数L(G,F,D

L(G,F,D

其中,L

该方面进一步的优选在于,损失系数α取正值,损失系数β取负值,并且,损失系数α的绝对值大于损失系数β的绝对值。

该方面进一步的优选在于,损失系数α的绝对值大于等于损失系数β的绝对值的100倍。

本发明提供技术方案中,整个系统采用基于生成对抗式神经网络对合成文本图片进行风格迁移,并根据场景文本识别网络的训练反馈来提升合成文本真实性,从而最终提升场景文本识别网络的性能。本发明提供技术方案的其他有益效果,可以从具体实施方式中结合附图的实施例中体现。

附图说明

图1为本发明一个实施例中实现基于生成对抗式风格迁移的场景文本识别方法的同步训练阶段神经网络模型结构示意图;

图2为本发明一个实施例中场景文本识别网络的结构示意图;

图3为本发明一个实施例中场景文本识别网络中二维注意力机制模块的原理示意图;

图4为本发明一个实施例中基于生成对抗式风格迁移的场景文本识别方法的实施流程图。

具体实施方式

首先需要说明的是,本文中,除非特别说明,否则对于涉及神经网络模型、深度学习网络模型、图卷积网络模型、文本识别网络模型等计算机技术术语中的“模型”一词,指由计算机在满足一整套对应的神经网络算法的约束条件下所实现的非线性动态映射系统,其约束条件包括,这些计算机程序指令序列在由处理器读取并用于通过不同的配置参数以及限定的指定输入数据,可以用于实现对于计算机数据的处理,以实现指定的技术作用。本领域技术人员习惯于通过一些形象的可视化结构描述一类神经网络模型内部的配置有具体算法指令各个功能单元(数字神经元)之间逻辑上的输入输出关系,这些描述结构的图示虽然被称为神经网络,但本领域技术人员可以清楚明确理解到其实际要说明的数学算法的指令实现,如场景文本识别网络是实现文本识别网络这一神经网络算法的计算机系统。在以下揭示本发明构思的具体实施方式中,一些具体的实现功能代码由于本领域技术人员在了解具体构思后可以借由本领域常识予以具体实施,因而在这些实施方式中不再赘述。

本发明所述的cycleGAN是一种应用于风格迁移领域的生成对抗式网络(GAN),其无需成对的训练数据,可以自动将某一类图片通过风格迁移转换成另外一类图片。与现有技术相比,本发明主要构思在于结合cycleGAN和场景文本识别网络,通过生成对抗的训练方法,作为协训网络同步训练,提升场景文本识别网络的性能。一些识别效果较好的场景文本识别网络本身鲁棒性较差,难以直接与cycleGAN类风格迁移网络同时训练并获得收敛的模型参数,本发明还使用了一种限定的训练方式,满足cycleGAN类生成对抗式风格迁移网络的生成器的输出和场景文本识别网络的输入一致的前提下,将场景文本识别网络的训练残差同时送给cycleGAN的生成器,与其生成器的鉴别器共同参与判别,而不需要做其他参数、结构上的调整。

本发明的基于生成对抗式风格迁移的场景文本识别方法,通过处理器运行程序指令实现,这些程序指令包括实现本文所述各个神经网络模块的算法指令以及调用指令,其中,参考图1揭示的一个神经网络结构,本发明多个实施例中所涉及的神经网络模块主要包括以下两个部分的使用结构描述的数据处理过程,,第一部分的过程是基于cycleGAN类生成对抗式结构的风格迁移网络,其用于将合成数据风格迁移转化生成的真实数据,第二部分的过程是对风格迁移后获得图片进行识别的过程,通过编解码的结构以及基于注意力机制的文本识别网络对场景文本的识别。在第一部分中,我们通过风格迁移网络迭代优化图片生成器,其中的一个生成器将会将图片从合成风格的迁移到真实风格的,鉴别器将会促使生成器生成更加真实的文本。在第二部分中,场景文本识别网络对生成器输出的图片进行识别,并根据识别的结果对生成器进行反馈,迫使生成器逐步生成更加复杂的文本图片,以便在对抗训练中,场景文本识别网络所得到的训练数据从简单样本逐步过度到困难样本的识别,渐进式的训练增强了场景文本识别网络的鲁棒性。

参考图1至3的,本实施例是一种基于生成对抗式风格迁移的场景文本识别方法,在应用阶段由一文本识别网络读取场景文本图片,并输出场景文本图片的文本信息。在训练阶段,首先对该文本识别网络进行预热训练,然后使用风格迁移网络与文本识别网络同步训练,最终获得文本识别网络具有鲁棒性的模型参数。以下首先说明本实施例中使用神经网络的结构和原理。

示范的,参考图2,本实施例中,场景文本识别网络由特征提取器、编码器(Encoder)、解码器(Decoder)以及二维注意力机制模块组成。其中,特征提取器选择ResNet34结构的残差网络,其对输入图片固定尺寸的(48×192×3,其中通道D方向的3个维度为图片在RGB空间的3通道展开)的张量进行特征提取,并获得输入图片的特征图(Feature map)V,特征图V的尺寸为6×48×512,随后将提取到的特征图V输入到基于二维注意力机制的编解码结构进行识别。容易理解的,本实施例中,由于特征提取器采用有水平和垂直方向上的矩形的最大池化,相对于原始输入图片,其特征图尺寸在高度上实现了8倍收缩,在宽度上实现了4倍收缩,以便在文本延展方向上保留更多信息,便于场景文本图片中“i”,“I”等细长文本的LSTM编解码识别,以及对生成器G的在真实风格中细长文本的风格迁移。在应用阶段,输入图片为经规范化处理的待识别场景文本图片;在预热训练阶段,输入图片为预处理好的样本集;在同步训练阶段,输入图片是风格迁移网络指定生成器生成的文本图片。特征图V用于表示整个文本图片的整体特征和作为二维注意力网络的注意力提取内容,在场景文本识别网络分两路分别用于编码器的文本特征编码获得输入图片的携带文本编码信息的整体特征h

示范的,本实施例中编码器由两层层叠的LSTM模型组成,每层的隐藏层大小为512。在每个时间步长,LSTM编码器都会接收特征图V的沿水平宽度W的一列张量,然后沿垂直轴进行最大池化,即图片高度的方向,本实施例假设场景文字延展方向是水平方向。在与特征图V的宽相同的W步之后,LSTM第二层的最终隐藏状态h

具体的,解码器是另一个LSTM模型,同样具有2层LSTM叠加的结构,每层隐藏状态层的大小为512。编码器和解码器不共享参数。最初,整体特征h

y

其中,h′

示范的,参考图2、3,本实施例中使用的二维注意力机制模块。为了考虑相邻区域的信息,这里使用了一种鲁棒的2D注意力机制(2D Attention),公式如下所示:

其中,v

在训练时,解码器的输入为真实标签经过词嵌入(embedding)之后得到的词向量,embedding操作能将一个词映射到词向量空间中,即得到一个向量,并将向量作为输入,一些实施例中,采用one-hot编码的方式初始化词在词向量空间的部分;在测试时,由于并不知道真实标签信息,之前解码器的输出作为该时刻的输出经过embedding之后作为该时刻的输入。只有在训练阶段包含了反向传播。

示范的,参考图1,本实施例中,风格迁移网络采用cycleGAN结构,其包括两个不同的生成器G和F和两个不同的Dx和Dy。

关于生成器:在本发明的方法中,存在两个不同的生成器G和F,它们的模型结构相同,彼此之间共享模型参数。它们的作用分别是将图片迁移成真实风格的和将图片从真实风格的迁移成合成风格的。本实施例中,各生成器由三个组件构成,分别是编码器、转换器和解码器。编码器由三层卷积层组成,通过编码器卷积层从输入图像中提取特征,通过编码器之后,输入图像由输入I,I∈R

关于鉴别器:在本发明的方法中,同样存在两个不同的鉴别器Dx和Dy,它们的模型结构相同,彼此之间也共享模型参数。本实施例中使用的鉴别器是马尔科夫鉴别器,它对于风格迁移中的超高分辨率、图片清晰化有一定的高分辨率、高细节的保持。马尔科夫鉴别器完全由卷积层组成,它接受一个生成器的输出O作为输入,最后输出一个矩阵S,S∈R

关于训练方法。本实施例在预热训练阶段,仅对场景文本识别网络进行训练,训练中的损失函数L

其中,y为场景文本识别网络的输出张量,gt为监督学习对应的标签,y

在风格迁移网络和场景文本识别网络共同训练的同步训练阶段,风格迁移网络的Loss部分除了对抗损失和cycleGAN中提出的cycle-loss,对于将文本图片从合成风格转变为真实风格的生成器G,还额外添加了文本识别的loss。

对于生成器G,其对抗损失包括两部分:

对偶网络的循环损失分为前向循环损失和后项循环损失,分别为:

L(G,F,D

优选的,本实施例中,超参数α=10,β=-0.1。

下面是本发明的一个具体实施案例:

示范的,参考图4,本实施例还提供了一个基于生成对抗式风格迁移的场景文本识别的方法,具体过程根据如下步骤100至400。

步骤100,数据准备。本步骤首先对训练期间使用的全部样本的数据集进行选择和配置,包括正样本图片、负样本图片、真实风格图片和合成风格图片,以及相应的训练集、验证集和测试集。示范的,本实施例中,场景文本识别训练常用的两个数据集分别是SynthText和Syn90k,它们都是合成数据集。本实施例把这两个数据集作为合成风格图片的数据集。IIIT5K-Words、ICDAR2013、ICDAR2015三个英文场景文本识别任务的常规数据集作为真实风格图片的数据集,各个真实风格图片的数据集的训练集部分分别包含2000、848、4468张文本图片。在预热阶段,主要使用合成风格图片的数据集进行正负样本交叉训练和测试。

步骤200,场景文本图片预处理。本步骤实际实现一个可复用的图片预处理模块,以便在全部训练阶段使用同一尺寸的样本数据,以及,在应用阶段,将需要识别的场景文本图片也处理为同样尺寸。示范的,本实施例中,为了使得输入模型的图片大小为48×192,配置一个图片预处理模块把图片尺寸使用双线性插值的方法将尺寸统一调整到48×192。本实施例的图片预处理模块,还包括一个在训练中可切换的数据增强单元,其在对场景文本识别网络进行预热训练时对样本进行数据增强,其使用的数据增强方式包括随机裁剪、改变图像的亮度、对比度、饱和度和色调;其在对风格迁移网络和场景文本识别网络进行对抗的同步训练时被切除,不使用任何数据增强方式对样本进行数据增强。

步骤300,模型训练。本步骤对已经构建好的场景文本识别网络进行训练,因为训练中需要使用风格迁徙网络进行协同训练,因此,在本步骤前也已完成风格迁徙网络的构建。本步骤具体的包括以下步骤301至304。

步骤301,初始化神经网络参数。本实施例中,同时对风格迁移网络和场景文本识别网络的参数进行初始化,两个神经网络的所有参数使用随机的初始化方式。

步骤302,场景文本识别网络预热训练。本步骤主要对场景文本识别网络使用第一场景文本图片数据集实施监督学习训练,即预热训练阶段。优选的,本实施例的第一场景文本图片数据集从步骤100中的合成风格图片的数据集选择。容易理解的,合成风格图片的样本已经包含了文本区的标注,甚至具体的文本边界还可以优选合成时的文本区域掩码(mask),获得更精确的文本区域标注。对于真实采集的真实风格图片,在附有标注的情况下也可以作为预热阶段的训练数据,但考虑场景文本识别网络鲁棒性较差,可以在训练后期使用。

本发明为了在风格迁移网络和文本识别网络进行共同训练时,文本识别网络能够根据风格迁移网络生成的真实风格图片产生准确的反馈信息,先对文本识别网络进行预热训练。示范的,本实施例中预热训练阶段,训练数据为SynthText和Syn90k,损失函数为L

步骤303,风格迁移网络和文本识别网络共同训练。步骤302结束后,在本步骤对风格迁移网络和文本识别网络进行共同训练,即实现同步训练阶段的任务。共同训练时,使用第二场景文本图片数据集对风格迁移网络和文本识别网络整体进行对抗训练。容易理解的,从左到右是从合成风格迁移到真实风格,可以缩小训练时训练集和测试集的分布差异。同步训练时,batch size为10,一个epoch需要1446400个迭代,只训练一个epoch。共同训练使用的优化器为Adam,根据数据量和batch size,训练过程配置为,对于一个epoch前面50%的迭代,参照所选用的协训网络本身的训练规律,保持相同的学习率在0.0002,然后在接下来的迭代中线性衰减趋近于0。

步骤304,根据文本识别网络在验证集上的准确率,选择最优模型。本实施例中,让文本识别网络在一个验证集上进行测试并记录准确率,挑选准确率最高的模型参数保存用于后续的模型应用和识别。验证集可以根据具体任务进行选择,示范的,本实施例中该验证集由IIIT5K-Words、ICDAR2013、ICDAR2015三个数据集的测试集组成,在步骤303中,风格迁移的对抗训练中使用的其对应的训练集。

步骤400,模型应用。在通过上面的训练过程后可以得到多个场景文本识别网络,选取其中最优的模型用于应用。此时图片数据处理在这里不需要数据增强,只需要使用预处理模块把图像调整到48×192大小,并且归一化即可作为场景文本识别网络模型的输入。应用时,整个的场景文本识别网络模型的参数都固定不动,只要输入图像数据并向前传播即可。将场景文本图片输入到特征提取器提取特征,再自动传入解码网络自动解码,经过整个模型可以直接得到识别结果。当需要测试大量场景文本图片时候,需要将所有图整合为一个lmdb格式文件,方便一次性读取所有图片。

上述实施步骤仅为示范的,各步骤实施时间依赖于其前置条件而非步骤体现的时间顺序,如对作为协训网络的风格迁移网络,其参数的初始化可以是在预热训练阶段结束以后的,并非必须在步骤301中实施。

容易理解的,本实施例通过结合生成对抗式网络cycleGAN进行风格迁移和文本识别的任务,有效地提升了文本识别的准确率。通过对文本图片从合成风格迁移到真实风格,并在场景文本识别网络上进行训练,有效地降低了训练数据和测试数据之间的分布差异,从而提升了场景文本识别网络的准确率。我们将文本识别的loss作为衡量生成器生成图片好坏的信号之一,促使生成器生成更复杂的文本图片,从而增强了场景文本识别网络的鲁棒性。本方法不仅可以对水平的标准场景文本进行识别,整个系统具有更强的实用性,能解决的包含弯曲,倾斜,水平等多种情况下场景文本的识别问题。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接囗,装置或单元的间接耦合或通信连接,如对外部神经网络单元的调用,可以是本地的,远程的或混合的资源配置形式。

所述作为分离说明的单元可以是或者也可以不是物理上分开的,作为单元出现的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理设备中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个处理设备中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-0nlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明所提供的一种基基于精细字符分割的场景文本识别方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 基于生成对抗式风格迁移的场景文本识别方法
  • 一种基于生成对抗网络的自然场景文本识别方法
技术分类

06120113022581