掌桥专利:专业的专利平台
掌桥专利
首页

一种图像文本分类方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:23


一种图像文本分类方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域,尤其涉及一种图像文本分类方法、装置、设备及存储介质。

背景技术

随着通用目标检测技术的发展,文本作为一种特殊的目标,文本检测在取得突飞猛进的进展的同时也迎来了全新的挑战。光学字符识别(Optical CharacterRecognition,OCR)是指对与文本资料对应的图像文件进行分析识别处理,获取文字及版面信息的过程。在OCR应用中,文本检测算法和关键信息提取算法分别完成不同功能。文本检测模型和关键信息提取模型作为前后节点,分工协作完成OCR端到端任务,其主要缺点是模型冗余,推断相对耗时等。比如,两次模型共有的在骨干网络backbone子网络产生的图片特征值无法在模型间共享,即图片特征值需要在每个模型都计算一次,从而降低了整体OCR的性能。

发明内容

有鉴于此,本申请的目的在于提供了一种图像文本分类方法、装置、设备及存储介质,将文本框检测和文本分类进行结合,无需计算多次图像特征值,提高了分类准确性,也提高了OCR的整体性能,其具体技术方案如下:

第一方面,本申请提供了一种图像文本分类方法,所述方法包括:

对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征;

利用所述至少一个待预测特征,预测所述待分类图像中的文本区域,预测所述文本区域对应的傅里叶特征,以及预测所述文本区域对应的分类掩码图;

对所述文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述文本区域对应的文本框轮廓线;

利用所述分类掩码图确定待分类文本框对应的掩码值,所述待分类文本框由所述文本区域对应的文本框轮廓线构成;

基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别,将所述待分类文本框对应的类别确定为所述待分类文本框内的文本的类别。

在一种可能的实现方式中,所述基于所述待分类文本框对应的掩码值,确定所述待分类文本框的类别,包括:

统计所述待分类文本框对应的掩码值中不同数值的掩码值的频次,所述待分类文本框对应的掩码值中包括多种不同数值的掩码值;

将频次最高的掩码值确定为所述待分类文本框的类别值;

根据所述待分类文本框的类别值确定所述待分类文本框的类别。

在一种可能的实现方式中,所述待预测特征包括待预测特征图,所述利用所述至少一个待预测特征,预测所述待分类图像中的文本区域,包括:

根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行文本区域分类,得到所述待分类图像中的初始文本区域;

根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行中心区域分类,得到所述待分类图像中的文本中心区域,所述文本中心区域位于所述初始文本区域的中心;

根据所述初始文本区域和所述文本中心区域,确定所述文本区域。

在一种可能的实现方式中,所述图像文本分类方法通过傅里叶轮廓嵌入FCE模型实现,所述FCE模型的训练样本包括:样本图像、所述样本图像对应的标注文本区域、所述标注文本区域对应的标注文本框和所述标注文本框对应的标注类别;

所述方法还包括:

通过初始网络模型对所述样本图像进行特征提取,得到所述样本图像对应的至少一个样本特征;

利用所述至少一个样本特征,预测所述样本图像的样本文本区域,预测所述样本文本区域对应的傅里叶特征,以及预测所述样本文本区域对应的样本掩码图;

对所述样本文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述样本文本区域对应的样本文本框轮廓线;

利用所述样本掩码图确定样本文本框对应的掩码值,所述样本文本框由所述样本文本区域对应的样本文本框轮廓线构成;

基于所述样本文本框对应的掩码值,确定所述样本文本框对应的类别;

根据所述样本文本区域和标注文本区域、所述标注文本框和所述样本文本框以及所述标注类别和所述样本文本框对应的类别,确定所述初始网络模型的分类损失;

根据所述分类损失,调整所述初始模型的模型参数,得到训练后的所述FCE模型。

在一种可能的实现方式中,在所述对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征之前,所述方法还包括:

对所述待分类图像进行归一化处理;

所述对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征,包括:

对归一化处理后的待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征。

第二方面,本申请还提供了一种图像文本分类装置,所述装置包括:

特征提取模块,用于对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征;

预测模块,用于利用所述至少一个待预测特征,预测所述待分类图像中的文本区域,预测所述文本区域对应的傅里叶特征,以及预测所述文本区域对应的分类掩码图;

逆变换模块,用于对所述文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述文本区域对应的文本框轮廓线;

掩码值确定模块,用于利用所述分类掩码图确定待分类文本框对应的掩码值,,所述待分类文本框由所述文本区域对应的文本框轮廓线构成;

类别确定模块,用于基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别,将所述待分类文本框对应的类别确定为所述待分类文本框内的文本的类别。

在一种可能的实现方式中,在基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别时,所述类别确定模块包括:

统计单元,用于统计所述待分类文本框对应的掩码值中不同数值的掩码值的频次,所述待分类文本框对应的掩码值中包括多种不同数值的掩码值;

类别值确定单元,用于将频次最高的掩码值确定为所述待分类文本框的类别值;

类别确定单元,用于根据所述待分类文本框的类别值确定所述待分类文本框的类别。

在一种可能的实现方式中,所述待预测特征包括待预测特征图,在利用所述至少一个待预测特征,预测所述待分类图像中的文本区域时,所述预测模块包括:

文本区域分类单元,用于根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行文本区域分类,得到所述待分类图像中的初始文本区域;

中心区域分类单元,用于根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行中心区域分类,得到所述待分类图像中的文本中心区域,所述文本中心区域位于所述初始文本区域的中心;

文本区域确定单元,用于根据所述初始文本区域和所述文本中心区域,确定所述文本区域。

第三方面,本申请还提供了一种计算机设备,其特征在于,包括:存储器以及处理器;

所述存储器用于存储计算机程序;

所述处理器用于执行所述存储器中的计算机程序,以实现上述第一方面或第一方面任一项所述的方法。

第四方面,本申请还提供了一种计算机可读存储介质,其特征在于,存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的方法。

在本申请实施例中,对待分类图像进行特征提取,得到待分类图像对应的至少一个待预测特征;利用至少一个待预测特征,预测待分类图像中的文本区域,预测文本区域对应的傅里叶特征,以及预测文本区域对应的分类掩码图;对文本区域对应的傅里叶特征进行傅里叶逆变换,得到文本区域对应的文本框轮廓线;利用分类掩码图确定待分类文本框对应的掩码值;基于待分类文本框对应的掩码值,确定待分类文本框对应的类别,将待分类文本框对应的类别确定为待分类文本框内的文本的类别。本申请实施例将文本框检测和文本分类进行结合,无需计算多次图像特征值,提高了分类准确性,也提高了OCR的整体性能。在得到文本类别信息的基础上,可以直接根据文本类别信息进行关键信息提取,提高了信息提取的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种图像文本分类方法的流程图;

图2示出了本申请实施例提供的一种图像文本分类结果示意图;

图3示出了本申请实施例提供的一种FCE模型的示意图;

图4示出了本申请实施例提供的一种FCE模型的点集构建示意图;

图5示出了本申请实施例提供的一种图像文本分类装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

OCR技术可以细分成很多流程。如按功能细分,OCR技术可以包含文本检测、文本识别、关键信息提取等。这些流程节点分步串行协同工作,构成整体流程,这个流程也是当下OCR的主要技术思路。下面介绍文本检测和关键信息提取两个子节点分支技术。

在文本检测技术方面,近些年来基于深度学习的文本检测方法层出不穷,这些方法大致可以分为两类:

1、基于回归的文本检测方法

基于回归的文本检测方法和目标检测算法的方法相似,只检测两个类别,即将图像中的文本视为待检测的目标,将图像中的其余部分视为背景。基于回归的文本检测方法可以包括以下算法:

a)水平文本检测的常见算法有:文本框Textbox、连接文本区域网络(ConnectionTextProposal Network,CTPN)等。

b)倾斜文本检测的常见算法有:EAST(Efficient andAccuracy Scene Text)、MOST(AMulti-Oriented Scene Text Detectorwith Localization Refinement)等。

c)弯曲文本检测的常见算法有:CTD(Curve Text Detector)、基于轮廓的文本检测器ContourNet、LOMO(Look More than Once)等。

2、基于分割的文本检测方法

基于回归的文本检测方法虽然在文本检测上取得了很好的效果,但是对检测弯曲文本往往难以得到平滑的文本包围曲线,并且模型较为复杂不具备性能优势。

而基于分割的文本检测方法,从像素层面做分类,判别每一个像素点是否属于一个文本目标,得到文本区域的概率图,通过后处理方式得到文本分割区域的包围曲线。

基于分割的文本检测的常见算法有:像素连接Pixellink、MSR(Multi-ScaleShape Regression for Scene Text Detection)、PSENet(Progressive Scale ExpansionNetwork)、傅里叶轮廓嵌入网络(Fourier Contour Embedding,FCENet)等等。

OCR中的关键信息提取算法(Key Information Extraction,KIE)是一种从图像和文本中提取用户关注信息的技术。作为OCR的下游任务,关键信息提取算法可以自动识别和提取文本中特定属性的值,例如姓名、地址、电话号码等。关键信息提取算法可以分为三类:

1、基于栅格(grid-based)

基于图像像素点将图像转换为栅格,以表示向量,将栅格输入到深度学习网络中以学习提取关键信息。基于栅格的关键信息提取常用算法有卷积通用文本信息提取器(Convolutional Universal Text Information Extractor,CUTIE)。

2、基于图结构(graph-based)

将文档图像看作是由文本切片(text segment)组成的图结构,并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容。基于图结构的关键信息提取常用算法有:GC-BiLSTM-CRF、通用文档智能预训练模型LayoutLM。

3、端到端(end-to-end)

直接以原始图像作为输入,得到文档的关键信息内容。端到端的关键信息提取常用算法有:EATEN、TRIE等等。

在OCR应用中,文本检测算法和关键信息提取算法分别完成不同功能。文本检测模型和关键信息提取模型作为前后节点,分工协作完成OCR端到端任务,其主要缺点是模型冗余,推断相对耗时等。

一个通用的OCR端到端任务主要包括:文本检测、文本识别和信息提取三大块任务。首先采用文本检测模型推断出文本框的轮廓线或者边界点,并从图像中沿着轮廓线抠取文本框;然后经过文本识别模型推断出文本内容信息;最后将文本框位置信息(来自文本检测模型)和文本内容信息(来自文本识别模型)输入信息提取模型,最后输出用户关注的内容信息。

上述文本提取方法将文本检测模型和信息提取模型分开,而模型分开会导致推断分开。两次模型共有的在backbone子网络产生的图片特征值无法在模型间共享,即图片特征值在每个模型中都需要重复计算,从而降低了整体OCR的性能。而本申请基于FCENet文本检测模型(该本身不具备文本分类功能)进行改造,重点是增加分类通道,使其可以输出文本框类别信息,根据类别信息可直接用于信息提取。整个FCENet文本检测模型在延续了FCENet模型的准确率的基础上,提升了整体性能。

请参见图1,示出了本申请实施例提供的一种图像文本分类方法的流程图,本申请实施例至少包括以下步骤:

S11,对待分类图像进行特征提取,得到待分类图像对应的至少一个待预测特征。

待分类图像为需要被分类出特定文本的文本资料对应的图像。在本申请实施例中,可以对待分类图像进行特征提取,得到多个不同尺度的待预测特征,选取至少一个待预测特征进行后续的预测。

在一种可能的实现方式中,在对待分类图像进行特征提取之前,先对待分类图像进行归一化处理,便于后续对待分类图像进行处理。

S12,利用至少一个待预测特征,预测待分类图像中的文本区域,预测文本区域对应的傅里叶特征,以及预测文本区域对应的分类掩码图。

在本申请实施例中,可以利用待预测特征,对待分类图像的文本区域、文本区域的傅里叶特征和文本区域的分类掩码图进行预测,以便可以利用文本区域和对应的傅里叶特征得到待分类图像中的文本框,和利用分类掩码图得到文本框的类别信息。

文本区域为待分类图像中包括文本的区域。分类掩码图是个二维矩阵,保留了文本区域中每个像素点的掩码值,在本申请实施例中,掩码值即为类别预测值。

S13,对文本区域对应的傅里叶特征进行傅里叶逆变换,得到文本区域对应的文本框轮廓线。

当傅里叶特征已知,可以对傅里叶特征进行傅里叶逆变换(Inverse FourierTransformation,IFT),得到文本框轮廓线。

S14,利用分类掩码图确定待分类文本框对应的掩码值。

由于分类掩码图保留了文本框内每个像素点的掩码值,则可以利用分类掩码图和待分类文本框的每个像素点直接确定出待分类文本框对应的掩码值。待分类文本框由文本框轮廓线构成。

S15,基于待分类文本框对应的掩码值,确定待分类文本框对应的类别,将待分类文本框对应的类别确定为待分类文本框内的文本的类别。

在得到待分类文本框对应的掩码值后,可以基于待分类文本框对应的掩码值确定类别,从而将待分类文本框对应的类别确定为待分类文本框内文本的类别。以图2为例,本申请实施例对增值税专用发票进行图像文本分类,图2中的黑色框即为文本框,黑色框连接的文字部分即为文本框对应的类别。

在本申请实施例中,对待分类图像进行特征提取,得到待分类图像对应的至少一个待预测特征;利用至少一个待预测特征,预测待分类图像中的文本区域,预测文本区域对应的傅里叶特征,以及预测文本区域对应的分类掩码图;对文本区域对应的傅里叶特征进行傅里叶逆变换,得到文本区域对应的文本框轮廓线;利用分类掩码图确定待分类文本框对应的掩码值;基于待分类文本框对应的掩码值,确定待分类文本框对应的类别,将待分类文本框对应的类别确定为待分类文本框内的文本的类别。本申请实施例将文本框检测和文本分类进行结合,无需计算多次图像特征值,提高了分类准确性,也提高了OCR的整体性能。在得到文本类别信息的基础上,可以直接根据文本类别信息进行关键信息提取,提高了信息提取的效率。

在一种可能的实现方式中,图像文本分类方法通过FCE模型实现。

将待分类图像输入FCE模型,可以快速准确地对待分类图像中任意形状的文本区域进行文本检测,得到文本区域对应的文本框轮廓线,也可以快速准确地对待分类图像中的文本框进行分类,得到文本框对应的分类掩码图。

图3示出本申请实施例提供的一种FCE模型的示意图。如图3所示,FCE模型中包括:特征提取模块和预测模块。将待分类图像输入图3所示的FCE模型,特征提取模块对待分类图像进行特征提取,得到待分类图像对应的至少一个待预测特征。

特征提取模块可以包括骨干网络backbone和特征金字塔网络(Feature PyramidNetworks,FPN),骨干网络backbone可以由可变形卷积网络(Deformable ConvolutionalNetworks,DCN)的ResNet50组成。如图3所示,将待分类图像输入FCE模型后,backbone和FPN对待分类图像进行特征提取,得到多个不同尺度的待预测特征,选取至少一个待预测特征输入预测模块进行预测。输入预测模块的待预测特征的数量和尺度可以根据实际情况确定,本申请实施例对此不作具体限定。特征提取模块的具体形式除了可以包括DCN和FPN之外,还可以具有其它的网络结构,本申请实施例对此不作具体限定。

预测模块可以包括分类分支和回归分支。如图3所示,将至少一个待预测特征输入预测模块之后,分类分支根据至少一个待预测特征,预测待分类图像中的文本区域和文本区域对应的分类掩码图,回归分支根据至少一个待预测特征,预测文本区域对应的傅里叶特征向量。

分类分支中,输出的结果通道数是1+num_class+2,通道含义为:

1对应的通道表示非文本区域;num_class对应的通道表示文本区域(TextRegion,TR)的分类值,使分类分支具备文本区域分类值属性;2对应的通道表示的是每个像素是否是文本中心区域(Text Center Region)。

若回归分支的通道数为22,表示的是取傅里叶展开自由度K=5,即取前5个高频和5个低频及k=0,共11个复数傅里叶特征,每个傅里叶特征包含(u

在一种可能的实现方式中,待预测特征包括待预测特征图;利用至少一个待预测特征,预测待分类图像中的文本区域,包括:根据至少一个待预测特征图,对待分类图像中的像素点进行文本区域分类,得到待分类图像中的初始文本区域;根据至少一个待预测特征图,对待分类图像中的像素点进行中心区域分类,得到待分类图像中的文本中心区域,文本中心区域位于初始文本区域的中心;根据初始文本区域和文本中心区域,确定文本区域。

根据至少一个待预测特征图,对待分类图像中的像素点进行文本区域分类,得到待分类图像中的初始文本区域的一种实现方式可以是,根据至少一个待预测特征图,生成待分类图像对应的文本置信度图,根据待分类图像对应的文本置信度图,对待分类图像中的像素点进行文本区域分类,得到待分类图像中的初始文本区域。

通过分别预测初始文本区域和文本中心区域,可以有效地过滤掉围绕文本边界的低质量预测,从而可以提高最终预测得到的文本区域的预测准确度。

在一种可能的实现方式中,待预测特征包括待预测特征图,文本区域对应的傅里叶特征包括第一傅里叶特征向量;根据至少一个待预测特征,预测文本区域对应的傅里叶特征,包括:根据至少一个待预测特征图,预测待分类图像中各像素点对应的傅里叶特征向量;根据各像素点对应的傅里叶特征向量和文本区域的位置,确定第一傅里叶特征向量。

FCE模型可以根据至少一个待预测特征图可以快速预测待分类图像中各像素点对应的傅里叶特征向量,由于确定了文本区域在待分类图像中的位置,从而可以快速确定得到文本区域对应的第一傅里叶特征向量。待预测特征除了可以包括待预测特征图之外,还可以根据实际情况包括其它形式的特征,例如,特征参数、特征矩阵等。傅里叶特征除了可以包括傅里叶特征向量之外,还可以根据实际情况包括其它形式的傅里叶特征,例如,傅里叶特征矩阵、傅里叶特征参数等,本申请实施例对此不作具体限定。

图4示出本申请实施例提供的一种FCE模型的点集构建示意图,深色点为ground-truth点;浅色点为重采样点;线段为傅里叶特征向量,由傅里叶逆变换分量构成。从图4可以看出,文本框轮廓由N个浅色点(x(t),y(t))构成,轮廓线f(t)可以表示为:

f(t)=x(t)+iy(t);

其中,t表示时间,满足t∈[0,1]。t从0到1变化时,产生的坐标(x(t),y(t))即为轮廓线上一次的坐标点。当

f(t)经过离散傅里叶变换后,可以表示为:

其中,c

c

回归分支根据至少一个待预测特征图,预测得到待分类图像中各像素点的傅里叶特征向量。针对任一像素点,该像素点的傅里叶特征向量包括该像素点对应的多级傅里叶系数。例如,针对任一像素点,回归分支预测得到该像素点对应的多级傅里叶系数{...,C

在一种可能的实现方式中,对文本区域对应的傅里叶特征进行傅里叶逆变换,得到文本区域对应的文本框轮廓线,包括:通过对文本区域对应的傅里叶特征向量执行傅里叶逆变换操作,得到文本区域对应的多个文本框轮廓线;通过对多个文本框轮廓线执行非极大值抑制操作,得到文本区域对应的文本框轮廓线。

由于文本区域中各像素点对应的傅里叶特征向量均用于描述文本区域的边界,因此,通过对文本区域中各像素点对应的傅里叶特征向量执行傅里叶逆变换操作,可以得到文本区域对应的多个文本框轮廓线,为了过滤掉重复文本框轮廓线,对多个文本框轮廓线执行非极大值抑制操作,最终得到文本区域对应的文本框轮廓线,实现对待分类图像的文本检测。

当c

在得到文本框轮廓线f(t)后,可以确定包含文本框轮廓线的最小长方形区域,在水平方向和垂直方向上固定间隔采点,比如可以在水平方向和垂直方向上构建10*10的网格,生成100个网格点。在100个网格点中确定落在文本框轮廓线内的网格点,以应对因弯曲轮廓线而产生的检测不准确的问题。

在一种可能的实现方式中,基于待分类文本框对应的掩码值,确定待分类文本框的类别,包括:统计待分类文本框对应的掩码值中不同数值的掩码值的频次;将频次最高的掩码值确定为待分类文本框的类别值;确定待分类文本框的类别值对应的类别。其中,待分类文本框对应的掩码值中包括多种不同数值的掩码值。

优选地,选取待分类文本框中特定区域对应的掩码值,确定待分类文本框的类别。待分类文本框可能包括很多个的像素点,所以为了减轻计算压力和提高效率,可以选取待分类文本框的部分区域对应的掩码值进行统计。为了提高分类准确性,可以选取待分类文本框的中心区域作为特定区域。也可以选取待分类文本框的其他区域作为特定区域,对于特定区域的选取,本申请实施例不作具体限定。

在利用FCE模型对待分类图像中任意形状的文本进行文本分类之前,还需要对FCE模型进行训练。对FCE模型进行训练,即对FCE模型中的特征提取模块和预测模块均进行训练。

下面对FCE模型的训练过程进行详细说明。

在一种可能的实现方式中,FCE模型的训练样本包括:样本图像、样本图像对应的标注文本区域、标注文本区域对应的标注文本框和标注文本框对应的标注类别。图像文本分类方法还包括:通过初始网络模型对样本图像进行特征提取,得到样本图像对应的至少一个样本特征;利用至少一个样本特征,预测样本图像的样本文本区域,预测样本文本区域对应的傅里叶特征,以及预测样本文本区域对应的样本掩码图;对样本文本区域对应的傅里叶特征进行傅里叶逆变换,得到样本文本区域对应的样本文本框轮廓线;利用样本掩码图确定样本文本框对应的掩码值,样本文本框由样本文本区域对应的样本文本框轮廓线构成;基于样本文本框对应的掩码值,确定样本文本框对应的类别;根据样本文本区域和标注文本区域、标注文本框和样本文本框以及标注类别和样本文本框对应的类别,确定初始网络模型的分类损失;根据分类损失,调整初始模型的模型参数,得到训练后的FCE模型。

通过预先创建FCE模型的训练样本,利用训练样本中的样本图像、样本图像中的标注文本区域、标注文本区域对应的标注文本框和标注文本框对应的标注类别对初始网络模型进行训练,使得训练后得到的FCE模型可以实现对任意形状的文本进行文本分类。初始网络模型可以是与FCE模型具有相同网络结构,但是模型参数不同,且具备文本分类能力的神经网络。

在一种可能的实现方式中,训练样本中可以包括至少一个样本图像,且各样本图像中包括至少一个标注文本区域。训练样本中包括的样本图像的数目、以及任一样本图像中包括的标注文本区域的数目,可以根据实际获取的样本图像来确定,本申请实施例对此不作具体限定。

通过计算分类损失,以使得可以根据分类损失调整初始网络模型的模型参数,进而实现对FCE模型的训练。在计算分类损失时,综合考虑分类分支和回归分支的损失。例如,可以通过下述公式确定FCE模型的分类损失L:

L=L

其中,L

分类损失可以表示为L

回归损失可以表示为

本申请实施例充分利用FCE模型的特征,还扩展了FCE模型的功能,使FCE模型不仅能输出任意形状文本的轮廓信息,还可以输出任意形状文本框的类别信息。

接下来对本申请提供的一种图像文本分类装置进行介绍,下文介绍的一种图像文本分类装置与上文介绍的一种图像文本分类方法可相互对应参照。

请参见图5,示出了本申请提供的一种图像文本分类装置的结构示意图,所述装置包括:

特征提取模块501,用于对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征;

预测模块502,用于利用所述至少一个待预测特征,预测所述待分类图像中的文本区域,预测所述文本区域对应的傅里叶特征,以及预测所述文本区域对应的分类掩码图;

逆变换模块503,用于对所述文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述文本区域对应的文本框轮廓线;

掩码值确定模块504,用于利用所述分类掩码图确定待分类文本框对应的掩码值,所述待分类文本框由所述文本区域对应的文本框轮廓线构成;

类别确定模块505,用于基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别,将所述待分类文本框对应的类别确定为所述待分类文本框内的文本的类别。

在本申请实施例中,在基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别时,所述类别确定模块505包括:

统计单元,用于统计所述待分类文本框对应的掩码值中不同数值的掩码值的频次,所述待分类文本框对应的掩码值中包括多种不同数值的掩码值;

类别值确定单元,用于将频次最高的掩码值确定为所述待分类文本框的类别值;

类别确定单元,用于根据所述待分类文本框的类别值确定所述待分类文本框的类别。

在本申请实施例中,所述待预测特征包括待预测特征图,在利用所述至少一个待预测特征,预测所述待分类图像中的文本区域时,所述预测模块502包括:

文本区域分类单元,用于根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行文本区域分类,得到所述待分类图像中的初始文本区域;

中心区域分类单元,用于根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行中心区域分类,得到所述待分类图像中的文本中心区域,所述文本中心区域位于所述初始文本区域的中心;

文本区域确定单元,用于根据所述初始文本区域和所述文本中心区域,确定所述文本区域。

在本申请实施例中,上述方法实施例所述的方法通过傅里叶轮廓嵌入FCE模型实现,所述FCE模型的训练样本包括:样本图像、所述样本图像对应的标注文本区域、所述标注文本区域对应的标注文本框和所述标注文本框对应的标注类别;所述装置还包括:

样本特征提取模块,用于通过初始网络模型对所述样本图像进行特征提取,得到所述样本图像对应的至少一个样本特征;

样本预测模块,用于利用所述至少一个样本特征,预测所述样本图像的样本文本区域,预测所述样本文本区域对应的傅里叶特征,以及预测所述样本文本区域对应的样本掩码图;

样本逆变换模块,用于对所述样本文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述样本文本区域对应的样本文本框轮廓线;

样本掩码值确定模块,用于利用所述样本掩码图确定样本文本框对应的掩码值,所述样本文本框由所述样本文本区域对应的样本文本框轮廓线构成;

样本类别确定模块,用于基于所述样本文本框对应的掩码值,确定所述样本文本框对应的类别;

损失确定模块,用于根据所述样本文本区域和标注文本区域、所述标注文本框和所述样本文本框以及所述标注类别和所述样本文本框对应的类别,确定所述初始网络模型的分类损失;

参数调整模块,用于根据所述分类损失,调整所述初始模型的模型参数,得到训练后的所述FCE模型。

在本申请实施例中,所述装置还包括:

归一化模块,用于对所述待分类图像进行归一化处理;

所述特征提取模块501,具体用于:

对归一化处理后的待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征。

本申请实施例还提供了一种计算机设备,包括:存储器以及处理器;

其中,所述存储器用于存储计算机程序;

所述处理器用于执行所述存储器中的计算机程序,以实现如上述方法实施例所述的方法。

本申请实施例还提供了一种计算机可读存储介质,存储有指令,当其在计算机上运行时,使得计算机执行如上述方法实施例所述的方法。

在本申请实施例中,特征提取模块用于对待分类图像进行特征提取,得到待分类图像对应的至少一个待预测特征;预测模块用于利用至少一个待预测特征,预测待分类图像中的文本区域,预测文本区域对应的傅里叶特征,以及预测文本区域对应的分类掩码图;逆变换模块用于对文本区域对应的傅里叶特征进行傅里叶逆变换,得到文本区域对应的待分类文本框;掩码值确定模块用于利用分类掩码图确定待分类文本框对应的掩码值;类别确定模块用于基于待分类文本框对应的掩码值,确定待分类文本框对应的类别,将待分类文本框对应的类别确定为待分类文本框内的文本的类别。本申请实施例将文本框检测和文本分类进行结合,无需计算多次图像特征值,提高了分类准确性,也提高了OCR的整体性能。在得到文本类别信息的基础上,可以直接根据文本类别信息进行关键信息提取,提高了信息提取的效率。

需要说明的是,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 一种基于汽车车门加工用涂胶视觉检测系统及检测方法
  • 一种用于铆钉自动涂胶的机构和自动涂胶方法
  • 一种基于3D视觉的自动涂胶及检测方法
  • 一种基于3D视觉的自动涂胶检测装置
技术分类

06120116549837