掌桥专利:专业的专利平台
掌桥专利
首页

一种文本定位方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:02:01


一种文本定位方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域,尤其涉及一种文本定位方法、装置、设备及存储介质。

背景技术

自然场景下的文本检测对智能交通、自动驾驶以及图片翻译等有着重要作用。自然场景下文本的倾斜角度、语言、排列、大小尺度以及字体等多种因素,增加了文本的复杂性。在文本检测过程中首先要进行文本定位。

现有技术中,通过矩形框的目标检测算法对文本进行定位,得到文本所在区域,但是当文本比较紧密且文本有多行时,通过上述方法会将多行文本定位成一个矩形框,依据这种矩形框截取出来的图片无法进行准确识别。

目前,尚未有更好的文本定位方法。

发明内容

本发明实施例提供了一种文本定位方法、装置、设备及存储介质,能够实现多行文本的准确定位,有利于提高文本校测结果的准确性。

第一方面,本发明实施例提供了一种文本定位方法,该方法包括:

获取待定位文本对应的图片,并通过预设分割网络结构对所述图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,其中,所述图片中包含多行待定位文本;

对所述分类结果进行二值化处理得到与所述多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合;

对所述轮廓点集合进行扩充,得到所述每行待定位文本对应的目标轮廓点集合。

进一步的,所述对所述分类结果进行二值化处理得到与所述多行待定位文本中每行待定位文本对应的核心区域,包括:

将所有分类结果中大于预设阈值的分类结果确定为第一数值,以及将所有分类结果中小于或者等于预设阈值的分类结果确定为第二数值,并基于所述第一数值和所述第二数值得到所述图片对应的二值化图像;

将所述二值化图像中所有第一数值组成的区域确定为与所述多行待定位文本中每行待定位文本对应的核心区域。

进一步的,所述通过预设分割网络结构对所述图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,包括:

通过所述预设分割网络结构获取所述图片对应的第一特征值集合;

将所述第一特征值集合按照预设融合方式进行特征融合,得到对应的第一融合特征值集合;

根据所述第一融合特征值集合确定分类结果矩阵,并将所述分类结果矩阵确定为所有像素值分别对应的分类结果。

进一步的,所述第一特征值集合中包括预设个数的按照特征值尺寸由大到小的顺序进行排列的不同尺寸的特征值序列;

相应的,所述预设融合方式,包括:

将所述特征值序列中的各特征值按照从后向前的方式进行融合,得到第一个特征值对应的初始融合特征值;

将所述特征值序列中的除最后一个特征值之外的各特征值按照从前向后的方式进行融合,得到除第一个特征值之外的其他特征值分别对应的融合特征值;

将所述第一个特征值对应的初始融合特征值以及所述其他特征值分别对应的融合特征值构成的集合确定为第一融合特征值集合。

进一步的,所述根据所述第一融合特征值集合确定分类结果矩阵,包括:

将所述第一融合特征值集合确定为新的第一特征值集合,将新的第一特征值集合按照预设融合方式进行特征融合,得到对应的新的第一融合特征值集合;

根据新的第一融合特征值集合确定分类结果矩阵。

进一步的,所述对所述轮廓点集合进行扩充,得到所述每行待定位文本对应的目标轮廓点集合,包括:

通过卷积操作确定所述每个核心区域对应的轮廓点集合中每个轮廓点对应的偏移量;

将所述每个核心区域对应的轮廓点集合中的每个轮廓点与所述每个轮廓点对应的偏移量相加,得到所述每行待定位文本对应的目标轮廓点集合。

进一步的,在所述得到所述每行待定位文本对应的目标轮廓点集合之后,还包括:

根据所述每行待定位文本对应的目标轮廓点集合截取对应的每行待定位文本,得到所述每行待定位文本对应的目标图片;

将所述目标图片输入至光学字符识别OCR模型中,得到所述目标图片对应的文本。

第二方面,本发明实施例提供了一种文本定位装置,该装置包括:

分类结果获取模块,用于获取待定位文本对应的图片,并通过预设分割网络结构对所述图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,其中,所述图片中包含多行待定位文本;

轮廓点确定模块,用于对所述分类结果进行二值化处理得到与所述多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合;

目标轮廓点确定模块,用于对所述轮廓点集合进行扩充,得到所述每行待定位文本对应的目标轮廓点集合。

第三方面,本发明实施例提供了一种计算机设备,该计算机设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的文本定位方法的步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文本定位方法的步骤。

本发明实施例提供了一种文本定位方法、装置、设备及存储介质,首先获取待定位文本对应的图片,并通过预设分割网络结构对图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,图片中包含多行待定位文本,然后对分类结果进行二值化处理得到与多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合,最后对轮廓点集合进行扩充,得到每行待定位文本对应的目标轮廓点集合,能够实现多行文本的准确定位,有利于提高文本校测结果的准确性,得到准确的文本。

附图说明

图1A为本发明实施例一提供的一种文本定位方法的流程图;

图1B为本发明实施例一提供的方法中待定位文本对应的图片的示意图;

图1C为本发明实施例一提供的方法中的二值化图像的示意图;

图1D为本发明实施例一提供的方法中目标轮廓点集合的示意图;

图2A为本发明实施例二提供的一种文本定位方法的流程图;

图2B为本发明实施例二提供的方法中特征值尺寸的示意图;

图2C为本发明实施例二提供的方法中四个特征值叠加的示意图;

图2D为本发明实施例二提供的方法中某行待定位文本的轮廓点对应的特征值的示意图;

图2E为本发明实施例二提供的方法中三行待定位文本的轮廓点拼起来所对应的特征值的示意图;

图3为本发明实施例三提供的一种文本定位装置的结构示意图;

图4为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1A为本发明实施例一提供的一种文本定位方法的流程图,本实施例可适用于对行间距较小的多行文本中的每行文本进行定位的情况。本实施例提供的文本定位方法可以由本发明实施例提供的文本定位装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在执行本方法的计算机设备中。

参见图1A,本实施例的方法包括但不限于如下步骤:

S110,获取待定位文本对应的图片,并通过预设分割网络结构对图片对应的像素值进行分类,得到所有像素值分别对应的分类结果。

其中,图片中包含多行待定位文本。预设分割网络结构可以是预先训练好的分割网络结构,例如,本实施例优选的一种方式为采用Resnet18网络结构,或者亦可采用其他深度学习网络结构等,本实施例不做具体限制。

在文本检测过程中首先要进行文本定位,对文本进行定位的过程中,需要获取待定位文本对应的图片,具体可以通过手机或者其他设备对待定位文本进行拍摄得到待定位文本对应的图片。在获取了待定位文本对应的图片之后,将该图片输入至预设分割网络结构中,通过预设分割网络结构能够对该图片对应的像素值进行分类,从而得到所有像素值分别对应的分类结果,以便后续对分类结果进行二值化处理得到与多行待定位文本中每行待定位文本对应的核心区域。

S120,对分类结果进行二值化处理得到与多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合。

其中,二值化处理可以理解为将分类结果通过阈值选取获得能够反映图像整体和局部特征的二值化图像,其中阈值的选取可以是预先设定的,也可以视具体情况而定,本实施例不做具体限制。核心区域可以理解为比每行待定位文本对应的实际区域小的区域,即核心区域为实际区域的一部分。每行待定位文本对应的核心区域之间隔有一定的距离。

通过对待定位文本对应的图片中的所有像素值的分类结果进行二值化处理能够得到一个二值化图像,二值化图像中包括了与多行待定位文本中每行待定位文本对应的核心区域和背景区域。通过轮廓点算法,例如Alpha Shapes算法或者其他基于Opencv的找轮廓点算法等能够确定每个核心区域对应的轮廓点集合。

S130,对轮廓点集合进行扩充,得到每行待定位文本对应的目标轮廓点集合。

其中,目标轮廓点集合可以理解为每行待定位文本对应的实际区域的轮廓点集合。

在确定了每个核心区域对应的轮廓点集合之后,由于核心区域比每行待定位文本对应的实际区域小,因此需要对每个核心区域对应的轮廓点集合向外扩充,以得到每行待定位文本对应的实际区域的轮廓点集合,即目标轮廓点集合,从而通过目标轮廓点集合能够实现对待定位文本的准确定位。

本实施例提供的技术方案,首先获取待定位文本对应的图片,并通过预设分割网络结构对图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,图片中包含多行待定位文本,然后对分类结果进行二值化处理得到与多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合,最后对轮廓点集合进行扩充,得到每行待定位文本对应的目标轮廓点集合,能够实现多行文本的准确定位,有利于提高文本校测结果的准确性,得到准确的文本。

在一些实施例中,所述对所述分类结果进行二值化处理得到与所述多行待定位文本中每行待定位文本对应的核心区域,可以具体包括:将所有分类结果中大于预设阈值的分类结果确定为第一数值,以及将所有分类结果中小于或者等于预设阈值的分类结果确定为第二数值,并基于所述第一数值和所述第二数值得到所述图片对应的二值化图像;将所述二值化图像中所有第一数值组成的区域确定为与所述多行待定位文本中每行待定位文本对应的核心区域。

其中,预设阈值可以是预先设定的,也可以视具体情况而定,本实施例不做具体限制。

具体的,将所有分类结果中大于预设阈值的分类结果确定为第一数值,例如1(相当于在二值化图像中以白色显示),以及将所有分类结果中小于或者等于预设阈值的分类结果确定为第二数值,例如0(相当于在二值化图像中以黑色显示),能够将所有的分类结果划分为两类,从而基于第一数值和第二数值能够得到图片对应的二值化图像,在该二值化图像中所有的第一数值和第二数值组成了两种区域;将二值化图像中所有第一数值组成的区域确定为与多行待定位文本中每行待定位文本对应的核心区域,将二值化图像中所有第二数值组成的区域确定为背景区域。

本发明实施例中,通过预设阈值将所有分类结果划分为第一数值和第二数值,基于第一数值和第二数值得到图片对应的二值化图像,并将二值化图像中所有第一数值组成的区域确定为与多行待定位文本中每行待定位文本对应的核心区域,能够通过简单的二值化处理快速确定出行间距较小的多行待定位文本中每行待定位文本对应的核心区域,将多行文本准确的进行划分,节省了时间,便于后续确定每个核心区域对应的轮廓点集合。

在一些实施例中,所述对所述轮廓点集合进行扩充,得到所述每行待定位文本对应的目标轮廓点集合,可以具体包括:通过卷积操作确定所述每个核心区域对应的轮廓点集合中每个轮廓点对应的偏移量;将所述每个核心区域对应的轮廓点集合中的每个轮廓点与所述每个轮廓点对应的偏移量相加,得到所述每行待定位文本对应的目标轮廓点集合。

具体的,通过卷积操作能够确定出每个核心区域对应的轮廓点集合中每个轮廓点对应的偏移量,也就是每个轮廓点与待定位文本实际对应的轮廓点之间的误差,将每个核心区域对应的轮廓点集合中的每个轮廓点与每个轮廓点对应的偏移量相加,能够得到每行待定位文本对应的目标轮廓点集合,也就是每行待定位文本对应的实际轮廓点。

本发明实施例中,通过确定每行待定位文本对应的目标轮廓点集合,能够对行间距较小的多行待定位文本进行准确的定位,使得每一行待定位文本都有一个对应的目标轮廓点集合,解决了因为多行待定位文本中行与行的间距较小,造成的多行待定位文本定位不准确的问题,节省了计算资源。

示例性的,图1B为本发明实施例一提供的方法中待定位文本对应的图片的示意图,图1C为本发明实施例一提供的方法中的二值化图像的示意图,图1D为本发明实施例一提供的方法中目标轮廓点集合的示意图。图1B为某待定位文本对应的图片,通过预设分割网络结构对图1B对应的像素值进行分类,得到所有像素值分别对应的分类结果,然后将所有分类结果中大于预设阈值的分类结果确定为第一数值,以及将所有分类结果中小于或者等于预设阈值的分类结果确定为第二数值,得到了图1B对应的二值化图像,也就是图1C。通过图1C得到了图1B中每行待定位文本对应的核心区域,接着通过轮廓点算法确定每个核心区域对应的轮廓点集合,对轮廓点集合进行扩充后,最终得到了每行待定位文本对应的目标轮廓点集合,即图1D。

在一些实施例中,在所述得到所述每行待定位文本对应的目标轮廓点集合之后,还可以具体包括:根据每行待定位文本对应的目标轮廓点集合截取对应的每行待定位文本,得到每行待定位文本对应的目标图片;将目标图片输入至光学字符识别(OpticalCharacter Recognition,简称OCR)模型中进行文本识别,得到目标图片对应的文本。

示例性的,图1D中包括3个目标轮廓点集合,将这3个目标轮廓点集合分别命名为H1、H2和H3,根据H1、H2和H3截取对应的每行待定位文本,即对待定位文本对应的图片进行裁剪,得到每行待定位文本对应的目标图片,将目标图片分别输入至OCR模型中进行文本识别,得到H1对应的文本5020E195、H2对应的文本B38B15C和H3对应的文本BBA,组合在一起,最终得到待定位文本的具体文本内容为:5020E195B38B15CBBA。

本发明实施例中,通过目标轮廓点集合截取对应的每行待定位文本,得到每行待定位文本对应的目标图片,将目标图片输入至OCR模型中进行文本识别,得到目标图片对应的文本,能够将待定位文本对应的图片中的文本进行识别,并以文本的形式返回,通过先确定目标轮廓点集合,再截取对应的每行待定位文本,得到每行待定位文本对应的目标图片的方式,将目标图片分别进行文本识别,克服了现有的OCR模型只能识别单行文本,不支持多行文本的图片的识别问题。

实施例二

图2A为本发明实施例二提供的一种文本定位方法的流程图。本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例对得到所有像素值分别对应的分类结果的过程进行详细的解释说明。

参见图2A,本实施例的方法包括但不限于如下步骤:

S210,获取待定位文本对应的图片,通过预设分割网络结构获取图片对应的第一特征值集合。

在获取了待定位文本对应的图片之后,通过预设分割网络结构能够对图片中包含的特征进行提取,例如,可以通过第一个数的残差块获取第一个数的不同尺寸的特征值,尺寸大小可以为原图的1/2、1/4、1/8、1/16或者1/32等等,也可以是其他尺寸,本实施例不做具体限制。将获取到的所有特征值组合在一起就能够得到图片对应的第一特征值集合。

S220,将第一特征值集合按照预设融合方式进行特征融合,得到对应的第一融合特征值集合。

其中,预设融合方式可以是预先设计好的,本实施例不做具体限制。

在得到待定位文本对应的图片所对应的第一特征值集合之后,将第一特征值集合按照预设融合方式进行特征融合,例如将第一特征值集合中包括的特征按照从最小尺寸特征逐级向最大尺寸特征进行叠加的方式融合,又如将第一特征值集合中包括的特征按照从最大尺寸特征逐级向最小尺寸特征进行叠加的方式融合等等,能够得到对应的第一融合特征值集合。

可选的,所述第一特征值集合中包括预设个数的按照特征值尺寸由大到小的顺序进行排列的不同尺寸的特征值序列;相应的,所述预设融合方式,可以具体包括:将特征值序列中的各特征值按照从后向前的方式进行融合,得到第一个特征值对应的初始融合特征值;将所述特征值序列中的除最后一个特征值之外的各特征值按照从前向后的方式进行融合,得到除第一个特征值之外的其他特征值分别对应的融合特征值;将所述第一个特征值对应的初始融合特征值以及所述其他特征值分别对应的融合特征值构成的集合确定为第一融合特征值集合。

具体的,先将特征值序列中的各特征值按照从后向前的方式进行融合,即将所述特征值序列中的各特征值按照从最小尺寸特征值逐级向最大尺寸特征值进行叠加的方式进行融合就得到了第一个特征值(即最大尺寸特征值)对应的初始融合特征值。然后将特征值序列中的除最后一个特征值之外的各特征值按照从前向后的方式进行融合,即将特征值序列中的除最后一个特征值之外的各特征值按照从最大尺寸特征值逐级向倒数第二小的尺寸特征值进行叠加的方式得到除第一个特征值之外的其他各特征值分别对应的融合特征值。最后将第一个特征值对应的初始融合特征值以及其他特征值分别对应的融合特征值所构成的集合确定为第一融合特征值集合。

本发明实施例中,通过上述预设融合方式进行特征融合,有利于增加特征的复杂度,使得融合过程中能够提取到待定位文本对应的图片的更多特征。

优选的,上述第一融合特征值集合,可以具体通过以下方式得到:将所述特征值序列中的除最后一个特征值之外的各特征值从后向前依次确定为当前特征值,并针对每个当前特征值,将当前特征值与下一个特征值的第一变换结果进行融合,得到当前特征值对应的初始融合特征值,其中,当倒数第二个特征值作为当前特征值时,所述下一个特征值的第一变换结果根据该下一个特征值确定,当除倒数第二个特征值以外的特征值作为当前特征值时,所述下一个特征值的第一变换结果根据该下一个特征值对应的初始融合特征值确定;将所述特征值序列中的除最后一个特征值之外的各特征值从前向后依次确定为当前特征值,并针对每个当前特征值,将当前特征值与当前特征值的第二变换结果进行融合,得到下一个特征值对应的融合特征值,其中,当第一个特征值作为当前特征值时,所述当前特征值的第二变换结果为第一个特征值对应的初始融合特征值,当第一个特征值以外的特征值作为当前特征值时,所述当前特征值的第二变换结果根据当前特征值对应的融合特征值确定;将第一个特征值对应的初始融合特征值、其他特征值分别对应的融合特征值构成的集合确定为第一融合特征值集合。

其中,预设个数可以是预先设计好的,也可以视具体情况而定,本实施例不做具体限制。

示例性的,图2B为本发明实施例二提供的方法中特征值尺寸的示意图,特征值尺寸包括宽、高和通道数,假设待定位文本对应的图片的尺寸为(256,256,3),其中第一个256是指图片的宽度值(即宽),第二个256是指图片的高度值(即高),3是指图片中每个像素点对应的通道数,这里是用红、黄和蓝三种颜色来描述,因此通道数是3。假设第一特征值集合中包括4个按照特征值尺寸由大到小的顺序进行排列的不同尺寸的特征值序列,分别以F1(64,64,64)、F2(32,32,128)、F3(16,16,256)和F4(8,8,512)进行表示,其中F1、F2、F3和F4的尺寸只是用来对本实施例中的预设融合方式进行说明。

可选的,在进行特征融合之前,需要确定特征值序列中特征值的通道数是否相同,若相同,则按照预设融合方式进行特征融合;若不同,则需要将特征值序列中特征值的通道数变换为统一的通道数,再按照预设融合方式进行特征融合。这样可以简化后续的特征融合过程。

由于F1、F2、F3和F4的通道数不同,因此将四个特征值分别进行卷积核为(1,1,128)的卷积操作,将四个特征值的通道数都变成128,即F1'(64,64,128)、F2'(32,32,128)、F3'(16,16,128)和F4'(8,8,128),以便后续进行特征融合,F1'、F2'、F3'和F4'即为变换后的特征值序列。

相应的,第一融合特征值集合,可以具体通过以下步骤得到:

1)将变换后的特征值序列中的除最后一个特征值之外的各特征值即F1'、F2'和F3'从后向前依次确定为当前特征值,即先将F3'确定为当前特征值,并针对F3',将F3'与下一个特征值即F4'的第一变换结果进行融合,得到F3'对应的初始融合特征值;接着将F2'确定为当前特征值,并针对F2',将F2'与下一个特征值即F3'的第一变换结果进行融合,得到F2'对应的初始融合特征值;最后将F1'确定为当前特征值,并针对F1',将F1'与下一个特征值即F2'的第一变换结果进行融合,得到F1'对应的初始融合特征值;

2)将变换后的特征值序列中的除最后一个特征值之外的各特征值即F1'、F2'和F3'从前向后依次确定为当前特征值,即先将F1'确定为当前特征值,并针对F1',将F1'与F1'的第二变换结果即F1'的初始融合特征值进行融合,得到下一个特征值即F2'对应的融合特征值;接着将F2'确定为当前特征值,并针对F2',将F2'与F2'的第二变换结果进行融合,得到下一个特征值即F3'对应的融合特征值;最后将F3'确定为当前特征值,并针对F3',将F3'与F3'的第二变换结果进行融合,得到下一个特征值即F4'对应的融合特征值;

3)将F1'对应的初始融合特征值、其他特征值即F2'、F3'以及F4'分别对应的融合特征值构成的集合确定为第一融合特征值集合。

需要说明的是确定下一个特征值的第一变换结果,以及确定当前特征值的第二变换结果的过程可以是预先确定好的操作。

本发明实施例中,通过上述的融合过程进行特征融合,增加了特征的复杂度,使得融合过程中能够提取到待定位文本对应的图片的多个特征,有利于提高得到的分类结果的准确性。

进一步的,所述将当前特征值与下一个特征值的第一变换结果进行融合,得到当前特征值对应的初始融合特征值,可以具体包括:将当前特征值与下一个特征值的第一变换结果按位相加,得到当前特征值对应的中间初始融合特征值,对所述中间初始融合特征值进行卷积操作,得到当前特征值对应的初始融合特征值,其中,当倒数第二个特征值当前特征值时,所述下一个特征值的第一变换结果根据对该下一个特征值进行线性插值操作得到,当除倒数第二个特征值以外的特征值作为当前特征值时,所述下一个特征值的第一变换结果根据该下一个特征值对应的初始融合特征值进行线性插值操作得到;所述将当前特征值与当前特征值的第二变换结果进行融合,得到下一个特征值对应的融合特征值,可以具体包括:将当前特征值与当前特征值的第二变换结果按位相加,得到下一个特征值对应的中间融合特征值,对中间融合特征值进行卷积操作,得到下一个特征值对应的融合特征值。

示例性的,仍通过F1'、F2'、F3'和F4'对得到当前特征值对应的初始融合特征值以及得到下一个特征值对应的融合特征值的过程进行说明。

首先,得到当前特征值对应的初始融合特征值的过程可以为:若F3'为当前特征值,则将F3'与F4'的第一变换结果按位相加,得到F3'对应的中间初始融合特征值F3”,对F3”进行卷积操作,卷积核的大小可以根据实际情况而定,得到F3'对应的初始融合特征值F3”',其中,F4'的第一变换结果根据对F4'进行线性插值操作得到,具体是通过线性插值操作将F4'的宽度值和高度值都扩大两倍,与F3'的宽度值和高度值相同,便于后续的按位相加;若F2'为当前特征值,则将F2'与F3'的第一变换结果按位相加,得到F2'对应的中间初始融合特征值F2”,对F2”进行卷积操作,卷积核的大小可以根据实际情况而定,得到F2'对应的初始融合特征值F2”',其中,F3'的第一变换结果根据F3'对应的初始融合特征值即F3”'进行线性插值操作得到,具体是通过线性插值操作将F3”'的宽度值和高度值都扩大两倍,与F2'的宽度值和高度值相同,便于后续的按位相加;若F1'为当前特征值,则将F1'与F2'的第一变换结果按位相加,得到F1'对应的中间初始融合特征值F1”,对F1”进行卷积操作,卷积核的大小可以根据实际情况而定,得到F1'对应的初始融合特征值F1”',其中,F2'的第一变换结果根据F2'对应的初始融合特征值即F2”'进行线性插值操作得到,具体是通过线性插值操作将F2”'的宽度值和高度值都扩大两倍,与F1'的宽度值和高度值相同,便于后续的按位相加。

其次,得到下一个特征值对应的融合特征值的过程可以为:若F1'为当前特征值,则将F1'与F1'的第二变换结果即F1'的初始融合特征值F1”'按位相加,得到F2'对应的中间融合特征值,对F2'对应的中间融合特征值进行卷积操作,其中,卷积操作中卷积核的大小根据F2'的尺寸确定,得到F2'对应的融合特征值;若F2'为当前特征值,则将F2'与F2'的第二变换结果即F2'对应的融合特征值按位相加,得到F3'对应的中间融合特征值,对F3'对应的中间融合特征值进行卷积操作,其中,卷积操作中卷积核的大小根据F3'的尺寸确定,得到F3'对应的融合特征值;若F3'为当前特征值,则将F3'与F3'的第二变换结果即F3'对应的融合特征值按位相加,得到F4'对应的中间融合特征值,对F4'对应的中间融合特征值进行卷积操作,其中,卷积操作中卷积核的大小根据F4'的尺寸确定,得到F4'对应的融合特征值。

本发明实施例中,得到当前特征值对应的初始融合特征值以及得到下一个特征值对应的融合特征值的过程充分利用了第一特征值集合中包括的每一个特征,使得最终得到的融合特征值更准确。

S230,根据第一融合特征值集合确定分类结果矩阵,并将分类结果矩阵确定为所有像素值分别对应的分类结果。

在得到第一融合特征值集合之后,将第一融合特征值集合与第一特征值集合中的各对应特征值分别按位相加,得到最终的特征值序列,将该特征值序列分别双线性插值到待定位文本对应的图片的尺寸,再将双线性插值后得到的特征值序列中的特征值进行叠加,得到最终的特征值,将最终的特征值经过一个1*1的卷积(步长为1,通道数为1)操作,就得到了分类结果矩阵,并将分类结果矩阵确定为所有像素值分别对应的分类结果。

本发明实施例中,通过将第一融合特征值集合与第一特征值集合中的各对应特征值分别按位相加,得到最终的特征值序列,使得特征融合过程中,增强了原有特征所包含的特征信息以及增加了特征的复杂度。

可选的,所述根据所述第一融合特征值集合确定分类结果矩阵,可以具体包括:将所述第一融合特征值集合确定为新的第一特征值集合,将新的第一特征值集合按照预设融合方式进行特征融合,得到对应的新的第一融合特征值集合;根据新的第一融合特征值集合确定分类结果矩阵。

本发明实施例中,通过将第一融合特征值集合确定为新的第一特征值集合,将新的第一特征值集合仍然按照预设融合方式进行特征融合,得到对应的新的第一融合特征值集合,然后根据新的第一融合特征值集合确定分类结果矩阵,能够得到融合程度更深的特征值,最终所确定的分类结果矩阵的值也更准确,更符合实际情况。

进一步的,上述将所述第一融合特征值集合确定为新的第一特征值集合,将新的第一特征值集合按照预设融合方式进行特征融合,得到对应的新的第一融合特征值集合的过程可以重复多次,即相当于特征融合多次,增强待定位文本对应的图片中的特征信息,使得各特征能够充分融合。

示例性的,图2C为本发明实施例二提供的方法中四个特征值叠加的示意图,图2D为本发明实施例二提供的方法中某行待定位文本的轮廓点对应的特征值的示意图,图2E为本发明实施例二提供的方法中三行待定位文本的轮廓点拼起来所对应的特征值的示意图。假设对第一特征值集合中包括的4个按照特征值尺寸由大到小的顺序进行排列的不同尺寸的特征值序列F1、F2、F3和F4按照预设融合方式进行特征融合,得到的第一融合特征值集合用G1(64,64,128)、G2(32,32,128)、G3(16,16,128)和G4(8,8,128)进行表示,再对G1、G2、G3和G4按照预设融合方式进行特征融合,得到的新的第一融合特征值集合用G1'(64,64,128)、G2'(32,32,128)、G3'(16,16,128)和G4'(8,8,128)进行表示,分别将G1、G1'和F1'这三个按位相加,G2、G2'和F2'这三个按位相加,G3、G3'和F3'这三个按位相加,G4、G4'和F4'这三个按位相加,得到特征值G1”、G2”、G3”和G4”。如图2C所示,将G1”、G2”、G3”和G4”分别进行双线性插值到待定位文本对应的图片的尺寸大小,即尺寸都变成(256,256,128),再进行叠加,得到最终的特征值为T(256,256,512)。将T经过一个1*1的卷积(步长为1,通道数为1),得到了分类结果矩阵,将分类结果矩阵确定为所有像素值分别对应的分类结果,相当于得到了一张灰度图像(256*256),经过二值化处理后,再通过轮廓点算法,就能找到图1C中的3行待定位文本中每行待定位文本的核心区域对应的轮廓点,假设为P1、P2和P3,每个核心区域对应的轮廓点集合中包括的轮廓点个数为128个。根据P1的128个轮廓点在最终的特征值T上获取到128组(1*1*512)的特征值(如图2D所示),合在一起就是(128*1*512)的特征值,P2、P3同理也能各得到一个(128*1*512)的特征值,将三组特征值拼在一起就是(128*3*512)的特征值(如图2E所示)。

需要说明的是,轮廓点个数还可以是其他数值,本实施例不做具体限制。

示例性的,通过卷积操作确定每个核心区域对应的轮廓点集合中每个轮廓点对应的偏移量可以为:将图2E中三组特征值拼在一起得到的特征值经过一个1*1的卷积(步长为1,通道数为2),能够得到三组轮廓点的偏移量(128*3*2),因为一个点坐标(x,y)有两个偏移量,那么三组点(128*3)就有128*3*2个偏移量。

S240,对分类结果进行二值化处理得到与多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合。

S250,对轮廓点集合进行扩充,得到每行待定位文本对应的目标轮廓点集合。

本实施例提供的技术方案,首先获取待定位文本对应的图片,通过预设分割网络结构获取图片对应的第一特征值集合,接着将第一特征值集合按照预设融合方式进行特征融合,得到对应的第一融合特征值集合,根据第一融合特征值集合确定分类结果矩阵,并将分类结果矩阵确定为所有像素值分别对应的分类结果,然后对分类结果进行二值化处理得到与多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合,最后对轮廓点集合进行扩充,得到每行待定位文本对应的目标轮廓点集合,通过预设融合方式进行特征融合,增加了特征的复杂度,使得融合过程中能够提取到待定位文本对应的图片的多个特征,有利于提高得到的分类结果的准确性,同时能够实现多行文本的准确定位,有利于提高文本校测结果的准确性,得到准确的文本。

实施例三

图3为本发明实施例三提供的一种文本定位装置的结构示意图,如图3所示,该装置可以包括:

分类结果获取模块310,用于获取待定位文本对应的图片,并通过预设分割网络结构对所述图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,其中,所述图片中包含多行待定位文本;

轮廓点确定模块320,用于对所述分类结果进行二值化处理得到与所述多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合;

目标轮廓点确定模块330,用于对所述轮廓点集合进行扩充,得到所述每行待定位文本对应的目标轮廓点集合。

本实施例提供的技术方案,首先获取待定位文本对应的图片,并通过预设分割网络结构对图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,图片中包含多行待定位文本,然后对分类结果进行二值化处理得到与多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合,最后对轮廓点集合进行扩充,得到每行待定位文本对应的目标轮廓点集合,能够实现多行文本的准确定位,有利于提高文本校测结果的准确性,得到准确的文本。

进一步的,上述轮廓点确定模块320,可以具体用于:将所有分类结果中大于预设阈值的分类结果确定为第一数值,以及将所有分类结果中小于或者等于预设阈值的分类结果确定为第二数值,并基于所述第一数值和所述第二数值得到所述图片对应的二值化图像;将所述二值化图像中所有第一数值组成的区域确定为与所述多行待定位文本中每行待定位文本对应的核心区域。

进一步的,上述分类结果获取模块310,可以包括:第一集合获取单元,用于通过所述预设分割网络结构获取所述图片对应的第一特征值集合;融合集合获取单元,用于将所述第一特征值集合按照预设融合方式进行特征融合,得到对应的第一融合特征值集合;分类结果确定单元,用于根据所述第一融合特征值集合确定分类结果矩阵,并将所述分类结果矩阵确定为所有像素值分别对应的分类结果。

进一步的,所述第一特征值集合中包括预设个数的按照特征值尺寸由大到小的顺序进行排列的不同尺寸的特征值序列;相应的,所述预设融合方式,包括:将所述特征值序列中的各特征值按照从后向前的方式进行融合,得到第一个特征值对应的初始融合特征值;将所述特征值序列中的除最后一个特征值之外的各特征值按照从前向后的方式进行融合,得到除第一个特征值之外的其他特征值分别对应的融合特征值;将所述第一个特征值对应的初始融合特征值以及所述其他特征值分别对应的融合特征值构成的集合确定为第一融合特征值集合。

进一步的,上述分类结果确定单元,可以具体用于:将所述第一融合特征值集合确定为新的第一特征值集合,将新的第一特征值集合按照预设融合方式进行特征融合,得到对应的新的第一融合特征值集合;根据新的第一融合特征值集合确定分类结果矩阵。

进一步的,上述目标轮廓点确定模块330,可以具体用于:通过卷积操作确定所述每个核心区域对应的轮廓点集合中每个轮廓点对应的偏移量;将所述每个核心区域对应的轮廓点集合中的每个轮廓点与所述每个轮廓点对应的偏移量相加,得到所述每行待定位文本对应的目标轮廓点集合。

进一步的,上述文本定位装置还可以包括:目标图片获得模块,用于根据所述每行待定位文本对应的目标轮廓点集合截取对应的每行待定位文本,得到所述每行待定位文本对应的目标图片;文本获得模块,用于将所述目标图片输入至光学字符识别OCR模型中,得到所述目标图片对应的文本。

本实施例提供的文本定位装置可适用于上述任意实施例提供的文本定位方法,具备相应的功能和有益效果。

实施例四

图4为本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括处理器410、存储装置420和通信装置430;计算机设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;计算机设备中的处理器410、存储装置420和通信装置430可以通过总线或其他方式连接,图4中以通过总线连接为例。

存储装置420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本定位方法对应的模块(例如,用于文本定位装置中的分类结果获取模块310、轮廓点确定模块320和目标轮廓点确定模块330)。处理器410通过运行存储在存储装置420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的文本定位方法。

存储装置420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置430,用于实现服务器之间的网络连接或者移动数据连接。

本实施例提供的一种计算机设备可用于执行上述任意实施例提供的文本定位方法,具备相应的功能和有益效果。

实施例五

本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例中的文本定位方法,该方法具体包括:

获取待定位文本对应的图片,并通过预设分割网络结构对所述图片对应的像素值进行分类,得到所有像素值分别对应的分类结果,其中,所述图片中包含多行待定位文本;

对所述分类结果进行二值化处理得到与所述多行待定位文本中每行待定位文本对应的核心区域,并通过轮廓点算法确定每个核心区域对应的轮廓点集合;

对所述轮廓点集合进行扩充,得到所述每行待定位文本对应的目标轮廓点集合。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本定位方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述文本定位装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种文本定位方法、装置、设备及存储介质
  • 图像文本区域定位方法及装置、存储介质及电子设备
技术分类

06120112773195