掌桥专利:专业的专利平台
掌桥专利
首页

图片文字定位方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 11:14:36


图片文字定位方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机视觉技术领域,具体地涉及一种图片文字定位方法、装置、计算机设备和存储介质。

背景技术

随着互联网图片内容的不断增加,以及办公扫描打印文件的日益增加,如何利用高效的文字检测识别技术快速完成整个图片向文字信息的转化至关重要。目前常见的识别方案一般包含文字定位和文字识别两部分,文字行定位的准确性与识别的准确率成线性正比关系。

现有的文字行定位方法分两大类,基于锚点(Anchors)的行定位方法和基于分割的行定位方法。其中,常见的基于锚点的行定位方法包括连接文本提议网络(Connectionist Text Proposal Network,简称CTPN),文本框组件(如Textbox++)等等,这些方法往往对自然场景的短文本检测准确率效果会更好,对于长文本行可能会出现多个检测框,从而导致长文本的定位区域出现断裂的问题。即当前基于锚点的行定位方法中,其锚点为自动生成的,具体请参见图1,图1提供了现有技术中的一种锚点的生成方式,其中每一个点都会生成一大一小的两个正方形锚点区域101和102,小正方形(图示区域102)的边长用min_size来表示,大正方形(图示区域101)的边长用sqrt(min_size×max_size)来表示,min_size和max_size根据每一层中的特征的大小自行设定的,同时还有多个长方形的锚点区域,长方形的锚点区域的数目在不同层级会有差异,他们的宽(width)和高(height)可以用以下公式表示:

width=sqrt(ratio)×min_size;

height=1/sqrt(ratio)×min_size;

一般情况下,宽高比ratio取[1.0,9.0]的等差数列。这样生成的锚点区域对应到网络结构中提取特征的感受野一般设置为3×3,或者3×5,对于长文本中的文本行这样的感受野远远达不到目的。

基于图1中的锚点区域,其特征检测的感受野是自动生成的。然而生成的感受野会限制检测内容的长短,若检测内容与感受野不匹配,则可能影响文字定位的准确性。而基于分割的行定位方法则需要引入大量数据进行模型训练或数据分析,需要耗费大量的时间。

发明内容

本发明解决的技术问题是如何在无需大数据训练和分析的情况下,提高对图片中文字的行定位的准确性,从而提高对图片中的文字识别的准确性。

为解决上述技术问题,本发明实施例提供一种图片文字定位方法,所述方法包括:获取目标图片;将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层;为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域;对所述分配的锚点区域进行回归,得到所述待识别文字在所述目标图片中的位置。

可选的,所述为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域,包括:通过自适应预测层为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个锚点区域。

可选的,所述通过自适应预测层为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个锚点区域,包括:为所述若干个纹理特征层中部分或全部的纹理特征层分配的锚点区域包括五类锚点区域;所述五类锚点区域包括:卷积滤波器大小为3×3的正方形锚点区域、卷积滤波器大小为3×5的中长型水平锚点区域、卷积滤波器大小为5×3的中长型垂直锚点区域、卷积滤波器大小为n×1的长型水平锚点区域和卷积滤波器大小为1×n的长型垂直锚点区域,其中,n为预设的正整数。

可选的,所述n的值根据每一纹理特征层的特征值设定。

可选的,所述从所述目标图片提取与待识别文字对应的若干个纹理特征层之后,还包括:从所述若干个纹理特征层中筛选出基础纹理特征层;所述为每一纹理特征层分配若干个不同感受野的锚点区域,包括:为每一基础纹理特征层分配若干个不同感受野的锚点区域。

可选的,所述将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层,包括:将所述目标图片输入mobilenetv2网络中,得到所述目标图像的19个纹理特征层。

可选的,所述为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域,包括:从所述19个纹理特征层中选取第3层、第7层、第14层和第19层;为选取的4个纹理特征层分别分配不同感受野的锚点区域。

本发明实施例还提供一种图片文字定位装置,包括:目标图片获取模块,用于获取目标图片;纹理特征层提取模块,用于将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层;锚点区域匹配模块,用于为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域;位置识别模块,用于对所述分配的锚点区域进行回归,得到所述待识别文字在所述目标图片中的位置。

本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述方法的步骤。

本发明实施例还提供一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行上述任一项所述方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明方案中的图片文字定位方法包括:获取目标图片;将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层;为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域;对所述分配的锚点区域进行回归,得到所述待识别文字在所述目标图片中的位置。较之现有技术,上述图片文字定位方法,通过多个不同卷积核对目标图片进行卷积运算,以得到该目标图片不同特征维度的纹理特征层。区别于现有技术中锚点区域的自动生成,本方案根据设定的分配方案为每一纹理特征层分配不同感受野的锚点区域,以适应对此纹理特征层中的特征分布情况,提高对目标图片中文字定位结果的准确性。

进一步地,针对基于Anchors检测方法感受野的问题在检测网络中增加了一个自适应预测层来提高长文本行的检测效果。

进一步地,提高感受野的方法在于,对于每一纹理特征层不再是简单的生成几个锚点区域,而把锚点区域分成5个类在APL中进行设定,以根据APL层中的设定对纹理特征层分配不同感受野的锚点区域。

进一步地,可采用已有卷积网络模型mobilenetv2对目标图片进行不同卷积核的纹理特征层提取,并根据识别效果,从中挑选出第3层、第7层、第14层和第19层作为基础纹理特征层,对其按照APL中的设定进行锚点区域的分配,能够在保证文字定位准确性的基础上,提高定位的效率。

附图说明

图1是现有技术中的一种锚点区域生成方法的示意图;

图2是本发明实施例的一种图片文字定位方法的流程示意图;

图3是本发明实施例的一种APL的锚点区域类型定义的示意图;

图4是本发明实施例的一种图片文字定位装置的结构示意图。

具体实施方式

如背景技术所言,现有技术中的文字行定位方法中主要包括基于锚点的行定位方法和基于分割的行定位方法。其中,基于锚点的行定位方法对长文本的行定位准确性不高,而基于分割的行定位方法则需要引入大量数据进行模型训练或数据分析,需要耗费大量的时间。

为解决上述问题,本发明实施例提供了一种图片文字定位方法、装置、计算机设备和存储介质。其中,图片文字定位方法包括:获取目标图片;将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层;为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域;对所述分配的锚点区域进行回归,得到所述待识别文字在所述目标图片中的位置。

本发明实施例提供的图片文字定位方法,仅利用不同卷积核的运算得到目标图片的多个纹理特征层,并为纹理特征层分配不同感受野的锚点区域,无需大数据训练,即可有效提高对目标图片中的文字进行定位的准确性。

请参见图2,图2提供了本发明一实施例中图片文字定位方法的流程示意图;该图片文字定位方法具体可以包括下述步骤S101至S104。

S201,获取目标图片。

目标图片为包含待识别文字的图片,可以为文字的扫描图片或基于打印得到的文字的图片等等,目标图像可以为真彩图像(也即,RGB图像)。其中应包含待识别的文字部分。

当需要对某一目标图片中的文字进行识别时,需先对目标图片中的文字部分进行定位,然后基于文字的定位再进行文字的内容识别。可将需识别的目标图片发送至识别终端,识别终端获取到目标图片后,启动对目标图片中的文字部分进行定位的操作,即执行下述步骤S202至S204。

S202,将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层。

待识别文字为目标图片中包含的文字,纹理特征与待识别文字分布相对应,对目标图片中的像素通过多个不同卷积核进行卷积运算,可得到目标图片对应的若干个纹理特征层。

S203,为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域。

对于步骤S202中得到的若干个纹理特征层,区别于现有技术中自动根据纹理特征层生成锚点区域,而是为纹理特征层分配不同感受野的锚点区域,使感受野能够与检测内容相匹配。

其中,对于步骤S202中得到的若干个纹理特征层,可都将其作为识别对象,为其分配锚点区域;也可从其中挑选识别效果较好的几层作为识别对象,以减少设备的计算量,提高识别效率。

S204,对所述分配的锚点区域进行回归,得到所述待识别文字在所述目标图片中的位置。

根据步骤S203中分配的锚点区域进行文本区域检测,可对这些锚点区域对应的检测结果进行回归运算,以得到待识别文字在目标图片中的位置所述在区域,作为目标文本中文字定位的结果。其中,可通过非极大值抑制(Non-maximum suppression,NMS)算法来对锚点区域的检测结果进行回归计算。

本实施例中提供的图片文字定位方法,通过多个不同卷积核对目标图片进行卷积运输,以得到该目标图片不同特征维度的纹理特征层。区别于现有技术中锚点区域的自动生成,本方案根据设定的分配方案为每一纹理特征层分配不同感受野的锚点区域,以适应对此纹理特征层中的特征分布情况,提高对目标图片中文字定位结果的准确性。

在一个实施例中,请继续参见图2,图2中的步骤S203为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域,可以包括:通过自适应预测层为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个锚点区域。

自适应预测层(Adaptive Predictor Layer,简称APL)分别为不同的卷积核搭配不同的宽高比的锚,以适应不同尺度、不同角度的文本。

本实施例中,针对基于Anchors检测方法感受野的问题在检测网络中增加了自适应预测层来提高长文本行的检测效果。

在一个实施例中,上述通过自适应预测层为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个锚点区域,可以包括:为所述若干个纹理特征层中部分或全部的纹理特征层分配的锚点区域包括五类锚点区域;所述五类锚点区域包括:卷积滤波器大小为3×3的正方形锚点区域、卷积滤波器大小为3×5的中长型水平锚点区域、卷积滤波器大小为5×3的中长型垂直锚点区域、卷积滤波器大小为n×1的长型水平锚点区域和卷积滤波器大小为1×n的长型垂直锚点区域,其中,n为预设的正整数。

具体请参见图3,图3为一实施例中APL的锚点区域类型定义的示意图;对于每一纹理特征层,可根据APL层为其分配五类锚点区域:

1.正方形的锚点区域:对应到网络层的感受野大小为3×3;即该锚点区域的宽高比(ratio)为1:1,卷积滤波器大小为3×3。

2.中长型水平锚点区域:按下述公式得到长方形的宽(width)和高(height),生成四个长方形。

width=sqrt(ratio)×min_size;

height=(1/sqrt(ratio))×min_size;

这四个长方形锚点区域的宽高比(ratio)={1:2,1:3,1:4,1:7},其卷积滤波器大小为3×5,对应到网络层感受野为3×5。

3.中长型垂直锚点区域:按下述公式得到长方形的宽(width)和高(height),生成四个长方形:

width=sqrt(ratio)×min_size;

height=(1/sqrt(ratio))×min_size;

其中,这四个长方形的宽高比(ratio)为{2:1,3:1,4:1,7:1},卷积滤波器大小为5×3对应到网络层感受野大小为5×3。

4.长型水平锚点区域:按下述公式得到长方形的宽(width)和高(height),生成若干个长方形:

width=sqrt(ratio)×min_size;

height=(1/sqrt(ratio))×min_size;

其中,可根据纹理特征层中纹理的大小自行选定生成的长型水平锚点区域的个数和其对应的感受野的大小。例如,可生成3个长型水平锚点区域,其宽高比(ratio)为{1:15,1:25,1:35},卷积滤波器大小为1×n(n=33,25,15),对应到网络层感受野的大小为1×n(n=33,25,15)。

5.长型垂直锚点区域:按下述公式得到长方形的宽(width)和高(height),生成若干个长方形:

width=sqrt(ratio)×min_size;

height=(1/sqrt(ratio))×min_size;

其中,可根据纹理特征层中纹理的大小自行选定生成的长型垂直锚点区域的个数和其对应的感受野的大小。例如,可生成3个长型垂直锚点区域,其宽高比(ratio)为{15:1,25:1,35:1},卷积滤波器大小为n×1(n=33,25,15),对应到网络层感受野的大小为n×1(n=33,25,15)。

参数n在每个纹理特征层上是不同的,依赖于被检测的文本行的长度。

本实施例中,提高感受野的方法在于,对于每一纹理特征层不再是简单的生成几个锚点区域,而把锚点区域分成5个类在APL中进行设定,以根据APL层中的设定对纹理特征层分配不同感受野的锚点区域。

在一个实施例中,请继续参见图2,图2中的步骤S202中从所述目标图片提取与待识别文字对应的若干个纹理特征层之后,还可以包括:从所述若干个纹理特征层中筛选出基础纹理特征层;则步骤S203为所述若干个纹理特征层中的部分或全部的纹理特征层分配若干个不同感受野的锚点区域,可以包括:为每一基础纹理特征层分配若干个不同感受野的锚点区域。

基础纹理特征层为若干个纹理特征层中对于文字定位效果最好的几层。对于图2中的图片文字定位方法,在通过步骤S202获取若干个纹理特征层后,并非对所有的纹理特征层都执行下一步的操作,而是先根据识别需求来对其进行筛选,仅保留对于文字定位效果最好的基础纹理特征层。

本实施例中,对于步骤S202中得到的纹理特征层,无需对所有的纹理特征层都执行下一步操作,而仅对其中的基础纹理特征层做后续处理。

在一个实施例中,请继续参见图2,图2中的S202将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层,可以包括:将所述目标图片输入mobilenetv2网络中,得到所述目标图像的19个纹理特征层。

可利用mobilenetv2对目标图片进行不同卷积核的卷积运算。

继续上一实施例,步骤S203为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域,可以包括:从所述19个纹理特征层中选取第3层、第7层、第14层和第19层;为选取的4个纹理特征层分别分配不同感受野的锚点区域。

可从通过mobilenetv2得到的目标图片的19层纹理特征层中,将第3,7,14,19层作为基础纹理特征层,选择的各层的特征矩阵的维度分别是原图的1/2,1/4,1/8,1/16。

本实施例中,可采用已有卷积网络模型mobilenetv2对目标图片进行不同卷积核的纹理特征层提取,并根据识别效果,从中挑选出第3层、第7层、第14层和第19层作为基础纹理特征层,对其按照APL中的设定进行锚点区域的分配,能够在保证文字定位准确性的基础上,提高定位的效率。

本发明实施例还提供一种图片文字定位装置,请参见图4,图4为一种图片文字定位装置的结构示意图,该装置包括目标图片获取模块401、纹理特征层提取模块402、锚点区域匹配模块403和位置识别模块404,其中:

目标图片获取模块401,用于获取目标图片。

纹理特征层提取模块402,用于将所述目标图片通过多个卷积核进行卷积运算,从所述目标图片提取与待识别文字对应的若干个纹理特征层。

锚点区域匹配模块403,用于为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域。

位置识别模块404,用于对所述分配的锚点区域进行回归,得到所述待识别文字在所述目标图片中的位置。

在一个实施例中,请继续参见图4,锚点区域匹配模块403,还可以用于通过自适应预测层为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个锚点区域。

在一个实施例中,请继续参见图4,锚点区域匹配模块403,还用于为所述若干个纹理特征层中部分或全部的纹理特征层分配的锚点区域包括五类锚点区域;所述五类锚点区域包括:卷积滤波器大小为3×3的正方形锚点区域、卷积滤波器大小为3×5的中长型水平锚点区域、卷积滤波器大小为5×3的中长型垂直锚点区域、卷积滤波器大小为n×1的长型水平锚点区域和卷积滤波器大小为1×n的长型垂直锚点区域,其中,n为预设的正整数。其中,所述n的值根据所述每一纹理特征层的特征值设定。

在一个实施例中,图4中的图片文字定位装置还可以包括:基础纹理特征层获取模块,用于从所述若干个纹理特征层中筛选出基础纹理特征层;则锚点区域匹配模块,可用于为每一所述基础纹理特征层分配若干个不同感受野的锚点区域。

在一个实施例中,图4中的纹理特征层提取模块402,还用于将所述目标图片输入mobilenetv2网络中,得到所述目标图像的19个纹理特征层。

可选的,锚点区域匹配模块可以包括:

纹理特征层选取单元,用于从所述19个纹理特征层中选取第3层、第7层、第14层和第19层。

锚点区域分配单元,用于为选取的4个纹理特征层分别分配不同感受野的锚点区域。

关于上述图片文字定位装置的工作原理、工作方式的更多内容,可以参照上述图2和图3中图片文字定位方法的相关描述,这里不再赘述。

进一步地,本发明实施例还公开一种计算机设备,包括存储器和处理器,存储器上存储有能够在处理器上运行的计算机指令,处理器运行计算机指令时执行上述图2和图3所示实施例中的图片文字定位方法技术方案。

进一步地,本发明实施例还公开一种存储介质,其上存储有计算机指令,计算机指令运行时执行上述图2至图3所示实施例中的图片文字定位方法技术方案。优选地,存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。存储介质可以包括ROM、RAM、磁盘或光盘等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

相关技术
  • 图片文字定位方法、装置、计算机设备和存储介质
  • 图片文字定位方法、装置、介质和计算机设备
技术分类

06120112858623