一种文字定位框的确定方法、装置、介质及电子设备

文献发布时间：2023-06-19 09:26:02

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种文字定位框的确定方法、装置、介质及电子设备。

背景技术

近年来，随着经济的快速发展，图像处理技术的应用越来越广泛。大到卫星图像识别，小到社区视频监控，都离不开对图像处理的技术的应用。

而在一些场景中，需要对图像中的文字进行定位，例如用来识别文本内容，或者确定票据是否符合规定等等。现有技术中，基于深度学习的图像识别技术一般包括文字定位、文字识别两个步骤。文字识别的效果依赖于文字定位结果的准确性，若文字定位结果的文本外接方框过大时，方框内的空白部分比例过大，会导致识别结果不够准确。目前采用的方法是对文字定位模型的数据进行重新标注，并对重新训练模型，但效率较低。

发明内容

本申请实施例提供一种文字定位框的确定方法、装置、介质及电子设备，可以利用连通域分析的方法对文字定位框进行确定，得到更加精确的坐标，以提高文字识别的准确率。并且，可以直接根据所确定的文字定位框位置，调整外接方框的坐标，使外接方框更加贴近文字本身，进而利用新的外接方框截取优化后的切片图像，作为下一步文字识别的输入，无需重新标注和重新训练的环节，提高了文字识别效率。

第一方面，本申请实施例提供了一种文字定位框的确定方法，所述方法包括：

获取切片图像，对所述切片图像进行预处理，得到预处理图像；

采用连通域分析算法，确定所述预处理图像的文字区域；

根据所述切片图像中各文字区域，确定文字定位框的位置。

进一步的，对所述切片图像进行预处理，得到预处理图像，包括：

对所述切片图像进行转灰度图处理，得到切片图像灰度图；以及，对所述切片图像进行均值滤波处理，得到均值滤波结果；

根据所述切片图像灰度图与所述均值滤波结果，确定重置颜色切片图像。

进一步的，在确定重置颜色切片图像之后，所述方法还包括：

对所述重置颜色切片图像进行二值化处理，得到二值化图像。

进一步的，所述二值化图像中，背景像素点设置为黑色，前景像素点设置为白色。

进一步的，采用连通域分析算法，确定所述预处理图像的文字区域，包括：

计算所述预处理图像中位置相邻的具有前景像素点像素值的连通区域，确定为所述切片图像的文字区域。

进一步的，各文字区域以矩形坐标数据的四个分量进行存储；其中：

第一分量为矩形的左上角横坐标；

第二分量为矩形的左上角纵坐标；

第三分量为矩形的宽度；

第四分量为矩形的高度。

进一步的，在计算所述预处理图像中位置相邻的具有前景像素点像素值的连通区域，确定为所述切片图像的文字区域之前，所述方法还包括：

判断各文字区域构成的文字排列方向是否为水平方向或为垂直方向；

若否，则根据各文字区域的中心点确定文字排列方向的斜率；

根据所述斜率进行方向校正，以得到水平方向或垂直方向的文字排列。

进一步的，根据所述切片图像中各文字区域，确定文字定位框的位置，包括：

确定各文字区域中的高度最高的文字区域；

根据所述高度最高的文字区域的上边界和下边界，确定文字定位框左上角纵坐标和文字定位框高度；

确定各文字区域中的最左侧文字区域和最右侧文字区域；

根据所述最左侧文字区域的左边界确定文字定位框左上角横坐标；以及，根据最右侧文字区域的右边界和最左侧文字区域的左边界确定文字定位框宽度。

进一步的，在根据所述切片图像中各文字区域，确定文字定位框的位置之后，所述方法还包括：

根据所确定的文字定位框，截取优化后的切片图像，作为文字识别的输入数据。

第二方面，本申请实施例提供了一种文字定位框的确定装置，所述装置包括：

预处理图像生成模块，用于获取切片图像，对所述切片图像进行预处理，得到预处理图像；

文字区域确定模块，用于采用连通域分析算法，确定所述预处理图像的文字区域；

文字定位框位置确定模块，用于根据所述切片图像中各文字区域，确定文字定位框的位置。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的文字定位框的确定方法。

第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的文字定位框的确定方法。

本申请实施例所提供的技术方案，获取切片图像，对所述切片图像进行预处理，得到预处理图像；采用连通域分析算法，确定所述预处理图像的文字区域；根据所述切片图像中各文字区域，确定文字定位框的位置。本申请所提供的技术方案，可以直接根据所确定的文字定位框位置，调整外接方框的坐标，使外接方框更加贴近文字本身，进而利用新的外接方框截取优化后的切片图像，作为下一步文字识别的输入。

附图说明

图1是本申请实施例提供的文字定位框的确定方法的流程图；

图2是本申请实施例提供的切片图像灰度图的示意图；

图3是本申请实施例提供的切片图像均值滤波结果的示意图；

图4是本申请实施例提供的重新设置颜色后的切片图像的示意图；

图5是本申请实施例提供的重新设置颜色后的切片图像的二值化效果图；

图6是本申请实施例提供的文字区域的示意图；

图7是本申请实施例提供的重新计算前的文字定位框的示意图；

图8是本申请实施例提供的重新计算后的文字定位框的示意图；

图9是本申请实施例提供的文字定位框的确定装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1是本申请实施例提供的文字定位框的确定方法的流程图，本实施例可适用于图像识别的情况，该方法可以由本申请实施例所提供的文字定位框的确定装置执行，该装置可以由软件和/或硬件的方式来实现，并可集成于智能终端等电子设备中。

本方案基于深度学习的图像识别技术一般包括文字定位、文字识别两个步骤。文字识别的效果依赖于文字定位结果的准确性，若文字定位结果(文本的外接方框)过大时，方框内的空白部分比例过大，会导致识别结果不够准确。目前采用的方法是对文字定位模型的数据进行重新标注，并对重新训练模型，但效率较低。本发明提供的技术方案，旨在利用连通域分析的方法对文字定位框进行优化，调整为更加精确的坐标，以提高文字识别的准确率，提高开发效率。

如图1所示，所述文字定位框的确定方法包括：

S110、获取切片图像，对所述切片图像进行预处理，得到预处理图像。

其中，切片图像可以是根据用户的需求，对原始图像进行切分后得到的图像，也可以是整张原始图像。其中切片图像中可以包含文字、图形以及其他内容。本方案中优选的是对于文字的识别。

本方案中对切片图像进行预处理，可以是降噪处理，例如可以采用滤波的方式消除图像中的噪声点，还可以包括去毛边处理。

图像滤波，可以是在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制。

本实施例中，可选的，对所述切片图像进行预处理，得到预处理图像，包括：

对所述切片图像进行转灰度图处理，得到切片图像灰度图；以及，对所述切片图像进行均值滤波处理，得到均值滤波结果；

根据所述切片图像灰度图与所述均值滤波结果，确定重置颜色切片图像。

首先，可以将切片图像转灰度图，即为把白色与黑色之间按对数关系分为若干等级，称为灰度。灰度分为256阶。用灰度表示的图像称作灰度图。灰度图的R、G、B色彩分量全部相等，像范围为0-255，白色为255，黑色为0。

将输入的切片图像从三通道彩色图像转为单通道灰度图，达到转黑白图像的目的。每个像素的颜色值范围为0-255。

图2是本申请实施例提供的切片图像灰度图的示意图。如图2所示，其中，像素点只有灰度值，灰度值不同，呈现的灰色深度也不同。

另外，可以同时进行均值滤波处理，即用每个像素和它周围像素计算出来的平均值替换图像中每个像素，达到图像平滑的目的。

对输入的切片图像进行均值滤波，即用每个像素和它周围像素计算出来的平均值替换图像中每个像素，得到均值滤波图，达到图像平滑的目的。每个像素的颜色值范围为0-255。

图3是本申请实施例提供的切片图像均值滤波结果的示意图。如图3所示，经过均值滤波处理后，图像中的像素点基本有原图像的背景颜色构成。

在得到切片图像灰度图与均值滤波结果之后，可以根据差值重新设置像素颜色。

对输入的切片图像的每个像素点，计算均值滤波后的颜色值C

若C

本方案可以以重新设置颜色后的切片图像作为后续步骤的输入数据。通过重新着色处理，可以更加凸显前景点和背景点的区别，以得到更加准确的输出结果。

在上述技术方案的基础上，可选的，在确定重置颜色切片图像之后，所述方法还包括：

对所述重置颜色切片图像进行二值化处理，得到二值化图像。

具体的，所述二值化图像中，背景像素点设置为黑色，前景像素点设置为白色。

图5是本申请实施例提供的重新设置颜色后的切片图像的二值化效果图。如图5所示，采用自适应阈值计算的算法，将上一步得到的切片图像进行二值化，达到将背景设为黑色，文字设为白色的效果。

通过采用二值化处理，可以得到更加清晰的文字前景点，突出和背景点的区别，有利于确定文字定位框的位置。

S120、采用连通域分析算法，确定所述预处理图像的文字区域。

其中，连通区域(Connected Component)一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。连通区域分析是指将图像中的各个连通区域找出并标记。

连通区域分析是一种在CVPR和图像分析处理的众多应用领域中较为常用和基本的方法。例如：OCR识别中字符分割提取(车牌识别、文本识别、字幕识别等)、视觉跟踪中的运动前景目标分割与提取(行人入侵检测、遗留物体检测、基于视觉的车辆检测与跟踪等)、医学图像处理(感兴趣目标区域提取)、等等。也就是说，在需要将前景目标提取出来以便后续进行处理的应用场景中都能够用到连通区域分析方法，通常连通区域分析处理的对象是一张二值化后的图像。

本方案中，可选的，采用连通域分析算法，确定所述预处理图像的文字区域，包括：

计算所述预处理图像中位置相邻的具有前景像素点像素值的连通区域，确定为所述切片图像的文字区域。

计算出上述图片中的连通区域，即图像中具有相同像素值且位置相邻的前景像素点组成的图像区域，体现为获取切片图像中的文字区域。由此，可以确定文字的具体位置。

本实施例中，可选的，各文字区域以矩形坐标数据的四个分量进行存储；

其中：

第一分量为矩形的左上角横坐标；

第二分量为矩形的左上角纵坐标；

第三分量为矩形的宽度；

第四分量为矩形的高度。

图6是本申请实施例提供的文字区域的示意图。如图6所示，每个区域的信息以矩形坐标形式存储：(x,y,w,h)分别表示矩形的左上角x坐标，左上角y坐标，宽度、高度。

通过这样的设置，可以准确的表示每个文字所占的位置，从而为确定文字定位框提供依据。

在上述技术方案的基础上，可选的，在计算所述预处理图像中位置相邻的具有前景像素点像素值的连通区域，确定为所述切片图像的文字区域之前，所述方法还包括：

判断各文字区域构成的文字排列方向是否为水平方向或为垂直方向；

若否，则根据各文字区域的中心点确定文字排列方向的斜率；

根据所述斜率进行方向校正，以得到水平方向或垂直方向的文字排列。

具体的，可以通过判断第一个文字和最后一个文字的中心位置的连线是否水平来确定是否处于方向，还可以确定是否处于垂直方向。确定方向之后，若为倾斜的，则可以根据两个或者更多个文字区域的中心点确定排列方向的斜率，并基于斜率进行校正。从而可以得到水平的或者垂直的文字排列方向，有利于确定面积最小的文字定位框的位置。

S130、根据所述切片图像中各文字区域，确定文字定位框的位置。

其中，可以通过设置一个初始的文字定位框，通过缩放，是文字定位框内部包含所有文字区域，又面积最小的，作为最终确定的文字定位框。进一步的可以读取该文字定位框的位置。

本方案中，可选的，根据所述切片图像中各文字区域，确定文字定位框的位置，包括：

确定各文字区域中的高度最高的文字区域；

根据所述高度最高的文字区域的上边界和下边界，确定文字定位框左上角纵坐标和文字定位框高度；

确定各文字区域中的最左侧文字区域和最右侧文字区域；

图7是本申请实施例提供的重新计算前的文字定位框的示意图。如图7所示，重新计算图像切片对应的文字定位框坐标，可以遍历上一步找到的每个连通区域，即文字区域。首先找到高度最高的区域(x

然后找到最左的区域(x

假设原有的图像切片对应的文字定位框坐标为(x

图8是本申请实施例提供的重新计算后的文字定位框的示意图。如图8所示，经过重新计算之后，文字定位框内部的文字区域占比明显增加，有助于提高文字识别的结果的准确性，并提高文字识别的计算速度。

本申请实施例所提供的技术方案，获取切片图像，对所述切片图像进行预处理，得到预处理图像；采用连通域分析算法，确定所述预处理图像的文字区域；根据所述切片图像中各文字区域，确定文字定位框的位置。本申请所提供的技术方案，可以在在原有的训练数据图像中，重新标注文字的位置，调整外接方框的坐标，使外接方框更加贴近文字本身。进而将上一步标注好的新数据与原来标注的数据共同作为训练数据，重新训练文字定位模型。

在上述各技术方案的基础上，可选的，根据所确定的文字定位框，截取优化后的切片图像，作为文字识别的输入数据。

其中，确定文字定位框之后，可以以文字定位框对切片图像进行截取。此处，截取的可以是原始的切片图像，也可以是经过二值化处理得到的切片图像，即优化后的切片图像。这样可以避免在截取后的文字识别过程中，重复重新着色和二值化等处理，从而可以提高效率。根据所确定的文字定位框，截取优化后的切片图像，直接作为下一步文字识别的输入数据，以提高识别准确率。

图9是本申请实施例提供的文字定位框的确定装置的结构示意图。如图9所示，所述文字定位框的确定装置包括：

预处理图像生成模块910，用于获取切片图像，对所述切片图像进行预处理，得到预处理图像；

文字区域确定模块920，用于采用连通域分析算法，确定所述预处理图像的文字区域；

文字定位框位置确定模块930，用于根据所述切片图像中各文字区域，确定文字定位框的位置。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种文字定位框的确定方法，该方法包括：

获取切片图像，对所述切片图像进行预处理，得到预处理图像；

采用连通域分析算法，确定所述预处理图像的文字区域；

根据所述切片图像中各文字区域，确定文字定位框的位置。

存储介质——任何的各种类型的存储器电子设备或存储电子设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同未知中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的文字定位框的确定操作，还可以执行本申请任意实施例所提供的文字定位框的确定方法中的相关操作。

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的文字定位框的确定装置。图10是本申请实施例提供的一种电子设备的结构示意图。如图10所示，本实施例提供了一种电子设备1000，其包括：一个或多个处理器1020；存储装置1010，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器1020执行，使得所述一个或多个处理器1020实现本申请实施例所提供的文字定位框的确定方法，该方法包括：

获取切片图像，对所述切片图像进行预处理，得到预处理图像；

采用连通域分析算法，确定所述预处理图像的文字区域；

根据所述切片图像中各文字区域，确定文字定位框的位置。

当然，本领域技术人员可以理解，处理器1020还实现本申请任意实施例所提供的文字定位框的确定方法的技术方案。

图10显示的电子设备1000仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，该电子设备1000包括处理器1020、存储装置1010、输入装置1030和输出装置1040；电子设备中处理器1020的数量可以是一个或多个，图10中以一个处理器1020为例；电子设备中的处理器1020、存储装置1010、输入装置1030和输出装置1040可以通过总线或其他方式连接，图10中以通过总线1050连接为例。

存储装置1010作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块单元，如本申请实施例中的文字定位框的确定方法对应的程序指令。

存储装置1010可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置1010可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置1010可进一步包括相对于处理器1020远程设置的存储器，这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1030可用于接收输入的数字、字符信息或语音信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏、扬声器等电子设备。

本申请实施例提供的电子设备，可以利用连通域分析的方法对文字定位框进行确定，得到更加精确的坐标，以提高文字识别的准确率。

上述实施例中提供的文字定位框的确定装置、存储介质及电子设备可执行本申请任意实施例所提供的文字定位框的确定方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的文字定位框的确定方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：胡雅伦;陆登强;万光明;车越云;
专利申请人：中国建设银行股份有限公司;

上一篇：提供神经网络的方法、计算装置和计算机可读存储介质
下一篇：基于IIC多主一从通信的密码认证自协商切换系统及方法