一种基于非矩阵窗方式的字符区域定位方法

文献发布时间：2023-06-19 10:48:02

技术领域

本发明属于金融票据字符识别领域，尤其涉及一种基于非矩阵窗方式的字符区域定位方法。

背景技术

在进行字符识别之前，需要在图像中对字符串的位置进行精确定位。采用深度学习方式可以很容易做到这一点，但是在嵌入式系统以及高实时性要求的条件下依然需要采用较传统方式，如票据受理设备中，实时对金融票据进行高效识别。这就为字符串区域的精确定位提出了要求。

常规方式是采用矩阵窗的方式，对矩阵窗读取过的区域与原图字符比对并进行标记。该种方式能够很好的解决字符区域定位的问题。然而该方式也存在如下三个问题：

1、在实时性要求较高的情况，代码运行效率偏低。窗口遍历过程中，需要对原始图像每个像素进行跳跃寻址遍历。在窗口遍历过程中，步长的大小非常重要，选择不好会出现重复标记区域（即原图信息重复遍历），或者丢失重要信息等问题。相对来说代码执行效率相对较低，处理时间较长。

2、一般来说，对于背景单一的原始图像利用矩阵窗读取原图的方式必然导致识别的字符区域范围变大的问题，需要进行二次定位，才能达到精确定位的效果。

直接采用矩形窗口读取的方式获得的标记区域包括真实的字符区域（位于标记区域的左上部分），以及冗余信息（位于标记区域的右下部分），主要是由于矩形窗口过宽导致，其可以达到选取有效信息区域的目的，却无法实现对有效信息区域边界的精准定位。因此需要对标记区域进行二次精确定位，去除噪声信息。

3、对于冠字号区域背景单一，但在距离冠字号区域近的地方存在其他强干扰信息的情况下，标记结果会导致标记区域更加扩大。从而要识别的字符带有更多噪声信息，降低识别效果。

如图1--图3所示，利用矩阵窗口读取标定区域时，定位的冠字号区域明显含有冗余信息。要想得到更加精确的区域，需要对标记区域进行二次精确定位，这不仅增加了处理的步骤和代码复杂度；同时，由于图像在内存中是连续存储的，矩阵窗口读取方式每次都要利用跳变寻址，也会大大增加处理时间。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于非矩阵窗方式的字符区域定位方法，不仅能缩短执行时间，且可有效去除冠字号周围干扰信息的影响，避免对标记区域进行二次精确定位。

为实现本发明的目的所采用的技术方案是：

一种基于非矩阵窗方式的字符区域定位方法，其特征在于，包括如下步骤：

步骤一：设定一个连续的线性窗；

步骤二：用线性窗作为处理原图的最小选取单元，对原图进行读取处理，读取步长为1个像素，若线性窗所覆盖的区域内存在有效信息，则将线性窗对应的原图区域像素值设为0，原图其他区域像素值不变；

步骤三：读取完成后，对非0区域的像素置均设为255，则得到了冠字号区域的二值化图像，所述二值化图像中0值区域即为字符区域的冠字号最小范围。

作为优选的，线性窗的长度是计算机一次读取单元的整数倍。

作为优选的，有效信息指的是冠字号信息，相对于有效信息的其他部分为图像无冠字号的背景区域。

作为优选的，通过阈值比较法判断线性窗所覆盖的区域内是否存在有效信息。

作为优选的，采用顺序读取方式，读取方向从左至右，再从上到下。

作为优选的，假设线性窗的长度为n，则读取同一行时，相邻读取两步之间重复读取的原图长度为n-1。

作为优选的，步骤二中，对原图进行读取处理的方法为：采用线性窗进行整体读取，再分成若干份同时进行识别处理，识别份数等于线性窗长度是一次读取单元的整数倍数。

本发明的有益效果在于：

1.本发明将传统矩阵按照存储方式拉伸，并配合存储器寻址特性整体读取分别处理。相比于矩阵窗方式在高度上缩小了标记的多余区域，为精确标定字符串区域节约了二次定位的步骤。

2.无需进行二次再提取，采用更加符合计算机读取单元特性，且顺序寻址的方式，不仅能直接标定字符串有效区域，还能极大的压缩寻址及读写时间。

附图说明

图1是待处理的示意原图。

图2是采用矩阵窗方式定位的字符串位置。

图3是采用矩阵窗方式的定位结果。

图4是采用本发明的改进后的非矩阵窗方式定位的字符串位置。

图5是采用本发明的改进后的非矩阵窗方式的定位结果。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的技术方案主要是将传统的矩阵窗按照符合计算机存储的方式拉伸，并配合存储器寻址特性：整体读取，分别处理。在窗口读取过程中，会读取所有窗口框选信息，但是单位窗口的信息会被拆分为若干个部分，并对若干个部分分别进行判断处理。

其具体实现方法是：

步骤一：设定一个连续的线性窗；线性窗的长度根据实际问题设定，但是必须是计算机一次读取单元的整数倍。如1*10向量。满足数据类型是一次读取单元的整数倍，如此可以加快读取速度。比如采用4个像素单位为一个读取单元的处理方式，根据实际冠字号的间隔及区域大小，最终选取线性窗大小为五个读取单元，即一次处理20个像素的方式，既能保证处理效果，又能保证处理速度最优。

CPU一次读写单元是按照1，2，4，8个字节（像素）进行的。对于矩形窗来说，只能单字节读取，而线性窗则可以根据实际需要选择不同的最小读取单元，这样能够充分发挥CPU的运算效能从而提高效率。本专利选取的是以一次读取4个字节（像素）的处理方式进行的。

步骤二：用线性窗作为处理原图的最小选取单元对原图进行读取处理，读取步长为1个像素，通过阈值比较法判断线性窗所覆盖的区域内是否存在有效信息。阈值比较法是用于图像二值化处理的，设定一个阈值，对大于等于阈值的数设定为255，对小于阈值的数设定为0，从而实现对图像的二值化处理，二值化阈值的选取方法有很多，双峰法、迭代法等，可以选用现有技术中的方法进行阈值的选取。

若线性窗所覆盖的区域内存在有效信息，则将线性窗对应的原图区域像素值设为0，原图其他区域像素值不变；读取完成后可以获得冠字号有效信息区域，同时也可以很好的排除干扰区域信息。有效信息指的是冠字号信息，相对于有效信息的其他部分为图像无冠字号的背景区域。

假设线性窗的长度为n，则读取同一行时，相邻读取两步之间重复读取的原图长度为（n-1）。仍以一次处理20个像素的方式来具体说明，即线性窗的长度为20个像素，则顺序读取时，同一行内，下一步与本步重复读取识别的长度为19个像素。不需要跳变寻址，只需要顺序读取即可，降低了处理时间。

步骤三：采用顺序读取方式，读取方向从左至右，再从上到下，读取完成后，对非0区域的像素置均设为255，则得到了冠字号区域的二值化图像，所述二值化图像中0值区域即为字符区域的最小范围。

为了进一步增加处理效率，采用线性窗进行整体读取后，再分成若干份同时进行识别处理，份数等于线性窗长度是一次读取单元的整数倍数。仍以采用4个像素单位为一个读取单元的处理方式，一次处理20个像素的方式来具体说明，一次性读取了20个像素后，分成5个部分同时进行识别处理。

如图4--图5所示，是利用此方案完成一次精确定位的处理结果。相较于矩阵窗读取方式的结果，可明显看到标记区域含有有效信息，且高度缩小，冗余信息减小，无需进行二次精确定位。同时采取顺序处理方式，极大的减小了寻址与读写时间。

从问题优化的角度，线性窗其更符合实际问题的需要，并且在处理的精度和速度方面获得了巨大的效果提升。具体如下：

精度提升方面：

通常图像处理加窗普遍采用矩阵窗，如3*3或者5*5等。其通用性在于已经是矩阵窗的最小单元，因此使用十分普及。该方式适用于对图像边界区域要求不高的，且注重内容信息的情况。而对于既要求注重内容信息又对有效信息区域边界精准要求的情况，就存在不利的问题。其直接表现为，区域边界的定位需要二次定位才能达到精准效果。因此，线性窗的优势就发挥出来。只需要一次定位就可以准确确定有效区域的边界，且精度很高。

处理效率提升方面：

1.虽然矩形窗，如3*3在数量上，比前文提到的20个像素的数量少。但是矩阵窗是二维结构，计算机在执行过程中需要频繁的行列寻址切换，相比于线性窗的顺序寻址，执行效率要慢的多。

2.在图像处理中，每一个处理步骤的执行都必然存在图像的遍历处理。矩阵窗的方式需要二次定位处理，在实际运行中则需要增加很多的遍历处理次数，执行效率比线性窗方式慢很多。

3. 现有技术中矩阵窗方式普遍大小为3*3，5*5等。这意味着按照矩阵窗方式处理，其处理时间至少为九个像素所用时间。由于计算机的存储结构适合1，4，5，8个像素为一个读取单元。因此以4个像素为一个处理单元进行处理，对于20个像素的线性窗的处理速度，相当于仅需要5个像素的处理时间即可完成，比普遍采用的3*3矩阵窗的9个像素处理速度要快。

4.经过实际测定，采用线性窗方案的字符定位处理效果上，其处理时间要比矩阵窗方式提升2-3ms。对于实时性要求高的领域，该时间可谓大幅提升。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：郝晨;刘贯伟;张云峰;滕飞;江浩然;
专利申请人：恒银金融科技股份有限公司;

上一篇：卫星授时三轴飞行模拟转台与被测惯导系统时间同步方法
下一篇：一种计算钞票偏转角度的方法