导航：首页> 一般的物理或化学的方法或装置>一种基于深度切割识别巨幅碑帖拓印文字的方法

一种基于深度切割识别巨幅碑帖拓印文字的方法

文献发布时间：2023-06-19 16:08:01

技术领域

本发明涉及一种针对巨幅碑帖拓印图片进行深度切割，并进行识别拓印文字的方法，运用于碑帖数字化文字提取业务需要。其特征包括：根据深度层级动态深度切割碑帖拓印图片分块；为切割出来的分块分别进行OCR文字识别提取；对OCR文字提取结果递归向上进行合并，同时完成坐标转换；对合并OCR结果进行去重清洗。

背景技术

在OCR识别文字提取的应用场景下，通常采用机器深度学习，为特定的OCR算法训练出识别模型，然后使用模型进行OCR相关服务。但由于机器硬件性能和语料量级限制，目前行业内相关解决方案在训练模型时，喂入的检测和识别语料有文字上限，大多为25字，如此以来如果有如碑帖拓印这种多字巨幅影像传入识别，均会超出OCR文字识别上限，无法返回识别结果，则普通OCR识别模型无法处理碑帖拓印此类图像，碑帖拓印影像，文字过多、像素过大，超出普通OCR识别模型的识别上限，会造成内存溢出异常，无法正常返回识别结果。

发明内容

本发明提供了一种基于深度切割识别巨幅碑帖拓印文字的方法，解决了现有技术中的技术问题。

本发明解决上述技术问题的方案如下：一种基于深度切割识别巨幅碑帖拓印文字的方法，该方法包括如下：

流程1：OCR识别请求，传入碑帖拓印影像、切割深度、单字宽度等参数，对碑帖拓印影像进行切割；

流程2：将流程1处理的切割图像文件分别进行OCR文字识别提取；

流程3：将流程2获得的OCR识别结果由最底层向上递归进行坐标转换及数据合并；

流程4：将流程3的处理结果进行去重处理。如果在识别图像中央有文字，则切出来的4份等分方格的边缘与十字方格的文字会有重合，所以需要进行文字去重处理。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，流程1中所述对碑帖拓印影像进行切割的方法其流程算法步骤如下：

步骤1：以左上角为初始原点坐标点，获取影像原始四个顶点坐标。可得订单坐标分别为(x1,y1)、(x2,y2)、(x1,y2)、(x2,y2)。此时可得图像的宽width＝x2–x1,图像的高height＝y2–y1；

步骤2：将图片等分切成四块，获得中点(x3，y3)坐标点，同时得到四个切片，p1，p2，p3，p4。此时x3＝width/2,y3＝height/2；

步骤3：将文字宽度参数除以2，获得偏移量m＝fontwidth/2,然后以中点(x3，y3)分别像上、下、左、右各自偏移一个m的位移量，获得p5、p6、p7、p8四个矩形方格，切割此方格的目的是防止恰好图片的中线处有文字被切开而导致漏字，因此以一个文字宽度为范围去取图像中间四个矩形方条。此时新增关键坐标点有(x4，y1)、(x1,y4)、(x2，y5)、(x5，y2)，其中x4＝x3–m、y4＝y3–m、x5＝x3+m、y5＝y3+m。

步骤4：以上是单张图片切割后的资源文件，切割完成即可将各个方格分别传入OCR文字提取服务获得对应方格内的文字，本发明不限OCR识别框架及模型，任意基于深度学习训练的OCR文字识别及提取模型即可使用。如果切割后的方格依然过大，调整切割深度，将p1、p2、p3、p4方格按此方式再切割一轮，并可调整切割深度直至方格适合做OCR文字提取即可。

进一步，流程2中所述切割图像文件的数量计算公式为：

picNum＝∑

进一步，流程2中所述进行OCR文字识别提取的OCR识别方式是以每个最底层切割深度方格切割的8块切片为单位进行识别，分别获得8个独立识别结果。

进一步，再将所述8个独立识别结果进行相对原图的坐标转换。

进一步，所述坐标转换规则如下：

p1方格所有文字坐标保持不变；

p2方格所有文字坐标x轴加上x3值偏移量，y轴不变；

p3方格所有文字坐标x轴不变，y轴加上y3值偏移量；

p4方格所有文字坐标x轴加上x3值偏移量，y轴加上y3值偏移量；

p5方格所有文字坐标x轴加上x4值偏移量，y轴保持不变；

p6方格所有文字坐标x轴不变，y轴加上y4值偏移量；

p7方格所有文字坐标x轴加上x5值偏移量，y轴加上y4偏移量；

p8方格所有文字坐标x轴加上x4值偏移量，y轴加上y5偏移量。

进一步，将所述的8个独立坐标转换完成后将结果合并，其识别结果合并函数为：

sublmageOcr＝merge_fn(p1_rs，p2_rs，p3_rs，p4_rs，p5_rs，p6_rs，p7_rs，p8_rs)。

进一步，流程3中所述将流程2获得的OCR识别结果由最底层向上递归进行坐标转换及数据合并时，在深度切割的情况下，每个切片都为其最底层方格的切割文件，可能归属其父级的分块区间，因此将该区块内结果集的每个文字坐标加上该区块内左上角顶点坐标偏移量即可完成坐标转换。

进一步，在流程4中所述文字去重处理的方法为：遍历所有识别结果，两两比较，取文字左上角顶点x轴和y轴差值的绝对值，如果差值小于文字偏移系数m的值，则判定文字结果重复，移除坐标数字较大的值，依次比较并去重，获得OCR最终识别结果。

本发明的有益效果是：本发明提供了一种基于深度切割识别巨幅碑帖拓印文字的方法，具有以下优点：

在模拟实验环境中，使用像素宽度大于7000px、高度大于10000px，包含文字大于3000的碑帖拓印影像5张进行OCR识别，OCR服务由PaddleOCR框架搭建而成，在不使用本发明方法情况下识别，5张影像均无任何识别结果，空值数据返回。同时更换商用OCR服务(阿里云OCR识别、华为OCR识别、书同文OCR识别)实验测试，依然无结果返回。在引入本发明方法后，5张碑帖拓印影像能得到OCR文字提取结果，文字获取准确率大于90％，改善效果明显。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一实施例提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的图像初始化信息获取图；

图2为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的图像切割四格图；

图3为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的切割十字方格图；

图4为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法中当切割深度cutLevel＝2，深度切割示意图；

图5为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的切片数量计算公式；

图6为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的OCR识别获取图；

图7为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的识别结果合并函数图；

图8为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的OCR识别结果向上合并图；

图9为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的坐标转换及合并函数示意图；

图10为图1提供的一种基于深度切割识别巨幅碑帖拓印文字的方法的重复数据示意图。

具体实施方式

以下结合附图1-10对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1-10所示，本发明提供了一种基于深度切割识别巨幅碑帖拓印文字的方法，该方法包括如下：

流程1：OCR识别请求，传入碑帖拓印影像、切割深度、单字宽度等参数，对碑帖拓印影像进行切割；

流程2：将流程1处理的切割图像文件分别进行OCR文字识别提取；

流程3：将流程2获得的OCR识别结果由最底层向上递归进行坐标转换及数据合并；

优选的，流程1中对碑帖拓印影像进行切割的方法其流程算法步骤如下：

步骤2：将图片等分切成四块，获得中点(x3，y3)坐标点，同时得到四个切片，p1，p2，p3，p4。此时x3＝width/2,y3＝height/2；

优选的，流程2中切割图像文件的数量计算公式为：

picNum＝∑

优选的，流程2中进行OCR文字识别提取的OCR识别方式是以每个最底层切割深度方格切割的8块切片为单位进行识别，分别获得8个独立识别结果。

优选的，再将8个独立识别结果进行相对原图的坐标转换。

优选的，坐标转换规则如下：

p1方格所有文字坐标保持不变；

p2方格所有文字坐标x轴加上x3值偏移量，y轴不变；

p3方格所有文字坐标x轴不变，y轴加上y3值偏移量；

p4方格所有文字坐标x轴加上x3值偏移量，y轴加上y3值偏移量；

p5方格所有文字坐标x轴加上x4值偏移量，y轴保持不变；

p6方格所有文字坐标x轴不变，y轴加上y4值偏移量；

p7方格所有文字坐标x轴加上x5值偏移量，y轴加上y4偏移量；

p8方格所有文字坐标x轴加上x4值偏移量，y轴加上y5偏移量。

优选的，将的8个独立坐标转换完成后将结果合并，其识别结果合并函数为：

sublmageOcr＝merge_fn(p1_rs，p2_rs，p3_rs，p4_rs，p5_rs，p6_rs，p7_rs，p8_rs)。

优选的，流程3中将流程2获得的OCR识别结果由最底层向上递归进行坐标转换及数据合并时，在深度切割的情况下，每个切片都为其最底层方格的切割文件，可能归属其父级的分块区间，因此将该区块内结果集的每个文字坐标加上该区块内左上角顶点坐标偏移量即可完成坐标转换。

优选的，在流程4中文字去重处理的方法为：遍历所有识别结果，两两比较，取文字左上角顶点x轴和y轴差值的绝对值，如果差值小于文字偏移系数m的值，则判定文字结果重复，移除坐标数字较大的值，依次比较并去重，获得OCR最终识别结果。

以上所述，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上所述而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：黄刚;张亮;任红辉;刘晓峰;
专利申请人：宁波市天一阁博物院;