字符识别方法、装置及计算机可读存储介质

文献发布时间：2023-06-19 12:07:15

技术领域

本发明涉及图像处理技术领域，尤其涉及一种字符识别方法、装置及计算机可读存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指通过图像处理和模式识别技术对光学字符进行识别，并将光学字符翻译成计算机文字的过程。然而通过手机、平板电脑等设备对文件进行扫描得来的文件影像常常出现阴影遮挡文件的问题，文件影像较容易受到阴影干扰而导致OCR辨识率下降。

发明内容

有鉴于此，有必要提供一种字符识别方法、装置及计算机可读存储介质，可判断文档是否受到阴影影响以确定是否对文档进行阴影去除，可有效提升文档OCR辨识率。

本发明一实施方式提供一种字符识别方法，应用于电子装置，所述方法包括：

将待处理文档输入至阴影预测模型，得到所述待处理文档的阴影区域与阴影强度；

判断所述待处理文档的阴影区域与阴影强度是否影响到所述待处理文档的OCR辨识率；

若所述待处理文档的阴影区域与阴影强度影响到所述待处理文档的OCR辨识率，则将所述待处理文档输入至阴影去除模型，以对所述待处理文档进行阴影去除；

对经过阴影去除处理的待处理文档进行OCR识别；及

若所述待处理文档的阴影区域与阴影强度不会影响到所述待处理文档的OCR辨识率，则直接对所述待处理文档进行OCR识别。

优选地，所述阴影预测模型基于样本库中的多个样本文档训练得到。

优选地，所述样本库包括多张有阴影的样本文档及多张无阴影的样本文档，所述有阴影的样本文档中的阴影由预设阴影添加软件所添加。

优选地，所述阴影预测模型的训练步骤包括：

基于样本库中的多个样本文档对预设深度学习网络进行训练得到所述阴影预测模型，其中，每一所述样本文档的训练特征包括背景颜色、阴影区域及阴影强度。

优选地，所述基于样本库中的多个样本文档对预设深度学习网络进行训练得到所述阴影预测模型的步骤包括：

将所述样本库中的多个样本文档划分为训练集及测试集；

利用所述训练集对所述预设深度学习网络进行训练及利用所述测试集对训练得到的阴影预测模型进行测试；及

若所述测试集的测试结果符合预设测试要求，则结束对所述预设深度学习网络的训练。

优选地，所述方法还包括：

若所述测试集的测试结果不符合所述预设测试要求，则调整所述预设深度学习网络的参数；

利用所述训练集重新对调整后的预设深度学习网络进行训练及利用所述测试集对重新训练得到的阴影预测模型进行测试；

若重新训练得到的阴影预测模型的测试结果符合所述预设测试要求，则结束对所述预设深度学习网络的训练；及

若重新训练得到的阴影预测模型的测试结果不符合所述预设测试要求，则重复上述调整与训练步骤直至通过所述测试集得到的测试结果符合所述预设测试要求。

优选地，所述阴影去除模型的训练步骤包括：

将所述阴影预测模型提取得到的每一所述样本文档的背景颜色、阴影区域及阴影强度输入至预设阴影去除网络，以训练得到一中间处理模型；

利用所述中间处理模型对预设测试集中的多个测试文档进行阴影去除，并统计得到对经过阴影去除处理后的多个测试文档进行OCR识别的平均OCR辨识率，其中所述预设测试集中的多个测试文档为具有阴影的文档；

判断所述平均OCR辨识率是否大于预设辨识率；

若所述平均OCR辨识率大于所述预设辨识率，则将训练得到的中间处理模型作为所述阴影去除模型。

优选地，所述判断所述平均OCR辨识率是否大于预设辨识率的步骤之后还包括：

若所述平均OCR辨识率不大于所述预设辨识率，则调整所述预设阴影去除网络的网络参数；及

将所述阴影预测模型提取得到的每一所述样本文档的背景颜色、阴影区域及阴影强度重新输入至调整后的预设阴影去除网络，以重新训练得到一中间处理模型。

本发明一实施方式还提供一种字符识别装置，所述装置包括处理器及存储器，所述存储器上存储有若干计算机程序，所述处理器用于执行所述存储器中存储的计算机程序时实现上述字符识别方法的步骤。

本发明一实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，多条所述指令可被一个或者多个处理器执行，以实现上述字符识别方法的步骤。

与现有技术相比，上述字符识别方法、装置及计算机可读存储介质，可通过判断文档是否受到阴影影响以确定是否对文档进行阴影去除，采用阴影预测模型及阴影去除模型实现对文档上的阴影进行去除，可有效提升文档OCR辨识率。

附图说明

图1是本发明一实施方式的字符识别装置的功能模块图。

图2是本发明一实施方式的字符识别程序的功能模块图。

图3是本发明一实施方式的字符识别方法的步骤流程图。

主要元件符号说明

存储器 10

处理器 20

字符识别程序 30

字符识别装置 100

阴影预测模块 101

判断模块 102

阴影处理模块 103

识别模块 104

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

进一步需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

请参阅图1，为本发明字符识别装置较佳实施例的示意图。

所述字符识别装置100包括存储器10、处理器20及存储在所述存储器10中并可在所述处理器20上运行的字符识别程序30。所述处理器20执行所述字符识别程序30时实现字符识别方法实施例中的步骤，例如图3所示的步骤S300～S308。或者，所述处理器20执行所述字符识别程序30时实现字符识别程序实施例中各模块的功能，例如图2中的模块101～104。

所述字符识别程序30可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器10中，并由所述处理器20执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，所述指令段用于描述所述字符识别程序30在所述字符识别装置100中的执行过程。例如，所述字符识别程序30可以被分割成图2中的阴影预测模块101、判断模块102、阴影处理模块103及识别模块104。各模块具体功能参见下图2中各模块的功能。

本领域技术人员可以理解，所述示意图仅是字符识别装置100的示例，并不构成对字符识别装置100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述字符识别装置100还可以包括显示设备、总线等。

所称处理器20可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理器等，所述处理器20可以利用各种接口和总线连接字符识别装置100的各个部分。

所述存储器10可用于存储所述字符识别程序30和/或模块，所述处理器20通过运行或执行存储在所述存储器10内的计算机程序和/或模块，以及调用存储在存储器10内的数据，实现所述字符识别装置100的各种功能。所述存储器10可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

图2为本发明字符识别程序较佳实施例的功能模块图。

参阅图2所示，字符识别程序30可以包括阴影预测模块101、判断模块102、阴影处理模块103及识别模块104。在一实施方式中，上述模块可以为存储于所述存储器10中且可被所述处理器20调用执行的可程序化软件指令。可以理解的是，在其他实施方式中，上述模块也可为固化于所述处理器20中的程序指令或固件(firmware)。

所述阴影预测模块101用于将待处理文档输入至阴影预测模型，得到所述待处理文档的阴影区域与阴影强度。

在一实施方式中，所述待处理文档可以是指需进行字符识别的文档，所述待处理文档的获取方式可以是扫描、拍摄等，在此不作限定。

在一实施方式中，所述阴影预测模型可以基于样本库中的多个样本文档训练得到，比如，所述阴影预测模型由样本库中的多个样本文档对预设深度学习网络进行训练得到。所述阴影预测模型优选通过有监督学习方式训练得到，所述预设深度学习网络所采用的深度学习算法可以根据实际需求进行选定，比如可以采用卷积神经网络算法、循环神经网络算法、BP神经网络算法等。所述样本库可以是在模型训练前通过预设方式建立，比如可以通过人工收集/构建多张样本文档并存储在一指定的存储区域，以建立所述样本库。所述样本库中的样本文档优选包括多张有阴影的样本文档及多张无阴影的样本文档。

在一实施方式中，所述样本文档的训练特征可以包括背景颜色、阴影区域及阴影强度，也可以只包括阴影区域与阴影强度。当训练特征包括背景颜色、阴影区域及阴影强度时，训练得到的阴影预测模型可以用于提取文档的背景颜色、阴影区域及阴影强度。所述有阴影的样本文档中的阴影可以由预设阴影添加软件所添加，进而方便训练特征的提取。比如，模型构建人员可以利用预设阴影添加软件对多个文档进行阴影添加以得到多个有阴影的样本文档。该预设阴影添加软件可以根据实际使用需求进行选定，在此不作限定。

在一实施方式中，所述预设深度学习网络可以包括输入层、多个隐藏层及输出层。可以通过以下方式训练得到所述阴影预测模型：

a.随机将样本库中的多个样本文档划分为训练集及测试集，训练集的图片数量优选大于测试集的图片数量，比如将80％的样本文档划分为训练集，将20％的样本文档划分为测试集；

b.利用所述训练集对所述预设深度学习网络进行训练及利用所述测试集对训练得到的阴影预测模型进行测试；

c.根据测试集中的每一测试图片的测试结果统计得到一模型预测准确率；

d.判断所述模型预测准确率是否符合预设测试要求；

e.若所述模型预测准确率符合预设测试要求，则完成对所述预设深度学习网络的训练，当前训练得到的阴影预测模型满足使用需求；

f.若所述模型预测准确率不符合预设测试要求，则调整所述预设深度学习网络的参数，并利用所述训练集重新对调整后的预设深度学习网络进行训练，直到测试集验证得到的模型预测准确率符合所述预设测试要求。

举例而言，所述预设深度学习网络为神经网络，所述预设深度学习网络的参数可以包括总层数、每一层的神经元数等，所述调整预设深度学习网络的参数可以是调整所述预设深度学习网络的总层数和/或每一层的神经元数。

可以理解的，当所述模型预测准确率符合预设测试要求时，表明此模型预测效果较好，可满足使用需求，可以将当前训练得到的阴影预测模型作为最终使用的阴影预测模型；当所述模型预测准确率不符合预设测试要求时，表明此模型预测效果不好，需要进行改善，此时可以调整预设深度学习网络的参数，并利用所述训练集重新对调整后的预设深度学习网络进行训练，并再次利用所述测试集对重新训练得到的阴影预测模型进行测试得到一新的模型预测准确率，再判断该新的模型预测准确率是否符合预设测试要求，若符合，则表明重新训练得到的阴影预测模型预测效果较好，可满足使用需求，可以将重新训练得到的阴影预测模型作为最终使用的阴影预测模型；如果该新的模型预测准确率仍然不符合预设测试要求，需要再次重复上述调整与训练的步骤直至通过测试集得到的模型预测准确率符合预设测试要求。

在一实施方式中，所述预设测试要求可以根据实际使用需求进行设定，例如所述预设测试要求可以是测试准确率需达到95％。

在一实施方式中，当训练得到所述阴影预测模型后，所述阴影预测模块101可以将待处理文档输入至阴影预测模型，所述阴影预测模型可以输出所述待处理文档的阴影区域与阴影强度。

所述判断模块102用于判断所述待处理文档的阴影区域与阴影强度是否影响到所述待处理文档的OCR辨识率。

在一实施方式中，当所述阴影预测模块101得到所述待处理文档的阴影区域与阴影强度时，所述判断模块102可以将所述待处理文档的阴影区域与阴影强度分别与对应的基准阈值进行比较，来判断所述待处理文档的阴影区域与阴影强度是否影响到所述待处理文档的OCR辨识率。

举例而言，预先为阴影区域对应设置有第一基准阈值，为阴影强度对应设置有第二基准阈值。当所述待处理文档的阴影区域大于所述第一基准阈值且所述待处理文档的阴影强度大于所述第二基准阈值时，判断模块102判定所述待处理文档的阴影区域与阴影强度影响到所述待处理文档的OCR辨识率。所述第一基准阈值与所述第二基准阈值可以根据实际文字辨识需求进行设定，在此不作限定。

所述阴影处理模块103用于在所述待处理文档的阴影区域与阴影强度影响到所述待处理文档的OCR辨识率时，将所述待处理文档输入至阴影去除模型，以对所述待处理文档进行阴影去除。

在一实施方式中，当判断模块102判定所述待处理文档的阴影区域与阴影强度影响到所述待处理文档的OCR辨识率时，所述阴影处理模块103可以将所述待处理文档输入至阴影去除模型，以通过所述阴影去除模型对所述待处理文档进行阴影去除。

在一实施方式中，所述阴影去除模型可以通过以下方式训练得到：

a.利用所述阴影预测模型提取得到所述样本库中每一样本文档的背景颜色、阴影区域及阴影强度，可以只对有阴影的样本文档进行提取操作；

b.将所述阴影预测模型提取得到的每一所述样本文档的背景颜色、阴影区域及阴影强度输入至预设阴影去除网络，以训练得到一中间处理模型；

c.利用所述中间处理模型对预设测试集中的多个测试文档进行阴影去除，并统计得到对经过阴影处理后的多个测试文档进行OCR识别的的平均OCR辨识率；

d.判断所述平均OCR辨识率是否大于预设辨识率；

e.若所述平均OCR辨识率大于所述预设辨识率时，则可以将训练得到的中间处理模型作为所述阴影去除模型。

在一实施方式中，所述预设阴影去除网络可以是现有的基于深度学习算法训练得到的具有阴影去除功能的网络。所述中间处理模型的训练过程可以根据实际需求进行设定，比如可以参照阴影预测模型的训练方式进行训练，在此不再陈述。当训练得到中间处理模型，该中间处理模型可以基于文档的背景颜色、阴影区域及阴影强度进行阴影去除，或者基于文档的阴影区域及阴影强度进行阴影去除。

在一实施方式中，所述预设测试集中的多个测试文档优选为具有阴影的文档。该多个测试文档可以来源于所述样本库，也可以由预设阴影添加软件所添加。当训练得到中间模型时，可以利用所述中间处理模型对预设测试集中的多个测试文档进行阴影去除，并统计得到对经过阴影处理后的多个测试文档进行OCR识别的平均OCR辨识率。

可以理解的，当多个测试文档经过阴影去除后，可以统计得到每一经过阴影处理后的测试文档的OCR辨识率，再根据该多个OCR辨识率可以计算得到所述平均OCR辨识率。

在一实施方式中，所述预设辨识率可以根据实际使用需求进行设定，比如所述预设辨识率可以设定为字符识别准确性为98％。

在一实施方式中，当所述平均OCR辨识率大于所述预设辨识率时，表明此中间处理模型的阴影去除效果较好，可满足使用需求，可以将训练得到的中间处理模型作为阴影去除模型。

在一实施方式中，当所述平均OCR辨识率不大于所述预设辨识率时，表明此中间处理模型的阴影去除效果不太理想，经过阴影处理后的文档的OCR辨识率较低，此时，可以调整所述预设阴影去除网络的网络参数(比如预设阴影去除网络的隐藏层的层数)，再将所述阴影预测模型提取得到的每一所述样本文档的背景颜色、阴影区域及阴影强度重新输入至调整后的预设阴影去除网络进行重新训练，以重新训练得到一中间处理模型，再利用重新训练得到的中间处理模型对预设测试集中的多个测试文档进行阴影去除，以重新统计得到平均OCR辨识率。若重新统计得到的平均OCR辨识率大于所述预设辨识率时，则可以将重新训练得到的中间处理模型作为所述阴影去除模型。若重新统计得到的平均OCR辨识率仍然不大于所述预设辨识率时，则需要再次重复上述调整与训练的步骤直至重新统计得到的平均OCR辨识率大于所述预设辨识率。

在一实施方式中，通过所述阴影预测模型可以得到所述待处理文档的背景颜色、阴影区域与阴影强度，所述阴影去除模型可以根据所述待处理文档的背景颜色、阴影区域及阴影强度对所述待处理文档进行阴影去除。在本申请的其他实施方式中，所述阴影去除模型也可以根据所述待处理文档阴影区域及阴影强度对所述待处理文档进行阴影去除。

所述识别模块104用于对经过阴影去除处理的待处理文档进行OCR识别。

在一实施方式中，当所述待处理文档进行阴影去除处理后，所述识别模块104可以对处理后的待处理文档进行OCR识别，进而可提高待处理文档的OCR辨识率。

在一实施方式中，若判断模块102判断所述待处理文档的阴影区域与阴影强度不会影响到所述待处理文档的OCR辨识率，表明所述待处理文档无需进行阴影去除处理，所述识别模块104可以直接对所述待处理文档进行OCR识别。

请参阅图3，为本发明一实施例中字符识别方法的流程图。所述字符识别方法可应用于字符识别装置100中。根据不同的需求，所述流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S300，将待处理文档输入至阴影预测模型，得到所述待处理文档的阴影区域与阴影强度。

在一实施方式中，所述待处理文档可以是指需进行字符识别的文档，所述待处理文档的获取方式可以是扫描、拍摄等，在此不作限定。

在一实施方式中，所述预设深度学习网络可以包括输入层、多个隐藏层及输出层。可以通过以下方式训练得到所述阴影预测模型：

b.利用所述训练集对所述预设深度学习网络进行训练及利用所述测试集对训练得到的阴影预测模型进行测试；

c.根据测试集中的每一测试图片的测试结果统计得到一模型预测准确率；

d.判断所述模型预测准确率是否符合预设测试要求；

e.若所述模型预测准确率符合预设测试要求，则完成对所述预设深度学习网络的训练，当前训练得到的阴影预测模型满足使用需求；

在一实施方式中，所述预设测试要求可以根据实际使用需求进行设定，例如所述预设测试要求可以是测试准确率需达到95％。

在一实施方式中，当训练得到所述阴影预测模型后，可以将待处理文档输入至阴影预测模型，所述阴影预测模型可以输出所述待处理文档的阴影区域与阴影强度。

步骤S302，判断所述待处理文档的阴影区域与阴影强度是否影响到所述待处理文档的OCR辨识率。

在一实施方式中，当预测得到所述待处理文档的阴影区域与阴影强度时，可以将所述待处理文档的阴影区域与阴影强度分别与对应的基准阈值进行比较，来判断所述待处理文档的阴影区域与阴影强度是否影响到所述待处理文档的OCR辨识率。

举例而言，预先为阴影区域对应设置有第一基准阈值，为阴影强度对应设置有第二基准阈值。当所述待处理文档的阴影区域大于所述第一基准阈值且所述待处理文档的阴影强度大于所述第二基准阈值时，判定所述待处理文档的阴影区域与阴影强度影响到所述待处理文档的OCR辨识率。所述第一基准阈值与所述第二基准阈值可以根据实际文字辨识需求进行设定，在此不作限定。

步骤S304，若所述待处理文档的阴影区域与阴影强度影响到所述待处理文档的OCR辨识率时，则将所述待处理文档输入至阴影去除模型，以对所述待处理文档进行阴影去除。

在一实施方式中，当所述待处理文档的阴影区域与阴影强度影响到所述待处理文档的OCR辨识率时，可以将所述待处理文档输入至阴影去除模型，以通过所述阴影去除模型对所述待处理文档进行阴影去除。

在一实施方式中，所述阴影去除模型可以通过以下方式训练得到：

a.利用所述阴影预测模型提取得到所述样本库中每一样本文档的背景颜色、阴影区域及阴影强度，可以只对有阴影的样本文档进行提取操作；

b.将所述阴影预测模型提取得到的每一所述样本文档的背景颜色、阴影区域及阴影强度输入至预设阴影去除网络，以训练得到一中间处理模型；

c.利用所述中间处理模型对预设测试集中的多个测试文档进行阴影去除，并统计得到对经过阴影处理后的多个测试文档进行OCR识别的的平均OCR辨识率；

d.判断所述平均OCR辨识率是否大于预设辨识率；

e.若所述平均OCR辨识率大于所述预设辨识率时，则可以将训练得到的中间处理模型作为所述阴影去除模型。

在一实施方式中，所述预设辨识率可以根据实际使用需求进行设定，比如所述预设辨识率可以设定为字符识别准确性为98％。

步骤S306，对经过阴影去除处理的待处理文档进行OCR识别。

在一实施方式中，当所述待处理文档进行阴影去除处理后，可以对处理后的待处理文档进行OCR识别，进而可提高待处理文档的OCR辨识率。

步骤S308，若所述待处理文档的阴影区域与阴影强度不会影响到所述待处理文档的OCR辨识率，则直接对所述待处理文档进行OCR识别。

在一实施方式中，若所述待处理文档的阴影区域与阴影强度不会影响到所述待处理文档的OCR辨识率，表明所述待处理文档无需进行阴影去除处理，可以直接对所述待处理文档进行OCR识别。

上述字符识别方法、装置及计算机可读存储介质，可通过判断文档是否受到阴影影响以确定是否对文档进行阴影去除，采用阴影预测模型及阴影去除模型实现对文档上的阴影进行去除，可有效提升文档OCR辨识率。

对本领域的技术人员来说，可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整，而这些改变和调整都应属于本发明所公开的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：林昀宣;庄永裕;黄子魁;钟庭颢;许乃晟;王于青;黄俊翔;
专利申请人：深圳富泰宏精密工业有限公司;群迈通讯股份有限公司;