导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>一种文本识别方法、文本识别装置及终端设备

一种文本识别方法、文本识别装置及终端设备

文献发布时间：2023-06-19 10:38:35

技术领域

本申请属于人工智能技术领域，尤其涉及一种文本识别方法、文本识别装置、终端设备及计算机可读存储介质。

背景技术

目前，在政法领域中存在各种各样的文本图像，例如，文本图像的文本区域存在断笔、粘连、阴影和污点等噪声；由于纸张的厚薄、光洁度和印刷质量造成文本区域的文字的畸变以及文本行的倾斜等；由于政法领域的文本图像的特殊性，文本区域存在指纹、印章和邮戳等。相关技术中，对政法领域的文本区域进行文字识别的难度大，且识别的准确度低。

发明内容

有鉴于此，本申请提供了一种文本识别方法、文本识别装置、终端设备及计算机可读存储介质，可以实现对政法领域的文本图像的文字识别，且识别的准确度高。

第一方面，本申请提供了一种文本识别方法，包括：

获取待识别的文本图像，上述文本图像中包含噪声信息；

利用训练后的第一神经网络模型消除上述噪声信息的干扰并分割上述文本图像，得到上述文本图像的文本区域；

利用训练后的第二神经网络模型对上述文本区域进行文字识别，得到文字识别结果；

根据上述文本图像和上述文字识别结果生成文件。

第二方面，本申请提供了一种文本识别装置，包括：

获取单元，用于获取待识别的文本图像，上述文本图像中包含噪声信息；

分割单元，用于利用训练后的第一神经网络模型消除上述噪声信息的干扰并分割上述文本图像，得到上述文本图像的文本区域；

识别单元，用于利用训练后的第二神经网络模型对上述文本区域进行文字识别，得到文字识别结果；

生成单元，用于根据上述文本图像和上述文字识别结果生成文件。

第三方面，本申请提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面所提供的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面所提供的方法的步骤。

由上可见，本申请方案中，首先获取待识别的文本图像，上述文本图像中包含噪声信息，然后利用训练后的第一神经网络模型消除上述噪声信息的干扰并分割上述文本图像，得到上述文本图像的文本区域，利用训练后的第二神经网络模型对上述文本区域进行文字识别，得到文字识别结果，最后根据上述文本图像和上述文字识别结果生成文件。本申请方案通过第一神经网络模型消除文本图像的噪声的干扰，精确地分割得到文本区域，然后利用第二神经网络模型对文本区域进行文字识别，由于消除了噪声的干扰，因此得到的文字识别结果较为准确，从而实现了对政法领域的文本图像的文字识别，且识别的准确度高。可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本识别方法的流程示意图；

图2是本申请实施例提供的文本识别装置的结构框图；

图3是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1示出了本申请实施例提供的一种文本识别方法的流程图，详述如下：

步骤101，获取待识别的文本图像。

在本申请实施例中，待识别的文本图像可以由用户选定，当用户需要对某一文本图像进行文字识别时，即可将该文本图像选定为待识别的文本图像。该文本图像可以是终端设备通过摄像头拍摄得到的图像，或者，该文本图像也可以是从终端设备内部获取的图像(例如，终端设备的相册的图像)。示例地，用户可以通过终端设备对政法领域的印刷文件进行拍摄，得到文本图像。其中，文本图像中包含噪声信息，比如指纹、印章及邮戳等。

步骤102，利用训练后的第一神经网络模型消除噪声信息的干扰并分割文本图像，得到文本图像的文本区域。

在本申请实施例中，第一神经网络模型可以是Progressive Scale ExpansionNetwork(PSENet)网络模型。PSENet网络模型可以消除文本图像中的噪声信息的干扰，对文本图像进行分割，得到文本图像的文本区域，其中，文本图像的文本区域的数量可能是一个，也可能是两个以上，具体由文本图像的内容决定。在使用第一神经网络模型之前，需要对第一神经网络模型进行训练。用于训练第一神经网络模型的训练样本包括文本行分割数据集(含有各类现实场景中的文字)和已标注的政法文书数据集(含有大量标准制式的文书文本行、密集排布的文书文本行及数字文本行)。可选地，上述标注的方式可以是人工标注，也可以是通过OpenCV进行预标注，此处不作限定。需要说明的是，在将训练样本输入到第一神经网络模型之前，还需要对训练样本进行预处理，具体地，可以将训练样本转换为符合第一神经网络模型的输入格式的输入图像，然后将该输入图像输入到第一神经网络模型中以训练该第一神经网络模型。

可选地，上述步骤102可以具体包括：

A1、利用第一神经网络模型消除噪声信息的干扰，并对文本图像进行文本框检测，得到文本区域的位置信息；

A2、根据位置信息从文本图像中提取文本区域。

在本申请实施例中，可以将文本图像输入至训练后的第一神经网络模型，第一神经网络模型可以消除噪声信息的干扰，对文本图像进行文本框检测。第一神经网络模型可以输出文本图像的文本区域的位置信息。该位置信息用于指示文本区域在文本图像中所在的位置，因此，根据该位置信息，可以从文本图像中提取文本区域。

可选地，文本区域可以是矩形，在此基础上，位置信息可以包括文本区域的两个顶点的坐标，上述步骤A2可以具体包括：

根据两个顶点的坐标，确定文本区域的所有顶点的坐标；

根据所有顶点的坐标从文本图像中提取文本区域。

其中，两个顶点可以是文本区域的左上角顶点和右下角顶点，根据矩形的形状特征，在已知左上角顶点的坐标和右下角顶点的坐标的情况下，可以确定文本区域的左下角顶点的坐标和文本区域的右上角顶点的坐标；或者，两个顶点也可以是文本区域的右上角顶点和左下角顶点，根据矩形的形状特征，在已知右上角顶点的坐标和左下角顶点的坐标的情况下，可以确定文本区域的左上角顶点的坐标和文本区域的右下角顶点的坐标。根据文本区域的所有顶点(包括左上角顶点、右上角顶点、左下角顶点和右下角顶点)的坐标，可以在文本图像中确定一个矩形，该矩形即为文本区域。

步骤103，利用训练后的第二神经网络模型对文本区域进行文字识别，得到文字识别结果。

在本申请实施例中，第二神经网络模型可以是Convolutional Recurrent NeuralNetwork(CRNN)网络模型。文本区域包括文本内容，利用CRNN网络模型，可以对文本区域进行文字识别，得到文字识别结果。在使用第二神经网络模型之前，需要对第二神经网络模型进行训练。用于训练第二神经网络模型的训练样本包括印刷体数据集(含有多种字体风格的文字)和政法文书数据集(含有多种文书制式的文字)。在将训练样本输入到第二神经网络模型之前，还需要对训练样本进行预处理，具体地，可以对训练样本进行增强处理，得到增强后的训练样本，然后将增强后的训练样本输入到第二神经网络模型中以训练该第二神经网络模型。其中，增强处理可以包括但不限于旋转、扭曲变换、加噪点以及模糊等。

可选地，上述步骤103可以具体包括：

利用第二神经网络模型对文本区域进行文字识别，得到文本区域对应的文字在预设字典中的索引位置；

根据索引位置从预设字典中获得文本区域对应的文字。

在本申请实施例中，可以将文本区域输入至第二神经网络模型，第二神经网络模型可以对文本区域进行文字识别。具体地，文本区域输入至第二神经网络模型后，第二神经网络模型可以输出文本区域对应的文字在预设字典中的索引位置。其中，预设字典包括至少一个预先收集的字符，各个字符在预设字典中按顺序排列，每个字符均对应设置有索引位置，该索引位置用于指示对应的字符在预设字典中的位置。终端设备根据索引位置，可以从预设字典中获得文本区域对应的文字。例如，第二神经网络模型输出文本区域对应的文字的索引位置为A，在预设字典中，索引位置A指示的位置上的文字是“我”，则可以获得文本区域对应的位置为“我”。

步骤104，根据文本图像和文字识别结果生成文件。

在本申请实施例中，得到文字识别结果后，可以根据文本图像和文字识别结果生成文件，该文件包括文本图像和文字识别结果。因此，该文件在保留文本图像的内容的同时，还为用户提供了文字识别结果，以便根据文字识别结果更好地理解文本图像的内容。

可选地，上述步骤104可以具体包括：

B1、根据文本区域的位置信息，确定文字识别结果在文件中对应的目标位置；

B2、根据目标位置、文本图像和文字识别结果生成文件。

在本申请实施例中，文字识别结果包括文本区域对应的文字。根据文本区域的位置信息，可以确定文本区域对应的文字在文件中对应的目标位置。也即是说，文本区域对应的文字在文件中的目标位置与该文字显示在文本图像中的位置相同。例如，文字A显示在文本图像的中间位置，那么，文字A在文件中的目标位置也应该为中间位置。在确定了文本区域对应的文字在文件中对应的目标位置后，即可根据目标位置、文本图像和文字识别结果生成文件。

可选地，文件可以是双层可携带文档格式(Portable Document Format，PDF)文件，基于此，上述步骤B2可以具体包括：

将文本图像作为双层PDF文件的上层，文字识别结果作为双层PDF文件的下层，生成双层PDF文件，文字识别结果位于双层PDF文件的目标位置。

其中，双层PDF文件是一种具有多层结构的PDF格式文件，是PDF文件衍生的一种文件。双层PDF文件的上层是图像层，下层是文本层，且文本层与图像层的位置上下一一对应。本申请实施例中可以将文本图像作为双层PDF文件的上层，即图像层，将文字识别结果作为双层PDF文件的下层，即文本层，以生成包括文本图像和文字识别结果的双层PDF文件。其中，文字识别结果在双层PDF文件的文本层中的位置即为上述步骤B1所确定的目标位置。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图2示出了本申请实施例提供的一种文本识别装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

该文本识别装置200包括：

获取单元201，用于获取待识别的文本图像，上述文本图像中包含噪声信息；

分割单元202，用于利用训练后的第一神经网络模型消除上述噪声信息的干扰并分割上述文本图像，得到上述文本图像的文本区域；

识别单元203，用于利用训练后的第二神经网络模型对上述文本区域进行文字识别，得到文字识别结果；

生成单元204，用于根据上述文本图像和上述文字识别结果生成文件。

可选地，上述分割单元202包括：

文本框检测子单元，用于利用上述第一神经网络模型消除上述噪声信息的干扰，并对上述文本图像进行文本框检测，得到上述文本区域的位置信息；

区域提取子单元，用于根据上述位置信息从上述文本图像中提取上述文本区域。

可选地，上述文本区域为矩形，上述位置信息包括上述文本区域的两个顶点的坐标，上述区域提取子单元包括：

坐标确定子单元，用于根据上述两个顶点的坐标，确定上述文本区域的所有顶点的坐标；

文本区域提取子单元，用于根据上述所有顶点的坐标从上述文本图像中提取上述文本区域。

可选地，上述生成单元204包括：

位置确定子单元，用于根据上述文本区域的位置信息，确定上述文字识别结果在上述文件中对应的目标位置；

文件生成子单元，用于根据上述目标位置、上述文本图像和上述文字识别结果生成上述文件。

可选地，上述文件为双层PDF文件，上述文件生成子单元，具体用于将上述文本图像作为上述双层PDF文件的上层，上述文字识别结果作为上述双层PDF文件的下层，生成上述双层PDF文件，上述文字识别结果位于上述双层PDF文件的上述目标位置。

可选地，上述识别单元203包括：

文字识别子单元，用于利用上述第二神经网络模型对上述文本区域进行文字识别，得到上述文本区域对应的文字在预设字典中的索引位置；

文字获得子单元，用于根据上述索引位置从上述预设字典中获得上述文本区域对应的文字。

可选地，上述第一神经网络模型为PSENet网络模型，上述第二神经网络模型为CRNN网络模型。

图3为本申请一实施例提供的终端设备的结构示意图。如图3所示，该实施例的终端设备3包括：至少一个处理器30(图3中仅示出一个)、存储器31以及存储在上述存储器31中并可在上述至少一个处理器30上运行的计算机程序32，上述处理器30执行上述计算机程序32时实现以下步骤：

获取待识别的文本图像，上述文本图像中包含噪声信息；

利用训练后的第一神经网络模型消除上述噪声信息的干扰并分割上述文本图像，得到上述文本图像的文本区域；

利用训练后的第二神经网络模型对上述文本区域进行文字识别，得到文字识别结果；

根据上述文本图像和上述文字识别结果生成文件。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，上述利用训练后的第一神经网络模型消除上述噪声信息的干扰并分割上述文本图像，得到上述文本图像的文本区域，包括：

利用上述第一神经网络模型消除上述噪声信息的干扰，并对上述文本图像进行文本框检测，得到上述文本区域的位置信息；

根据上述位置信息从上述文本图像中提取上述文本区域。

在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述文本区域为矩形，上述位置信息包括上述文本区域的两个顶点的坐标，上述根据上述位置信息从上述文本图像中提取上述文本区域，包括：

根据上述两个顶点的坐标，确定上述文本区域的所有顶点的坐标；

根据上述所有顶点的坐标从上述文本图像中提取上述文本区域。

在上述第二种可能的实施方式作为基础而提供的第四种可能的实施方式中，上述根据上述文本图像和上述文字识别结果生成文件，包括：

根据上述文本区域的位置信息，确定上述文字识别结果在上述文件中对应的目标位置；

根据上述目标位置、上述文本图像和上述文字识别结果生成上述文件。

在上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述文件为双层PDF文件，上述根据上述目标位置、上述文本图像和上述文字识别结果生成上述文件，包括：

将上述文本图像作为上述双层PDF文件的上层，上述文字识别结果作为上述双层PDF文件的下层，生成上述双层PDF文件，上述文字识别结果位于上述双层PDF文件的上述目标位置。

在上述第一种可能的实施方式作为基础，或上述第二种可能的实施方式作为基础，或上述第三种可能的实施方式作为基础，或上述第四种可能的实施方式作为基础，或上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中，上述利用训练后的第二神经网络模型对上述文本区域进行文字识别，得到文字识别结果，包括：

利用上述第二神经网络模型对上述文本区域进行文字识别，得到上述文本区域对应的文字在预设字典中的索引位置；

根据上述索引位置从上述预设字典中获得上述文本区域对应的文字。

在上述第一种可能的实施方式作为基础，或上述第二种可能的实施方式作为基础，或上述第三种可能的实施方式作为基础，或上述第四种可能的实施方式作为基础，或上述第五种可能的实施方式作为基础而提供的第七种可能的实施方式中，上述第一神经网络模型为PSENet网络模型，上述第二神经网络模型为CRNN网络模型。

上述终端设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图3仅仅是终端设备3的举例，并不构成对终端设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器31在一些实施例中可以是上述终端设备3的内部存储单元，例如终端设备3的硬盘或内存。上述存储器31在另一些实施例中也可以是上述终端设备3的外部存储设备，例如上述终端设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器31还可以既包括上述终端设备3的内部存储单元也包括外部存储设备。上述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如上述计算机程序的程序代码等。上述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述各个方法实施例中的步骤。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质至少可以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：魏政;曹瑾;孙圆;
专利申请人：南京航天数智科技有限公司;

上一篇：一种高密度发酵生产L-赖氨酸的培养基及其方法
下一篇：一种用于高温存储的隔膜及其制备方法和锂离子电池