文档处理方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 16:09:34

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种文档处理方法、装置、电子设备及存储介质。

背景技术

随着信息技术的发展，大量的实体数据(例如纸质文档、图像文档)被转换成了电子数据，进而通过对电子数据进行提取和分析以获取其中的结构化信息。

结构化信息提取指的是从实体中提取出用户感兴趣的特定关键信息，光学字符识别(Optical Character Recognition，OCR)技术作为数据结构化的基础，它能够通过预先存储的识别模板将图像文档转换为文本格式，被广泛的应用于上述数据转换的过程中。

通常情况下，针对不同版面的文档需要设计不同的识别模板，然而，在实际应用中，由于文档版面复杂多变，使得规则模板的构造较为不易，这将导致识别错误等问题，进一步造成数据结构化的准确率较低。

发明内容

本公开实施例至少提供一种文档处理方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供了一种文档处理方法，包括：

获取待处理的目标文档图像；

基于所述目标文档图像进行文字特征提取，得到所述目标文档图像中各个文字的第一文字特征信息；

将所述第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到特征匹配度；

基于所述特征匹配度确定针对所述目标文档图像的文字处理结果。

采用上述文档处理方法，在获取到待处理的目标文档图像的情况下，可以进行文字特征提取，而后将提取出的各个文字的第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，并基于得到的特征匹配度确定针对目标文档图像的文字处理结果。本公开利用文字特征匹配的方式实现了有关目标文档图像的识别，在特征匹配度足够高的情况下，参照预设模板图像可以灵活识别各种字段长度，识别的准确率较高。

在一种可能的实施方式中，所述基于所述目标文档图像进行文字特征提取，得到所述目标文档图像中各个文字的第一文字特征信息，包括：

对所述目标文档图像进行文字检测，得到所述目标文档图像中各个文字的内容信息以及每个文字在所述目标文档图像中的坐标信息；

基于所述各个文字的内容信息以及每个文字在所述目标文档图像中的坐标信息，对所述各个文字进行文字特征提取，得到针对所述各个文字的第一文字特征信息。

这里，结合文字的内容信息以及坐标信息，可以针对文字实现更为融合化的特征提取，所提取的特征不仅包含了文字本身，还结合了文字在整个图像中的空间坐标关系，所提取的特征更为精准，从而有利于后续的文字识别。

在一种可能的实施方式中，所述基于所述各个文字的内容信息以及每个文字在所述目标文档图像中的坐标信息，对所述各个文字进行文字特征提取，包括：

针对所述各个文字中的第一文字，基于每个文字在所述目标文档图像中的坐标信息，从所述各个文字中选取与所述第一文字关联的其他文字；

基于选取的所述其他文字的内容信息、所述第一文字的内容信息以及所述第一文字与所述其他文字之间的关联关系，确定所述第一文字的第一文字特征信息。

这里，结合文字之间的关联关系，可以确定所融合后的第一文字特征更为符合自身的文字特性，这有助于进行高准确率的文字识别。

获取训练好的文字特征提取网络；所述文字特征提取网络预先学习有文档图像样本中各个文字之间的关联关系；

针对所述各个文字包括的每个文字，基于所述文字特征提取网络预先学习的关联关系、所述各个文字的内容信息以及每个文字在所述目标文档图像中的坐标信息对每个文字进行文字特征提取，得到所述文字特征提取网络输出的针对每个文字的第一文字特征信息。

这里，基于文字特征提取网络进行文字特征提取，可以更为快速的提取特征，且挖掘了更为深层次的文字特征，显著提升了所提取特征的准确度。

在一种可能的实施方式中，所述对所述目标文档图像进行文字检测，包括：

利用光学字符识别OCR方式，将所述目标文档图像转换为文档文本；

基于文字特征模板库对所述文档文本进行文字划分，得到所述文档文本包括的各个文字的内容信息。

在一种可能的实施方式中，所述将所述第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到特征匹配度，包括：

针对所述目标文档图像中的第一文字，将所述第一文字的第一文字特征信息与预设模板图像中提取的各个第二文字特征信息进行匹配，得到所述第一文字与所述预设模板图像中的各个第二文字之间的特征匹配度；

所述基于所述特征匹配度确定针对所述目标文档图像的文字处理结果，包括：

针对所述目标文档图像中的第一文字，从所述预设模板图像中的各个第二文字中选取特征匹配度符合预设要求的第二文字；

基于选取出的所述第二文字的预设标注标签，确定所述第一文字的文字处理结果；

基于所述第一文字的文字处理结果，确定针对所述目标文档图像的文字处理结果。

这里，针对目标文档图像中的每个文字可以确定该文字与预设模板图像的各个文字之间的特征匹配度，特征匹配度越高，一定程度上说明处于同一个识别维度的可能性更大，反之，特征匹配度越低，一定程度上说明处于同一个识别维度的可能性更小，而后结合预设模板图像中有关文字的预设标注标签可以实现有关目标文档图像的文字处理，以预设标注标签为导向所实现的文字处理，其处理结果更为准确。

在一种可能的实施方式中，所述预设模板图像中预先标注有至少一个感兴趣字段；所述基于所述第一文字的文字处理结果，确定针对所述目标文档图像的文字处理结果，包括：

针对所述预设模板图像中的每个感兴趣字段，基于所述感兴趣字段指示的预设标注标签，确定与所述感兴趣字段对应的第一文字的文字处理结果；

将所述至少一个感兴趣区域确定的文字处理结果，确定为针对所述目标文档图像的文字处理结果。

在一种可能的实施方式中，所述获取待处理的目标文档图像，包括：

响应于用户端的图像获取指令，获取待处理的目标文档图像；

在所述基于所述特征匹配度确定针对所述目标文档图像的文字处理结果之后，所述方法还包括：

将所述文字处理结果返回至所述用户端；所述用户端用于展示所述目标文档图像与所述预设模板图像之间的文字处理比对结果。

第二方面，本公开实施例还提供了一种文档处理装置，包括：

获取模块，用于获取待处理的目标文档图像；

提取模块，用于基于所述目标文档图像进行文字特征提取，得到所述目标文档图像中各个文字的第一文字特征信息；

匹配模块，用于将所述第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到特征匹配度；

处理模块，用于基于所述特征匹配度确定针对所述目标文档图像的文字处理结果。

第三方面，本公开实施例还提供了一种电子设备包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的文档处理方法的步骤。

第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的文档处理方法的步骤。

关于上述文档处理装置、电子设备、及计算机可读存储介质的效果描述参见上述文档处理方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种文档处理方法的流程图；

图2示出了本公开实施例所提供的一种文档处理装置的示意图；

图3示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，通常情况下，针对不同版面的文档需要设计不同的识别模板。但是实际上由于文档版面复杂多变各不相同，而且识别模板构造较为困难，因此基于单样本学习的结构化信息提取在实际应用中极为需要。基于单样本学习的结构化信息提取指的是仅依靠单张或者极少量的特定模板，从文档中提取出模板对应的特定字段信息，因此又称作模板匹配。模板通常表示为若干个特定字段的包围框，因此只需要用户框选出感兴趣的字段即可生成相应的模板。

然而由于模板图片与真实图片并非完全对齐，文字也并非一一对应。很多的测试图片相比模板存在明显的整体偏移或部分随机偏移，导致直接映射的方式难以取得较好的效果。

现阶段也有一些模板匹配相关的研究进展，比如(1)基于传统规则方法的模板匹配。传统的规则是将模板划分为固定字段与待提取字段。固定字段指的是模板与测试图片中位置接近且内容相同的字段。然后将模板与测试图片的固定字段进行匹配，从而构造出模板与测试图片之间的映射关系矩阵。根据映射矩阵将模板中的待提取字段坐标直接映射到测试图片上。最后在测试图片上寻找与映射坐标最为接近的字段作为提取的字段结果。这种方法存在较多的问题，它不能解决模板与测试图片存在的部分随机偏移，固定字段的匹配使模板的制作以及模板的匹配都变得更加复杂，而且难以解决模板与测试图片字段长度不一的问题，比如模板地址与测试图片地址不同。(2)基于文本行的智能模板匹配。这种方法将文本行视作一个节点，将模板字段划分为固定字段与待提取字段。利用固定字段与待提取字段的坐标关系构建图，将待提取字段的特征表示为在关系图中的位置。最后将测试图片中文本行的特征与模板的文本行特征计算相似度进行匹配，从而得到与模板相同的待提取信息。这种方式的问题在于，它同样需要固定字段，给模板匹配增加复杂度。同时，以文本行作为单位进行匹配，不能解决文本检测中文本行的拆分及合并问题。

可知的是，虽然现在已经有一些方法尝试解决模板匹配的问题，但是均存在一些明显的不足，难以达到较好的识别。

基于上述研究，本公开提供了至少一种基于文字特征匹配的方式进行文档处理的方案，以提升文本识别结果的准确率。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种文档处理方法进行详细介绍，本公开实施例所提供的文档处理方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、车载设备等。在一些可能的实现方式中，该文档处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的文档处理方法的流程图，上述方法包括步骤S101～S104，其中：

S101：获取待处理的目标文档图像；

S102：基于目标文档图像进行文字特征提取，得到目标文档图像中各个文字的第一文字特征信息；

S103：将第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到特征匹配度；

S104：基于特征匹配度确定针对目标文档图像的文字处理结果。

为了便于理解本公开实施例提供的文档处理方法，接下来首先对该方法的应用场景进行说明。本公开实施例中的文档处理方法主要可以应用于任何需要对图像中文字进行识别的应用场景。在实际应用中，可以广泛应用于政府、税务、保险、医疗、金融、厂矿等各行业的发票、支票等票据的识别任务中。

为了实现更为高准确率的文字识别，本公开实施实施例提供了一种基于文本特征匹配的文档处理方法，该方法基于待处理的目标文档图像中各个文字的第一文字特征信息以及预设模板图像中提取的各个文字的第二文字特征信息之间的特征匹配度实现了针对文档图像的处理。

其中，特征匹配度越高，一定程度上说明所能够参照的预设模板图像的相关文字的可信度也就越高，反之，特征匹配度越低，一定程度上说明所能够参照的预设模板图像的相关文字的可信度也就越低，也即，本公开实施例是从文字粒度实现的文档识别，目标文档图像中的一个文字可能是与预设模板图像的一个文字的特征匹配度，也可能对应的是预设模板图像的多个文字，这在结合预设模板图像进行匹配的过程中，脱离了预设框的限定，使得所识别的结果更为符合实际的业务场景。

针对不同的识别任务，这里所对应获取的目标文档图像也不同，例如，可以是包括发票的图像，还可以是包括身份证件的图像，还可以是其它文档图像，这里不做具体的限制。在实际应用中，可以是利用摄像头、扫描仪等设备对银行发票、身份证等进行拍摄或扫描所得到的相关图像。

针对目标文档图像而言，本公开实施例可以首先确定其中各个文字的第一文字特征信息，这里的第一文字特征信息可以用于表征对应文字的特征信息，该特征信息一定程度上可以表征该文字在目标文档图像中的相关特性，例如，可以包括诸如文字内容及其相关坐标等特性，可以唯一表征目标文档图像中对应的文字。

为了实现有关目标文档图像中的文字识别，本公开实施例可以结合上述第一文字特征信息以及预设模板图像中各个文字的第二特征信息所确定的特征匹配度实现文字处理。

其中，预设模板图像可以是用户通过框选模板图像中的感兴趣字段后所制作的，这里的感兴趣字段可以是任意用户意图了解的文档信息，例如，对于一个包括合同信息的模板图像而言，这里的感兴趣字段可以是包括合同签订双方名称、合同生效时间等各种字段，在此不做具体的限制。

针对预设模板图像而言，可以提取出预设模板图像中各个文字的第二文字特征信息，与第一文字特征信息相似，这里的第二文字特征信息也可以是用于表征对应文字的文字特性的相关特征信息，有关具体内容参见上述描述内容，在此不做赘述。

在实际应用中，不管是第一文字特征信息还是第二文字特征信息，本公开实施例中均可以利用相关的文字特征提取网络来提取更为深层次的文字特征，除此之外，还可以结合其它图像处理方式实现有关文字特征的提取，在此不做具体的限制。

本公开实施中的文字处理结果可以是针对整个目标文档图像中所有文字的识别结果，还可以是对模板图像框选的感兴趣字段所对应的目标文档图像中相关文字的识别结果。

此外，在实际应用中，可以将文字处理结果返回至用户端，以展示目标文档图像与预设模板图像之间的文字处理比对结果。本公开实施例中，还可以在响应于用户端的图像获取指令，获取待处理的目标文档图像。在实际应用中，这里的图像获取指令可以是用户在触发用户端设置的相关应用程序(Application，APP)的相关按钮的情况下生成的，这样，可以对用户端当前采集的目标文档图像进行处理。

在实际应用中，还可以设置上述文档处理的用户界面。在当前用户界面，用户可以在当前用户界面上传待处理的目标文档图像，后台通过上述有关特征提取以及特征匹配的过程可以确定针对目标文档图像的文字处理结果，并能够将文字处理结果展示在用户界面上。

需要说明的是，这里的展示可以是有关预设模板图像与目标文档图像之间的对比展示结果，例如，可以在目标文档图像中将预设模板图像中框选出的感兴趣字段对应的相关字段选取出来，以便于进一步了解识别结果的准确性。

考虑到文字特征提取对于特征匹配度计算的关键作用，接下来可以对有关第一文字特征信息的提取过程进行具体说明。本公开实施例中可以通过如下步骤进行文字特征提取：

步骤一、对目标文档图像进行文字检测，得到目标文档图像中各个文字的内容信息以及每个文字在目标文档图像中的坐标信息；

步骤二、基于各个文字的内容信息以及每个文字在目标文档图像中的坐标信息，对各个文字进行文字特征提取，得到针对各个文字的第一文字特征信息。

这里，为了实现更为准确的文字识别，这里可以综合文字的内容信息以及文字在目标文档图像中的坐标信息实现文字特征的提取，以提取出更为融合的文字特征，该文字特征融合了一个文字本身的内容特征以及该文字在所有文字中的空间位置关系，这一定程度上可以唯一的表示对应的文字，使得所提取的文字特征更有利于后续的文字识别。

其中，在进行文字特征提取之前，本公开实施例可以基于光学字符识别(OpticalCharacter Recognition,OCR)从试目标文档图像中识别出各个文字的内容信息，具体可以通过如下步骤来实现：

步骤一、利用光学字符识别OCR方式，将目标文档图像转换为文档文本；

步骤二、基于文字特征模板库对文档文本进行文字划分，得到文档文本包括的各个文字的内容信息。

这里，可以基于OCR方式将目标文档图像转换为文档文本。在实际应用中，可以先对目标文档图像进行诸如灰度化，二值化，噪声去除，倾斜矫正等预处理过程。在进行倾斜矫正之后，可以把每一部分的图片扫描的文字提取的特征向量与文字特征模板库进行模板粗分类和模板细匹配，进而识别出文档文本中的各个文字的内容信息。

在识别出目标文档图像中各个文字的内容信息以及每个文字在目标文档图像中的坐标信息的情况下，可以实现针对文字特征的提取。

本公开实施例中，一方面可以通过文字关联关系实现有关文字特征的提取，另一方面可以直接通过训练好的文字特征提取网络实现文字特征的提取，接下来可以通过如下两个方面进行具体说明。

第一方面：本公开实施例可以按照如下步骤实现文字特征提取：

步骤一、针对各个文字中的第一文字，基于每个文字在目标文档图像中的坐标信息，从各个文字中选取与第一文字关联的其他文字；

步骤二、基于选取的其他文字的内容信息、第一文字的内容信息以及第一文字与其他文字之间的关联关系，确定第一文字的第一文字特征信息。

这里的第一文字可以是各个文字中的每个文字，还可以是各个文字中的任一个/些文字，还可以是各个文字中指定的特定文字，在此不做具体的限制。为了实现更为全面的文字识别，这里可以是针对各个文字中的每个文字均进行处理，也即，针对每个文字，这里，可以从各个文字中选取与这一文字关联的其他文字，例如，可以选取与这个文字左相邻的一个或多个文字作为其他文字，还可以选取与这个文字右相邻的一个或多个文字作为其他文字，还可以选取其他关联的文字，例如，在这个文字的预设关联范围内的所有文字，在一定情况下，还可以将整个文档版面中除去这个文字之外的所有文字作为这个文字的关联文字，这里不做具体的限制。

这里，针对每个文字而言，在参考该文字的内容信息、与之关联的其他文字的内容信息、以及文字之间的关联关系的情况下，可以确定出每个文字的第一文字特征信息。

第二方面：本公开实施例可以按照如下步骤实现文字特征提取：

步骤一、获取训练好的文字特征提取网络；文字特征提取网络预先学习有文档图像样本中各个文字之间的关联关系；

步骤二、针对各个文字包括的每个文字，基于文字特征提取网络预先学习的关联关系、各个文字的内容信息以及每个文字在目标文档图像中的坐标信息对每个文字进行文字特征提取，得到文字特征提取网络输出的针对每个文字的第一文字特征信息。

这里，将可以将各个文字的内容信息以及每个文字在目标文档图像中的坐标信息输入到文字特征提取网络中，该特征提取网络基于预先学习的文档图像样本中各个文字之间的关联关系，可以是实现关联文字的文字特征的提取，例如，可以基于注意力机制的transformer模型，计算文字两两之间的相互关系，从而将整个文档版面所有关联文字的特征融合到任一文字中，得到融合后的第一文字特征信息。

需要说明的是，有关针对预设模板图像提取各个文字的第二文字特征信息的具体内容可以参照前述有关目标文档图像中各个文字的第一文字特征信息的提取过程，在此不再赘述。

可知的是，针对目标文档图像而言，这里所确定的目标文档图像中每个文字的第一文字特征信息可以是融合整个目标文档版面上的各个文字的特征的一个融合特征信息，同理，针对预设模板图像而言，这里所确定的预设模板图像中每个文字的第二文字特征信息可以是融合整个模板版面上的各个文字的特征的一个融合特征信息。

基于两个图像所确定的融合特征信息之间的相似度情况，可以确定特征匹配度，继而可以实现针对目标文档图像的文字处理，具体可以通过如下步骤来实现：

步骤一、针对目标文档图像中的第一文字，将第一文字的第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到第一文字与预设模板图像中的各个第二文字之间的特征匹配度；

步骤二、针对目标文档图像中的第一文字，从预设模板图像中的各个第二文字中选取特征匹配度符合预设要求的第二文字；

步骤三、基于选取出的第二文字的预设标注标签，确定第一文字的文字处理结果；

步骤四、基于第一文字的文字处理结果，确定针对目标文档图像的文字处理结果。

这里，有关特征匹配度可以是目标文档图像中的每个文字与预设模板图像中的每个文字之间的特征匹配度，特征匹配度越高，一定程度上说明两个文字处于同一识别维度的可能性越大，反之，特征匹配度越低，一定程度上说明两个文字处于同一识别维度的可能性越小。

由于这里的文字特征信息对应的融合特征信息，这样所确定的特征匹配度一定程度上可以表征两个文字在各自图像中的特征表达情况，特征匹配度越高，可以认为预设模板图像中，对应目标文档图像第一文字的第二文字所指示的预设标注标签与第一文字的关联程度也越大，继而可以确定基于第二文字的预设标注标签确定出各个第一文字的标注标签，以确定对应的文字处理结果。

这里，可以将属于同一标注标签的第一文字划分进同一个识别框，继而确定针对目标文档图像的文字处理结果，具体可以通过如下步骤来实现：

步骤一、针对预设模板图像中的每个感兴趣字段，基于感兴趣字段指示的预设标注标签，确定与感兴趣字段对应的第一文字的文字处理结果；

步骤二、将至少一个感兴趣区域确定的文字处理结果，确定为针对目标文档图像的文字处理结果。

这里，基于预设模板图像中感兴趣字段的设置，可以确定与感兴趣字段对应的第一文字的文字处理结果，继而将感兴趣字段对应的文字处理结果进行汇总以确定出针对目标文档图像的文字处理结果，也即，可以仅反馈用户标注的有关感兴趣字段的文字处理结果，以便于用户对于识别结果进行更为针对性的分析，有效缓解从各个文字中查找感兴趣信息所带来的人工浪费问题。

在实际应用中，目标文档图像的所有文字预先都是无标签的。因此这里是将目标文档图像上的文字特征与预设模板图像上的文字特征进行匹配，计算特征匹配度，然后可以基于目标文档图像确定的各个文字的特征匹配度确定文字识别结果。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与文档处理方法对应的文档处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述文档处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图2所示，为本公开实施例提供的一种文档处理装置的示意图，装置包括：获取模块201、提取模块202、匹配模块203和处理模块204；其中，

获取模块201，用于获取待处理的目标文档图像；

提取模块202，用于基于目标文档图像进行文字特征提取，得到目标文档图像中各个文字的第一文字特征信息；

匹配模块203，用于将第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到特征匹配度；

处理模块204，用于基于特征匹配度确定针对目标文档图像的文字处理结果。

采用上述文档处理装置，在获取到待处理的目标文档图像的情况下，可以进行文字特征提取，而后将提取出的各个文字的第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，并基于得到的特征匹配度确定针对目标文档图像的文字处理结果。本公开利用文字特征匹配的方式实现了有关目标文档图像的识别，在特征匹配度足够高的情况下，参照预设模板图像可以灵活识别各种字段长度，识别的准确率较高。

在一种可能的实施方式中，提取模块202，用于按照如下步骤基于目标文档图像进行文字特征提取，得到目标文档图像中各个文字的第一文字特征信息：

对目标文档图像进行文字检测，得到目标文档图像中各个文字的内容信息以及每个文字在目标文档图像中的坐标信息；

基于各个文字的内容信息以及每个文字在目标文档图像中的坐标信息，对各个文字进行文字特征提取，得到针对各个文字的第一文字特征信息。

在一种可能的实施方式中，提取模块202，用于按照如下步骤基于各个文字的内容信息以及每个文字在目标文档图像中的坐标信息，对各个文字进行文字特征提取：

针对各个文字中的第一文字，基于每个文字在目标文档图像中的坐标信息，从各个文字中选取与第一文字关联的其他文字；

基于选取的其他文字的内容信息、第一文字的内容信息以及第一文字与其他文字之间的关联关系，确定第一文字的第一文字特征信息。

获取训练好的文字特征提取网络；文字特征提取网络预先学习有文档图像样本中各个文字之间的关联关系；

针对各个文字包括的每个文字，基于文字特征提取网络预先学习的关联关系、各个文字的内容信息以及每个文字在目标文档图像中的坐标信息对每个文字进行文字特征提取，得到文字特征提取网络输出的针对每个文字的第一文字特征信息。

在一种可能的实施方式中，提取模块202，用于按照如下步骤对目标文档图像进行文字检测：

利用光学字符识别OCR方式，将目标文档图像转换为文档文本；

基于文字特征模板库对文档文本进行文字划分，得到文档文本包括的各个文字的内容信息。

在一种可能的实施方式中，匹配模块203，用于按照如下步骤将第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到特征匹配度：

针对目标文档图像中的第一文字，将第一文字的第一文字特征信息与预设模板图像中提取的各个第二文字特征信息进行匹配，得到第一文字与预设模板图像中的各个第二文字之间的特征匹配度；

处理模块204，用于按照如下步骤基于特征匹配度确定针对目标文档图像的文字处理结果：

针对目标文档图像中的第一文字，从预设模板图像中的各个第二文字中选取特征匹配度符合预设要求的第二文字；

基于选取出的第二文字的预设标注标签，确定第一文字的文字处理结果；

基于第一文字的文字处理结果，确定针对目标文档图像的文字处理结果。

在一种可能的实施方式中，预设模板图像中预先标注有至少一个感兴趣字段；处理模块204，用于按照如下步骤基于第一文字的文字处理结果，确定针对目标文档图像的文字处理结果：

针对预设模板图像中的每个感兴趣字段，基于感兴趣字段指示的预设标注标签，确定与感兴趣字段对应的第一文字的文字处理结果；

将至少一个感兴趣区域确定的文字处理结果，确定为针对目标文档图像的文字处理结果。

在一种可能的实施方式中，获取模块201，用于按照如下步骤获取待处理的目标文档图像：

响应于用户端的图像获取指令，获取待处理的目标文档图像；

处理模块204，还用于在基于特征匹配度确定针对目标文档图像的文字处理结果之后，将文字处理结果返回至用户端；用户端用于展示目标文档图像与预设模板图像之间的文字处理比对结果。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图3所示，为本公开实施例提供的电子设备结构示意图，包括：处理器301、存储器302、和总线303。存储器302存储有处理器301可执行的机器可读指令(比如，图2中的装置中获取模块201、提取模块202、匹配模块203和处理模块204对应的执行指令等)，当电子设备运行时，处理器301与存储器302之间通过总线303通信，机器可读指令被处理器301执行时执行如下处理：

获取待处理的目标文档图像；

基于目标文档图像进行文字特征提取，得到目标文档图像中各个文字的第一文字特征信息；

将第一文字特征信息与预设模板图像中提取的各个文字的第二文字特征信息进行匹配，得到特征匹配度；

基于特征匹配度确定针对目标文档图像的文字处理结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的文档处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的文档处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：程龙;梁鼎;侯朝晖;
专利申请人：深圳市商汤科技有限公司;

上一篇：一种桥堆二极管的封装结构
下一篇：一种装配式吊顶收边结构及其安装方法