掌桥专利:专业的专利平台
掌桥专利
首页

表格图像处理方法、装置、计算机设备及可读存储介质

文献发布时间:2023-06-19 13:49:36


表格图像处理方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及图像处理技术领域,具体而言,涉及一种表格图像处理方法、装置、计算机设备及可读存储介质。

背景技术

表格资料已经广泛存在于各行各业中了,随着光学字符识别(Optical CharacterRecognition,简称OCR)技术不断普及,针对表格识别的需求越来越多,通过智能识别表格中的有用信息并加以提取,从而可以降低人工成本,提高识别效率。

目前,相关技术提出的表格识别方法虽然识别表格中的文本块,但是,表格中往往会存在大量的勾选信息,这些勾选信息才是用于真正有用的信息,然而,由于这些勾选信息对应的勾选标记形式多样,这些勾选标记的识别与文本块匹配是目前的一个难点,因此,如何识别表格中的勾选标记并进行文本块匹配,是需要解决的问题。

发明内容

本发明的目的之一在于提供一种表格图像处理方法、装置、计算机设备及可读存储介质,能够解决选择标识与文本块一对一匹配问题,从而为后续提取选择标识的文本块进行表格重构提供了基础,提高了表格图像处理的效率和准确度。

第一方面,本发明提供一种表格图像处理方法,所述方法包括:获取待处理表格图像;对所述待处理表格图像进行识别,获得全部文本块的位置信息以及全部选择标识的位置信息;针对所述待处理表格图像中的待匹配单元格图像,根据所述待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建所述待匹配单元格图像对应的距离矩阵;基于所述待匹配单元格图像对应的距离矩阵,为所述待匹配单元格图像中的选择标识匹配目标文本块;其中,所述待匹配单元格图像为同时存在文本块和选择标识的单元格图像;所述目标文本块为所述待匹配单元格图像内全部所述文本块中的其中一个。

可选地,所述方法还包括:从所述全部选择标识中确定目标选择标识;将所述目标选择标识对应的目标文本块确定为待提取文本块;基于所述待提取文本块以及除所述目标文本块以外的文本块,重构所述待处理表格图像。

可选地,对所述待处理表格图像进行识别,获得全部文本块的位置信息以及全部选择标识的位置信息,包括:对所述待处理表格图像进行单元格识别,确定每个单元格对应的所述单元格图像;对目标单元格图像进行文本块检测和选择标识检测,确定目标单元格图像中所述文本块的位置信息,或者,确定目标单元格图像中文本块和所述选择标识各自的位置信息;其中,所述目标单元格图像为全部所述单元格图像中的任一个;遍历全部所述单元格图像,获得全部所述文本块的位置信息以及全部所述选择标识的位置信息。

可选地,基于所述待匹配单元格图像对应的距离矩阵,为所述待匹配单元格图像中的选择标识匹配目标文本块,包括:根据第一待匹配单元格图像对应的所述距离矩阵,确定所述第一待匹配单元格图像中与每个所述选择标识匹配的所述目标文本块;其中,所述第一待匹配单元格图像为全部所述待匹配单元格图像中的任一个;遍历全部所述待匹配单元格图像,获得所述全部选择标识匹配的所述目标文本块。

可选地,在针对所述待处理表格图像中的待匹配单元格图像,根据所述待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建所述待匹配单元格图像对应的距离矩阵的步骤之前,还包括:按照预设顺序分别对所述待匹配单元格图像内的文本块和选择标识进行编号;其中,所述预设顺序所述待匹配单元格图像的水平方向或者竖直方向。

可选地,针对所述待处理表格图像中的待匹配单元格图像,根据所述待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建所述待匹配单元格图像对应的距离矩阵,包括:根据所述待匹配单元格图像内的文本块的位置信息中全部字符的位置信息,确定每个所述文本块的最大极限水平坐标和最小极限水平坐标;基于所述待匹配单元格图像内所述选择标识的位置信息、所述文本块的位置信息、所述最大极限水平坐标、所述最小极限水平坐标以及预先确定的换行系数,计算所述待匹配单元格图像内每个所述选择标识与每个所述文本块之间的距离;根据所述待匹配单元格图像内所述文本块编号和所述选择标识编号,将全部所述距离组成所述待匹配单元格图像对应的距离矩阵。

可选地,所述换行系数是通过以下方式预先确定的:将预设阈值确定为所述换行系数;或者,根据每个所述文本块的最大极限水平坐标和最小极限水平坐标,确定所述待匹配单元格图像的最大极限水平坐标和最小极限水平坐标;根据所述待匹配单元格图像的最大极限坐标和最小极限坐标,计算所述换行系数。

可选地,从所述全部选择标识中确定目标选择标识,包括:对所述待匹配单元格图像内每个所述选择标识进行识别;根据识别结果确定所述待匹配单元格图像内的所述目标选择标识;遍历全部所述待匹配单元格图像,确定全部所述目标选择标识。

可选地,根据识别结果确定所述待匹配单元格图像内的所述目标选择标识,包括:若识别到每个所述选择标识均为未标记状态,则将每个所述选择标识均确定为所述目标选择标识;若识别到至少存在一个选择标识为已标记状态,则根据识别的标识类别,从每个所述选择标识中确定所述目标选择标识。

可选地,若识别到至少存在一个选择标识为已标记状态,则根据识别的标识类别,从每个所述选择标识中确定所述目标选择标识,包括:若仅存在预设的信息排除类别,则将具有未标记状态的选择标识确定为所述目标选择标识;其中,所述信息排除类别表征所述选择标识对应的所述目标文本块不被选择;若不存在所述信息排除类别,则将所述已标记状态对应的选择标识确定为目标选择标识;若同时存在所述信息排除类别和除所述信息排除类别以外的标识类别,则将除所述信息排除类别以外的标识类别对应的选择标识,确定为所述目标选择标识。

可选地,在获取待处理表格图像之后,所述方法还包括:对所述待处理表格图像进行预处理。

第二方面,本发明提供一种表格图像处理装置,包括:获取模块,用于获取待处理表格图像;识别模块,用于对所述待处理表格图像进行识别,获得全部文本块的位置信息以及全部选择标识的位置信息;构建模块,用于针对所述待处理表格图像中的待匹配单元格图像,根据所述待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建所述待匹配单元格图像对应的距离矩阵;匹配模块,用于基于所述待匹配单元格图像对应的距离矩阵,为所述待匹配单元格图像中的选择标识匹配目标文本块;其中,所述待匹配单元格图像为同时存在文本块和选择标识的单元格图像;所述目标文本块为所述待匹配单元格图像内全部所述文本块中的其中一个。

可选地,所述表格图像处理装置还包括:确定模块,用于从全部所述选择标识中确定目标选择标识;将所述目标选择标识匹配的所述目标文本块确定为待提取文本块;重构模块,用于基于所述待提取文本块以及未匹配的文本块,重构所述待处理表格图像。

可选地,所述识别模块,还包括:确定单元,用于对所述待处理表格图像进行单元格识别,确定每个单元格对应的所述单元格图像;检测单元,用于对目标单元格图像进行文本块检测和选择标识检测,确定目标单元格图像中所述文本块的位置信息,或者,确定目标单元格图像中文本块和所述选择标识各自的位置信息;其中,所述目标单元格图像为全部所述单元格图像中的任一个;获取单元,用于遍历全部所述单元格图像,获得全部所述文本块的位置信息以及全部所述选择标识的位置信息。

可选地,所述匹配模块,包括:确定单元,根据第一待匹配单元格图像对应的所述距离矩阵,确定所述第一待匹配单元格图像中与每个所述选择标识匹配的所述目标文本块;其中,所述第一待匹配单元格图像为全部所述待匹配单元格图像中的任一个;获取单元,用于遍历全部所述待匹配单元格图像,获得所述全部选择标识匹配的所述目标文本块。

可选地,还包括编号模块,用于:按照预设顺序分别对所述待匹配单元格图像内的文本块和选择标识进行编号;其中,所述预设顺序所述待匹配单元格图像的水平方向或者竖直方向。

可选地,所述构建模块,具体用于:根据所述待匹配单元格图像内的文本块的位置信息中全部字符的位置信息,确定每个所述文本块的最大极限水平坐标和最小极限水平坐标;基于所述待匹配单元格图像内所述选择标识的位置信息、所述文本块的位置信息、所述最大极限水平坐标、所述最小极限水平坐标以及预先确定的换行系数,计算所述待匹配单元格图像内每个所述选择标识与每个所述文本块之间的距离;根据所述待匹配单元格图像内所述文本块编号和所述选择标识编号,将全部所述距离组成所述待匹配单元格图像对应的距离矩阵。

可选地,所述换行系数是通过以下方式预先确定的:将预设阈值确定为所述换行系数;或者,根据每个所述文本块的最大极限水平坐标和最小极限水平坐标,确定待匹配单元格图像的最大极限水平坐标和最小极限水平坐标;根据所述待匹配单元格图像的最大极限坐标和最小极限坐标,计算所述换行系数。

可选地,所述确定模块,具体用于:对所述待匹配单元格图像内每个所述选择标识进行识别;根据识别结果确定所述待匹配单元格图像内的所述目标选择标识;遍历全部所述待匹配单元格图像,确定全部所述目标选择标识。

可选地,所述确定模块,还具体用于:若识别到每个所述选择标识均为未标记状态,则将每个所述选择标识均确定为所述目标选择标识;若识别到至少存在一个选择标识为已标记状态,则根据识别的标识类别,从每个所述选择标识中确定所述目标选择标识。

可选地,所述确定模块,还具体用于:若仅存在预设的信息排除类别,则将具有未标记状态的选择标识确定为所述目标选择标识;其中,所述信息排除类别表征所述选择标识对应的所述目标文本块不被选择;若不存在所述信息排除类别,则将所述已标记状态对应的选择标识确定为目标选择标识;若同时存在所述信息排除类别和除所述信息排除类别以外的标识类别,则将除所述信息排除类别以外的标识类别对应的选择标识,确定为所述目标选择标识。

可选地,所述表格图像处理装置还包括:预处理模块,用于对所述待处理表格图像进行预处理。

第三方面,本发明提供一种计算机设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的表格图像处理方法。

第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的表格图像处理方法。

本发明提供一种表格图像处理方法、装置、计算机设备及可读存储介质,方法包括:获取待处理表格图像;对待处理表格图像进行识别,获得全部文本块的位置信息以及全部选择标识的位置信息;针对待处理表格图像中的待匹配单元格图像,根据待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建待匹配单元格图像对应的距离矩阵;基于待匹配单元格图像对应的距离矩阵,为待匹配单元格图像中的选择标识匹配目标文本块;其中,待匹配单元格图像为同时存在文本块和选择标识的单元格图像;目标文本块为待匹配单元格图像内全部文本块中的其中一个。本发明通过识别待处理表格图像中全部文本块的位置信息以及全部选择标识的位置信息,进而根据识别到的位置信息为每个选择标识匹配目标文本块,提供了一种行之有效的选择标识与文本块一对一匹配的解决方案,为后续提取选择标识的文本块进行表格重构提供了基础,提高了表格图像处理的效率和准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为一种表格图像的示意图;

图2为本发明实施例提供的表格图像处理方法的应用环境图;

图3为本发明实施例提供的表格图像处理方法的示意性流程图;

图4为本发明实施例提供的步骤S301的实现方式的示意性流程图;

图5为本发明实施例提供的一种待匹配单元格图像的示例图;

图6为本发明实施例提供的步骤S302的一种实现方式的示意性流程图;

图7为本发明实施例提供的另一种表格图像处理方法的示意性流程图;

图8为本发明实施例提供的重构的表格内容的示例图;

图9为本发明实施例提供的步骤S304的实现方式的示意性流程图;

图10为本发明实施例提供的一种选择标识的标记状态示意图;

图11为本发明实施例提供的一种信息排除类别的选择标识的示意图;

图12为本发明实施例提供的表格图像处理装置的功能模块图;

图13为本发明实施例提供的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。

首先结合图1对本申请实施例中涉及的相关术语解释,图1为一种表格图像的示意图。

选择标识:指的是表格、文档等电子资料中存在的勾选框。例如,图1中所示的复选 标识

文本块:是指多个字符组成的文本区域。例如,参见图1,以“企业性质”所属单元格为例,紧跟着每个选择标识后的字符组成的区域代表一个文本块。

信息排除类别:本实施例中的信息排除类别,指的是用户排除选择或者舍弃的信 息所对应的一类选择标识,类似于

换行系数:本实施例中的换行系数指的是衡量或计算位于不同行的选择标识和文本块之间的距离时,附加在竖直方向上(即y坐标分量)的距离换算倍数,用以实现将二维坐标表示的位置转换为一维距离。

请参见图2,图2为本发明实施例提供的表格图像处理方法的应用环境图,其中包括:数据库210、终端220、计算机设备230和网络240。

数据库210可以用于存储各种形式的表格图像,图像格式可以但不限于包括:jpg、jpeg、ppm、bmp、png等各类图片、截图、截屏、扫描件、PDF文档等。图像内容可以但不限于是银行、证券、基金、保险等金融机构、企业单位、机构的文档中已经被用户授权的大量的表格资料,比如收据、票据、保单、通知单、确认书、申请表等。

终端220可以实时制作或者生成表格图像,并将表格图像实时上传到数据库中进行存储,或者将表格图像实时上传到计算机设备230进行表格图像处理。

计算机设备230可以是执行表格图像处理方法的设备,具体地,计算机设备230可以从数据库210中获取表格图像,或者,计算机设备230实时接收终端220上传的表格图像,然后执行本发明实施例提供的表格图像处理方法以实现相应的技术效果。

在一些可能的实施方式中,上述计算机设备230可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。

在一些可能的实施方式中,上述网络240可以包括但不限于:有线网络、无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、Wi-Fi及其他实现无线通信的网络。

在一些可能的实施方式中,上述终端220可以但不限于是智能手机、平板电脑、个人计算机(Personal Computer,简称PC)、智能穿戴设备等等。

请继续参见图1,在图1所示的表格图像中,这些被勾选的选择标识后的文本块才是真正有用的信息,通过提取这些勾选信息,可以准确分析用户需求。

目前,虽然有相关技术提出了一种文档图像勾选框状态识别后输出文本行内容的方法,但是该方法却不能适用于内容以及形式复杂的表格图像,同时,在已公开的针对表格图像处理的相关技术中,仅仅能够实现将文本内容与单元格进行匹配后对应填充的效果,没有一种可靠的方法来进行选择标识与文本内容匹配,而且,由于表格图像中的选择标识形式多样、采集方式复杂,使得为选择标识匹配文本内容是一个难点,进而导致对勾选信息提取难度增加,降低了表格处理的效率和准确度。

为了解决上述技术问题,以上述图2所示的应用环境为例,本发明实施例提供了一种表格图像处理方法,可以理解的是,该表格图像处理方法可以应用在如图2所示的计算机设备230中,请参见图3,图3为本发明实施例提供的表格图像处理方法的示意性流程图,该方法可以包括以下步骤:

步骤S300,获取待处理表格图像。

本实施例中获取的待处理表格图像是用户授权的表格图像,图像格式可以但不限于包括于jpg、jpeg、ppm、bmp、png等各类图片、截图、截屏、扫描件、PDF文档等。对待处理表格图像中的内容不作限定,可以但不限于是银行、证券、基金、保险等金融机构、企业单位、机构的文档中存在的大量的表格资料,比如收据、票据、保单、通知单、确认书、申请表等。

步骤S301,对待处理表格图像进行识别,获得全部文本块的位置信息以及全部选择标识的位置信息。

可以理解的是,对待处理表格图像进行识别,可以提取待处理表格图像中的单元格区域,进而获得每个单元格区域内的文本块和选择标识的位置信息。

本实施例中,可以通过现有的表格识别模型对待处理表格图像进行识别,表格识别模型可以但不限于是U-Net网络、全卷积网络(Fully Convolutional Network,简称FCN)、SetNet网络、循环神经网络(Recurrent Neural Network,简称RNN)、区域-卷积神经网络(Region-CNN)等图像分割算法实现的,或者是Single Shot MultiBox Detector(简称SDD)算法、You only look once(简称Yolo)算法、移动网络MobileNet等目标检测算法实现的。

步骤S302,针对待处理表格图像中的待匹配单元格图像,根据待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建待匹配单元格图像对应的距离矩阵。

其中,待匹配单元格图像为同时存在文本块和选择标识的单元格图像。

本实施例中,对选择标识和文本块分别进行编号的目的是:使最终构建的距离矩阵的行序号与选择标识编号对应,列序号与文本块编号对应,或者行序号与文本块编号对应,列序号与选择标识编号对应,不同的对应关系对应的匹配过程不同,具体的匹配方式将在后续内容作具体介绍,这样一来,在后续匹配过程中,可以根据匹配结果迅速、准确定位出当前匹配上的文本块和选择标识。

为了衡量待匹配单元格图像中某个选择标识和某个文本块之间的距离,本发明创新性地提出一维链式距离,将二维坐标转换为一维距离,计算公式(1)如下:

D

其中,D

例如,假设待匹配单元格图像中存在M个文本块和N个选择标识,在获得每个文本块和每个选择标识之间的距离之后,可以根据文本块编号和选择标识编号,构建一个距离矩阵为D=[D

其中,上述得到距离矩阵的相关参数,例如换行系数、最小极限水平坐标和最大极限水平坐标将会在后续内容作详细介绍。

步骤S303,基于待匹配单元格图像对应的距离矩阵,为待匹配单元格图像中的选择标识匹配目标文本块。

其中,目标文本块为待匹配单元格图像内全部文本块中的其中一个。

在一种可能的实施方式中,针对步骤S303,可以先根据第一待匹配单元格图像对应的距离矩阵,确定第一待匹配单元格图像中与每个选择标识匹配的目标文本块;其中,第一待匹配单元格图像为全部待匹配单元格图像中的任一个;进而遍历全部待匹配单元格图像,获得全部选择标识匹配的目标文本块。可以理解的是,由于每个待匹配单元格图像中包含的选择标识和文本块的情况不同,因此,本实施例采取逐个处理待匹配单元格图像的方式,从而确定每个待匹配单元格图像内选择标识和文本块的匹配关系。

本发明实施例提供的表格图像处理方法,通过对获得的待处理表格图像进行识别,获得全部选择标识的位置信息和全部文本块的位置信息,进而对待处理表格图像中的待匹配单元格图像,根据待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建所述待匹配单元格图像对应的距离矩阵,最后基于待匹配单元格图像对应的距离矩阵,为待匹配单元格图像中的选择标识匹配目标文本块,从而解决了选择标识与文本块一对一匹配的问题,进而为后续提取选择标识的文本块进行表格重构提供了基础,提高了表格图像处理的效率和准确度。

可选地,在获得待处理表格图像之后,为了保证后续处理结果的准确性和效率,还可以先对待处理表格图像进行预处理,例如,本实施例采用的预处理方式包括但不限于:缩放、平移、转置、镜像、旋转、归一化、降维、去噪、均衡化、平滑等图像处理领域常见的方法,以满足深度学习网络模型的输入条件。比如,对输入图像进行缩小或放大到某一尺寸,如将分辨率为1920×1080的原图缩放到分辨率为224×224的标准图。

可以理解的是,在后续处理过程中,可以针对预处理之后的待处理表格图像进行检测、匹配、重构等处理,进而可以提高后续处理流程的效率,保证处理结果的准确度。

可选地,在进行选择标识和文本块一对一匹配之前,需要先确定选择标识和文本块的位置信息,进而依据位置信息来完成匹配,因此,本发明实施例提供了一种获得选择标识和文本块的位置信息的实现方式,请参见图4,图4为本发明实施例提供的步骤S301的实现方式的示意性流程图,其中步骤S301可以包括以下子步骤:

子步骤S301-1,对待处理表格图像进行单元格识别,确定每个单元格对应的单元格图像。

本实施例中,进行单元格识别后,可以确定每个单元格对应的位置信息,进而根据每个单元格的位置信息从待处理表格图像中截取每个单元格对应的单元格图像。

在一些可能的实施方式中,确定每个单元格对应的位置信息的方式可以是:通过预先训练好的模型待处理表格图像中的单元格区域,得到单元格的行列分割线,并输出表格线分割二值化图,进而,使用现有的连通域分析对得到的表格线进行筛除与合并,再使用常见的表格线检测模型进行表格行线和列线检测,组合成表格框线图,确定每个单元格的位置信息。

子步骤S301-2,对目标单元格图像进行文本块检测和选择标识检测,确定目标单元格图像中文本块的位置信息,或者,确定目标单元格图像中文本块的和选择标识各自的位置信息。

其中,目标单元格图像为全部单元格图像中的任一个。

针对文本块检测的检测方式,在一些可能的实施方式中,可以使用预先训练好的文本检测模型对目标单元格图像进行文本块检测,文本检测模型可以但不限于是连接文本区域网络(connection text proposal network,简称CTPN),文本检测模型(Efficientand Accurate Scene Text,简称EAST),切片链接(SegLink)模型,分类任务链接(PixelLink)模型,TextBoxes,TextBoxes++,TextSnake等;具体操作步骤是:将目标单元格图像输入文本检测模型,输出结果即为该目标单元格图像的文本块数量N1、文本块的位置信息。

为了方便后续计算文本块与选择标识之间的距离,并进行文本块与选择标识之间的匹配,在进行文本块检测之后,还可以将检测到的所有文本块区域图像输入到预先训练好的OCR算法模型中,识别出文本块中所有文本内容及其对应坐标。

示例性的,上述OCR算法模型可以但不限于使用以下两种方法实现:第一种是分为文字检测和文字识别两部分的二阶段OCR,如: CTPN+时序分类模型(Connectionisttemporal classification,简称CTC), CRNN(CNN+RNN+CTC), CNN+RNN+attention,CNN+DenseNet +CTC等;第二种是端到端的OCR方案,如空间变换网络(Spatial TrasformationNetwork,简称STN)-OCR、端到端可训练的网络(Fast Oriented Text Spotting,简称FOTS)。

针对选择标识的检测方式,在一些可能的实施方式中,可以通过预先训练好的深度学习检测算法提取目标单元格图像中所有选择标识的类别及位置特征。

示例性地,上述深度学习检测算法可以使用基于深度学习技术的目标检测算法,如SSD、YOLOv5等,算法的输入为目标单元格图像,通过对网络模型结构、输出参数进行调整,使得检测输出的结果中包含:目标单元格图像中的选择标识的个数、类别及概率值和位置信息。

子步骤S301-3,遍历全部单元格图像,获得全部文本块的位置信息以及全部选择标识的位置信息。

本实施例中,对于获得的全部单元格图像,逐个进行文本块检测和选择标识检测,确定每个单元格内的文本块和/或选择标识,直到所有单元格都处理完成,从而获得整个待处理图像中的全部文本块的位置信息和全部所述选择标识的位置信息。

需要说明的是,针对每个单元格图像,在进行文本块检测和选择标识检测的过程中,可能出现以下情况:第一种情况:单元格中仅仅存在文本块,例如图1中“企业名称”所属的单元格,这时仅仅获得文本块的位置信息。第二种情况:单元格中同时存在文本块和选择标识,例如图1中“企业性质”所属的单元格,这时可以单元格对应的图像即为待匹配单元格图像,因此需要获得文本块和选择标识各自的位置信息,这种情况下便需要对每个选择标识进行文本块匹配。

通过上述方式可以获得待处理表格图像中全部文本块和全部选择标识的位置信息,进而可以依据本实施例后续给出的匹配方式,为每个选择标识匹配目标文本块。

可选地,在步骤S302之前,还可以为待匹配单元格内的文本块和选择标识进行编号,获得文本块编号和选择标识编号,本实施例还给出一种可能的对文本块和选择标识各自进行编号的实现方式:按照预设顺序分别对待匹配单元格图像内的文本块和选择标识进行编号。其中,上述的预设顺序为待匹配单元格图像的水平方向或者竖直方向。

在一种可能的实施方式中,可以按照从左到右、从上到下的顺序分别对文本块和选择标识按顺序进行编号,编号后的待匹配单元格图像可以如图5所示,图5为本发明实施例提供的一种待匹配单元格图像的示例图。

例如,继续以上述距离矩阵D,其中行序号与文本块编号对应,列序号与选择标识编号对应,即第M行表征第M个文本块与全部选择标识之间的距离,第N列对应第N个选择标识与全部文本块之间的距离,假设针对第j列,与之匹配的是第i行,那么可以认为第j个选择标识与第i个文本块匹配上了。以此类推,可以获得每个选择标识与其对应的文本块。

可选地,本实施例还给出一种构建待匹配单元格图像对应的距离矩阵的实施方式,请参见图6,图6为本发明实施例提供的步骤S302的一种实现方式的示意性流程图,步骤S302可以包括:

S302-1,根据待匹配单元格图像内的文本块的位置信息中全部字符的位置信息,确定每个文本块的最大极限水平坐标和最小极限水平坐标。

本实施例中,确定最大极限坐标和最小极限坐标的方式如下:假设目标待匹配单元格图像中的检测结果中存在M个文本块,假设第m个文本块由N个字符组成,第i个字符的中心点坐标为(x

其中,N表征字符总数,y

那么,第m个文本块水平坐标x的极左值x

x

x

其中,min(x

S302-2,基于待匹配单元格图像内选择标识的位置信息、文本块的位置信息、最大极限水平坐标、最小极限水平坐标以及预先确定的换行系数,计算待匹配单元格图像内每个选择标识与每个文本块之间的距离。

本实施例中,为了确定距离矩阵,可以先就选择标识的位置信息进行处理,例如,若检测结果中某个选择标识的左上角坐标为(x

进而,将上述确定的中心点坐标作为选择标识的位置信息,用于后续计算与文本块之间的距离。

本实施例中,上述的换行系数可以通过以下方式预先确定的:

将预设阈值确定为换行系数;或者,根据每个文本块的最大极限坐标和最小极限坐标,确定目标待匹配单元格图像中的最大极限坐标和最小极限坐标;根据目标待匹配单元格图像的最大极限坐标和最小极限坐标,计算换行系数。

本实施例中,待匹配单元格的最小极限水平坐标和最大极限水平坐标可以定义为:

X

X

其中,min(x

S302-3,根据待匹配单元格图像内文本块编号和选择标识编号,将全部距离组成待匹配单元格图像对应的距离矩阵。

本实施例中,假设将待匹配单元格图像中有M个文本块和N个选择标识的二维坐标按照公式1计算一维链式距离,得到下述M乘以N维的距离矩阵可以形如:

可以看出,上述距离矩阵的行数表征文本块的数量,列数表征选择标识的数量,每一行表示其中一个文本块与所有选择标识之间的一维链式距离,每一列表示其中一个选择标识与所有文本块之间的一维链式距离,也就是说,距离矩阵中的行序号与文本编号对应,列序号与选择标识编号对应。

例如,继续参见上述距离矩阵,第1列表征第1个文本块与全部选择标识之间的距离,因此,列序号1与文本块编号1一致,同理,第1行表征第1个选择标识与全部文本块之间的距离,因此,行序号1与选择标识编号一致。

当然,在构建距离矩阵的过程中,也可以将列序号与文本编号对应一致,将行序号与选择标识编号对应一致,此处不作限定,但是需要区分的是,针上述两种构建方式,本实施例给出了不同的匹配方式。

在第一种可能的匹配方式中,针对距离矩阵中的行序号与文本块编号对应,列序号与选择标识编号对应的构建方式,本发明实施例提供了一种匹配方式,即:

步骤1,确定目标列中的最小距离;目标列为距离矩阵中任一列。

步骤2,将最小距离所在行的行序号对应的选择标识编号与目标列的列序号对应的文本块编号进行关联。

步骤3,将距离矩阵中最小距离所在行和目标列删除。

步骤4,遍历全部列,获得每个选择标识编号与文本块编号的关联关系,根据关联关系,确定每个选择标识对应的目标文本块。

例如,继续以上述距离矩阵为例,假设目标列为第1列,第1列对应第1个选择标识,将列向量[D

在第二种可能的匹配方式中,可以将上述距离矩阵的转置矩阵作为进行匹配的最终距离矩阵。这样一来,距离矩阵中的行序号与选择标识编号对应,列序号与文本块编号对应,那么对应的匹配方式与上述第一种匹配方式的区别在于是按行遍历,其余匹配过程类似,此处不再赘述。

也就是说,不管是第一种匹配方式还是第二种匹配方式,由于文本块的数量一定大于或等于选择标识的数量,因此在遍历时都是按照与选择标识编号对应的行或者列来遍历,直到每个选择标识都匹配有目标文本块。

为了方便理解上述匹配原理,下面给出一种具体实例进行解释。

继续以图5为例,假设通过上述步骤S302检测到3个选择标识和3个文本块以及各自的位置信息,可以看出文本块个数与勾选框的个数相等,按照从左到右、从上到下的顺序分别对文本块和勾选框按顺序进行编号。

执行上述子步骤S303-2可以包括以下实现流程:首先,构建一个3×3的距离矩阵,可以认为行序号与文本块编号对应,列序号与选择标识编号对应:

然后,遵循按列遍历的原则,针对距离矩阵第1列,也即0号选择标识,对应到3维列向量[15,125,701]

其次,针对原距离矩阵第2列,也即1号选择标识,对应到降维后的2维列向量[14,105]

最后,针对原距离矩阵第3列,也即2号选择标识,对应降维后的距离矩阵仅有一个距离值,因此自动与2号文本块匹配。最终空选择标识与“生产企业”匹配,打勾的选择标识与“网络电商”匹配,打叉的选择标识与“出口企业”匹配。

为了验证本发明实施例提供的上述匹配方式的准确度,本实施建立了100张表格图片测试集(包含535个选择标识,546个文本块,场景覆盖最常见的单行文本选择标识、多行文本选择标识、跨行文本选择标识、选择标识和文本数量相同、选择标识和文本数量不同、选择标识在文本块之前、勾选框在文本块之后等各种场景),通过本发明采用的选择标识和文本块匹配的方法对上述测试集进行匹配测试,结果显示,正确匹配的文本块和选择标识为533个,综合匹配准确率达到99.6%,如下表所示:

表1 某选择标识与文本块匹配测试集输出结果

结合上述选择标识与文本块的匹配结果,可以进一步提取表格图像中有用的信息进行展示。

可选地,在解决选择标识和文本块一对一匹配问题之后,本发明实施例还提供了一种针对选择标识匹配的目标文本进行提取方式,进而可以根据提取到的目标文本块以及其它未匹配的文本块重构表格信息,以实现在表格中仅仅展示对用户有用信息的效果。请参见图7,图7为本发明实施例提供的另一种表格图像处理方法的示意性流程图,该方法还可以包括:

步骤S304,从全部选择标识中确定目标选择标识。

步骤S305,将目标选择标识匹配的目标文本块确定为待提取文本块。

可以理解的是,目标选择标识对应的目标文本块即是对用户有用的信息,通过提取对用户有用的信息来重构表格信息,可以简化表格信息,避免信息冗余而降低用户查看体验。

步骤S306,基于待提取文本块以及未匹配的文本块,重构待处理表格图像对应的表格内容。

可以理解的是,未被匹配的文本块也是构成表格内容的关键信息,因此,将目标选择标识对应的目标文本块以及未匹配的文本块提取后,重构表格内容,得到的表格内容仅仅保留了表格的关键信息以及对用户有用的信息,方便用户查看。

例如,结合图1,通过执行上述步骤,最终重构的表格内容如图8所示,图8为本发明实施例提供的重构的表格内容的示例图。对比图1和图8可以看出,重构后的表格内容中仅仅保留了图1中已有选择标记的选择标识后的文本块,同时还保留有未被匹配选择标识的文本块,也就是构成表格的关键信息,例如图8中的“专利类型:”以及表格第一列内的全部文本块。这样一来,重构后的表格内容可以仅仅展示用户有用的信息,避免了表格内容冗余,方便用户查看。

可选地,为了确定出全部目标选择标识,本实施还给出了一种可能的实现方式,请参见图9,图9为本发明实施例提供的步骤S304的实现方式的示意性流程图,其中步骤S304可以包括以下子步骤:

子步骤S304-1,对待匹配单元格图像内每个选择标识进行识别。

可以理解的是,由于待匹配单元格图像中同时存在选择标识和文本块,因此,需要将待匹配表格图像中用户感兴趣的文本块保留在重构的表格中,因此仅仅针对待匹配单元格图像进行目标选择标识的识别,进而可以确定出待提取文本块,非待匹配单元格图像不作处理,简化了处理过程,提高了识别效率。

子步骤S304-2,根据识别结果确定待匹配单元格图像内的目标选择标识。

可以理解的是,识别结果可以但不限于是选择标识是否是被标记的状态、标记的类别、标记数量等结果,根据这些结果可以确定出目标选择标识。

子步骤S304-3,遍历全部待匹配单元格图像,确定全部目标选择标识。

本实施例中,由于每个待匹配单元格图像中的选择标识的标识和标记状态不相同,因此识别目标选择标识的方式也不同,因此需要逐个针对每个待匹配单元格图像进行识别。

针对上述步骤子步骤S304-2,本发明实施例还提供的一种实现方式来确定目标选择标识,例如,子步骤S304-2可以包括以下步骤:

步骤1,若识别到全部选择标识均为未标记状态,则将全部选择标识确定为目标选择标识。

可以理解的是,若全部选择标识均为未标记状态,则保留全部选择标识对应的文本块,以便后续并填充至重构的表格图像中,可以方便用户进一步进行选择。

例如,继续参见图1,以“企业性质”所属单元格为例,若这3个文本块对应的3个选择标识的标记状态如图10所示,图10为本发明实施例提供的一种选择标识的标记状态示意图,则“生产企业”、“网络电商”和“出口企业”均需保留,那么在图8展示的重构的表格内容中,该单元格应该展示出这3个文本块,方便用户再次选择。

步骤2,若识别到至少存在一个选择标识为已标记状态,则根据识别的标识类别,从全部选择标识中确定目标选择标识。

可以理解的是,在实际实施过程中,由于有些标记对应的内容是用户排除不选择的内容,有些标记对应的内容是用户选择使用的内容,因此,针对不同类别的标识,可以确定目标选择标识。

在一些可能的实施方式中,步骤2可以按照以下步骤执行:

步骤2-1,若仅存在预设的信息排除类别,则将除具有信息排除类别的标记对应的选择标识以外的其他选择标识确定为目标选择标识。

其中,信息排除类别,类似于

在可能的实施方式中,作为一种示例,信息排除类别可以但不限于如图11所示,图11为本发明实施例提供的一种信息排除类别的选择标识的示意图。可以理解的是,除了信息排除类别,类似于单选标识,例如图1中 “产品是否申请专利”一行中“是”和“否”对应的选择标识、颜色覆盖标识,例如图1中“专利类型”一行中“发明专利”、“实用新型”和“外观专利”对应的选择标识,或勾选标识,例如图1中“企业性质”以及“销售渠道”这两行中的选择标识,均可以作为目标选择标识。

步骤2-2,若不存在信息排除类别,则将已标记状态对应的选择标识确定为目标选择标识。

例如,继续参见图1,以“产品是否申请专利”所属单元格为例,其中处于已标记状态的选择标识,即“是”对应的选择标识不是信息排除类别,则将“是”对应的选择标识确定为目标选择标识,则图8所示的表格图像中“产品是否申请专利”所属单元格保留了文本块“是”。

再例如,在“专利类型”所属单元格中,“发明专利”对应的选择标识处于已标记状态,但非信息排除类别,则“发明专利”对应的选择标识为目标选择标识。

步骤2-3,若同时存在信息排除类别和除信息排除类别以外的标识类别,则将除信息排除类别以外的标识类别对应的选择标识,确定为目标选择标识。

例如,继续以图1中以“企业性质”所属单元格为例,其中“网络电商”和“出口企业”对应的选择标识处于已标记状态,但是“出口企业”对应的选择标识为信息排除类别,那么仅仅将“网络电商”对应的选择标识确定为目标选择标识。

通过上述方式即可以获得每个待匹配单元格图像中的目标选择标识。

为了实现上述实施例中的各个步骤以实现相应的技术效果,本发明实施例提供的表格图像处理方法可以在硬件设备或者以软件模块的形式实现中执行,当表格图像处理方法以软件模块的形式实现时,本发明实施例还提供一种表格图像处理装置,请参见图12,图12为本发明实施例提供的表格图像处理装置的功能模块图,该表格图像处理装置400可以包括:

获取模块410,用于获取待处理表格图像。

识别模块420,用于对待处理表格图像进行识别,获得全部文本块的位置信息以及全部选择标识的位置信息;

构建模块430,用于针对待处理表格图像中的待匹配单元格图像,根据待匹配单元格图像内的文本块的位置信息和文本块编号、选择标识的位置信息和选择标识编号,构建待匹配单元格图像对应的距离矩阵。

匹配模块440,用于基于待匹配单元格图像对应的距离矩阵,为待匹配单元格图像中的选择标识匹配目标文本块;

其中,待匹配单元格图像为同时存在文本块和选择标识的单元格图像;目标文本块为待匹配单元格图像内全部文本块中的其中一个。

可以理解的是,上述获取模块410、识别模块420、构建模块430以及匹配模块440可以协同地执行图3中的各个步骤以实现相应的技术效果。

在一些可能的实施方式中,表格图像处理装置400还包括:确定模块,用于从全部选择标识中确定目标选择标识;将目标选择标识匹配的目标文本块确定为待提取文本块;重构模块,用于基于待提取文本块以及未匹配的文本块,重构待处理表格图像。

在一些可能的实施方式中,上述识别模块420,还包括:确定单元,用于对待处理表格图像进行单元格识别,确定每个单元格对应的单元格图像;检测单元,用于对目标单元格图像进行文本块检测和选择标识检测,确定目标单元格图像中文本块的位置信息,或者,确定目标单元格图像中文本块和选择标识各自的位置信息;其中,目标单元格图像为全部单元格图像中的任一个;获取单元,用于遍历全部单元格图像,获得全部文本块的位置信息以及全部选择标识的位置信息。

在一些可能的实施方式中,上述匹配模块430,包括:确定单元,根据第一待匹配单元格图像对应的距离矩阵,确定第一待匹配单元格图像中与每个选择标识匹配的目标文本块;其中,第一待匹配单元格图像为全部待匹配单元格图像中的任一个;获取单元,用于遍历全部待匹配单元格图像,获得全部选择标识匹配的目标文本块。

在一些可能的实施方式中,还包括编号模块,用于:按照预设顺序分别对待匹配单元格图像内的文本块和选择标识进行编号;其中,预设顺序待匹配单元格图像的水平方向或者竖直方向。

在一些可能的实施方式中,构建模块,具体用于:根据待匹配单元格图像内的文本块的位置信息中全部字符的位置信息,确定每个文本块的最大极限水平坐标和最小极限水平坐标;基于待匹配单元格图像内选择标识的位置信息、文本块的位置信息、最大极限水平坐标、最小极限水平坐标以及预先确定的换行系数,计算待匹配单元格图像内每个选择标识与每个文本块之间的距离;根据待匹配单元格图像内文本块编号和选择标识编号,将全部距离组成待匹配单元格图像对应的距离矩阵。

在一些可能的实施方式中,换行系数是通过以下方式预先确定的:将预设阈值确定为换行系数;或者,根据每个文本块的最大极限水平坐标和最小极限水平坐标,确定待匹配单元格图像的最大极限水平坐标和最小极限水平坐标;根据待匹配单元格图像的最大极限坐标和最小极限坐标,计算换行系数。

在一些可能的实施方式中,确定模块,具体用于:针对目标待匹配单元格图像,对每个选择标识进行识别;根据识别结果确定目标待匹配单元格图像内的目标选择标识;遍历全部待匹配单元格图像,确定全部目标选择标识。

在一些可能的实施方式中,确定模块,还具体用于:确定模块,具体用于:对待匹配单元格图像内每个选择标识进行识别;根据识别结果确定待匹配单元格图像内的目标选择标识;遍历全部待匹配单元格图像,确定全部目标选择标识。

在一些可能的实施方式中,确定模块,还具体用于若识别到每个选择标识均为未标记状态,则将每个选择标识均确定为目标选择标识;若识别到至少存在一个选择标识为已标记状态,则根据识别的标识类别,从每个选择标识中确定目标选择标识。

在一些可能的实施方式中,确定模块,还具体用于:若仅存在预设的信息排除类别,则将具有未标记状态的选择标识确定为目标选择标识;其中,信息排除类别表征选择标识对应的目标文本块不被选择;若不存在信息排除类别,则将已标记状态对应的选择标识确定为目标选择标识;若同时存在信息排除类别和除信息排除类别以外的标识类别,则将除信息排除类别以外的标识类别对应的选择标识,确定为目标选择标识。

在一些可能的实施方式中,表格图像处理装置还包括:预处理模块,用于对待处理表格图像进行预处理。

需要说明的是,本发明实施例提供的表格图像处理装置400中的各个功能模块可以软件或固件(Firmware)的形式存储于存储器中或固化于计算机设备的操作系统(Operating System,OS)中,并可由计算机设备中的处理器执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器中。因此,本发明实施例还提供一种计算机设备,该计算机设备可以是图2所示的计算设备230,或者是其他具有数据处理功能的计算机设备,本发明不作限定。

如图13,图13为本发明实施例提供的一种计算机设备的方框示意图。该计算机设备230包括通信接口231、处理器232和存储器233。该处理器232、存储器233和通信接口231相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器233可用于存储软件程序及模块,如本发明实施例所提供的表格图像处理方法对应的程序指令/模块,处理器232通过执行存储在存储器233内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口231可用于与其他节点设备进行信令或数据的通信。在本发明中该计算机设备230可以具有多个通信接口231。

其中,存储器233可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器232可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项的表格图像处理方法。该计算机可读存储介质可以是,但不限于,U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 表格图像处理方法、装置、计算机设备及可读存储介质
  • 表格处理方法、装置、电子设备及计算机可读存储介质
技术分类

06120113821538