掌桥专利:专业的专利平台
掌桥专利
首页

图像中表格信息的识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:02:01


图像中表格信息的识别方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域,特别是涉及一种图像中表格信息的识别方法、装置、电子设备及存储介质。

背景技术

在图像处理领域有一种图像是包括表格的图像,为了获得图像中的表格的内容,需要对包括表格的图像进行识别。

目前对图像中表格的识别过程一般为:首先提取图像中的水平线和垂直线,若无水平线和垂直线,则判定区域内没有表格;若有水平线和垂直线,则采用区域生长方法来确定图像中表格的位置,进而根据图像中表格的位置,对图像中表格进行文本识别,获得图像中的表格中的文字内容。

在上述图像中表格的识别过程中,得到的识别结果仅为表格中的文字内容,信息较少,非常不利于后续对表格进行恢复等进一步处理。

发明内容

本发明实施例的目的在于提供一种图像中表格信息的识别方法、装置、电子设备及存储介质,以提高图像中的表格识别结果的多样性,利用后续进行进一步处理。具体技术方案如下:

第一方面,本发明实施例提供了一种图像中表格信息的识别方法,所述方法包括:

接收具有表格的目标图像;

从所述目标图像中确定包含表格的表格图像;

对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置;

去除所述表格图像的表格线;

根据所述文本行的位置,从去除表格线后的表格图像中分割出文本图像;

对所述分割出的文本图像进行识别,得到所述表格图像的文字信息;

基于所述表格图像中文本行的位置,去除所述表格图像中的字符;

将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像;

对所述中间图像进行腐蚀处理,得到腐蚀图像,对所述腐蚀图像进行膨胀处理,得到膨胀图像;

对所述膨胀图像进行横向及纵向表格线分开处理,得到横线图像及竖线图像;

对所述横线图像及所述竖线图像进行取并集处理,得到表格线图像;

对所述横线图像及所述竖线图像进行取交集处理,得到交点图像;

根据所述交点图像,确定去除字符后的表格图像中交点数量;

根据所述表格线图像,确定去除字符后的表格图像中封闭单元格的数量;

根据所述表格线的交点数量确定所述表格的单元格数量;

基于所述封闭单元格的数量与所述单元格数量,确定所述表格图像的表格线是否完整;

如果所述表格图像的表格线不完整,将所述表格图像的表格线补全;

对表格线完整的表格图像进行表格识别,得到所述表格图像的表格结构信息。

可选的,所述基于所述封闭单元格的数量与所述单元格数量,确定所述表格图像的表格线是否完整的步骤,包括:

判断所述封闭单元格的数量与所述单元格数量是否相等;

如果所述封闭单元格的数量与所述单元格数量相等,确定所述表格图像的表格线完整;

如果所述封闭单元格的数量与所述单元格数量不相等,确定所述表格图像的表格线不完整。

可选的,所述对所述分割出的文本图像进行识别,得到所述表格的文字信息的步骤,包括:

对所述分割出的文本图像进行文字识别,得到所述表格图像的文字识别结果;

对所述文字识别结果进行语义分析,得到各文本行对应的语义;

根据所述各文本行对应的语义,对所述文字识别结果进行分类,得到每个文字识别结果对应的类别;

根据所述文字识别结果对应的类别,对所述文字识别结果进行存储,得到所述表格图像的文字信息。

可选的,所述从所述目标图像中确定包含表格的表格图像的步骤,包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置;

根据所述目标位置,判断所述目标位置对应的表格区域是否扭曲;

如果是,对所述表格区域进行仿射变换处理,得到所述目标图像对应的表格图像。

可选的,所述对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置的步骤,包括:

利用pixel link算法对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置。

可选的,所述表格图像中文本行的位置包括所述表格图像中所有文本行的位置;

所述文本行的位置为所述文本行的最小外接矩形的顶点坐标,所述顶点坐标为所述最小外接矩形的四个顶点的坐标,或,所述顶点坐标为所述最小外接矩形的对角顶点的坐标。

可选的,所述去除所述表格图像的表格线的步骤,包括:

将所述表格图像的表格线的颜色填充为所述表格图像的背景色。

可选的,所述基于所述表格图像中文本行的位置,去除所述表格图像中的字符的步骤,包括:

将所述表格图像中文本行的位置对应的矩形区域填充为所述表格图像的背景色。

可选的,所述确定去除字符后的表格图像中交点数量及封闭单元格的数量的步骤,包括:

采用findContours算法检测去除字符后的表格图像中封闭单元格的数量以及表格线的交点数量。

可选的,所述将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像的步骤,包括:

利用adaptiveThreshold算法将所述去除字符后的表格图像进行二值化处理;

对二值化处理后的表格图像的像素值进行取反处理,得到中间图像。

可选的,所述深度学习模型包括表格图像与表格顶点坐标的对应关系;

所述将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置的步骤,包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的表格顶点坐标。

可选的,所述深度学习模型的训练方式,包括:

获取表格图像样本及初始深度学习模型;

标记所述表格图像样本中表格区域的位置;

将标记后的表格图像样本输入所述初始深度学习模型,对所述初始深度学习模型进行训练;

当所述初始深度学习模型的输出结果的准确度达到预设值,或所述表格图像样本的训练迭代次数达到预设次数时,停止训练,得到所述深度学习模型。

第二方面,本发明实施例提供了一种图像中表格信息的识别装置,所述装置包括:

目标图像接收模块,用于接收具有表格的目标图像;

表格图像确定模块,用于从所述目标图像中确定包含表格的表格图像;

文本行位置确定模块,用于对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置;

表格线去除模块,用于去除所述表格图像的表格线;

信息识别模块,包括:

图像分割单元,用于根据所述文本行的位置,从去除表格线后的表格图像中分割出文本图像;

文字识别单元,用于对所述分割出文本图像进行识别,得到所述表格图像的文字信息;

字符去除单元,用于基于所述表格图像中文本行的位置,去除所述表格图像中的字符;

第一数量确定单元,包括:

二值化处理子单元,用于将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像;图像腐蚀子单元,用于对所述中间图像进行腐蚀处理,得到腐蚀图像;图像膨胀子单元,用于对所述腐蚀图像进行膨胀处理,得到膨胀图像;表格线分开子单元,用于对所述膨胀图像进行横向及纵向表格线分开处理,得到横线图像及竖线图像;表格线图像确定子单元,用于对所述横线图像及所述竖线图像进行取并集处理,得到表格线图像;交点图像确定子单元,用于对所述横线图像及所述竖线图像进行取交集处理,得到交点图像;交点数量确定子单元,用于根据所述交点图像,确定去除字符后的表格图像中交点数量;单元格数量确定子单元,用于根据所述表格线图像,确定去除字符后的表格图像中封闭单元格的数量;

第二数量确定单元,用于根据所述表格线的交点数量确定所述表格的单元格数量;

表格线确定单元,用于基于所述封闭单元格的数量与所述单元格数量,确定所述表格图像的表格线是否完整;

表格线补全单元,用于如果所述表格图像的表格线不完整,将所述表格图像的表格线补全;

表格识别单元,用于对表格线完整的表格图像进行表格识别,得到所述表格图像的表格结构信息。

可选的,所述表格线确定单元包括:

数量判断单元,用于判断所述封闭单元格的数量与所述单元格数量是否相等;

第一表格线确定单元,用于如果所述封闭单元格的数量与所述单元格数量相等,确定所述表格图像的表格线完整;

第二表格线确定单元,用于如果所述封闭单元格的数量与所述单元格数量不相等,确定所述表格图像的表格线不完整。

可选的,所述文字识别单元包括:

文字识别子单元,用于对所述分割出的文本图像进行文字识别,得到所述表格图像的文字识别结果;

语义分析子单元,用于对所述文字识别结果进行语义分析,得到各文本行对应的语义;

分类子单元,用于根据所述各文本行对应的语义,对所述文字识别结果进行分类,得到每个文字识别结果对应的类别;

识别结果存储子单元,用于根据所述文字识别结果对应的类别,对所述文字识别结果进行存储,得到所述表格图像的文字信息。

可选的,所述表格图像确定模块包括:

目标位置确定单元,用于将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置;

扭曲判断单元,用于根据所述目标位置,判断所述目标位置对应的表格区域是否扭曲;

表格图像确定单元,用于如果所述目标位置对应的表格区域扭曲,对所述表格区域进行仿射变换处理,得到所述目标图像对应的表格图像。

可选的,所述文本行位置确定模块包括:

文本行位置确定单元,用于利用pixel link算法对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置。

可选的,所述表格图像中文本行的位置包括所述表格图像中所有文本行的位置;

所述文本行的位置为所述文本行的最小外接矩形的顶点坐标,所述顶点坐标为所述最小外接矩形的四个顶点的坐标,或,所述顶点坐标为所述最小外接矩形的对角顶点的坐标。

可选的,所述表格线去除模块包括:

表格线去除单元,用于将所述表格图像的表格线的颜色填充为所述表格图像的背景色。

可选的,所述字符去除单元包括:

字符去除子单元,用于将所述表格图像中文本行的位置对应的矩形区域填充为所述表格图像的背景色。

可选的,所述第一数量确定单元包括:

采用findContours算法检测去除字符后的表格图像中封闭单元格的数量以及表格线的交点数量。

可选的,所述二值化处理子单元包括:

二值化子单元,用于利用adaptiveThreshold算法将所述去除字符后的表格图像进行二值化处理;

取反子单元,用于对二值化处理后的表格图像的像素值进行取反处理,得到中间图像。

可选的,所述深度学习模型包括表格图像与表格顶点坐标的对应关系;

所述目标位置确定单元,具体用于将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的表格顶点坐标。

可选的,所述深度学习模型通过模型训练模块训练得到;

所述模型训练模块,用于获取表格图像样本及初始深度学习模型;标记所述表格图像样本中表格区域的位置;

将标记后的表格图像样本输入所述初始深度学习模型,对所述初始深度学习模型进行训练;当所述初始深度学习模型的输出结果的准确度达到预设值,或所述表格图像样本的训练迭代次数达到预设次数时,停止训练,得到所述深度学习模型。

第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一所述的图像中表格信息的识别方法步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的图像中表格信息的识别方法步骤。

本发明实施例所提供的方案中,电子设备首先可以接收具有表格的目标图像,然后从目标图像中确定包含表格的表格图像,再对表格图像进行文本行检测,确定表格图像中文本行的位置,进而根据文本行的位置对所述图像进行识别,得到表格图像的表格信息,其中,表格信息包括文字信息及表格结构信息。由于识别得到的表格信息包括文字信息及表格结构信息,而不仅仅是表格中的文字内容,因此提高了图像中的表格识别结果的多样性,利用后续进行表格恢复等进一步处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种图像中表格信息的识别方法的流程图;

图2(a)为本发明实施例所提供的一种人工选取框的示意图;

图2(b)为本发明实施例所提供的另一种人工选取框的示意图;

图3为基于图1所示实施例的表格图像中文本行的位置的一种示意图;

图4为图1所示实施例中步骤S104的一种具体流程图;

图5为图4所示实施例中步骤S403的一种具体流程图;

图6为基于图5所示实施例的表格线的交点的一种示意图;

图7为图5所示实施例中步骤S502的一种具体流程图;

图8(a)为基于图1所示实施例的一种表格图像的示意图;

图8(b)为基于图1所示实施例的一种中间图像的示意图;

图8(c)为基于图1所示实施例的一种横线图像的示意图;

图8(d)为基于图1所示实施例的一种竖线图像的示意图;

图8(e)为基于图1所示实施例的一种表格线图像的示意图;

图8(f)为基于图1所示实施例的一种交点图像的示意图;

图9为图1所示实施例中步骤S104的一种具体流程图;

图10为基于图1所示实施例的深度学习模型的训练方式的一种流程图;

图11为本发明实施例所提供的一种图像中表格信息的识别装置的结构示意图;

图12为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了提高图像中的表格识别的准确度,本发明实施例提供了一种图像中表格信息的识别方法、装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例所提供的一种图像中表格信息的识别方法进行介绍。

本发明实施例所提供的一种图像中表格信息的识别方法可以应用于任意需要对图像中表格信息进行识别的电子设备,例如,可以为电脑、手机、智能手表等,在此不做具体限定。为了便于描述,以下简称电子设备。

如图1所示,一种图像中表格信息的识别方法,所述方法包括以下步骤:

S101,接收具有表格的目标图像;

S102,从所述目标图像中确定包含表格的表格图像;

S103,对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置;

S104,根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息。

其中,所述表格信息包括文字信息及表格结构信息。

可见,本发明实施例所提供的方案中,电子设备首先可以接收具有表格的目标图像,然后从目标图像中确定包含表格的表格图像,再对表格图像进行文本行检测,确定表格图像中文本行的位置,进而根据文本行的位置对所述图像进行识别,得到表格图像的表格信息,其中,表格信息包括文字信息及表格结构信息。由于识别得到的表格信息包括文字信息及表格结构信息,而不仅仅是表格中的文字内容,因此提高了图像中的表格识别结果的多样性,利用后续进行表格恢复等进一步处理。

在上述步骤S101中,电子设备可以接收具有表格的目标图像,该目标图像即为需要进行表格信息识别的图像。电子设备可以获取本地存储的具有表格的图像,作为目标图像。也可以接收其他电子设备发送的具有表格的图像,作为目标图像。当然也可以通过自身安装的图像采集器件获取具有表格的图像,作为目标图像,例如,通过自身安装的摄像头获取具有表格的图像。这都是合理的,在此不做具体限定。

电子设备在通过自身安装的图像采集器件获取目标图像时,可以在显示屏幕中显示人工选取框,例如图2(a)及图2(b)所示,用户可以通过拖拽人工选取框改变人工选取框的形状,可以为矩形、梯形、三角形等形状。图像采集器件采集人工选取框中包括的区域即可以得到目标图像。

得到上述目标图像后,为了对目标图像中的表格进行识别,电子设备可以从目标图像中确定包含表格的表格图像。电子设备可以利用深度学习模型、图像检测等方式确定目标图像中包含表格的表格图像。为了方案清楚及布局清晰,后续将会对从目标图像中确定包含表格的表格图像的方式进行举例介绍。得到上述表格图像后,电子设备便可以对该表格图像进行文本行检测,确定表格图像中文本行的位置,即执行上述步骤S103。在一种实施方式中,电子设备可以利用pixel link算法对上述表格图像进行文本行检测,在此不做具体说明及限定。

为了提高文本行识别的准确度以及更加适应实际应用场景,可以对pixel link算法中使用的深度学习模型进行适应调整,例如,调整其参数、损失函数等,具体调整方式可以采用深度学习模型领域的相关方式,在此不做具体限定及说明。

上述表格图像中文本行的位置即为表格中所有文本行的位置,可以采用文本行的最小外接矩形的顶点坐标表示,可以采用四个顶点的坐标表示,当然也可以对角顶点的坐标表示。例如,如图3所示,可以采用点301-点304的坐标表示,也可以采用点301和点303的坐标表示,当然也可以采用点302和点304的坐标表示。图3中只是示例性的示出了“年龄”所对应的文本行的位置,其他文本行的位置未示出。

接下来,在上述步骤S104中,电子设备便可以根据文本行的位置对表格图像进行识别,进而得到表格图像的表格信息。其中,表格信息可以包括文字信息及表格结构信息。

其中,表格结构信息可以包括行列数、单元格合并信息、单元格边框信息、单元格填充颜色、单元格宽高等信息。文字信息可以包括文本内容、类型、字体、字号、颜色等信息,在此不做具体限定。

作为本发明实施例的一种实施方式,在上述根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息的步骤之前,上述方法还可以包括:去除所述表格图像的所有表格线。

为了去除表格线对文字识别的影响,电子设备可以将表格图像的表格线去除,在一种实施方式中,可以将表格图像的所有表格线去除,这样,在进行文字识别时,便不会受到表格线影响。

作为一种实施方式,电子设备可以将表格线的颜色填充为表格图像的背景色,以达到去除表格线的目的。例如,表格图像的背景色为白色,表格线以及其中的字符为黑色,那么电子设备便可以将所有表格线填充为白色,这样便只留下黑色的字符。

相应的,如图4所示,上述根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息的步骤,可以包括:

S401,根据所述文本行的位置,从去除表格线后的表格图像中分割出文本图像;

为了进行文字识别,电子设备可以根据文本行检测得到的文本行的位置,从去除表格线后的表格图像中分割出文本图像。例如,上述文本行的位置为矩形的对角顶点坐标(5,7.5)及(35,15),那么电子设备便可以将该矩形区域从表格中分割出来,便得到一个文本图像。

电子设备根据文本行的位置将表格图像中的所有文本对应的矩形区域均分割出来,便可以得到表格图像对应的所有文本图像。由于此时的表格图像的表格线已经去除,所以即使在表格线与文字距离非常近的情况下,也不会将表格线分割至文本图像中。

S402,对所述分割出文本图像进行文字识别,得到所述表格图像的文字信息;

进而,电子设备对分割出文本图像进行文字识别,便可以得到表格图像的文字信息。

S403,确定所述表格图像的表格线是否完整,如果所述表格图像的表格线不完整,执行步骤S404;

为了使得到的表格结构信息更加准确,电子设备可以确定上述表格图像的表格线是否完整。在一种实施方式中,电子设备可以通过检测表格图像中封闭单元格的数量来确定表格图像的表格线是否完整,后续将会对具体实现方式进行举例介绍。

如果表格图像的表格线完整,那么便可以继续执行步骤S405。

S404,将所述表格图像的表格线补全;

如果表格图像的表格线不完整,那么电子设备便可以执行步骤S404,即将表格图像的表格线补全,然后执行步骤S405;

S405,对表格线完整的表格图像进行表格识别,得到所述表格图像的表格结构信息。

电子设备便可以对表格线完整的表格图像进行表格识别,进而得到表格图像的表格结构信息。得到别表格结构信息后,为了后续进行恢复处理得到表格,可以存储该表格结构信息。

可见,在本实施例中,电子设备可以将去除所有表格线的表格图像分割为文本图像,使得分割得到的文本图像中不会包含表格线,进而,使得得到的文字信息更加准确。同时可以对表格线不完整的表格图像进行补全处理,进而根据表格线完整的表格图像得到准确的表格结构信息。

作为本发明实施例的一种实施方式,如图5所示,上述确定所述表格图像的表格线是否完整的步骤,可以包括:

S501,基于所述表格图像中文本行的位置,去除所述表格图像中的字符;

确定了表格图像中文本行的位置,电子设备便可以根据文本行的位置将表格图像中的字符去除,为了不影响后续确定封闭单元格的数量及表格线的交点数量,电子设备可以将所有字符都去除,也就是只保留表格的表格线。

在一种实施方式中,电子设备可以将表格图像中文本行的位置对应的矩形区域填充为表格图像的背景色,以达到去除字符的目的。例如,表格图像的背景色为白色,表格线以及其中的字符为黑色,那么电子设备便可以将所有字符填充为白色,这样便只留下黑色的表格线。

S502,确定去除字符后的表格图像中交点数量及封闭单元格的数量;

进而,电子设备可以确定去除字符后的表格图像中封闭单元格的数量,以及表格线的交点数量。作为一种实施方式,电子设备可以采用findContours算法检测去除字符后的表格图像中封闭单元格的数量以及表格线的交点数量。

其中,表格线的交点是两条表格线相交形成的交点,例如,如图6所示,图6中所示的为一个2行3列的表格,其中,点610即为表格线的交点,共有12个。

S503,根据所述表格线的交点数量确定所述表格的单元格数量;

确定了表格图像中表格线的交点数量,电子设备也就可以根据表格线的交点数量确定出表格的单元格数量。

例如,表格线的交点数量为30,那么可以确定该表格为4行5列的表格,或者为5行4列的表格,那么便可以确定表格的单元格数量为20个。

进而,电子设备可以基于封闭单元格的数量与单元格数量,确定表格图像的表格线是否完整。具体可以包括步骤S504-步骤S506。

S504,判断所述封闭单元格的数量与所述单元格数量是否相等,如果所述封闭单元格的数量与所述单元格数量相等,执行步骤S505;如果所述封闭单元格的数量与所述单元格数量不相等,执行步骤S506;

接下来,电子设备便可以判断上述封闭单元格的数量与所确定的单元格数量是否相等,如果封闭单元格的数量与单元格数量相等,说明表格图像中所有单元格都是封闭的,那么也就说明表格图像的表格的表格线是完整的,不存在缺失的线条,那么便可以执行步骤S505,即确定表格图像的表格线完整。

如果封闭单元格的数量与单元格数量不相等,说明表格图像中单元格并不是所有的单元格都是封闭的,那么也就说明表格图像的表格的表格线是不完整的,存在缺失的线条,那么便可以执行步骤S506,即确定表格图像的表格线不完整。

例如,封闭单元格的数量为28,步骤S503中确定的单元格数量为30,那么便说明表格图像中表格的单元格有2个不是封闭的,那么表格图像中表格的表格线便是不完整的。

S505,确定所述表格图像的表格线完整;

S506,确定所述表格图像的表格线不完整。

可见,在本实施例中,电子设备可以基于表格图像中文本行的位置,去除表格图像中的字符,确定去除字符后的表格图像中封闭单元格的数量,以及表格线的交点数量,进而根据表格线的交点数量确定表格的单元格数量,然后判断封闭单元格的数量与单元格数量是否相等,如果相等,则确定表格图像的表格线完整,如果不相等,则确定表格图像的表格线不完整。这样可以准确地确定表格图像的表格线是否完整,进而提高后续对表格内容识别的准确度。

作为本发明实施例的一种实施方式,如图7所示,上述确定去除字符后的表格图像中交点数量及封闭单元格的数量的步骤,可以包括:

S701,将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像;

在一种实施方式中,电子设备可以利用adaptiveThreshold算法将去除字符后的表格图像进行二值化处理,进而电子设备可以对二值化处理后的表格图像的像素值进行取反处理,得到中间图像。

例如,如图8(a)所示的表格图像,将其中的字符去除后,对表格图像进行二值化处理,并对像素值进行取反处理,得到中间图像如图8(b)所示。可见,表格图像中字符及表格线均为黑色,对表格图像进行二值化处理,并对像素值进行取反处理得到的中间图像中表格线为白色,其余部分为黑色。

S702,对所述中间图像进行腐蚀处理,得到腐蚀图像;

接下来,由于有些字符可能距离表格线较近,或者与表格线有重复的部分,会造成中间图像中可能包含一些不属于表格线的像素点,例如图8(b)中的白色点状。所以为了更准确地确定表格图像中交点数量,电子设备可以采用腐蚀处理对上述中间图像进行处理,进而得到腐蚀图像。

腐蚀处理和膨胀处理是对图像的一种形态学操作,实质是改变图像中物体的形状。腐蚀处理和膨胀处理一般作用于二值化图像,用来连接相邻的元素或分离成独立的元素。腐蚀处理和膨胀处理一般针对图像中的白色部分。

由于腐蚀处理是对图像的小区域内取局部最小值。因为上述中间图像是二值化图像,像素值只有0和255,所以小区域内的像素值有一个是0,那么该小区域内的所有像素点均变为0,所以采用腐蚀处理对上述中间图像进行处理时可以将距离表格线较远的字符遗留的像素点腐蚀掉。

S703,对所述腐蚀图像进行膨胀处理,得到膨胀图像;

接下来,电子设备可以对腐蚀图像进行膨胀处理,进而得到膨胀图像。由于膨胀处理是对图像的小区域内取局部最大值。因为上述中间图像是二值化图像,像素值只有0和255,所以小区域内的像素值有一个是255,那么该小区域内的所有像素点均变为255,所以通过表格线的膨胀处理可以将距离表格线较近的字符遗留的像素点融入表格线中。

S704,对所述膨胀图像进行横向及纵向表格线分开处理,得到横线图像及竖线图像;

得到上述膨胀图像后,电子设备便可以对上述膨胀图像进行横向及纵向表格线分开处理,得到的横线图像及竖线图像。由于已经进行过腐蚀和膨胀处理,所以得到的横线图像及竖线图像中只有表格线。

例如,对图8(b)所示的中间图像采用腐蚀及膨胀处理后,进行横向及纵向表格线分开处理,得到的横线图像及竖线图像可以分别如图8(c)及图8(d)所示。

S705,对所述横线图像及所述竖线图像进行取并集处理,得到表格线图像;

进而,电子设备可以对上述横线图像及上述竖线图像进行取并集处理,即可以得到表格线图像。例如,横线图像及竖线图像分别如图8(c)及图8(d)所示,那么对图8(c)及图8(d)进行取并集处理,便可以得到表格线图像8(e)。

S706,对所述横线图像及所述竖线图像进行取交集处理,得到交点图像;

电子设备还可以对上述横线图像及上述竖线图像进行取交集处理,即可以得到交点图像。例如,横线图像及竖线图像分别如图8(c)及图8(d)所示,那么对图8(c)及图8(d)进行取交集处理,便可以得到交点图像图8(f)。

S707,根据所述交点图像,确定去除字符后的表格图像中交点数量;

得到上述交点图像后,电子设备便可以确定去除字符后的表格图像中交点数量。例如,交点图像如图8(f)所示,那么便可以确定交点数量为56。

S708,根据所述表格线图像,确定去除字符后的表格图像中封闭单元格的数量。

得到上述表格线图像后,电子设备便可以确定去除字符后的表格图像中封闭单元格的数量。例如,交点图像如图8(e)所示,那么便可以确定表格图像中封闭单元格的数量为42。

可见,在本实施例中,电子设备可以将去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像,进而采用腐蚀及膨胀处理对中间图像进行横向及纵向表格线分开处理,得到横线图像及竖线图像,得到的横线图像及竖线图像中如字符遗留的像素点,使得后续确定的交点数量及封闭单元格的数量更加准确。

为了便于后续查询以及恢复表格内容,作为本发明实施例的一种实施方式,如图9所示,上述对所述分割出的文本图像进行识别,得到所述表格的文字信息的步骤,可以包括:

S901,对所述分割出的文本图像进行文字识别,得到所述表格图像的文字识别结果;

电子设备可以对分割出的文本图像进行文字识别,进而得到表格图像的文字识别结果。其中,对于文字识别的具体实现方式,可以采用图像中文字识别领域的任意文字识别方式,只要可以识别出文本图像中的文字内容即可,在此不做具体限定及说明。

S902,对所述文字识别结果进行语义分析,得到各文本行对应的语义;

得到上述文字识别结果后,为了对文字识别结果进行结构化存储,电子设备可以对该文字识别结果进行语义分析,得到各文本行对应的语义。其中,对文字识别结果进行语义分析的具体实现方式可以采用语义分析领域的任意语义分析方式,在此不做具体限定及说明。

S903,根据所述各文本行对应的语义,对所述文字识别结果进行分类,得到每个文字识别结果对应的类别;

进而,电子设备可以根据各文本行对应的语义,对上述文字识别结果进行分类,得到每个文字识别结果对应的类别。例如,文字识别结果为“姓名”、“张三”、“李四”,“年龄”、“25岁”、“28岁”,那么“张三”、“李四”对应语义均为人的姓名,“25岁”、“28岁”对应的语义均为人的年龄,那么电子设备表可以将文字识别结果“张三”和“李四”及“姓名”划分为姓名一类,将文字识别结果“25岁”和“28岁”及“年龄”划分为年龄一类。

S904,根据所述文字识别结果对应的类别,对所述文字识别结果进行存储,得到所述表格图像的文字信息。

得到文字识别结果对应的类别后。电子设备可以将根据类别对文字识别结果进行存储,得到表格图像的文字信息。

在一种实施方式中,电子设备可以以JSON(JavaScript Object Notation,对象简谱)格式的键值对的方式对文字识别结果进行结构化存储。还是以上述例子为例进行说明,电子设备可以将“姓名”、“年龄”作为存储的键,“张三”、“李四”作为键“姓名”所对应的值进行存储。同理的,将“年龄”作为存储的键,“25岁”、“28岁”作为键“年龄”所对应的值进行存储。

为了更加直观地展示上述表格图像中的表格,电子设备可以将上述表格线完整的表格图像或者补全表格线后的表格图像也进行存储。

电子设备还可以将表格图像中的字符的类型、字体、字号、颜色等信息,以及上述表格结构信息也进行存储,方便后续利用文字信息及表格结构信息恢复得到表格。

可见,在本实施例中,电子设备可以对文字识别结果进行语义分析,得到各文本行对应的语义,进而根据各文本行对应的语义,对文字识别结果进行分类,根据分类结果对文字识别结果进行存储。还可以将上述表格线完整的表格图像或者补全表格线后的表格图像以及表格结构信息等也进行存储。这样,在用户查看该表格图像对应的信息时,可以查看完成的表格图像,以及表格内容,更加直观方便,提高用户体验,还可以方便后续利用文字信息及表格结构信息恢复得到表格。

作为本发明实施例的一种实施方式,上述从所述目标图像中确定包含表格的表格图像的步骤,可以包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置;根据所述目标位置,判断所述目标位置对应的表格区域是否扭曲;如果是,对所述表格区域进行仿射变换处理,得到所述目标图像对应的表格图像。

为了确定所获取的目标图像中表格的位置,以对表格进行识别,电子设备可以通过预先训练完成的深度学习模型确定目标图像中表格的目标位置。该深度学习模型为基于预先获取的表格图像样本对初始深度学习模型进行训练得到的,通过该深度学习模型可以得到目标图像中表格的位置,也就是上述目标位置。

其中,深度学习模型可以为卷积神经网络等,深度学习模型的具体结构本发明在此不做具体限定,只要可以通过训练得到能够得到表格图像中表格的位置的深度学习模型即可。初始深度学习模型的初始参数可以随机设定,在此不做具体限定。为了方案清楚及布局清晰,后续将会对深度学习模型的训练方式进行举例介绍。

确定了上述目标图像中表格的目标位置后,电子设备便可以根据该目标位置,确定目标图像中的表格区域。例如,目标位置为目标图像中表格的四个顶点,那么目标图像中的表格区域即为四个顶点确定的区域。

进而电子设备可以判断目标位置对应的表格区域是否扭曲,如果不扭曲,那么便可以不对表格区域做处理,该表区域对应的图像即为上述表格图像。其中,电子设备可以根据目标位置的坐标确定表格区域是否扭曲,例如,如果目标位置的坐标表示表格区域为一平行四边形,那么便可以确定表格区域为扭曲的;如果目标位置的坐标表示表格区域为一矩形,那么便可以确定表格区域不扭曲。

如果表格区域扭曲,电子设备便可以对确定的表格区域进行仿射变换处理,得到目标图像对应的表格图像。在很多实际情况下,电子设备获取的目标图像中的表格是扭曲的,为了在这种情况下仍然可以对表格内容进行准确识别,电子设备可以对表格区域进行仿射变换处理,进而得到目标图像对应的表格图像。

可以理解的是,表格一般是矩形的,但是在图像扭曲等情况下,目标图像中的表格区域可能不是矩形,而是梯形的等形状,那么电子设备便可以对该表格区域进行仿射变换处理,进而得到目标图像对应的表格图像,该表格图像是经过扭曲矫正后的表格图像。

其中,对表格区域进行仿射变换处理的具体实现方式,可以采用任意仿射变换处理方式,只要可以将表格图像进行扭曲矫正即可。例如,假设目标位置为目标图像中的表格顶点坐标,该表格顶点坐标表示表格区域为一梯形,那么电子设备便可以确定其对应的矩形的四个顶点坐标,进而确定二者之间的仿射变换矩阵,根据该仿射变换矩阵便可以将扭曲的表格区域进行仿射变换处理,也就可以得到目标图像对应的表格图像。

作为本发明实施例的一种实施方式,上述深度学习模型可以包括表格图像与表格顶点坐标的对应关系。针对这种情况而言,上述将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置的步骤,可以包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的表格顶点坐标。

在该实施方式中,上述深度学习模型可以包括表格图像与表格顶点坐标的对应关系,其中,表格顶点坐标即为表格的四个顶点坐标,该四个顶点坐标确定了图像中表格所处的区域。

由于深度学习模型可以根据表格图像与表格顶点坐标的对应关系,确定图像中表格区域的顶点坐标,所以将上述目标图像输入预先训练完成的深度学习模型,该深度学习模型便可以对目标图像进行处理,进而输出表格顶点坐标,该表格顶点坐标也就是目标图像中表格的表格顶点坐标。

可见,在本实施例中,电子设备可以将目标图像输入预先训练完成的深度学习模型,进而得到目标图像中表格的表格顶点坐标,可以准确确定目标图像中表格的表格顶点坐标,也就是准确确定目标图像中表格的具体区域,可以进一步提高后续对表格内容识别的准确度。

作为本发明实施例的一种实施方式,如图10所示,上述深度学习模型的训练方式,可以包括:

S1001,获取表格图像样本及初始深度学习模型;

为了得到上述深度学习模型,首先可以获取表格图像样本及初始深度学习模型。其中,该初始深度学习模型可以预先建立,也可以从其他电子设备获取,这都是合理的。

表格图像样本为包括表格的图像,表格图像样本中可以只包括表格,也可以包括除表格之外的其他内容,例如,图画、在表格外的文字、数字等。表格图像样本的数量为多个,具体数量可以根据实际情况确定。

S1002,标记所述表格图像样本中表格区域的位置;

获取表格图像样本后,可以标记每个表格图像样本中表格区域的位置。在一种实施方式中,可以采用表格区域的四个顶点坐标作为表格区域的位置。

S1003,将标记后的表格图像样本输入所述初始深度学习模型,对所述初始深度学习模型进行训练;

标记表格图像样本中表格区域的位置后,便可以将将标记后的表格图像样本输入上述初始深度学习模型,对该初始深度学习模型进行训练。在训练过程中,初始深度学习模型不断学习表格图像特征与表格区域的位置的对应关系,不断调整自身的参数。

对初始深度学习模型进行训练的具体训练方式可以采用梯度下降算法等常见的训练方式,在此不做具体限定。

S1004,当所述初始深度学习模型的输出结果的准确度达到预设值,或所述表格图像样本的训练迭代次数达到预设次数时,停止训练,得到所述深度学习模型。

当初始深度学习模型的输出结果的准确度达到预设值,或者,表格图像样本的训练迭代次数达到预设次数时,说明此时的初始深度学习模型已经能够对各种具有表格的图像进行处理,得到准确的表格区域的位置。那么便可以停止训练,得到上述深度学习模型。

其中,上述预设值可以根据对深度学习模型的输出结果的准确度的要求确定,例如,可以为90%、95%、98%等。上述预设次数同样可以根据对深度学习模型的输出结果的准确度的要求确定,如果准确度的要求较高,那么预设次数便可以较多,例如,可以为5万次、8万次、10万次等;如果准确度的要求较低,那么预设次数便可以较少,例如,可以为1万次、2万次、3万次等。

可见,在本实施例中,电子设备可以获取表格图像样本及初始深度学习模型,标记表格图像样本中表格区域的位置,然后将标记后的表格图像样本输入初始深度学习模型,对初始深度学习模型进行训练,当初始深度学习模型的输出结果的准确度达到预设值,或表格图像样本的训练迭代次数达到预设次数时,停止训练,得到深度学习模型。这样,可以获得能够准确确定图像中表格区域的位置的深度学习模型,可以进一步提高表格信息识别的准确度。

相应于上述图像中表格信息的识别方法,本发明实施例还提供了一种图像中表格信息的识别装置。

下面对本发明实施例所提供的一种图像中表格信息的识别装置进行介绍。

如图11所示,一种图像中表格的识别装置,所述装置包括:

目标图像接收模块1110,用于接收具有表格的目标图像;

表格图像确定模块1120,用于从所述目标图像中确定包含表格的表格图像;

文本行位置确定模块1130,用于对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置;

信息识别模块1140,用于根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息。

其中,所述表格信息包括文字信息及表格结构信息。

可见,本发明实施例所提供的方案中,电子设备首先可以接收具有表格的目标图像,然后从目标图像中确定包含表格的表格图像,再对表格图像进行文本行检测,确定表格图像中文本行的位置,进而根据文本行的位置对所述图像进行识别,得到表格图像的表格信息,其中,表格信息包括文字信息及表格结构信息。由于识别得到的表格信息包括文字信息及表格结构信息,而不仅仅是表格中的文字内容,因此提高了图像中的表格识别结果的多样性,利用后续进行表格恢复等进一步处理。

作为本发明实施例的一种实施方式,上述装置还可以包括:

表格线去除模块(图11中未示出),用于在所述根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息之前,去除所述表格图像的表格线;

上述信息识别模块1140可以包括:

图像分割单元(图11中未示出),用于根据所述文本行的位置,从去除表格线后的表格图像中分割出文本图像;

文字识别单元(图11中未示出),用于对所述分割出文本图像进行文字识别,得到所述表格图像的文字信息;

表格线确定单元(图11中未示出),用于确定所述表格图像的表格线是否完整;

表格线补全单元(图11中未示出),用于如果所述表格图像的表格线不完整,将所述表格图像的表格线补全;

表格识别单元(图11中未示出),用于对表格线完整的表格图像进行表格识别,得到所述表格图像的表格结构信息。

作为本发明实施例的一种实施方式,上述表格线确定单元可以包括:

字符去除单元(图11中未示出),用于基于所述表格图像中文本行的位置,去除所述表格图像中的字符;

第一数量确定单元(图11中未示出),用于确定去除字符后的表格图像中交点数量及封闭单元格的数量;

第二数量确定单元(图11中未示出),用于根据所述表格线的交点数量确定所述表格的单元格数量;

数量判断单元(图11中未示出),用于判断所述封闭单元格的数量与所述单元格数量是否相等;

第一表格线确定单元(图11中未示出),用于如果所述封闭单元格的数量与所述单元格数量相等,确定所述表格图像的表格线完整;

第二表格线确定单元(图11中未示出),用于如果所述封闭单元格的数量与所述单元格数量不相等,确定所述表格图像的表格线不完整。

作为本发明实施例的一种实施方式,上述第一数量确定单元可以包括:

二值化处理子单元(图11中未示出),用于将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像;

图像腐蚀子单元(图11中未示出),用于对所述中间图像进行腐蚀处理,得到腐蚀图像;

图像膨胀子单元(图11中未示出),用于对所述腐蚀图像进行膨胀处理,得到膨胀图像;

表格线分开子单元(图11中未示出),用于对所述膨胀图像进行横向及纵向表格线分开处理,得到横线图像及竖线图像;

表格线图像确定子单元(图11中未示出),用于对所述横线图像及所述竖线图像进行取并集处理,得到表格线图像;

交点图像确定子单元(图11中未示出),用于对所述横线图像及所述竖线图像进行取交集处理,得到交点图像;

交点数量确定子单元(图11中未示出),用于根据所述交点图像,确定去除字符后的表格图像中交点数量;

单元格数量确定子单元(图11中未示出),用于根据所述表格线图像,确定去除字符后的表格图像中封闭单元格的数量。

作为本发明实施例的一种实施方式,上述文字识别单元可以包括:

文字识别子单元(图11中未示出),用于对所述分割出的文本图像进行文字识别,得到所述表格图像的文字识别结果;

语义分子单元(图11中未示出),用于对所述文字识别结果进行语义分析,得到各文本行对应的语义;

分类子单元(图11中未示出),用于根据所述各文本行对应的语义,对所述文字识别结果进行分类,得到每个文字识别结果对应的类别;

识别结果存储子单元(图11中未示出),用于根据所述文字识别结果对应的类别,对所述文字识别结果进行存储,得到所述表格图像的文字信息。

作为本发明实施例的一种实施方式,上述表格图像确定模块1120可以包括:

目标位置确定单元(图11中未示出),用于将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置;

扭曲判断单元(图11中未示出),用于根据所述目标位置,判断所述目标位置对应的表格区域是否扭曲;

表格图像确定单元(图11中未示出),用于如果所述目标位置对应的表格区域扭曲,对所述表格区域进行仿射变换处理,得到所述目标图像对应的表格图像。

作为本发明实施例的一种实施方式,上述文本行位置确定模块包括:

文本行位置确定单元,用于利用pixel link算法对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置。

作为本发明实施例的一种实施方式,上述表格图像中文本行的位置包括所述表格图像中所有文本行的位置;

所述文本行的位置为所述文本行的最小外接矩形的顶点坐标,所述顶点坐标为所述最小外接矩形的四个顶点的坐标,或,所述顶点坐标为所述最小外接矩形的对角顶点的坐标。

作为本发明实施例的一种实施方式,上述表格线去除模块包括:

表格线去除单元,用于将所述表格图像的表格线的颜色填充为所述表格图像的背景色。

作为本发明实施例的一种实施方式,上述字符去除单元包括:

字符去除子单元,用于将所述表格图像中文本行的位置对应的矩形区域填充为所述表格图像的背景色。

作为本发明实施例的一种实施方式,上述第一数量确定单元包括:

采用findContours算法检测去除字符后的表格图像中封闭单元格的数量以及表格线的交点数量。

作为本发明实施例的一种实施方式,上述二值化处理子单元包括:

二值化子单元,用于利用adaptiveThreshold算法将所述去除字符后的表格图像进行二值化处理;

取反子单元,用于对二值化处理后的表格图像的像素值进行取反处理,得到中间图像。

作为本发明实施例的一种实施方式,上述深度学习模型包括表格图像与表格顶点坐标的对应关系;

所述目标位置确定单元,具体用于将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的表格顶点坐标。

作为本发明实施例的一种实施方式,上述深度学习模型通过模型训练模块训练得到;

所述模型训练模块,用于获取表格图像样本及初始深度学习模型;标记所述表格图像样本中表格区域的位置;

将标记后的表格图像样本输入所述初始深度学习模型,对所述初始深度学习模型进行训练;当所述初始深度学习模型的输出结果的准确度达到预设值,或所述表格图像样本的训练迭代次数达到预设次数时,停止训练,得到所述深度学习模型。

本发明实施例还提供了一种电子设备,如图12所示,电子设备可以包括处理器1201、通信接口1202、存储器1203和通信总线1204,其中,处理器1201,通信接口1202,存储器1203通过通信总线1204完成相互间的通信,

存储器1203,用于存放计算机程序;

处理器1201,用于执行存储器1203上所存放的程序时,实现如下步骤:

接收具有表格的目标图像;

从所述目标图像中确定包含表格的表格图像;

对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置;

根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息。

其中,所述表格信息包括文字信息及表格结构信息。

可见,本发明实施例所提供的方案中,电子设备首先可以接收具有表格的目标图像,然后从目标图像中确定包含表格的表格图像,再对表格图像进行文本行检测,确定表格图像中文本行的位置,进而根据文本行的位置对所述图像进行识别,得到表格图像的表格信息,其中,表格信息包括文字信息及表格结构信息。由于识别得到的表格信息包括文字信息及表格结构信息,而不仅仅是表格中的文字内容,因此提高了图像中的表格识别结果的多样性,利用后续进行表格恢复等进一步处理。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中,在所述根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息的步骤之前,所述方法还包括:

去除所述表格图像的表格线;

所述根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息的步骤,包括:

根据所述文本行的位置,从去除表格线后的表格图像中分割出文本图像;

对所述分割出的文本图像进行识别,得到所述表格图像的文字信息;

确定所述表格图像的表格线是否完整;

如果所述表格图像的表格线不完整,将所述表格图像的表格线补全;

对表格线完整的表格图像进行表格识别,得到所述表格图像的表格结构信息。

其中,所述确定所述表格图像的表格线是否完整的步骤,包括:

基于所述表格图像中文本行的位置,去除所述表格图像中的字符;

确定去除字符后的表格图像中交点数量及封闭单元格的数量;

根据所述表格线的交点数量确定所述表格的单元格数量;

判断所述封闭单元格的数量与所述单元格数量是否相等;

如果所述封闭单元格的数量与所述单元格数量相等,确定所述表格图像的表格线完整;

如果所述封闭单元格的数量与所述单元格数量不相等,确定所述表格图像的表格线不完整。

其中,所述确定去除字符后的表格图像中交点数量及封闭单元格的数量的步骤,包括:

将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像;

对所述中间图像进行腐蚀处理,得到腐蚀图像;

对所述腐蚀图像进行膨胀处理,得到膨胀图像;

对所述膨胀图像进行横向及纵向表格线分开处理,得到横线图像及竖线图像;

对所述横线图像及所述竖线图像进行取并集处理,得到表格线图像;

对所述横线图像及所述竖线图像进行取交集处理,得到交点图像;

根据所述交点图像,确定去除字符后的表格图像中交点数量;

根据所述表格线图像,确定去除字符后的表格图像中封闭单元格的数量。

其中,所述对所述分割出的文本图像进行识别,得到所述表格的文字信息的步骤,包括:

对所述分割出的文本图像进行文字识别,得到所述表格图像的文字识别结果;

对所述文字识别结果进行语义分析,得到各文本行对应的语义;

根据所述各文本行对应的语义,对所述文字识别结果进行分类,得到每个文字识别结果对应的类别;

根据所述文字识别结果对应的类别,对所述文字识别结果进行存储,得到所述表格图像的文字信息。

其中,所述从所述目标图像中确定包含表格的表格图像的步骤,包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置;

根据所述目标位置,判断所述目标位置对应的表格区域是否扭曲;

如果是,对所述表格区域进行仿射变换处理,得到所述目标图像对应的表格图像。

其中,所述对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置的步骤,包括:

利用pixel link算法对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置。

其中,所述表格图像中文本行的位置包括所述表格图像中所有文本行的位置;

所述文本行的位置为所述文本行的最小外接矩形的顶点坐标,所述顶点坐标为所述最小外接矩形的四个顶点的坐标,或,所述顶点坐标为所述最小外接矩形的对角顶点的坐标。

其中,所述去除所述表格图像的表格线的步骤,包括:

将所述表格图像的表格线的颜色填充为所述表格图像的背景色。

其中,所述基于所述表格图像中文本行的位置,去除所述表格图像中的字符的步骤,包括:

将所述表格图像中文本行的位置对应的矩形区域填充为所述表格图像的背景色。

其中,所述确定去除字符后的表格图像中交点数量及封闭单元格的数量的步骤,包括:

采用findContours算法检测去除字符后的表格图像中封闭单元格的数量以及表格线的交点数量。

其中,所述将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像的步骤,包括:

利用adaptiveThreshold算法将所述去除字符后的表格图像进行二值化处理;

对二值化处理后的表格图像的像素值进行取反处理,得到中间图像。

其中,所述深度学习模型包括表格图像与表格顶点坐标的对应关系;

所述将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置的步骤,包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的表格顶点坐标。

其中,所述深度学习模型的训练方式,包括:

获取表格图像样本及初始深度学习模型;

标记所述表格图像样本中表格区域的位置;

将标记后的表格图像样本输入所述初始深度学习模型,对所述初始深度学习模型进行训练;

当所述初始深度学习模型的输出结果的准确度达到预设值,或所述表格图像样本的训练迭代次数达到预设次数时,停止训练,得到所述深度学习模型。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

接收具有表格的目标图像;

从所述目标图像中确定包含表格的表格图像;

对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置;

根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息。

其中,所述表格信息包括文字信息及表格结构信息。

可见,本发明实施例所提供的方案中,计算机程序被处理器执行时,首先可以接收具有表格的目标图像,然后从目标图像中确定包含表格的表格图像,再对表格图像进行文本行检测,确定表格图像中文本行的位置,进而根据文本行的位置对所述图像进行识别,得到表格图像的表格信息,其中,表格信息包括文字信息及表格结构信息。由于识别得到的表格信息包括文字信息及表格结构信息,而不仅仅是表格中的文字内容,因此提高了图像中的表格识别结果的多样性,利用后续进行表格恢复等进一步处理。

其中,在所述根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息的步骤之前,所述方法还包括:

去除所述表格图像的表格线;

所述根据所述文本行的位置对所述表格图像进行识别,得到所述表格图像的表格信息的步骤,包括:

根据所述文本行的位置,从去除表格线后的表格图像中分割出文本图像;

对所述分割出的文本图像进行识别,得到所述表格图像的文字信息;

确定所述表格图像的表格线是否完整;

如果所述表格图像的表格线不完整,将所述表格图像的表格线补全;

对表格线完整的表格图像进行表格识别,得到所述表格图像的表格结构信息。

其中,所述确定所述表格图像的表格线是否完整的步骤,包括:

基于所述表格图像中文本行的位置,去除所述表格图像中的字符;

确定去除字符后的表格图像中交点数量及封闭单元格的数量;

根据所述表格线的交点数量确定所述表格的单元格数量;

判断所述封闭单元格的数量与所述单元格数量是否相等;

如果所述封闭单元格的数量与所述单元格数量相等,确定所述表格图像的表格线完整;

如果所述封闭单元格的数量与所述单元格数量不相等,确定所述表格图像的表格线不完整。

其中,所述确定去除字符后的表格图像中交点数量及封闭单元格的数量的步骤,包括:

将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像;

对所述中间图像进行腐蚀处理,得到腐蚀图像;

对所述腐蚀图像进行膨胀处理,得到膨胀图像;

对所述膨胀图像进行横向及纵向表格线分开处理,得到横线图像及竖线图像;

对所述横线图像及所述竖线图像进行取并集处理,得到表格线图像;

对所述横线图像及所述竖线图像进行取交集处理,得到交点图像;

根据所述交点图像,确定去除字符后的表格图像中交点数量;

根据所述表格线图像,确定去除字符后的表格图像中封闭单元格的数量。

其中,所述对所述分割出的文本图像进行识别,得到所述表格的文字信息的步骤,包括:

对所述分割出的文本图像进行文字识别,得到所述表格图像的文字识别结果;

对所述文字识别结果进行语义分析,得到各文本行对应的语义;

根据所述各文本行对应的语义,对所述文字识别结果进行分类,得到每个文字识别结果对应的类别;

根据所述文字识别结果对应的类别,对所述文字识别结果进行存储,得到所述表格图像的文字信息。

其中,所述从所述目标图像中确定包含表格的表格图像的步骤,包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置;

根据所述目标位置,判断所述目标位置对应的表格区域是否扭曲;

如果是,对所述表格区域进行仿射变换处理,得到所述目标图像对应的表格图像。

其中,所述对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置的步骤,包括:

利用pixel link算法对所述表格图像进行文本行检测,确定所述表格图像中文本行的位置。

其中,所述表格图像中文本行的位置包括所述表格图像中所有文本行的位置;

所述文本行的位置为所述文本行的最小外接矩形的顶点坐标,所述顶点坐标为所述最小外接矩形的四个顶点的坐标,或,所述顶点坐标为所述最小外接矩形的对角顶点的坐标。

其中,所述去除所述表格图像的表格线的步骤,包括:

将所述表格图像的表格线的颜色填充为所述表格图像的背景色。

其中,所述基于所述表格图像中文本行的位置,去除所述表格图像中的字符的步骤,包括:

将所述表格图像中文本行的位置对应的矩形区域填充为所述表格图像的背景色。

其中,所述确定去除字符后的表格图像中交点数量及封闭单元格的数量的步骤,包括:

采用findContours算法检测去除字符后的表格图像中封闭单元格的数量以及表格线的交点数量。

其中,所述将所述去除字符后的表格图像进行二值化处理并对像素值进行取反处理,得到中间图像的步骤,包括:

利用adaptiveThreshold算法将所述去除字符后的表格图像进行二值化处理;

对二值化处理后的表格图像的像素值进行取反处理,得到中间图像。

其中,所述深度学习模型包括表格图像与表格顶点坐标的对应关系;

所述将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的目标位置的步骤,包括:

将所述目标图像输入预先训练完成的深度学习模型,得到所述目标图像中表格的表格顶点坐标。

其中,所述深度学习模型的训练方式,包括:

获取表格图像样本及初始深度学习模型;

标记所述表格图像样本中表格区域的位置;

将标记后的表格图像样本输入所述初始深度学习模型,对所述初始深度学习模型进行训练;

当所述初始深度学习模型的输出结果的准确度达到预设值,或所述表格图像样本的训练迭代次数达到预设次数时,停止训练,得到所述深度学习模型。

需要说明的是,对于上述装置、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

进一步需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

相关技术
  • 图像中表格信息的识别方法、装置、电子设备及存储介质
  • 图像中表格信息的识别方法、装置、电子设备及存储介质
技术分类

06120112773484