掌桥专利:专业的专利平台
掌桥专利
首页

表格识别方法、装置及电子设备

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及图像处理技术领域,具体提供一种表格识别方法、装置及电子设备。

背景技术

目前,随着数字化的普及,越来越多的信息都以电子化文档的形式储存以及使用,而文档中的表格往往包含着一些更加丰富和关键的信息,比如财务报表、行政表单等。手动从这些文档中提取相关信息是一件非常耗时耗力的工作,因此,研究如何自动化地从图像或者文档中提取表格结构化信息的通用表格识别技术可以大大解放人力,具有广阔的应用前景。

然而,在实际的应用场景中,表格识别算法的输入往往呈现出不同版式,还会不可避免地存在各种各样的干扰,比如加盖在表格上的印章、由于翻拍或者扫描带来的噪声线、由于拍摄角度带来的图像扭曲等,这些问题往往会导致表格结构识别的错误以及表格识别结果准确度较低等。

相应地,本领域需要一种新的表格识别方案来解决上述问题。

发明内容

为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决现有方法无法对表格进行精准识别导致表格识别结果准确度较低的技术问题。本发明提供了一种表格识别方法、装置及电子设备。

在第一方面,本发明提供一种表格识别方法,包括下述步骤:获取表格线训练图像样本;利用所述表格线训练图像样本对表格线检测模型进行训练;基于训练的表格线检测模型获取待识别表格图像中的表格线前景图;对所述表格线前景图进行预处理,得到当前表格结构;基于文本识别模型获取所述待识别表格图像中的文本内容以及所述文本内容对应的文本坐标;按照所述文本坐标将所述文本内容存储至所述当前表格结构的单元格中,以得到识别后的表格。

在一个实施方式中,获取表格线训练图像样本包括获取包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像;所述获取包含印章数据的表格线训练图像包括:基于包含印章数据的原始图像获取掩膜图像;调整包含印章数据的所述原始图像中印章像素值至预设像素值;从调整印章像素值的所述原始图像中获取包含印章的一个随机区域;将所述随机区域与所述掩膜图像进行融合,得到包含印章数据的表格线训练图像。

在一个实施方式中,利用所述表格线训练图像样本对表格线检测模型进行训练包括:基于所述表格线训练图像样本以及对应的表格线前景标签图计算损失值,所述损失值的计算公式为:

上式中,n为表格线训练图像的数量,n=1,2,…,N;h和w分别为表格线训练图像样本的高度和宽度,h=1,2,…,H,w=1,2,…,W;α为根据第n个表格线训练图像样本对应的表格线前景标签图确定出的在第n表格线训练图像样本中位置(h,w)处的标签值,

在一个实施方式中,对所述表格线前景图进行预处理,得到当前表格结构包括:基于所述表格线前景图提取横向轮廓线和竖向轮廓线;获取所述横向轮廓线和竖向轮廓线的交叉点;基于表格区域检测模型获取待识别表格图像的区域坐标;基于所述区域坐标筛选位于所述表格区域内的交叉点;基于筛选后的位于所述表格区域内的交叉点获得当前表格结构。

在一个实施方式中,基于筛选后的位于所述表格区域内的交叉点获得当前表格结构包括:将位于所述表格区域内的交叉点进行排序后,按照从左到右、从上到下的排列顺序连接,得到至少一个单元格;将具有公共顶点的所述至少一个单元格连接,得到当前表格结构。

在一个实施方式中,还包括:判断所述当前表格结构中是否包含噪声轮廓,若是,删除所述当前表格结构中的噪声轮廓并合并所述噪声轮廓两边的单元格,得到最终表格结构;以及按照所述文本坐标将所述文本内容存储至所述最终表格结构的单元格中,以得到识别后的表格。

在一个实施方式中,判断所述当前表格结构中是否包含噪声轮廓包括:基于印章区域检测模型获取待识别表格图像中印章区域坐标;基于所述印章区域坐标确定印章区域与当前表格结构的交点,并基于所述交点获取印章区域的竖向轮廓线;判断所述印章区域的竖向轮廓线是否满足预设条件,若是,则确定所述当前表格结构中包含噪声轮廓;判断所述印章区域的竖向轮廓线是否满足预设条件包括:判断所述竖向轮廓线的长度是否小于预设长度,和/或所述竖向轮廓线是否穿过文本内容。

在第二方面,本发明提供一种表格识别装置,包括:第一获取模块,被配置为获取表格线训练图像样本;训练模块,被配置为利用所述表格线训练图像样本对表格线检测模型进行训练;第二获取模块,被配置为基于训练的表格线检测模型获取待识别表格图像中的表格线前景图;预处理模块,被配置为对所述表格线前景图进行预处理,得到当前表格结构;第三获取模块,被配置为基于文本识别模型获取所述待识别表格图像中的文本内容以及所述文本内容对应的文本坐标;存储模块,被配置为按照所述文本坐标将所述文本内容存储至所述当前表格结构的单元格中,以得到识别后的表格。

在第三方面,提供一种电子设备,该电子设备包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行前述任一项所述的表格识别方法。

在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行前述任一项所述的表格识别方法。

本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:

本发明提供的一种表格识别方法,通过利用训练的表格线检测模型获取待识别表格图像中的表格线前景图,并对表格线前景图进行预处理来得到当前表格结构,从而降低了待识别表格图像中影响因素对表格结构提取的干扰,提高了表格识别的准确率,接着根据文本识别模型获取待识别表格图像中的文本内容以及文本内容对应的文本坐标,最后按照文本坐标将文本内容存储至当前表格结构的单元格中以得到识别后的表格,提高了干扰场景下表格识别的稳定性和准确率。

通过获取包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像等来训练表格线检测模型,从而提高了表格线检测模型的精度,避免了印章、背景纹理干扰、弯曲表格线以及文本内容贴近表格线等因素对提取表格结构的影响,提高了表格提取的精确度。

通过判断获得的当前表格结构中是否包含噪声轮廓,并在包含噪声轮廓的情况下对噪声轮廓进行删除,提高了当前表格结构的精确度。

附图说明

参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:

图1是根据本发明的一个实施例的表格识别方法的主要步骤流程示意图;

图2是根据本发明的一个实施例的弯曲表格线训练图像示意图;

图3是根据本发明的一个实施例的弯曲表格线训练图像对应的标签示意图;

图4是根据本发明的一个实施例的包含深色背景的表格线训练图像示意图;

图5是根据本发明的一个实施例的包含深色背景的表格线训练图像对应的标签示意图;

图6是根据本发明的一个实施例的包括印章数据、含有背景纹理干扰以及文本内容贴近表格线的训练图像示意图;

图7是根据本发明的一个实施例的包括印章数据、含有背景纹理干扰以及文本内容贴近表格线的训练图像对应的标签示意图;

图8是根据本发明的一个实施例的表格识别方法的整体流程示意图;

图9是根据本发明的一个实施例的表格识别装置的主要结构框图示意图。

11:第一获取模块;12:训练模块;13:第二获取模块;14:预处理模块;15:第三获取模块;16:存储模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

目前传表格识别方法的输入往往呈现出不同的版式,还会不可避免地存在各种各样的干扰,比如加盖在表格上的印章、由于翻拍或者扫描带来的噪声线、由于拍摄角度带来的图像扭曲等,这些问题往往会导致表格结构识别的错误、表格识别结果准确度较低等。为此,本申请提供了一种表格识别方法、装置及电子设备,通过利用训练的表格线检测模型获取待识别表格图像中的表格线前景图,并对表格线前景图进行预处理来得到当前表格结构,从而降低了待识别表格图像中影响因素对表格结构提取的干扰,提高了表格识别的准确率;接着根据文本识别模型获取待识别表格图像中的文本内容以及文本内容对应的文本坐标,最后按照文本坐标将文本内容存储至当前表格结构的单元格中以得到识别后的表格,提高了干扰场景下表格识别的稳定性和准确率。

参阅附图1,图1是根据本发明的一个实施例的表格识别方法的主要步骤流程示意图。如图1所示,本发明实施例中的表格识别方法主要包括下列步骤S101-步骤S106。

步骤S101:获取表格线训练图像样本。在该步骤中,获取表格线训练图像样本包括获取包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像等。其中,在获取包含印章数据的表格线训练图像的过程中,可以先基于包含印章数据的原始图像获取掩膜图像,接着调整包含印章数据的原始图像中印章像素值至预设像素值,其次从调整印章像素值的原始图像中获取包含印章的一个随机区域,最后将随机区域与掩膜图像进行融合,得到包含印章数据的表格线训练图像。

具体来说,本申请中用于训练表格线检测模型的样本为多种类型训练样本的集合,从而让训练样本更加丰富且更加接近真实场景,以保证训练表格线检测模型在复杂场景下准确地检测到表格线。具体的,训练样本可以包括包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像等,还可以包括包含深色背景的表格线训练图像。

对于包含印章数据的表格线训练图像的获取,首先可以利用包含印章数据的原始图像获取其mask(掩膜)图像,然后调整原始图像中印章的像素值以改变其颜色以及与背景之间的对比度,最后从调整印章像素值的原始图像中选择印章的一个随机区域,将该随机区域与mask(掩膜)图像以随机比例融合以得到包含印章数据的表格线训练图像,从而模拟真实数据加盖印章的情形。

在获取包含弯曲表格线训练图像的过程中,针对包含表格图像的原始图像中表格的一条直线,对采样点的纵坐标进行随机扰动,然后利用三次立方插值方法拟合出一条曲线,通过控制扰动范围和采样点的个数可以获得具有不同弯曲程度表格线的弯曲表格线训练图像,从而模拟真实场景由于拍摄角度带来的图像扭曲等情形。

在获取包含背景纹理干扰的表格线训练图像的过程中,首先挑选一些具有类似线条的图像,比如木纹桌面、墨迹、阴影等作为背景,将其与包含表格图像的原始图像进行合成,以得到包含背景纹理干扰的表格线训练图像,从而模拟实际拍摄场景复杂可能存在背景干扰的情形。对于包含深色背景的表格线训练图像的获取,可以随机将原始图像表格中的部分单元格的背景设置为深色,以降低表格线与背景之间的区分度,从而模拟实际拍摄时光线过暗或者背景为深色的情形。

在获取文本内容贴近表格线的训练图像的过程中,可以通过控制单元格中文本内容与表格框线的距离,让文本内容靠近甚至是叠在表格线上,以得到文本内容贴近表格线的训练图像,从而模拟真实场景文字与表格线交叠的情形。

步骤S102:利用表格线训练图像样本对表格线检测模型进行训练。具体来说,本申请中的表格线检测模型可以是Unet网络,但不限于此,也可以是其他的神经网络。在利用表格线训练图像样本对表格线检测模型进行训练的过程中,首先基于表格线训练图像样本以及对应的表格线前景标签图计算损失值,示例性地,对于如图2所示的弯曲表格线训练图像示意图来说,其对应的标签可以如图3所示。对于如图4所示的包含深色背景的表格线训练图像,其对应的标签可以如图5所示。对于如图6所示的包括印章数据、含有背景纹理干扰以及文本内容贴近表格线的训练图像来说,其对应的标签可以如图7所示。由于表格线在图像中所占的比例一般比背景(负例)要少得多,为了避免大量简单负例在训练损失中起主导作用,本申请采用Focal Loss而不是交叉熵作为损失函数来迭代优化模型,如此,不仅可以缩短训练时间,而且可以提升模型的性能。具体的Focal Loss对应的损失值的计算公式为:

上式中,n为表格线训练图像的数量,n=1,2,…,N;h和w分别为表格线训练图像样本的高度和宽度,h=1,2,…,H,w=1,2,…,W;α为根据第n个表格线训练图像样本对应的表格线前景标签图确定出的在第n表格线训练图像样本中位置(h,w)处的标签值,

通过获取包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像等来训练表格线检测模型,从而提高了表格线检测模型的精度,避免了印章、背景纹理干扰、弯曲表格线以及文本内容贴近表格线等因素对提取表格结构的影响,提高了表格提取的精确度。

步骤S103:基于训练的表格线检测模型获取待识别表格图像中的表格线前景图。具体是将待识别表格图像输入已训练的表格线检测模型中,即可得到待识别表格图像中的表格线前景图。

步骤S104:对表格线前景图进行预处理,得到当前表格结构。在该步骤中,对表格线前景图进行预处理,得到当前表格结构的过程中,可以先基于表格线前景图提取横向轮廓线和竖向轮廓线,具体是利用预设的横向核对表格线前景图进行腐蚀和膨胀处理以获取横向轮廓线,类似的,利用预设的竖向核对表格线前景图进行腐蚀和膨胀处理以获取竖向轮廓线,其中预设的横向核可以是1行N列的矩阵且矩阵元素均为1,预设的竖向核可以是N行1列的矩阵且矩阵元素均为1。接着获取横向轮廓线和竖向轮廓线的交叉点,这些交叉点构成一个点集。同时,基于表格区域检测模型获取待识别表格图像的区域坐标,其中表格区域检测模型可以是任何能够检测表格区域坐标的神经网络模型。其次基于区域坐标筛选位于表格区域内的交叉点,具体是针对待识别表格区域的区域坐标,从所述点集中筛选出位于表格区域内的交叉点。最后基于筛选后的位于表格区域内的交叉点获得当前表格结构。通过表格区域检测模型获取待识别表格图像的区域坐标的限制,可以将一些在表格外的噪声轮廓排除掉,从而减少一些非表格线被误检带来的干扰。

在基于筛选后的位于表格区域内的交叉点获得当前表格结构的过程中,可以先将位于表格区域内的交叉点进行排序后,按照从左到右、从上到下的排列顺序连接,得到至少一个单元格,接着将具有公共顶点的至少一个单元格连接,得到当前表格结构。

步骤S105:基于文本识别模型获取待识别表格图像中的文本内容以及文本内容对应的文本坐标。具体地,本申请中的文本识别模型可以是Unet网络,但不限于此,也可以是能够从待识别表格图像中获取文本内容以及文本内容对应的文本坐标的其它神经网络。

步骤S106:按照文本坐标将文本内容存储至当前表格结构的单元格中,以得到识别后的表格。在得到文本内容和当前表格结构后,可以根据文本坐标将文本内容存储至当前表格结构对应的单元格中,以形成识别后的表格。

基于上述步骤S101-步骤S106,通过利用训练的表格线检测模型获取待识别表格图像中的表格线前景图,并对表格线前景图进行预处理来得到当前表格结构,从而降低了待识别表格图像中影响因素对表格结构提取的干扰,提高了表格识别的准确率;接着根据文本识别模型获取待识别表格图像中的文本内容以及文本内容对应的文本坐标,最后按照文本坐标将文本内容存储至当前表格结构的单元格中以得到识别后的表格,提高了干扰场景下表格识别的稳定性和准确率。

在一个实施方式中,所述表格识别方法还包括:判断当前表格结构中是否包含噪声轮廓,若是,删除当前表格结构中的噪声轮廓并合并噪声轮廓两边的单元格,得到最终表格结构。具体来说,当前表格结构中包含的噪声轮廓是竖直轮廓时,删除当前表格结构中的噪声轮廓后可以合并噪声轮廓左右两边的单元格,从而得到最终表格结构。当前表格结构中包含的噪声轮廓是横向轮廓时,删除当前表格结构中的噪声轮廓后可以合并噪声轮廓上下两边的单元格,从而得到最终表格结构。以及按照文本坐标将文本内容存储至最终表格结构的单元格中,以得到识别后的表格。

在一个实施方式中,当噪声轮廓是竖向轮廓线时,在判断当前表格结构中是否包含噪声轮廓的过程中,可以先基于印章区域检测模型获取待识别表格图像中印章区域坐标,接着基于印章区域坐标确定印章区域与当前表格结构的交点,并基于交点获取印章区域的竖向轮廓线,具体是将印章区域与当前表格结构的交点按照从上到下的顺序连接后即可得到印章区域的竖向轮廓线。其次判断印章区域的竖向轮廓线是否满足预设条件,若是,则确定当前表格结构中包含噪声轮廓,最后判断印章区域的竖向轮廓线是否满足预设条件,具体可以判断竖向轮廓线的长度是否小于预设长度,和/或竖向轮廓线是否穿过文本内容。具体来说,在判断印章区域的竖向轮廓线是否满足预设条件时,也可以是满足以下任意一个条件:竖向轮廓线的长度小于表格高度的一半且竖向轮廓线上所有的点都在印章区域内;竖向轮廓线的宽度小于等于2且这一列只有一个轮廓;竖向轮廓线穿过文本或者竖向轮廓线的长度小于表格高度的0.2倍且竖向轮廓线的前后轮廓中的点大部分相连,则认为是该竖向轮廓线是噪声轮廓并对其进行删除。通过判断获得的当前表格结构中是否包含噪声轮廓,并在包含噪声轮廓的情况下对噪声轮廓进行删除,提高了当前表格结构的精确度。

在一个实施例中,如图8所示的表格识别方法的整体流程示意图,对于输入的待识别表格图像,可以通过表格线检测模型能够获得表格线前景图,进而对前景图进行预处理可以得到当前表格结构。可以通过表格区域检测模型获取待识别表格图像的区域坐标,可以通过文本识别模型获取待识别表格图像中的文本内容以及文本内容对应的文本坐标。同时可以通过印章区域检测模型获取待识别表格图像中印章区域坐标,进而根据印章区域坐标删除当前表格结构中的噪声轮廓,以得到最终表格结构。最后将文本内容存储至最终表格结构的单元格中,以得到最终的表格并输出。

需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。

进一步,本发明还提供了一种表格识别装置。参阅附图9,图9是根据本发明的一个实施例的表格识别装置的主要结构框图。如图9所示,本发明实施例中的表格识别装置主要包括第一获取模块11、训练模块12、第二获取模块13、预处理模块14、第三获取模块15和存储模块16。在一些实施例中,第一获取模块11、训练模块12、第二获取模块13、预处理模块14、第三获取模块15和存储模块16中的一个或多个可以合并在一起成为一个模块。在一些实施例中第一获取模块11可以被配置为获取表格线训练图像样本。训练模块12可以被配置为利用表格线训练图像样本对表格线检测模型进行训练。第二获取模块13可以被配置为基于训练的表格线检测模型获取待识别表格图像中的表格线前景图。预处理模块14可以被配置为对表格线前景图进行预处理,得到当前表格结构。第三获取模块15可以被配置为基于文本识别模型获取待识别表格图像中的文本内容以及文本内容对应的文本坐标。存储模块16可以被配置为按照文本坐标将文本内容存储至当前表格结构的单元格中,以得到识别后的表格。一个实施方式中,具体实现功能的描述可以参见步骤S101-步骤S106所述。

上述表格识别装置以用于执行图1所示的表格识别方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,表格识别装置的具体工作过程及有关说明,可以参考表格识别方法的实施例所描述的内容,此处不再赘述。

本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。

进一步,本发明还提供了一种电子设备。在根据本发明的一个电子设备实施例中,电子设备包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的表格识别方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的表格识别方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。

进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的表格识别方法的程序,该程序可以由处理器加载并运行以实现上述表格识别方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

相关技术
  • 表格识别方法、装置、电子设备和可读存储介质
  • 表格识别方法、装置、可读介质及电子设备
技术分类

06120114694677