掌桥专利:专业的专利平台
掌桥专利
首页

基于语义分割的表格重建方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:39:06


基于语义分割的表格重建方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域,具体涉及一种基于语义分割的表格重建方法、装置、设备及存储介质。

背景技术

表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。表格通常以结构化的方式展示基本信息,因而表格检测和识别是诸多文件分析应用中的一项重要任务。而且,随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为了一个亟待解决的问题。

目前,对于图像中的表格的检测与重建大多通过边缘检测的方式来实现,即通过边缘检测技术识别出表格的边界,基于表格的边界重建表格。但是,实际应用中有些图像可能会存在变形,甚至有些表格没有明显的边界,这都给边缘检测带来巨大的挑战,导致重建出的表格精度低。

发明内容

本申请实施例提供了一种基于语义分割的表格重建方法、装置、设备及存储介质。通过语义分割的方式,提高表格的重建精度。

第一方面,本申请实施例提供一种基于语义分割的表格重建方法,包括:

获取待重建图像,所述待重建图像中存在待重建表格;

对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;

根据所述多个掩码图构建待重建表格;

从所述待重建图像中提取与所述待重建表格对应的文字内容;

将所述文字内容填入所述待重建表格,得到重建好的表格。

第二方面,本申请实施例提供一种表格重建装置,包括:

获取单元,用于获取待重建图像,所述待重建图像中存在待重建表格;

处理单元,用于对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;

根据所述多个掩码图构建待重建表格;

从所述待重建图像中提取与所述待重建表格对应的文字内容;

将所述文字内容填入所述待重建表格,得到重建好的表格。

第三方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第一方面所述的方法。

第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例,具有如下有益效果:

可以看出,在本申请实施例中,获取包含有待重建表格的待重建图像,然后,对该待重建图像中的每个像素点进行语义分割,得到多个掩码图,根据该多个掩码图可以得到每个像素点属于各个预设分割类别的概率,进而可以根据每个像素点属于各个预设分割类别的概率确定出属于该待重建图像中属于表格的像素点;然后,可以根据属于表格线的像素点重建出表格,即实现通过语义分割重建表格,由于语义分割是从像素点的在图像中的本质出发,只要是表格上的像素点(无论是显性的还是隐性的)均可以被检测出来,进而提高了表格重建的精度。而且,还可以从待重建图像中将文字内容提取出来,并填入表格,得到可以和图像中一模一样的表格,无需用户在重建后的表格中手动输入文字内容,提高了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于语义分割的表格重建方法的流程示意图;

图2为本申请实施例提供的一种对像素点进行sigmoid激活处理的示意图;

图3为本申请实施例提供的一种图像校正前后的示意图;

图4为本申请实施例提供的一种直线段合并的示意图;

图5为本申请实施例提供的一种表格重建装置的功能单元组成框图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

参阅图1,图1为本申请实施例提供的一种基于语义分割的表格重建方法的流程示意图。该方法应用于表格重建装置。该方法包括以下步骤:

101:表格重建装置获取待重建图像,所述待重建图像中存在待重建表格。

示例性的,该待重建图像可以由用户输入到该表格重建装置,或者,由该表格重建装置自动从图像库中读取的,等等。本申请不限定待重建图像的获取方式。

102:表格重建装置对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率。

其中,基于表格的结构,该多个预设分割类别可以为横线、竖线、不可见横线以及不可见竖线。因此,若该多个掩码图中的某个掩码图对应的预设分割类别为横线,则该掩码图用于表示该待重建图像中的各个像素点属于横线的概率。

应理解,在每个掩码图中的像素点属于该掩码图对应的预设分割类别的概率大于概率阈值(比如,0.5)的情况下,则确定该像素点属于该掩码图对应的预设分割类别;若小于该概率阈值,则确定该像素点不属于该掩码图对应的预设分割类别。

示例性的,表格重建装置对该待重建图像进行特征提取,得到多个第一特征图;对该多个第一特征图进行卷积处理,得到多个第一语义分割结果,其中,该多个第一语义分割结果与该多个预设分割类别一一对应;将该待重建图像中每个像素点分割在该多个第一语义分割结果中的取值进行sigmoid激活处理,得到该多个掩码图,其中,该多个第一语义分割结果与该多个掩码图一一对应。

具体的,可以将该待重建图像输入到完成训练的神经网络中,得到该多个掩码图。示例性的,通过该神经网络对该待重建图像进行特征提取,得到多个第一特征图(与多个通道对应),然后,即基于神经网络的多个1*1的卷积层对该多个第一特征图进行卷积处理,得到与多个预设分割类别对应的多个第一语义分割结果,其中,多个1*1的卷积层与多个第一特征图一一对应,则每个1*1的卷积层用于分别对该多个第一特征图进行卷积处理,得到与该卷积层对应的预设分割类别对应的第一语义分割结果。进一步地,由于待重建图像中的有些像素点可以属于多个预设分割类别,比如,表格中的横线和竖线的交叉点即属于横线,也属于竖线。因此,本申请中得到待重建图像的语义分割结果之后,不能直接使用softmax对每个像素点的语义分割结果进行分类,而是通过sigmoid函数对每个像素点的语义分割结果进行分类,将每个像素点属于每个预设分割类别的概率均映射到0~1之间。当然,也可以先通过softmax对每个像素点进行分类,确定每个像素点属于多个预设分割类别的概率,然后,再将每个像素点属于多个预设分割类别的概率通过sigmoid函数进行映射,即将每个像素点属于每个预设分割类别的概率映射到0~1之间。因此,再对待重建图像中每个像素点分别在所多个第一语义分割结果中的取值(即每个像素点的语义分割结果)进行sigmoid激活处理,得到多个掩码图。如图2所示,四个语义分割结果,则每个语义分割结果中的第一个像素点的取值为该待分割图像中第一个像素点的语义分割结果,即该语义分割结果为[a11,b11,c11],因此,通过sigmoid对每个像素点的语义分割结果进行激活处理,得到每个像素点在每个预设分割类别下的语义分割结果[sigmoid(a11),sigmoid(b11),sigmoid(c11)],进而得到多个掩码图。

应理解,上述对待重建图像进行语义分割的神经网络可以通过完成训练的图像分割网络实现,比如,该图像分割网络可以为全卷积网络FCN、U-NET、V-NET,等图像分割网络,本申请不对图像分割网络的形式进行限定。其中,对该图像分割网络的训练方式可以通过有监督的方式进行训练,不再叙述。

此外,由于表格的边框线在图像中的表现是细长型物体,角度要么基本水平,要么基本竖直,并且有的边框线会很长,所以,针对表格这种特殊的形状,本申请中在使用神经网络对待重建图像进行特征提取的过程中,该神经网络的卷积核的尺寸需要单独设计,而不是使用通用的尺寸为3*3的卷积核进行特征提取。在本申请中,分别通过尺寸为5*1的卷积核和1*5的卷积核对待重建图像进行特征提取,其中,5*1的卷积核用于从该待重建图像中提取出横线的特征,1*5的卷积核用于从该待重建图像中提取出竖线的特征。具体的,使用5*1的卷积核对待重建图像进行特征提取,得到一个特征图,由于5*1的卷积核宽度比较窄(宽度为1),因此在对待重建图像特征提取的过程中,不会对待重建图像的宽度进行压缩,从而可以将待重建图像中的横线的特征保留下来;使用1*5对待重建图像进行特征提取,得到另外一个特征图,由于1*5的卷积核的长度为1,则在对待重建图像进行特征提取的过程中,不会对待重建图像的高度进行压缩,从而可以将待重建图像中的竖线的特征保留下来;然后,将这两个第一特征图进行叠加,得到该待重建图像对应的第一特征图,则该第一特征图中同时包含有待重建图像中的横线和竖线的特征,使用该第一特征图进行语义分割,可以从待重建图像中精确的分割出横线和竖线。

在一些可能的实施方式中,在对待重建图像进行语义分割之前,还需要对待重建图像进行校正。比如,可以使用投影变换方式对待重建图像进行校正。具体的,拟合一个单应矩阵H,使得HX=X',其中,X的每一列是在待重建图像中的每条直线上以固定距离采样的点的齐次坐标,X'是X中各个采样点的其次坐标校正后的齐次坐标。通过投影变换后,可以将待重建图像中的横线校正至水平,也即横线上所有点的y坐标一致;竖线校正至竖直,也即竖线上所有点的x坐标一致。最后,将校正后的待重建图像作为本申请的待重建图像。通过校正可以将拍摄过程中带来的噪声消除,比如,拍摄过程中的倾斜问题。

如图3所示,对单据图像拍摄时,由于拍摄角度的问题,导致拍摄出来的单据图像有弯曲,这样也就造成单据图像中表格线有弯曲,从而会对表格的重建有影响,因此,如图3所示,先对单据图像进行校正,将弯曲的表格线校正,这样进行直线拟合时,得到的目标直线段更加精确,提高了表格重建的精度。

103:表格重建装置根据所述多个掩码图构建待重建表格。

示例性的,根据多个掩码图中的每个掩码图进行二值化,得到多个二值图,其中,该多个掩码图与该多个二值图一一对应。示例性的,获取每个掩码图中的每个像素点对应的像素值,若该像素值大于阈值,则将该像素点的像素值二值化为1,若该像素点的像素值小于阈值,则将该像素点的像素值二值化为0,得到与该掩码图对应的二值图,也就得到了与每个预设分割类别对应的二值图;然后,根据该多个预设分割类别对应的多个二值图确定该待重建表格的边框线;根据该待重建表格的边框线生成该待重建表格。应理解,本申请中相对应的二值图、掩码图以及待重建图像的维度相同。

具体的,针对每个二值图,确定每个二值图中的目标像素点组成的M个连通域,其中,目标像素点为二值图中像素值为1的像素点;然后,将每个二值图中的M个连通域进行直线拟合,得到与每个二值图对应的N条第一直线段,其中,M和N均为大于或等于1的整数,N≤M;对每个二值图对应的N条第一直线段进行合并,得到与每个二值图对应的目标直线段;最后,根据该多个二值图中的每个二值图对应的目标直线段,构建待重建表格。

具体的,针对每个二值图中的M个连通域进行直线拟合,得到M条第二直线段,其中,M条第二直线段与M个连通域一一对应,即每个连通域拟合出一条第二直线段,比如,可以将每个连通域中的距离最远的两个端点进行连接,得到与每个连通域对应的第二直线段;然后,对该M条第二直线段中的每条第二直线段在图像坐标系下与X轴的夹角,其中,该X轴为图像坐标系下的X轴;根据每条第二直线段与X轴的夹角,从M条第二直线段中选取K条第二直线段,其中,该K条第二直线段中的每条第二直线段与X轴的夹角小于与每个二值图对应的预设分割类别对应的第一阈值或者第二阈值,K为大于或者等于1的整数,且K≤M。示例性的,若二值图对应的预设分割类别为横线,则在第二直线段与X轴的夹角小于第一阈值(即接近0度)时,则确定该第二直线段为横线,这样的第二直线段是与预设分割类别对应的直线段;若二值图对应的预设分割类别为竖线,则在第二直线段与X轴的夹角大于第二阈值(即接近90度)时,则确定第二直线段为竖线,这样的第二直线段也是与预设分割类别对应的直线段。为了进一步消除噪声的影响,还可确定K条第二直线段与X轴的夹角的均值和标准差,并确定该K条第二直线段中的每个第二直线段与X轴的夹角与该均值之间的差值;根据K条第二直线段中的每条第二直线段对应的差值,以及目标阈值,从K条第二直线段中选取出N条第二直线段,并将该N条第二直线段作为与每个二值图对应的N条第一直线段,其中,该N条第二直线段中的每条第二直线段对应的差值小于该目标阈值,该目标阈值是根据该标准差确定的,比如,目标阈值可以为3倍的标准差。可以看出,将偏离标准差较远的第二直线段滤除,从而消除一些通过夹角筛选出的并不属于横线或者竖线的第二直线段,即减少噪声的影响。

进一步的,在得到每个二值图对应的N条第一直线段之后,对该N条第一直线段进行合并,得到与每个二值图对应的目标直线段。具体的,如图4所示,获取该N条第一直线段中的相邻两条直线段之间的夹角,并获取所述相邻两条第一直线段之间的目标距离d,其中,目标距离d为该相邻两条第一直线段中一条第一直线段的目标端点到另外一条第一直线段的距离,该目标端点为该条第一直线段的两个端点中距离该另外一条第一直线距离最近的端点,如图4所示,该目标端点为端点C,目标距离为目标端点C到直线段AB的距离。然后,在相邻两条第一直线段之间的夹角小于第三阈值,且目标距离小于第四阈值的情况下,将该相邻两条第一直线段中距离最远的两个端点进行连接,以将该相邻两条第一直线段合并为一条直线段,比如,将端点A和端点D连接,即实现将直线段AB和直线段CD合并为直线段AD,依次类推,可以将连通域1、连通域2、连通域3以及连通域4中的第一直线段合并为直线段AF。由于连通域4中的直线段GH不满足合并条件,则保留下来作为一个独立的目标直线段。最后,将合并后的直线段,以及未合并的第一直线段作为每个二值图对应的目标直线段。比如,图4中所示,将合并后的直线段AD以及直线段GH作为每个二值图对应的目标直线段。

其中,第三阈值可以为10度、15度、20度或者其他值,第四阈值可以为10mm、15mm、20mm或者其他值。

示例性的,针对每个二值图,确定每个二值图中的目标直线段的两个端点在图像坐标系下的坐标;然后,基于每个二值图中的目标直线段的两个端点在图像坐标系下的坐标确定每个二值图中的目标直线段在图像坐标系下的方程;根据每个二值图中的目标直线段在图像坐标系下的方程在目标格式文件下绘制每个二值图中的目标直线段,得到该待重建表格,比如,在目标格式文件中建立图像坐标系,在该图像坐标系下绘制每个二值图中的目标直线段,得到该待重建表格,其中,该目标格式文件可以为word文件、Excel文件,等等。

应理解,在目标格式文件下绘制每个二值图中的目标直线段,得到待重建表格后,也同时得到该待重建表格中各个单元格的四个顶点的坐标,即(top_left,top_right,bottom_left,bottom_right),其中,各个单元格的四个顶点的坐标为组成该单元格的目标直线段的交点,该交点的坐标可以通过目标直线段的方程进行相交得到。

104:表格重建装置从所述待重建图像中提取与所述待重建表格对应的文字内容。

示例性的,可以通过光学字符识别(Optical Character Recognition,OCR)技术从该待重建图像中提取与该待重建表格对应的文字内容。应理解,为了将文字内容填入到对应的单元格中,在提取文字内容的过程中,还需要提取出每个文字在该待重建图像(也就是在图像坐标系)中的坐标,即文字内容的坐标。

105:表格重建装置将所述文字内容填入所述待重建表格,得到重建好的表格。

示例性的,获取文字内容在图像坐标系下的坐标以及待重建表格中每个单元格的四个顶点在图像坐标系下的坐标,其中,该文字内容可以为该文字中的每个文字;根据文字内容的坐标以及每个单元格四个顶点的坐标,确定文字内容所在的单元格,然后,根据文字内容所在的单元格将文字内容填入到对应的单元格,得到重建好的表格。

可以看出,在本申请实施例中,获取包含有待重建表格的待重建图像,然后,对该待重建图像中的每个像素点进行语义分割,得到多个掩码图,根据该多个掩码图可以得到每个像素点属于各个预设分割类别的概率,进而可以根据每个像素点属于各个预设分割类别的概率确定出属于该待重建图像中属于表格的像素点;然后,可以根据属于表格线的像素点重建出表格,即实现通过语义分割重建表格,由于语义分割是从像素点的在图像中的本质出发,只要是表格上的像素点均可以被检测出来,进而提高了表格重建的精度。而且,还可以从待重建图像中将文字内容提取出来,并填入表格,得到可以和图像中一模一样的表格,无需用户在重建后的表格中手动输入文字内容,提高了用户体验。

在本申请的一个实施方式中,针对表格,除了文字内容外,还包括以下结构信息:每个单元格的对齐方式,以及每个单元格的字号。因此,在将文字内容填入到对应的单元格之后,还需确定出每个单元格的对齐方式以及字号。

示例性的,针对每个单元格的字号大小,在对文字内容进行提取的过程中,还获取每个文字的文本高度;然后,根据文本高度与字号的映射关系,确定文字内容的字号;将每个单元格中的所有文字内容的字号的平均值作为该单元格的候选字号,然后,可以将每个单元格的字号设置为每个单元格对应的候选字号,得到重建好的表格。

此外,在实际应用中,位于同一列或者同一行的单元格的字号一般是相同,但是,在使用OCR技术提取文字内容的过程中,由于图像的变形或者噪声的影响,导致识别出的同一列或者同一行的单元格的字号可能是不同的。因此,为了解决噪声的影响,可以对该表格中的所有单元格的候选字号进行聚类,得到多个聚类类别;然后,将每个聚类类别包括的所有单元格(在一定程度上为同一行或者同一列的单元格)对应的候选字号的平均值,作为该聚类类别对应的候选字号;然后,将该聚类类别对应的所有单元格的字号大小设置为该聚类类别所对应的候选字号。这样聚类之后,尽可能的使一行或者一列的单元的字号保持相同,消除了噪声的影响。

同样,针对每个单元格的对齐方式,可以根据每个单元格的文字内容的坐标以及每个单元格的四个顶点的坐标,确定每个单元格的文字内容与每个单元格的相对位置;根据每个单元格的文字与每个单元格的相对位置,确定每个单元格的候选对齐方式,比如,每个单元格的文字内容靠近单元格的左边,则可确定出该单元格的对齐方式为靠左对齐。

此外,位于同一列或者同一行的单元格的对齐方式一般也是相同。同样,由于图像的变形或者噪声的影响,导致识别出的同一列或者同一行的单元格的对齐方式可能是不同的。因此,也可以按照上述对字号的聚类方式,对单元格的对齐方式进行聚类,得到每个单元格最终的对齐方式,尽可能的使一行或者一列的单元的对齐方式保持相同,消除了噪声的影响。

参阅图5,图5本申请实施例提供的一种表格重建装置的功能单元组成框图。表格重建装置500包括:获取单元501和处理单元502,其中:

获取单元501,用于获取待重建图像,所述待重建图像中存在待重建表格;

处理单元502,用于对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;

根据所述多个掩码图构建待重建表格;

从所述待重建图像中提取与所述待重建表格对应的文字内容;

将所述文字内容填入所述待重建表格,得到重建好的表格。

在一些可能的实施方式中,在对所述待重建图像进行语义分割,得到多个掩码图方面,处理单元502,具体用于:

对所述待重建图像进行特征提取,得到多个第一特征图;

对所述多个第一特征图进行卷积处理,得到多个第一语义分割结果,其中,所述多个第一语义分割结果与所述多个预设分割类别一一对应;

将所述待重建图像中每个像素点分别在所述多个第一语义分割结果中的取值进行sigmoid激活处理,得到所述多个掩码图,其中,所述多个第一语义分割结果与所述多个掩码图一一对应。

在一些可能的实施方式中,在根据所述多个掩码图构建待重建表格方面,处理单元502,具体用于:

对所述多个掩码图中的每个掩码图进行二值化处理,得到多个二值图;

针对所述多个二值图中的每个二值图,确定所述每个二值图中的目标像素点组成的M个连通域,其中,所述目标像素点为所述每个二值图像素值为1的像素点;

将所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到与所述每个二值图对应的N条第一直线段;

对所述每个连通域对应的第一直线段进行合并,得到与所述每个二值图对应的目标直线段;

根据所述多个二值图中的每个二值图对应的目标直线段,构建待重建表格。

在一些可能的实施方式中,在将所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到与所述每个连通域对应的第一直线段方面,处理单元502,具体用于:

对所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到M条第二直线段,其中,所述M条第二直线段与所述M个连通域一一对应;

确定所述M条第二直线段中的每条第二直线段在图像坐标下与X轴的夹角,所述X轴为图像坐标系下的X轴;

根据所述M条第二直线段中的每条第二直线段与X轴的夹角,从所述M条第二直线段中选取K条第二直线段,其中,所述K条第二直线段中的每条第二直线段与所述X轴的夹角小于与所述每个二值图对应的预设分割类别对应的第一阈值或者大于第二阈值,K小于或等于M;

确定所述K条第二直线段与所述X轴的夹角的均值和标准差,并确定所述K条第二直线段中的每条第二直线段与所述X轴的夹角与所述均值之间的差值;

根据所述K条第二直线段中的每条第二直线段对应的差值,以及目标阈值,从所述K条第二直线段中选取出N条第二直线段,并将所述N条第二直线段作为与所述每个连通域对应的N条第一直线段,其中,所述N条第二直线段中的每条第二直线段对应的差值小于所述目标阈值,所述目标阈值是根据所述标准差确定的,其中,N小于或等于M。

在一些可能的实施方式中,在对所述每个连通域对应的N条第一直线段进行合并,得到与所述每个连通域对应的目标直线段方面,处理单元502,具体用于:

获取所述N条第一直线段中相邻两条第一直线段之间的夹角,以及所述相邻两条第一直线段之间的目标距离,所述目标距离为所述相邻两条第一直线段中一条第一直线段的目标端点到另外一条第一直线段的距离,所述目标端点为所述一条第一直线段的两个端点中距离所述另外一条第一直线距离最近的端点;

在所述相邻两条第一直线段之间的夹角小于第三阈值,且所述目标距离小于第四阈值的情况下,将所述相邻两条第一直线段中距离最远的两个端点进行连接,以将所述相邻两条第一直线段合并为一条直线段;

将所述N条第一直线段中合并得到的直线段,以及未合并的第一直线段作为所述每个二值图对应的目标直线段。

在一些可能的实施方式中,在根据所述多个二值图中的每个二值图对应的目标直线段,构建待重建表格方面,处理单元502,具体用于:

获取所述每个二值图中的目标直线段的两个端点在图像坐标系下的坐标;

根据所述每个二值图中的目标直线段的两个端点在图像坐标系下的坐标,确定所述每个二值图中的目标直线段在图像坐标系下的直线方程;

根据所述每个二值图中的目标直线段在图像坐标系下的直线方程,在目标格式文件中,绘制所述每个二值图中的目标直线段的直线方程,得到待重建表格。

在一些可能的实施方式中,在将所述文字内容填入所述待重建表格,得到重建好的表格方面,处理单元502,具体用于:

获取所述文字内容在图像坐标系下的坐标以及所述待重建表格中每个单元格的四个顶点在图像坐标系下的坐标;

根据所述文字内容的坐标,以及所述待重建表格中每个单元格的四个顶点的坐标,确定所述文字内容所在的单元格;

将所述文字内容填入到所述文字内容所在的单元格,得到重建好的表格。

参阅图6,图6为本申请实施例提供的一种电子设备的结构示意图。如图6所示,电子设备600包括收发器601、处理器602和存储器603。它们之间通过总线604连接。存储器603用于存储计算机程序和数据,并可以将存储器603存储的数据传输给处理器602。

处理器602用于读取存储器603中的计算机程序执行以下操作:

获取待重建图像,所述待重建图像中存在待重建表格;

对所述待重建图像进行语义分割,得到多个掩码图,其中,所述多个掩码图与多个预设分割类别一一对应,所述多个掩码图中的每个掩码图用于表示所述待重建图像中的各个像素点属于与所述每个掩码图对应的预设分割类别的概率;

根据所述多个掩码图构建待重建表格;

从所述待重建图像中提取与所述待重建表格对应的文字内容;

将所述文字内容填入所述待重建表格,得到重建好的表格。

在一些可能的实施方式中,在对所述待重建图像进行语义分割,得到多个掩码图方面,处理器602具体用于执行以下操作:

对所述待重建图像进行特征提取,得到多个第一特征图;

对所述多个第一特征图进行卷积处理,得到多个第一语义分割结果,其中,所述多个第一语义分割结果与所述多个预设分割类别一一对应;

将所述待重建图像中每个像素点分别在所述多个第一语义分割结果中的取值进行sigmoid激活处理,得到所述多个掩码图,其中,所述多个第一语义分割结果与所述多个掩码图一一对应。

在一些可能的实施方式中,在根据所述多个掩码图构建待重建表格方面,处理器602具体用于执行以下操作:

对所述多个掩码图中的每个掩码图进行二值化处理,得到多个二值图;

针对所述多个二值图中的每个二值图,确定所述每个二值图中的目标像素点组成的M个连通域,其中,所述目标像素点为所述每个二值图像素值为1的像素点;

将所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到与所述每个二值图对应的N条第一直线段;

对所述每个连通域对应的第一直线段进行合并,得到与所述每个二值图对应的目标直线段;

根据所述多个二值图中的每个二值图对应的目标直线段,构建待重建表格。

在一些可能的实施方式中,在将所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到与所述每个连通域对应的第一直线段方面,处理器602具体用于执行以下操作:

对所述每个二值图中的M个连通域中的每个连通域进行直线拟合,得到M条第二直线段,其中,所述M条第二直线段与所述M个连通域一一对应;

确定所述M条第二直线段中的每条第二直线段在图像坐标下与X轴的夹角,所述X轴为图像坐标系下的X轴;

根据所述M条第二直线段中的每条第二直线段与X轴的夹角,从所述M条第二直线段中选取K条第二直线段,其中,所述K条第二直线段中的每条第二直线段与所述X轴的夹角小于与所述每个二值图对应的预设分割类别对应的第一阈值或者大于第二阈值,K小于或等于M;

确定所述K条第二直线段与所述X轴的夹角的均值和标准差,并确定所述K条第二直线段中的每条第二直线段与所述X轴的夹角与所述均值之间的差值;

根据所述K条第二直线段中的每条第二直线段对应的差值,以及目标阈值,从所述K条第二直线段中选取出N条第二直线段,并将所述N条第二直线段作为与所述每个连通域对应的N条第一直线段,其中,所述N条第二直线段中的每条第二直线段对应的差值小于所述目标阈值,所述目标阈值是根据所述标准差确定的,其中,N小于或等于M。

在一些可能的实施方式中,在对所述每个连通域对应的N条第一直线段进行合并,得到与所述每个连通域对应的目标直线段方面,处理器602具体用于执行以下操作:

获取所述N条第一直线段中相邻两条第一直线段之间的夹角,以及所述相邻两条第一直线段之间的目标距离,所述目标距离为所述相邻两条第一直线段中一条第一直线段的目标端点到另外一条第一直线段的距离,所述目标端点为所述一条第一直线段的两个端点中距离所述另外一条第一直线距离最近的端点;

在所述相邻两条第一直线段之间的夹角小于第三阈值,且所述目标距离小于第四阈值的情况下,将所述相邻两条第一直线段中距离最远的两个端点进行连接,以将所述相邻两条第一直线段合并为一条直线段;

将所述N条第一直线段中合并得到的直线段,以及未合并的第一直线段作为所述每个二值图对应的目标直线段。

在一些可能的实施方式中,在根据所述多个二值图中的每个二值图对应的目标直线段,构建待重建表格方面,处理器602具体用于执行以下操作:

获取所述每个二值图中的目标直线段的两个端点在图像坐标系下的坐标;

根据所述每个二值图中的目标直线段的两个端点在图像坐标系下的坐标,确定所述每个二值图中的目标直线段在图像坐标系下的直线方程;

根据所述每个二值图中的目标直线段在图像坐标系下的直线方程,在目标格式文件中,绘制所述每个二值图中的目标直线段的直线方程,得到待重建表格。

在一些可能的实施方式中,在将所述文字内容填入所述待重建表格,得到重建好的表格方面,处理器602具体用于执行以下操作:

获取所述文字内容在图像坐标系下的坐标以及所述待重建表格中每个单元格的四个顶点在图像坐标系下的坐标;

根据所述文字内容的坐标,以及所述待重建表格中每个单元格的四个顶点的坐标,确定所述文字内容所在的单元格;

将所述文字内容填入到所述文字内容所在的单元格,得到重建好的表格。

具体地,收发器601可为图5所述的实施例的表格重建装置500的获取单元501,处理器602可以为图5所述的实施例的表格重建装置500的处理单元502。

应理解,本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices,简称:MID)或穿戴式设备等。上述电子设备仅是举例,而非穷举,包含但不限于上述电子设备。在实际应用中,上述电子设备还可以包括:智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于语义分割的表格重建方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于语义分割的表格重建方法的部分或全部步骤。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 基于语义分割的表格重建方法、装置、设备及存储介质
  • 表格重建方法、装置、计算机设备及存储介质
技术分类

06120113007275