掌桥专利:专业的专利平台
掌桥专利
首页

样本处理方法、装置、计算机设备和存储介质

文献发布时间:2024-04-18 19:52:40


样本处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像识别技术领域,特别是涉及一种样本处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

现实场景中包含大量的文档图像,其中包含表格图片,表格的结构化的组织形式方便人们进行信息理解和提取,但包括表格在内的文档图像多以图片等非结构化形式存储。应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重要研究课题。

在传统技术中,通常采用对大量的表格图片数据进行模型训练得到表格识别模型。

然而,开源的表格图片数据集缺乏,难以支持对表格识别模型的模型训练。

发明内容

基于此,有必要针对上述技术问题,提供一种能够对表格图片数据集中的表格图片数据进行补充,支持对表格识别模型的优化的样本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面,本申请提供了一种样本处理方法。所述方法包括:

将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格;

基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格;

将第一表格与第二表格加入样本数据集。

在其中一个实施例中,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格,包括:

将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息和待识别的目标字段;目标字段属于版式信息中至少一个字段;

基于表格的版式信息和待识别的目标字段,生成样本图像的第一表格。

在其中一个实施例中,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息,包括:

将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式;

对版式进行字段检测,确定版式中各字段名称及各字段区域;

获取版式对应的版式坐标系,基于各字段名称及各字段区域,得到各字段名称在版式坐标系中对应的坐标位置,将各字段名称、各字段名称在版式坐标系中对应的坐标位置作为版式信息。

在其中一个实施例中,基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格,包括:

获取样本图像中表格的版式信息;

基于版式信息与多个标准表格,生成对应样本图像的多个第二表格。

在其中一个实施例中,版式信息包括多个表格线段和多个表格线段的表格线段位置;基于版式信息与多个标准表格,生成对应样本图像的多个第二表格,包括:

针对每个标准表格,获取标准表格的多个标准线段和多个标准线段的标准线段位置;

获取版式信息中的多个表格线段和多个表格线段位置坐标;

将多个表格线段位置与多个标准线段位置进行位置匹配,当不存在与表格线段位置相一致的标准线段位置时,位置匹配失败;

将位置匹配失败的表格线段位置对应的表格线段从第一表格擦除,得到对应样本图像的第二表格。

在其中一个实施例中,将位置匹配失败的表格线段位置对应的表格线段擦除,包括:

获取待擦除的表格线段的表格线段位置,作为目标对象;

获取目标对象对应的预设的像素范围内的多个像素点颜色,作为中间颜色;

计算多个中间颜色的数量,将数量最多的中间颜色作为目标颜色;

基于目标颜色,对待擦除的表格线段进行擦除。

第二方面,本申请还提供了一种样本处理装置。所述装置包括:

第一表格获取模块,用于将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格;

第二表格生成模块,用于基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格;

样本数据集扩充模块,用于将第一表格与第二表格加入样本数据集。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

第四方面,本申请还提供了一种计算机设备可读存储介质。所述计算机设备可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。

上述样本处理方法、装置、计算机设备、存储介质和计算机程序产品,首先,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格。然后,基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格。最后,将第一表格与第二表格加入样本数据集。通过对现有的样本图像进行表格匹配,得到第一表格,再基于第一表格生成多个第二表格,可以扩充样本数据集,有利于提高表格匹配模型的识别准确度。

附图说明

图1为一个实施例中样本处理方法的应用环境图;

图2为一个实施例中样本处理方法的流程示意图;

图3为一个实施例中第一表格的示意图;

图4为一个实施例中基于第一表格生成的全无线表格的示意图;

图5为一个实施例中基于第一表格生成的外边框缺竖线表格的示意图;

图6为一个实施例中基于第一表格生成的三线表格的示意图;

图7为一个实施例中基于第一表格生成的缺所有横线表格的示意图;

图8为一个实施例中样本处理装置的结构框图;

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的样本处理方法,可以应用于如图1所示的应用环境中。其中,客户端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以给客户端102提供样本处理的环境。首先,服务器104可以通过客户端102获取多个样本图像,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格。然后,服务器104基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格。最后,服务器104将第一表格与第二表格加入客户端102的样本数据集。

其中,服务器104通过客户端102获取的多个样本图像,可以是客户端102数据库(如样本数据集)中的样本图像,也可以是在客户端日常产生的数据(即生产环境下产生的业务图像)。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例提供的样本处理方法,可以应用于服务器或客户端单侧实现,也可以应用于包括客户端和服务器的系统,通过客户端和服务器的交互实现。

在一个实施例中,如图2所示,提供了一种样本处理方法,以该方法应用于服务器侧实现为例进行说明,包括以下步骤202至步骤206。

步骤202,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格。

在本实施例中,服务器可以将多个样本图像输入预先训练完成的表格匹配模型,定位得到每个样本图像中的多个第一表格。其中,第一表格是全有线表格。

在本实施例中,如图3所示,服务器通过预先训练完成的表格匹配模型定位得到每个样本图像中的多个第一表格,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,定位得到每个第一表格在样本图像中的位置,基于每个第一表格在样本图像中的位置截取该第一表格,生成对应该第一表格的表格图片。

在本实施例中,上述方法还可以包括:生成对应第一表格的表格图片的标识。其中,标识可以包括但不限于:标签名称、标签坐标等。其中,一个表格图片可以对应有多个标识,每个标识可以对应第一表格中的一个单元格。例如,一个标识可以对应一个第一表格中的一个单元格的单元格外框坐标,以及该单元格内文本等信息。

在另一个实施例中,服务器可以通过pymupdf,即基于python语言的PDF(PortableDocument Format,便携式文档格式)阅读器,去获取PDF每一页的页面信息。其中,页面信息可以包括但不限于:文本以及文本在PDF上的位置信息、图片以及图片在PDF上的位置信息、线段以及线段在PDF上的位置信息等。

在本实施例中,服务器通过pymupdf获取到PDF每一页的页面信息后,可以通过pymupdf自带的get_svg_image函数将PDF的每个页面转换成svg(Scalable VectorGraphics,可缩放的矢量图形)。服务器可以遍历PDF的每个页面对应的svg,对每个页面对应的svg进行解析。进一步,服务器可以构建svg的soup对象,即通过Beautiful Soup将复杂HTML(HyperText Markup Language,超文本标记语言)文档转换成一个复杂的树形结构。

步骤204,基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格。

在本实施例中,第一表格的表格类型可以是全有线表格,服务器可以对第一表格中的表格线段进行擦除,得到表格线段区别于第一表格的多个第二表格。

在本实施例中,如图4~7所示,第二表格的表格类型可以包括但不限于:全无线表格、外边框无线表格、外边框缺竖线表格、三线表格、缺所有横线表格、随机缺陷表格等。

在另一个实施例中,第一表格的表格类型可以不是全有线表格,服务器可以将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格以及该第一表格的表格类型。进一步,服务器可以基于第一表格的表格类型,对第一表格中的表格线段进行擦除或补充,得到表格线段或表格类型却别与第一表格的多个第二表格。

步骤206,将第一表格与第二表格加入样本数据集。

在本实施例中,服务器可以将PDF对应的第一表格和多个第二表格加入样本数据集,可以对上述表格匹配模型的训练集进行扩充,用于对上述表格匹配模型进行迭代训练,实现表格匹配模型的优化。

上述样本处理方法中,首先,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格。然后,基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格。最后,将第一表格与第二表格加入样本数据集。通过对现有的样本图像进行表格匹配,得到第一表格,再基于第一表格生成多个第二表格,可以扩充样本数据集,有利于提高表格匹配模型的识别准确度。

在一些实施例中,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息和待识别的目标字段;目标字段属于版式信息中至少一个字段;基于表格的版式信息和待识别的目标字段,生成样本图像的第一表格。

在本实施例中,第一表格是通过预先训练完成的表格匹配模型生成的,表格匹配模型的训练方式,包括:获取训练集,训练集中包括多个训练样本,每个训练样本对应有一个表格图像;通过初始表格匹配模型对各训练样本中的表格图像进行识别,生成对应训练样本的第一表格;基于输出的第一表格,以及训练集,确定初始表格匹配模型的模型损失;根据模型损失,对初始表格匹配模型进行迭代训练,得到训练完成的表格匹配模型。其中,训练集可以包括:样本数据集中的多个样本、客户端日常产生的数据(即生产环境下产生的业务图像)。可以理解的是,生产环境线下产生的业务图像包括但不限于:文本信息对应的图像、表格图像等。

在一些实施例中,将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式;对版式进行字段检测,确定版式中各字段名称及各字段区域;获取版式对应的版式坐标系,基于各字段名称及各字段区域,得到各字段名称在版式坐标系中对应的坐标位置,将各字段名称、各字段名称在版式坐标系中对应的坐标位置作为版式信息。

在本实施例中,服务器在对每个页面对应的svg进行解析,构建svg的soup对象后,还可以获取该页面中每组文字的大小和在当前PDF页面的坐标(上下左右四个点的坐标)。进一步,服务器可以基于上述页面中每组文字的大小和在当前PDF页面的坐标,对soup对象中的文本,图片等信息进行删除,只保留soup对象中的线段。然后,服务器可以将svg文本转换成二值化图像,并使用cv2.findContours()函数获取该二值化图像中每个矩阵的轮廓像素坐标。其中,每一个矩阵框的高度小于svg中最小文本的大小时,该矩阵框不可能是表格的单元格(因为装不下文字),即可删除,并删除包含有其他矩阵框的矩阵框,仅保留单个独立的矩阵框。

在另一个实施例中,服务器可以基于矩阵在PDF上的位置,对上述的所有矩阵框进行分组,属于同一个第一表格的为一组。其中,服务器可以遍历上述矩阵,判断矩阵两两之间是否连接,如果连接则属于当前同一个第一表格。

在另一个实施例中,服务器可以根据矩阵的分组情况删除矩阵框数量为1的第一表格(一个第一表格可以有两个及以上个矩阵框),保留的第一表格获取每个第一表格的最边缘的矩阵框的对外的四个顶点的坐标,可截图生成对应该第一表格的表格图片。

在一些实施例中,基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格,可以包括:获取样本图像中表格的版式信息;基于版式信息与多个标准表格,生成对应样本图像的多个第二表格。

在本实施例中,版式信息可以包括但不限于:对应第一表格的表格图片的标识等。

在本实施例中,对应第一表格的表格图片的标识可以包括但不限于:标签名称、标签坐标等。其中,标签名称可以对应第一表格中的各字段名称,标签坐标可以对应各字段名称在版式坐标系中对应的坐标位置。

在另一个实施例中,一个标签坐标可以对应第一表格中的一个单元格的单元格外框在版式坐标系中对应的坐标位置。例如,对应第一表格的表格图片的标识的表示方式可以是:[{"tokens":"A","bbox":[x1,y1,x2,y2]}],其中,bbox表示单元格,tokens表示单元格内的文本内容。进一步,"bbox":[x1,y1,x2,y2]中x1表示单元格外框的左上角的点的横坐标,y1表示单元格外框的左上角的点的纵坐标,x2表示单元格外框的右下角的点的横坐标,y2表示单元格外框的右下角的点的纵坐标。基于单元格外框的左上角的点的横坐标、单元格外框的左上角的点的纵坐标、单元格外框的右下角的点的横坐标,以及单元格外框的右下角的点的纵坐标,可以确定单元格外框的区域。进一步,"tokens":"A"中的A表示为该"tokens"对应的单元格内的文本内容。

在本实施例中,服务器可以基于样本图像对应的第一表格的版式信息,得到第一表格中的各字段名称、各字段名称在版式坐标系中对应的坐标位置,以及第一表格中各表格线段的表格线段位置。例如,如图3所示,服务器可以获取对应第一表格的表格图片的标识,当该标识为:[{"tokens":"项目","bbox":[3,3,165,32]},{"tokens":"合并","bbox":[166,3,313,17]},{"tokens":"母公司","bbox":[315,3,462,17]},{"tokens":"2004年1-3月","bbox":[166,18,239,32]},{"tokens":"2003年1-3月","bbox":[240,18,313,32]},{"tokens":"2004年1-3月","bbox":[315,18,388,32]},{"tokens":"2003年1-3月","bbox":[389,18,462,32]}],由此可知,该第一表格中,单元格1的单元格外框的左上角的点的坐标为(3,3),单元格1的单元格外框的右下角的点的坐标为(165,32),单元格1内的文本内容为:项目;单元格2的单元格外框的左上角的点的坐标为(166,3),单元格2的单元格外框的右下角的点的坐标为(313,17),单元格1内的文本内容为:合并;单元格3的单元格外框的左上角的点的坐标为(315,3),单元格3的单元格外框的右下角的点的坐标为(462,17),单元格3内的文本内容为:母公司;单元格4的单元格外框的左上角的点的坐标为(166,18),单元格4的单元格外框的右下角的点的坐标为(239,32),单元格4内的文本内容为:2004年1-3月;单元格5的单元格外框的左上角的点的坐标为(240,18),单元格5的单元格外框的右下角的点的坐标为(313,32),单元格5内的文本内容为:2003年1-3月;单元格6的单元格外框的左上角的点的坐标为(315,18),单元格6的单元格外框的右下角的点的坐标为(388,32),单元格6内的文本内容为:2004年1-3月;单元格7的单元格外框的左上角的点的坐标为(389,18),单元格7的单元格外框的右下角的点的坐标为(462,32),单元格7内的文本内容为:2003年1-3月。

在本实施例中,服务器基于如图3所示的第一表格的版式信息,可以生成与第一表格中各字段名称相同、各字段名称在版式坐标系中对应的坐标位置相同,但线段不同的如图4~6所示的多个第二表格。

在一些实施例中,版式信息包括多个表格线段和多个表格线段的表格线段位置;基于版式信息与多个标准表格,生成对应样本图像的多个第二表格,可以包括:针对每个标准表格,获取标准表格的多个标准线段和多个标准线段的标准线段位置;获取版式信息中的多个表格线段和多个表格线段位置坐标;将多个表格线段位置与多个标准线段位置进行位置匹配,当不存在与表格线段位置相一致的标准线段位置时,位置匹配失败;将位置匹配失败的表格线段位置对应的表格线段从第一表格擦除,得到对应样本图像的第二表格。

在本实施例中,服务器在获取到第一表格中每个单元格的单元格外框的左上角的点的横坐标x1、单元格外框的左上角的点的纵坐标y1之后,还可以将第一表格中多个单元格的单元格外框的左上角的点的纵坐标y1按照从小到大的顺序排列,单元格外框的左上角的点的纵坐标y1相同的情况下,将y1相同的多个单元格的单元格外框的左上角的点的横坐标x1按照从小到大的顺序排列,得到第一表格中多个单元格的排列顺序。

在本实施例中,服务器可以基于第一表格中多个单元格的排列顺序,确定第一表格中每个单元格(目标单元格)的左邻单元格和上邻单元格。其中,左邻单元格是指位于目标单元格左侧的多个单元格中与目标单元格距离最近的单元格,即单元格外框的左上角的点的横坐标小于目标单元格的单元格外框的左上角的点的横坐标,且单元格外框的左上角的点的横坐标与目标单元格的单元格外框的左上角的点的横坐标位置最接近的单元格。例如,第一表格中有单元格A1、A2和A3,A1的左上角的点的坐标为(x11,y11),A2的左上角的点的坐标为(x22,y22),A3的左上角的点的坐标为(x33,y33),且基于第一表格中多个单元格的排列顺序可知,x11<x22<x33,目标单元格为A3时,A3的左邻单元格是A2。

同理,上邻单元格是指位于目标单元格上方的多个单元格中与目标单元格距离最近的单元格,即单元格外框的左上角的点的纵坐标小于目标单元格的单元格外框的左上角的点的纵坐标,且单元格外框的左上角的点的纵坐标与目标单元格的单元格外框的左上角的点的纵坐标位置最接近的单元格。例如,第一表格中有单元格A1、A4和A5,A1的左上角的点的坐标为(x11,y11),A4的左上角的点的坐标为(x44,y44),A5的左上角的点的坐标为(x55,y55),且基于第一表格中多个单元格的排列顺序可知,y44<y55<y11,目标单元格为A1时,A1的上邻单元格是A5。

在本实施例中,当需要擦除第一表格中的一个表格线段时,由于每个标识对应的单元格的单元格外框坐标可能存在像素点的偏差,为避免偏差太大导致擦除不合理的情况,需要重建需擦除的线段坐标。例如,当需要擦除单元格A10的上方线段,其中标识给出的A10单元格外框的左上角的点的坐标为(x10,y10),A10单元格外框的右下角的点的坐标为(x11,y11),A10的上邻居为A8,且A8的单元格外框的左上角的点的坐标为(x00,y00),A9的单元格外框的右下角的点的坐标为(x01,y01),此时,需要擦除的表格线段的表格线段位置的所在区域S如公式(1)所示:

其中,区域S的左上角的点的坐标为

进一步,需要擦除的表格线段的宽度width如公式(2)所示:

其中,int函数表示向下取整。例如,int(1.2),即取小于1.2的第一个整数,即1;int(1.6),即取1;int(-1.5)即取-2。

在一些实施例中,将位置匹配失败的表格线段位置对应的表格线段擦除,可以包括:获取待擦除的表格线段的表格线段位置,作为目标对象;获取目标对象对应的预设的像素范围内的多个像素点颜色,作为中间颜色;计算多个中间颜色的数量,将数量最多的中间颜色作为目标颜色;基于目标颜色,对待擦除的表格线段进行擦除。

在本实施例中,服务器需要确定擦除表格线段的像素点颜色,为避免擦除表格线段时使用的像素点颜色与表格底色不一致,服务器可以选取需要擦除的表格线段对应的预设的像素范围内的多个像素点颜色作为中间颜色;计算多个中间颜色的数量,将数量最多的中间颜色作为目标颜色;基于目标颜色,对目标对象进行擦除。例如,服务器可以获取目标对象向左5个像素点的区域S1内的像素点的颜色和向右5个像素的区域S2内的像素点的颜色,作为中间颜色,可以理解的是,本申请对预设的像素范围不做范围限定,预设的像素范无需满足预设的目标对象对应的像素范围内没有单元格内的文本内容(如文字、数值等),用于避免文本的字体像素影响目标对象的擦除。

在本实施例中,服务器可以计算上述区域S1和区域S2内像素中数量最多的中间颜色作为目标颜色,再基于目标颜色,对目标对象进行擦除(即采用目标颜色对目标对象进行颜色填充)。例如,区域S1和区域S2内像素包括100个像素点,其中,50个像素点的颜色为白色,20个像素点的颜色为黑色,30个像素点的颜色为浅灰色,50>30>20,则服务器选用白色作为目标颜色,对目标对象进行擦除。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的样本处理方法的样本处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个样本处理装置实施例中的具体限定可以参见上文中对于样本处理方法的限定,在此不再赘述。

在一个实施例中,如图8所示,提供了一种样本处理装置,包括:第一表格获取模块802、第二表格生成模块804和样本数据集扩充模块806,其中:

第一表格获取模块802,用于将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格。

第二表格生成模块804,用于基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格。

样本数据集扩充模块806,用于将第一表格与第二表格加入样本数据集。

在其中一个实施例中,第一表格获取模块802可以包括:

表格匹配子模块,用于将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息和待识别的目标字段;目标字段属于版式信息中至少一个字段。

第一表格生成子模块,用于基于表格的版式信息和待识别的目标字段,生成样本图像的第一表格。

在其中一个实施例中,表格匹配子模块可以包括:

版式获取单元,用于将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式。

字段检测单元,用于对版式进行字段检测,确定版式中各字段名称及各字段区域。

版式信息确定单元,用于获取版式对应的版式坐标系,基于各字段名称及各字段区域,得到各字段名称在版式坐标系中对应的坐标位置,将各字段名称、各字段名称在版式坐标系中对应的坐标位置作为版式信息。

在其中一个实施例中,第二表格生成模块804可以包括:

版式信息获取子模块,用于获取样本图像中表格的版式信息。

第二表格生成子模块,用于基于版式信息与多个标准表格,生成对应样本图像的多个第二表格。

在其中一个实施例中,版式信息包括多个表格线段和多个表格线段的表格线段位置;第二表格生成子模块可以包括:

标准线段位置获取单元,用于针对每个标准表格,获取标准表格的多个标准线段和多个标准线段的标准线段位置。

表格位置坐标获取单元,用于获取版式信息中的多个表格线段和多个表格线段位置坐标。

位置匹配单元,用于将多个表格线段位置与多个标准线段位置进行位置匹配,当不存在与表格线段位置相一致的标准线段位置时,位置匹配失败。

表格线段擦除单元,用于将位置匹配失败的表格线段位置对应的表格线段从第一表格擦除,得到对应样本图像的第二表格。

在其中一个实施例中,表格线段擦除单元可以包括:

目标对象获取子单元,用于获取待擦除的表格线段的表格线段位置,作为目标对象。

中间颜色确定子单元,用于获取目标对象对应的预设的像素范围内的多个像素点颜色,作为中间颜色。

目标颜色确定子单元,用于计算多个中间颜色的数量,将数量最多的中间颜色作为目标颜色。

擦除子单元,用于基于目标颜色,对待擦除的表格线段进行擦除。

上述样本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储单元格外框的左上角的点的横坐标、单元格外框的左上角的点的纵坐标、单元格外框的右下角的点的横坐标,、单元格外框的右下角的点的纵坐标、字段名称等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本处理方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格;基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格;将第一表格与第二表格加入样本数据集。

在一个实施例中,处理器执行计算机程序时还实现将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息和待识别的目标字段;目标字段属于版式信息中至少一个字段;基于表格的版式信息和待识别的目标字段,生成样本图像的第一表格。

在一个实施例中,处理器执行计算机程序时还实现将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式;对版式进行字段检测,确定版式中各字段名称及各字段区域;获取版式对应的版式坐标系,基于各字段名称及各字段区域,得到各字段名称在版式坐标系中对应的坐标位置,将各字段名称、各字段名称在版式坐标系中对应的坐标位置作为版式信息。

在一个实施例中,处理器执行计算机程序时还实现基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格,可以包括:获取样本图像中表格的版式信息;基于版式信息与多个标准表格,生成对应样本图像的多个第二表格。

在一个实施例中,版式信息包括多个表格线段和多个表格线段的表格线段位置;处理器执行计算机程序时还实现基于版式信息与多个标准表格,生成对应样本图像的多个第二表格,可以包括:针对每个标准表格,获取标准表格的多个标准线段和多个标准线段的标准线段位置;获取版式信息中的多个表格线段和多个表格线段位置坐标;将多个表格线段位置与多个标准线段位置进行位置匹配,当不存在与表格线段位置相一致的标准线段位置时,位置匹配失败;将位置匹配失败的表格线段位置对应的表格线段从第一表格擦除,得到对应样本图像的第二表格。

在一个实施例中,处理器执行计算机程序时还实现将位置匹配失败的表格线段位置对应的表格线段擦除,可以包括:获取待擦除的表格线段的表格线段位置,作为目标对象;获取目标对象对应的预设的像素范围内的多个像素点颜色,作为中间颜色;计算多个中间颜色的数量,将数量最多的中间颜色作为目标颜色;基于目标颜色,对待擦除的表格线段进行擦除。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格;基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格;将第一表格与第二表格加入样本数据集。

在一个实施例中,计算机程序被处理器执行时还实现将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息和待识别的目标字段;目标字段属于版式信息中至少一个字段;基于表格的版式信息和待识别的目标字段,生成样本图像的第一表格。

在一个实施例中,计算机程序被处理器执行时还实现将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式;对版式进行字段检测,确定版式中各字段名称及各字段区域;获取版式对应的版式坐标系,基于各字段名称及各字段区域,得到各字段名称在版式坐标系中对应的坐标位置,将各字段名称、各字段名称在版式坐标系中对应的坐标位置作为版式信息。

在一个实施例中,计算机程序被处理器执行时还实现基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格,可以包括:获取样本图像中表格的版式信息;基于版式信息与多个标准表格,生成对应样本图像的多个第二表格。

在一个实施例中,版式信息包括多个表格线段和多个表格线段的表格线段位置;计算机程序被处理器执行时还实现基于版式信息与多个标准表格,生成对应样本图像的多个第二表格,可以包括:针对每个标准表格,获取标准表格的多个标准线段和多个标准线段的标准线段位置;获取版式信息中的多个表格线段和多个表格线段位置坐标;将多个表格线段位置与多个标准线段位置进行位置匹配,当不存在与表格线段位置相一致的标准线段位置时,位置匹配失败;将位置匹配失败的表格线段位置对应的表格线段从第一表格擦除,得到对应样本图像的第二表格。

在一个实施例中,计算机程序被处理器执行时还实现将位置匹配失败的表格线段位置对应的表格线段擦除,可以包括:获取待擦除的表格线段的表格线段位置,作为目标对象;获取目标对象对应的预设的像素范围内的多个像素点颜色,作为中间颜色;计算多个中间颜色的数量,将数量最多的中间颜色作为目标颜色;基于目标颜色,对待擦除的表格线段进行擦除。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格;基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格;其中,样本图像的第二表格与样本图像的第一表格构成对应样本图像的多个标准表格;将第一表格与第二表格加入样本数据集。

在一个实施例中,计算机程序被处理器执行时还实现将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像的第一表格,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息和待识别的目标字段;目标字段属于版式信息中至少一个字段;基于表格的版式信息和待识别的目标字段,生成样本图像的第一表格。

在一个实施例中,计算机程序被处理器执行时还实现将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式信息,可以包括:将多个样本图像输入预先训练完成的表格匹配模型,得到样本图像中表格的版式;对版式进行字段检测,确定版式中各字段名称及各字段区域;获取版式对应的版式坐标系,基于各字段名称及各字段区域,得到各字段名称在版式坐标系中对应的坐标位置,将各字段名称、各字段名称在版式坐标系中对应的坐标位置作为版式信息。

在一个实施例中,计算机程序被处理器执行时还实现基于预先设置的多个标准表格与第一表格,生成样本图像对应的多个第二表格,可以包括:获取样本图像中表格的版式信息;基于版式信息与多个标准表格,生成对应样本图像的多个第二表格。

在一个实施例中,版式信息包括多个表格线段和多个表格线段的表格线段位置;计算机程序被处理器执行时还实现基于版式信息与多个标准表格,生成对应样本图像的多个第二表格,可以包括:针对每个标准表格,获取标准表格的多个标准线段和多个标准线段的标准线段位置;获取版式信息中的多个表格线段和多个表格线段位置坐标;将多个表格线段位置与多个标准线段位置进行位置匹配,当不存在与表格线段位置相一致的标准线段位置时,位置匹配失败;将位置匹配失败的表格线段位置对应的表格线段从第一表格擦除,得到对应样本图像的第二表格。

在一个实施例中,计算机程序被处理器执行时还实现将位置匹配失败的表格线段位置对应的表格线段擦除,可以包括:获取待擦除的表格线段的表格线段位置,作为目标对象;获取目标对象对应的预设的像素范围内的多个像素点颜色,作为中间颜色;计算多个中间颜色的数量,将数量最多的中间颜色作为目标颜色;基于目标颜色,对待擦除的表格线段进行擦除。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

技术分类

06120116331991