掌桥专利:专业的专利平台
掌桥专利
首页

用于处理表格数据的方法、装置、设备、介质和产品

文献发布时间:2023-06-19 12:07:15


用于处理表格数据的方法、装置、设备、介质和产品

技术领域

本公开涉及计算机领域,进一步涉及数据处理技术领域,尤其涉及用于处理表格数据的方法、装置、设备、介质和产品。

背景技术

目前,随着人工智能技术的不断发展,基于人工智能技术实现表格识别已经成为了热门研究领域。通常,在基于人工智能技术识别出表格之后,需要对表格数据进行评估处理,用以确定识别出的表格是否准确。

在实践中发现,现在的表格数据评估处理方式通常将单元格的行号、列号、内容等信息与正确的表格数据进行匹配。然而,对于表格漏行、错行等情况,采用这种表格数据处理方式难以得到准确的评估结果。可见,当前的表格数据评估处理方式存在着准确度较差的问题。

发明内容

本公开提供了一种用于处理表格数据的方法、装置、设备、介质和产品。

根据第一方面,提供了一种用于处理表格数据的方法,包括:获取待处理表格数据;确定待处理表格数据的单元格对集合;单元格对集合包括至少一组相邻单元格组成的单元格对;基于单元格对集合和预设的标注表格数据,确定单元格对集合对应的准确率参数;准确率参数用于描述单元格对集合中准确的单元格对状况;基于准确率参数,确定待处理表格数据的评估处理结果。

根据第二方面,提供了一种用于处理表格数据的装置,包括:数据获取单元,被配置成获取待处理表格数据;集合确定单元,被配置成确定待处理表格数据的单元格对集合;单元格对集合包括至少一组相邻单元格组成的单元格对;参数确定单元,被配置成基于单元格对集合和预设的标注表格数据,确定单元格对集合对应的准确率参数;准确率参数用于描述单元格对集合中准确的单元格对状况;评估确定单元,被配置成基于准确率参数,确定待处理表格数据的评估处理结果。

根据第三方面,提供了一种执行用于处理表格数据的方法的电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项用于处理表格数据的方法。

根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上任意一项用于处理表格数据的方法。

根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上任意一项用于处理表格数据的方法。

根据本公开的技术,提供一种用于处理表格数据的方法,能够确定待处理表格数据的单元格对集合,由于单元格对集合中包括至少一组相邻单元格组成的单元格对。因此,采用单元格对集合和预设的标注表格数据进行比对,能够在对待处理表格数据进行评估处理时,考虑到相邻单元格之间的相对位置关系,能够识别表格漏行、错行等情况,提高了表格数据评估处理准确度。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开的一个实施例可以应用于其中的示例性系统架构图;

图2是根据本公开的用于处理表格数据的方法的一个实施例的流程图;

图3是根据本公开的用于处理表格数据的方法的一个应用场景的示意图;

图4是根据本公开的用于处理表格数据的方法的另一个应用场景的示意图;

图5是根据本公开的用于处理表格数据的方法的另一个实施例的流程图;

图6是根据本公开的用于处理表格数据的装置的一个实施例的结构示意图;

图7是用来实现本公开实施例的用于处理表格数据的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1是根据本公开第一实施例的示例性系统架构示意图,其示出了可以应用本公开的用于处理表格数据的方法的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以为手机、电脑以及平板等电子设备,在终端设备101、102、103中,可以安装有各种应用软件,如用于处理表格数据的应用软件。其中,用户可以基于对终端设备101、102、103进行触控操作,以使用于处理表格数据的应用软件识别目标图片中的表格数据,得到待处理表格数据。

终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于电视、智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器,例如可以获取终端设备101、102、103中识别得到的待处理表格数据。之后,服务器105可以确定待处理表格数据的单元格对集合,单元格对集合中可以包括待处理表格数据中相邻单元格组成的单元格对。服务器105可以预先存储有与待处理表格数据对应的标注表格数据。之后,服务器105可以基于单元格对集合和预设的标注数据表格进行比对,确定单元格对集合对应的准确率参数。以及基于准确率参数确定评估处理结果,并将评估处理结果返回给终端设备101、102、103,以使终端设备101、102、103输出评估处理结果。其中,评估处理结果用于反映待处理表格数据与预设的标注表格数据之间的差异性。

需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是,本公开实施例所提供的用于处理表格数据的方法可以由终端设备101、102、103执行,也可以由服务器105执行。相应地,用于处理表格数据的装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本公开的用于处理表格数据的方法的一个实施例的流程200。本实施例的用于处理表格数据的方法,包括以下步骤:

步骤201,获取待处理表格数据。

在本实施例中,执行主体(如图1中的服务器105或者终端设备101、102、103)可以基于人工智能技术识别表格,得到识别后的表格,识别后的表格即为上述待处理表格数据。其中,待处理表格数据指的是需要进行评估处理的表格数据,评估处理指的是评估识别后的表格是否准确的处理过程。例如,执行主体可以基于人工智能模型识别包含表格的图片,得到识别后的表格数据,将该表格数据确定为待处理表格数据。在人工智能模型进行训练的过程中,输入该人工智能模型的数据可以包括上述包含表格的图片,还可以包含与之对应的标注表格数据,也即是真实的表格数据。通过对待处理表格数据进行评估处理,可以将待处理表格数据与真实的表格数据进行比对,基于比对结果进一步训练该人工智能模型,得到更精准的用于识别表格的人工智能模型。

步骤202,确定待处理表格数据的单元格对集合。

在本实施例中,单元格对集合包括至少一组相邻单元格组成的单元格对。其中,相邻单元格可以包括相邻行的单元格和/或相邻列的单元格。并且单元格对集合中可以包含待处理表格数据中全部相邻单元格组成的单元格对,也可以包含待处理表格数据中部分相邻单元格组成的单元格对,本实施例对此不做限定。优选的,执行主体在获取待处理表格数据之后,可以确定待处理表格数据中全部单元格的相邻行单元格和相邻列单元格,组成单元格对集合。

步骤203,基于单元格对集合和预设的标注表格数据,确定单元格对集合对应的准确率参数。

在本实施例中,准确率参数用于描述所述单元格对集合中准确的单元格对状况,可以包括但不限于准确单元格对数量、错误单元格对数量、准确单元格对占比、错误单元格对占比等,本实施例对此不做限定。预设的标注表格数据是与待处理表格数据相对应的真实表格数据。执行主体可以预先存储上述预设的标注表格数据。之后,执行主体可以将上述单元格对集合中的每个单元格对与预设的标注表格数据中相应单元格进行匹配,用以确定单元格对集合对应的准确率参数。具体的,对于单元格对集合中的每个单元格对,执行主体可以在预设的标注表格数据中确定与该单元格对的位置相对应的表格数据,如果该表格数据和该单元格对中的表格数据相匹配,则说明该单元格对正确,如果该表格数据和该单元格对中的表格数据不相匹配,则说明该单元格对错误。举例来说,如果待处理表格数据中存在漏行的情况,通过比对遗漏行的相邻行所在的单元格对与标注表格数据中该相邻行对应的单元格对,则可以确定单元格对不匹配,即该单元格对错误。并且还可以比对遗漏行后面的相邻两行所在的单元格对与标注数据中对应的单元格对,则可以确定单元格对匹配,即单元格对正确。此时对于遗漏行之后的行进行识别,可以判断出其内容正确但位置出现移位,从而准确地识别出漏行的情况。

步骤204,基于准确率参数,确定待处理表格数据的评估处理结果。

在本实施例中,准确率参数可以描述单元格对集合中准确的单元格对状况,其中,准确的单元格对数量越多,说明待处理表格数据中的数据准确率越高。基于准确率参数确定的评估处理结果用于反映待处理表格数据与预设的标注表格数据之间的差异性和/或相似性。具体的,执行主体可以对多种准确率参数进行计算,得到综合的指标,基于综合的指标确定待处理表格数据的评估处理结果,如待处理表格数据与预设的标注表格数据之间相似指标值。

继续参见图3,其示出了根据本公开的用于处理表格数据的方法的一个应用场景的示意图。在图3的应用场景中,执行主体可以先获取待处理表格数据301,其中待处理表格数据301为3行2列的表格。待处理表格数据301可以为执行主体识别预设的标注表格数据303所得到的识别数据。之后,执行主体可以确定待处理表格数据301中各个相邻单元格组成的单元格对,得到单元格对集合302。具体可以将相邻两行和相邻两列的单元格组成单元格对,即1行1列和2行1列相邻两行组成的单元格对、1行2列和2行2列相邻两行组成的单元格对、2行1列和3行1列相邻两行组成的单元格对、2行2列和3行2列相邻两行组成的单元格对、1行1列和1行2列相邻两列组成的单元格对、2行1列和2行2列相邻两列组成的单元格对和3行1列和3行2列相邻两列组成的单元格对。之后,执行主体可以对单元格对集合302中的每个单元格对,在预设的标注表格数据303中查找是否存在与该单元格对匹配的单元格对,如果存在,则确定该单元格对为正确单元格对。统计正确单元格对的数量,可以得到正确单元格对数量304。执行主体基于正确单元格对数量304可以得到用于衡量待处理表格数据301和预设的标注表格数据303的相似性指标值,即评估处理结果305。可选的,执行主体还可以响应于相似性指标值低于指定阈值,对表格识别模型进行重新训练。其中,表格识别模型用于识别预设的标注表格数据303得到待处理表格数据301。

进一步的,请一并参阅图4,其示出了根据本公开的用于处理表格数据的方法的另一个应用场景的示意图。如图4所示,待处理表格数据402是基于预设的标注表格数据401进行表格识别后得到的表格数据,在图4的示例中,待处理表格数据402在表格识别的过程中将真实表格数据的第3行数据遗漏,导致第3行以后的每行单元格数据均上移一行。也即是,真实表格数据的第4行单元格数据上移至当前的第3行,真实表格数据的第5行单元格数据上移至当前的第4行。在现有技术中,对于这种情况下的评估,会将占据了当前第3行的、真实表格数据的第4行单元格数据以及占据了当前第4行的、真实表格数据的第5行单元格数据,全部确定为识别错误的单元格数据。而实际情况是这些单元格数据均识别准确,识别出的“4行,D,属性4,数值4”、“5行,E,属性5,数值5”均是准确的数据,只是由于漏行导致了行号错乱的问题,此时难以得到准确的评估结果。而采用本公开所提供的方法,能够对待处理表格数据402确定单元格对集合,单元格对集合中的多个单元格对具体可以为“1行,2行”、“2行,4行”、“4行,5行”、“4行,D”、“5行,E”等,基于将单元格对集合中的各个单元格对和预设的标注表格数据进行比较,能够得到用于描述准确的单元格对状况的准确率参数。基于准确率参数确定评估处理结果时,能够确定出“4行,D”、“D,属性4”、“属性4,数值4”、“5行,E”、“E,属性5”、“属性5,数值5”属于准确的单元格对,也即是识别出“4行,D,属性4,数值4”、“5行,E,属性5,数值5”均是准确的数据。并且基于“2行,3行”、“B,D”、“属性2,属性4”、“数值2,数值4”这些不准确的单元格对数据确定出遗漏了第3行,从而能够提高表格数据评估处理准确度。

本公开上述实施例提供的用于处理表格数据的方法,能够确定待处理表格数据的单元格对集合,由于单元格对集合中包括至少一组相邻单元格组成的单元格对。因此,采用单元格对集合和预设的标注表格数据进行比对,能够在对待处理表格数据进行评估处理时,考虑到相邻单元格之间的相对位置关系,能够识别表格漏行、错行等情况,提高了表格数据评估处理准确度。

继续参见图5,其示出了根据本公开的用于处理表格数据的方法的另一个实施例的流程500。如图5所示,本实施例的用于处理表格数据的方法可以包括以下步骤:

步骤501,获取目标信息。

在本实施例中,目标信息为需要识别表格数据的信息,具体可以为图片形式、特定文档格式等,本实施例对此不做限定。

步骤502,基于目标信息和预设的表格识别模型,确定与目标信息对应的待处理表格数据。

在本实施例中,预设的表格识别模型用于识别上述图片形式、特定文档格式等信息,得到相应的表格数据。并且预设的表格识别模型可以采用现有的人工智能模型训练得到。执行主体在获取目标信息之后,可以将目标信息输入预设的表格识别模型,得到预设的表格识别模型输出的与目标信息对应的待处理表格数据。如提取图片中的表格数据作为待处理表格数据、提取特定文档格式信息中的表格数据作为待处理表格数据。对于待处理表格数据的详细描述,请参照对步骤201的详细描述,在此不再赘述。

步骤503,确定待处理表格数据的单元格对集合。

在本实施例中,单元格对集合包括至少一组相邻单元格组成的单元格对。可选的,单元格对集合中的各个单元格对可以包括:非空单元格及与其相邻的右侧非空单元格组成的单元格对;和/或,非空单元格及与其相邻的下方非空单元格组成的单元格对。另一种可选的,单元格对集合中的各个单元格对可以包括:非空单元格及与其相邻的右侧非空单元格组成的单元格对;和/或,非空单元格及与其相邻的上方非空单元格组成的单元格对。单元格对集合可以采用能够反映相邻行列关系的任意形式的单元格对组成,本实施例对此不做限定。

步骤504,获取预设的标注表格数据。

在本实施例中,预设的标注表格数据为与目标信息对应的真实表格数据。优选的,本实施例中的方案可以应用于对表格识别模型进行训练的过程中,训练表格识别模型所采用的样本包含目标信息和预设的标注数据,表格识别模型在训练过程中的输出数据为待处理表格数据。基于待处理表格数据和预设的标注表格数据之间进行比对可以评估表格识别模型的识别效果,基于识别效果优化对表格识别模型的训练。

步骤505,确定与预设的标注表格数据对应的标注单元格对集合。

在本实施例中,执行主体确定与预设的标注表格数据对应的标注单元格对集合的方式与确定待处理表格数据的单元格对集合的方式类似,在此不再赘述。其中,标注单元格对集合同样包括至少一组相邻单元格组成的单元格对。其中,相邻单元格可以包括相邻行的单元格和/或相邻列的单元格。

步骤506,确定单元格对集合和标注单元格对集合的交并比信息以及单元格对内容信息。

在本实施例中,交并比信息用于表征单元格对集合和标注单元格对集合中相应单元格对之间的交并比;单元格对内容信息用于表征单元格对集合和标注单元格对集合中各个单元格对的内容信息。

步骤507,基于交并比信息和单元格对内容信息,确定单元格对集合对应的准确率参数。

在本实施例中,执行主体可以基于交并比信息确定单元格对之间的位置关系,基于单元格对内容信息确定单元格对之间的内容是否相同。可选的,执行主体可以在确定单元格对集合对应的准确率参数时,可以对单元格对集合中的每个单元格对,在标注单元格对集合中确定是否存在与该单元格对的内容相同的标注单元格对。如果存在,则计算该单元格对和该标注单元格对之间的交并比,如果交并比大于预设的阈值,则将该单元格对确定为正确的单元格对。统计正确的单元格对数量可以得到上述的准确率参数。

在本实施例的一些可选的实现方式中,准确率参数至少包括准确单元格对数量;以及基于交并比信息和单元格对内容信息,确定单元格对集合对应的准确率参数,包括:对于单元格对集合中的每个单元格对,响应于确定该单元格对与标注单元格对集合中相应标注单元格对之间的交并比大于目标阈值、且该单元格对的内容信息与标注单元格对集合中相应标注单元格对的内容信息相匹配,将该单元格对标记为准确单元格对;基于单元格对集合中准确单元格对的数量,确定准确率参数。

在本实现方式中,交并比信息可以包括单元格对集合中每个单元格对分别与标注单元格对集合中各个标注单元格对之间的交并比,对于单元格对集合中的每个单元格对,执行主体可以计算该单元格对和每个标注单元格之间的交并比,并确定该单元格对和每个标注单元格之间的内容信息是否匹配。如果该单元格对与某个标注单元格对之间的交并比大于目标阈值、且该单元格对与该标注单元格对的内容信息相匹配,则将该单元格对标记为准确单元格对。将单元格对集合中准确单元格对的数量确定为准确率参数。

在本实施例的一些可选的实现方式中,基于单元格对集合中准确单元格对的数量,确定准确率参数,包括:基于多个目标阈值分别标记的单元格对集合中准确单元格对的数量,确定准确率参数。

在本实现方式中,目标阈值的数量可以为多个,在确定准确单元格对数量的情况下,可以分别确定每个目标阈值所标记的单元格对集合中准确单元格对的数量。举例来说,目标阈值可以为(0.6,0.7,0.8,0.9),准确单元格对数量可以包括采用0.6作为目标阈值所标记的准确单元格对的数量、采用0.7作为目标阈值所标记的准确单元格对的数量、采用0.8作为目标阈值所标记的准确单元格对的数量以及采用0.9作为目标阈值所标记的准确单元格对的数量。

步骤508,基于准确率参数,确定待处理表格数据的评估处理结果。

在本实施例中,对于步骤508的详细描述请参照对于步骤204的详细描述,在此不再赘述。

在本实施例的一些可选的实现方式中,准确率参数还包括单元格对集合中的单元格对总数量以及标注单元格对集合中的标注单元格对总数量;以及基于准确率参数,确定待处理表格数据的评估处理结果,包括:基于准确率参数和单元格对总数量,确定准确率指标值,和/或,基于准确率参数和标注单元格对总数量,确定召回率指标值;基于准确率指标值和/或召回率指标值,确定待处理表格数据的评估处理结果。

在本实现方式中,准确率指标值可以是准确单元格对数量与单元格对总数量的比值,召回率指标值可以是准确单元格对数量与标注单元格对总数量的比值。

在本实施例的另一些可选的实现方式中,基于准确率指标值和/或召回率指标值,确定待处理表格数据的评估处理结果,包括:基于准确率指标值和召回率指标值,确定综合评价指标值;对于多个目标阈值中的每个目标阈值,在综合评价指标值中确定与该目标阈值对应的综合评价指标值;对每个目标阈值和该目标阈值对应的综合评价指标值的乘积进行求和,得到多个目标阈值的加权和;基于多个目标阈值的加权和以及多个目标阈值之和的比值,得到待处理表格数据的评估处理结果。

在本实现方式中,执行主体还可以基于准确率指标值和召回率指标值,确定综合评价指标值,具体可以为F1分数(F1 Score,统计学中用来衡量二分类模型精确度的一种指标)。执行主体可以将准确率指标值和召回率指标值的调和平均数确定为综合评价指标值F1分数。

需要说明的是,由于目标阈值可以为多个,并且每个目标阈值对应有相应的准确单元格对的数量,因此,在计算准确率指标值和/或召回率指标值时,每个目标阈值对应有相应的准确率指标值和/或召回率指标值。由于综合评价指标值F1分数是基于准确率指标值和召回率指标值计算得到的,因此每个目标阈值对应有相应的综合评价指标值F1分数。在确定最终的评估处理结果时,可以对于各个目标阈值对应的综合评价指标值F1分数进行加权平均,得到最终指标值,作为最终的评估处理结果。具体可采用如下加权平均公式进行计算:

其中,W指的是最终指标值,IoU

步骤509,基于评估处理结果,对预设的表格识别模型进行处理。

在本实施例中,执行主体可以将通过上述计算方式计算得到的最终指标值作为评估处理结果,并且执行主体可以预先设置第一指标阈值和/或第二指标阈值。如果上述最终指标值小于第一指标阈值,则对预设的表格识别模型进行重新训练。如果上述最终指标值大于第二指标阈值,则确定预设的表格识别模型完成训练。

本公开的上述实施例提供的用于处理表格数据的方法,还可以基于单元格对集合和标注单元格对集合的交并比信息以及单元格内容信息,确定单元格对集合对应的准确率参数,综合考虑单元格对之间的位置关系以及内容信息,所得到的准确率参数更加精确。并且能够基于各个目标阈值所标记的单元格对集合中准确单元格对的数量确定准确单元格对数量,基于不同的交并比阈值确定准确单元格对数量,能够提高准确单元格对数量的可靠性。以及还可以基于准确率指标值和/或召回率指标值确定评估处理结果,评估处理结果更加准确。此外,基于评估处理结果对表格识别模型进行处理,能够进一步提高表格识别模型对于表格识别的准确率。

进一步参考图6,作为对上述各图所示方法的实现,本公开提供了一种用于处理表格数据的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种服务器中。

如图6所示,本实施例的用于处理表格数据的装置600包括:数据获取单元601、集合确定单元602、参数确定单元603、评估确定单元604。

数据获取单元601,被配置成获取待处理表格数据。

集合确定单元602,被配置成确定待处理表格数据的单元格对集合。单元格对集合包括至少一组相邻单元格组成的单元格对。

参数确定单元603,被配置成基于单元格对集合和预设的标注表格数据,确定单元格对集合对应的准确率参数;准确率参数用于描述单元格对集合中准确的单元格对状况。

评估确定单元604,被配置成基于准确率参数,确定待处理表格数据的评估处理结果。

在本实施例的一些可选的实现方式中,参数确定单元603进一步被配置成:获取预设的标注表格数据;确定与预设的标注表格数据对应的标注单元格对集合;确定单元格对集合和标注单元格对集合的交并比信息以及单元格对内容信息;交并比信息用于表征单元格对集合和标注单元格对集合中相应单元格对之间的交并比;单元格对内容信息用于表征单元格对集合和标注单元格对集合中各个单元格对的内容信息;基于交并比信息和单元格对内容信息,确定单元格对集合对应的准确率参数。

在本实施例的一些可选的实现方式中准确率参数至少包括准确单元格对数量;以及参数确定单元603进一步被配置成:对于单元格对集合中的每个单元格对,响应于确定该单元格对与标注单元格对集合中相应标注单元格对之间的交并比大于目标阈值、且该单元格对的内容信息与标注单元格对集合中相应标注单元格对的内容信息相匹配,将该单元格对标记为准确单元格对;基于单元格对集合中准确单元格对的数量,确定准确率参数。

在本实施例的一些可选的实现方式中,参数确定单元603进一步被配置成:基于多个目标阈值分别标记的单元格对集合中准确单元格对的数量,确定准确率参数。

在本实施例的一些可选的实现方式中,准确率参数还包括单元格对集合中的单元格对总数量以及标注单元格对集合中的标注单元格对总数量;以及评估确定单元604进一步被配置成:基于准确率参数和单元格对总数量,确定准确率指标值,和/或,基于准确率参数和标注单元格对总数量,确定召回率指标值;基于准确率指标值和/或召回率指标值,确定待处理表格数据的评估处理结果。

在本实施例的一些可选的实现方式中,评估确定单元604进一步被配置成:基于准确率指标值和召回率指标值,确定综合评价指标值;对于多个目标阈值中的每个目标阈值,在综合评价指标值中确定与该目标阈值对应的综合评价指标值;对每个目标阈值和该目标阈值对应的综合评价指标值的乘积进行求和,得到多个目标阈值的加权和;基于多个目标阈值的加权和以及多个目标阈值之和的比值,得到待处理表格数据的评估处理结果。

在本实施例的一些可选的实现方式中,单元格对集合中的各个单元格对包括:非空单元格及与其相邻的右侧非空单元格组成的单元格对;和/或,非空单元格及与其相邻的下方非空单元格组成的单元格对。

在本实施例的一些可选的实现方式中,数据获取单元601进一步被配置成:获取目标信息;基于目标信息和预设的表格识别模型,确定与目标信息对应的待处理表格数据。

在本实施例的一些可选的实现方式中,上述装置还包括:模型处理单元,被配置成基于评估处理结果,对预设的表格识别模型进行处理。

应当理解,用于处理表格数据的装置600中记载的单元601至单元604分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用处理表格数据的方法描述的操作和特征同样适用于装置600及其中包含的单元,在此不再赘述。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了用来实现本公开实施例的用于处理表格数据的方法的电子设备700的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如用于处理表格数据的方法。例如,在一些实施例中,用于处理表格数据的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的用于处理表格数据的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于处理表格数据的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

需要说明的是,本公开对于各类表格数据的获取均符合相关法律法规的规定,且不违背公序良俗。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 用于处理表格数据的方法、装置、设备、介质和产品
  • 一种表格数据处理方法、装置、设备及存储介质
技术分类

06120113177236