掌桥专利:专业的专利平台
掌桥专利
首页

数据抽取方法、装置、计算机可读介质及电子设备

文献发布时间:2023-06-19 11:45:49


数据抽取方法、装置、计算机可读介质及电子设备

技术领域

本公开涉及数据处理技术领域,具体而言,涉及一种数据抽取方法、数据抽取装置、计算机可读介质及电子设备。

背景技术

数据库是存储和管理数据的重要工具,任何互联网技术都离不开数据库的支持。使用不同来源、结构不同的数据时,需要对数据进行结构化,得到具有统一规范结构的标准数据模型,才能利用数据库对业务数据进行处理。

每个原始数据在向标准数据模型转换时,通常不会涉及到标准数据结果的全部类型,其转换的结果只能是标准数据的一个子集。举例而言,原始数据通过映射和关联,可以填充到标准数据模型的若干业务表的相关字段中,而对于标准数据模型的其他业务表或者表内不相关字段,则留空不填。然而,业务表中的数据分布情况对于业务人员来说并不清楚,在需要对数据进行质检、验证时,不清楚哪些表中的字段有值分布情况,则无法进行抽取,导致需要对全部数据均进行处理,效率低下。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种数据抽取方法、数据抽取装置、计算机可读介质及电子设备,能够在一定程度上克服数据抽取规模较大而导致抽取效率低的问题,进而提升对数据的抽取处理效率。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的第一方面,提供一种数据抽取方法,包括:

获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录;

根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段;

根据各所述数据记录中包含的所述目标字段与所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。

在本公开的一种示例性实施例中,获取数据库的非空字段集合之前,还包括:

判断所述数据库中各个数据表中各字段对应的字段值是否为空,将对应的字段值不为空的字段确定为该数据表中的非空字段,以获取所述非空字段集合。

在本公开的一种示例性实施例中,所述判断所述数据库中各个数据表中的各字段对应的字段值是否为空,包括:

根据各所述字段的字段类型判断各所述字段对应的字段值是否为空。

在本公开的一种示例性实施例中,所述根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,包括:

按照所述多个数据记录中包含的主键值对所述多个数据记录进行分类,确定各所述主键值分别对应的记录集合;

根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,将所述目标集合包含的数据作为所述目标数据记录。

在本公开的一种示例性实施例中,所述根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,包括:

确定各所述记录集合包含的目标字段的数量,按照所述数量从大到小对各所述记录集合进行排序;

按照所述排序的顺序确定多个目标集合,以使所述多个目标集合包含的所有目标字段与所述非空字段集合中的非空字段相同。

在本公开的一种示例性实施例中,所述根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,包括:

根据各所述记录集合包含的目标字段,分别计算各所述记录集合与所述非空字段集合的第一补集,将包含的元素最少的目标第一补集对应的记录集合作为候选集合;

计算所述目标第一补集与各所述记录集合的第二补集,将包含的元素最少的目标第二补集对应的记录集合合并至所述候选集合中,直到

所述候选集合包含的所述目标字段与所述非空字段集合相等,则将所述候选集合确定为所述目标集合。

在本公开的一种示例性实施例中,将所述目标数据记录对应的目标字段确定为所述数据库的待抽取数据之后,该方法还包括:

确定各所述目标数据记录分别对应的主键值,以获取主键值集合;

如果接收到抽取请求,则将所述主键值集合发送至所述抽取请求的发送端,以使所述发送端通过所述主键值集合对所述数据库进行抽取。

根据本公开的第二方面,提供一种数据抽取装置,包括非空字段获取模块、表数据确定模块以及抽取数据确定模块,其中:

非空字段获取模块,用于获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录;

表数据确定模块,用于根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段;

抽取数据确定模块,用于根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。

在本公开的一种示例性实施例中,该装置还包括非空判断模块,用于判断所述数据库中各个数据表中各字段对应的字段值是否为空,将对应的字段值不为空的字段确定为该数据表中的非空字段,以获取所述非空字段集合。

在本公开的一种示例性实施例中,所述非空判断模块可以具体用于根据各所述字段的字段类型判断各所述字段对应的字段值是否为空。

在本公开的一种示例性实施例中,抽取数据确定模块包括分类单元和集合确定单元,其中:

分类单元,用于按照所述多个数据记录中包含的主键值对所述多个数据记录进行分类,确定各所述主键值分别对应的记录集合。

集合确定单元,用于根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,将所述目标集合包含的数据作为所述目标数据记录。

在本公开的一种示例性实施例中,集合确定单元可以具体包括排序单元和集合选取单元,其中:

排序单元,用于确定各所述记录集合包含的目标字段的数量,按照所述数量从大到小对各所述记录集合进行排序。

集合选取单元,用于按照所述排序的顺序确定多个目标集合,以使所述多个目标集合包含的所有目标字段与所述非空字段集合中的非空字段相同。

在本公开的一种示例性实施例中,集合确定单元可以具体包括补集计算单元、集合合并单元,以及集合判断单元,其中:

补集计算单元,用于根据各所述记录集合包含的目标字段,分别计算各所述记录集合与所述非空字段集合的第一补集,将包含的元素最少的目标第一补集对应的记录集合作为候选集合。

集合合并单元,用于计算所述目标第一补集与各所述记录集合的第二补集,将包含的元素最少的目标第二补集对应的记录集合合并至所述候选集合中。

集合判断单元,用于如果所述候选集合包含的所述目标字段与所述非空字段集合相等,则将所述候选集合确定为所述目标集合。

在本公开的一种示例性实施例中,该装置还包括主键确定模块和集合发送模块,其中:

主键确定模块,用于确定各所述目标数据记录分别对应的主键值,以获取主键值集合。

集合发送模块,用于接收到抽取请求,将所述主键值集合发送至所述抽取请求的发送端,以使所述发送端通过所述主键值集合对所述数据库进行抽取。

根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果:

在本公开的一示例实施方式所提供的数据抽取方法中,通过数据库的非空字段集合从数据表中确定目标数据记录,得到抽取数据,能够保证提取出的数据非空,可以提高抽取的有效性。并且,通过数据记录中包含的字段值可以使得目标数据记录对数据库中的字段的覆盖程度达到最大,从而可以提高抽取效果。此外,需要抽取的目标数据记录远远少于随机抽取所需的数据量,能够减少样本数量,从而节省计算资源、降低时间成本,提高抽取效率;同时,有利于提高对于抽取数据的处理效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开的一个实施例的数据抽取方法的流程图;

图2示意性示出了根据本公开的另一个实施例的数据抽取方法的流程图;

图3示意性示出了根据本公开的另一个实施例的数据抽取方法流程图;

图4示意性示出了根据本公开的另一个实施例的数据抽取方法流程图;

图5示意性示出了根据本公开的另一个实施例的数据抽取方法流程图;

图6示意性示出了根据本公开的一个实施例的数据表示意图;

图7示意性示出了根据本公开的一个实施例的数据抽取装置的框图;

图8示意性示出了根据本公开的一个实施例的用于实现数据抽取方法的系统架构图;

图9示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

以下对本公开实施例的技术方案进行详细阐述:

在发明人提供的一种解决方案中,对数据库中数据进行抽取时,可以遍历所有表,针对每个表中的所有字段,抽取包含该字段对应的字段值的一条数据记录,从而穷举每个表得到最终的抽取结果。但是,抽取的样本的规模与全部表的所有字段个数相当,在后续对抽取数据进行校验时,需要耗费大量资源,导致成本增高。

基于上述一个或多个问题,本示例实施方式提供了一种数据抽取方法。参考图1所示,该数据抽取方法可以包括以下步骤:

步骤S110:获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录。

步骤S120:根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段。

步骤S130:根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。

在本公开的一示例实施方式所提供的数据抽取方法中,通过数据库的非空字段集合从数据表中确定目标数据记录,得到抽取数据,能够保证提取出的数据非空,可以提高抽取的有效性。并且,通过数据记录中包含的字段值可以使得目标数据记录对数据库中的字段的覆盖程度达到最大,从而可以提高抽取效果。此外,需要抽取的目标数据记录远远少于随机抽取所需的数据量,能够样本数量,从而节省计算资源、降低时间成本,提高抽取效率;同时,有利于提高对于抽取数据的处理效率。

下面,对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤S110中,获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录。

其中,非空字段可以指存在值的字段,即,只要字段对应的列中有一个值,则该字段为非空字段。非空字段可以包括表的主键,也可以包括表中的其他字段;并且,一个表中的非空字段可以包括多个,本实施方式对此不做特殊限定。数据记录为表中的一行数据,每条数据记录中可以包括表中每个字段对应的字段值,由于主键唯一性,则主键对应的值可以唯一标识一条数据记录。通过查询各个数据表,可以获取数据表中所有数据记录。

在将数据填充至数据模型中时,可以记录有值填充的字段,从而获取数据库的非空字段,例如,如果“姓名”字段赋值为“张三”,则该字段为非空字段,并且,对非空字段进行标注,从而根据该标注获取每一数据表的非空字段,得到数据库的非空字段集合。示例性的,获取数据库的各个数据表中的非空字段之前,可以结合所有的数据表,确定各字段对应的数值是否为空,将对应的数值不为空的字段确定为非空字段。具体的,将数据库中的所有字段确定出来,在一数据表中判断该字段在该表中是否有值,如果该表的所有数据记录遍历结束,该字段对应的值只为空(NULL),则继续遍历下一数据表,直至遍历完所有的数据表,该字段对应的值除了NULL之外,不存在其他值,则该字段为空字段,如果该字段存在不为NULL的其他值,例如,该字段为“费用”,其对应的值为“123”则该字段为非空字段。

字段的字段类型可以包括多种,例如,整数、数组等,对于不同字段类型的字段,其值的类型也不同,因此,可以根据字段的字段类型确定字段对应的值是否为空。具体的,如果字段类型为整型、布尔型等简单结构类型,只需要确定字段中的数值是否非空,如果字段中有数值,则该字段为非空字段;如果字段类型为数组、字典等复合结构的类型时,需要对字段的每个值中包含的元素进行判断。示例性的,当字段类型为key-value的字典类型时,每一个key作为该字段的下级字段,当value非空时可以认为该下级字段是非空字段,则所属的字段也是非空字段;当存在数组时,对数组中的每个元素依次考察,直到遇到元素是有值的,则认为数组所属字段非空。

此外,根据各字段类型,还可以对各字段是否为非空字段进行更加细化的区分,例如,针对每一字段类型,确定不同的非空条件,以确定字段是否满足该非空条件,如果满足,则字段为非空字段,本实施方式不限于此。

数据表中通常可以定义的多个字段,并且,不同的数据表定义的字段也可以不相同,将所有的数据表中的所有字段均进行非空判断之后,可以获取多个非空字段,并且,可以通过一标识对每一非空字段进行标识,以便于区分非空字段与空字段。数据库中所有表中的非空字段可以组成数据库对应的非空字段集合。不同的数据库对应的非空字段集合可以不同。

在步骤S120中,根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段。

目标字段指的是非空字段值对应的字段,即,在数据记录中存在值的字段,换言之,目标字段为数据记录中的非空字段。得到数据表中所有数据记录后可以判断数据记录中是否包含非空字段值,如果值不为空,则对应的字段为目标字段。对每个数据表中的数据记录包含的目标字段的情况进行确定,可以确定数据记录对与非空字段的覆盖情况,也就是说,如果数据记录中包含的目标字段越多,那么该条数据记录包含的信息越多,作为样本的意义越大。

举例而言,如表1所示,表1中共有7个字段,其中,ID为主键,“√”表示有值。查询表1,可以得到主键值分别为Id1和Id2两条数据记录,其中,ID=Id1的数据记录中包括字段1、字段2、字段3的字段值,其他字段的值均为空,则该数据记录中包含的目标字段为字段1、字段2和字段3;ID=Id2的数据记录中的目标字段为字段3和字段4。

在步骤S130中,根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。

根据各数据记录中包含的目标字段和非空字段集合中所有非空字段,从数据记录中选取目标数据记录,目标数据记录可以作为待抽取数据。待抽取数据可以作为数据质检、数据验证的样本,从而通过待抽取数据对数据库中所有的数据进行验证,相比于随机抽取样本,目标数据记录中包含的字段值更多,与数据库具有更高的一致性。

示例性的,确定各数据记录中包含的目标字段时,可以对目标字段的数量进行记录,从而选取包含的目标字段数量较多的数据记录作为目标数据记录。例如,选取包含的目标字段数量超过一预设值的数据记录作为目标数据记录,或者,按照包含的目标字段的数量对数据记录进行排序,选择前N(N为正整数)条或后N条数据记录作为目标数据记录等。

由于主键能够唯一标识一条数据记录,因此,该方法还可以包括步骤S201至步骤S202,如图2所示,其中:

在步骤S201中,确定各所述目标数据记录分别对应的主键值,以获取主键值集合。每一数据表中的主键为用户在建表时设置的,主键具有唯一性和非空性,主键值为主键对应的值,例如,学生表中的主键可以为“学号”字段,主键值可以为“20112356”等。确定了目标数据记录之后,可以提取出每一数据记录中的主键值,从而获取所有目标数据记录对应的主键值集合。

在步骤S202中,接收到抽取请求,将所述主键值集合发送至所述抽取请求的发送端,以使所述发送端通过所述主键值集合对所述数据库进行抽取。示例性的,在数据模型验证、数据质检等多种需要对数据库进行操作的场景中,均需要对数据库中的数据进行抽取,有数据抽取需求的客户端可以发送抽取请求至服务器,服务器在接收到该抽取请求之后,可以将该主键值集合发送至该客户端,该客户端在获取到该主键值集合之后可以利用主键值获取目标数据记录,从而利用目标数据记录完成数据验证等操作。

在本公开的其他实施方式中,发送抽取请求的也可以为终端设备中一模块,而接收该抽取请求的可以为另一模块,或者,发送抽取请求的可用为一客户端,接收该抽取请求的可用为另一客户端等等,本实施方式不限于此。本实施方式中,主键值集合的数量级相比于数据库来说要小的多,利用主键值集合可以获取数据库中的抽取数据,大大地提高了数据的可操作性;并且,大大减少了目标数据记录所占用的空间,从而能够节省资源。

在可选的实施方式中,从多个数据记录中确定目标数据记录可以包括步骤S301和步骤S302,如图3所示,其中:

在步骤S301中,按照所述多个数据记录中包含的主键值对所述多个数据记录进行分类,确定各所述主键值分别对应的记录集合。具体的,将同一主键值标识的数据记录划分为同一类中,可以得到多个由不同主键值标识的记录集合,并且,主键值的数量可以与记录集合的数量相同。在一数据表中,一主键值只标识该表中的一条数据,而在其他数据表中,该主键值可以标识其他数据表中的数据记录,即,一主键值对应的记录集合中包含的数据记录与数据表的数量相同,例如,数据库中包含20个数据表,则每一记录集合中可以包括一主键值在20个表中分别标识的20条数据记录。

需要理解的是,本实施方式中,数据库中的所有表可以具有相同的主键。不同的数据表中,主键的值可以相同,而在同一数据表中主键的值具有唯一性。

在步骤S302中,根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,将所述目标集合包含的数据作为所述目标数据记录。示例性的,可以根据各记录集合中包含的目标字段,从多个记录集合中选取目标集合,例如,随机选取一记录集合A作为目标集合,A中包含的目标字段为a、b、c,则确定非空字段集合中除该记录集合中包含的a、b、c之外的其他非空字段,并再次选择一包含其他非空字段的记录集合B作为目标集合,再确定非空字段集合中除了B中的目标字段之外的其他非空字段,然后再选择包含其他非空字段的记录集合,直到选择出的目标集合中的目标字段的并集覆盖所有非空字段为止。

可选的实施方式中,从各所述记录集合中确定出目标集合可以包括步骤S401和步骤S402,如图4所示,其中:

在步骤S401中,确定各所述记录集合包含的目标字段的数量,按照所述数量从大到小对各所述记录集合进行排序。具体的,记录集合中所有数据记录包含的目标字段相加为该记录集合包含的目标字段的数量,如果多个数据记录中均包含一字段的字段值,则该字段只计算一次,例如,记录集合A中包含10条数据记录,其中第一条数据记录中包含字段1、字段3、字段4,第二条数据记录中包含字段2、字段3、字段5,则第一条数据记录与第二条数据记录一共包含的字段为字段1、字段2、字段3、字段4、字段5,数量为5,依次类推,统计记录集合A中10条数据记录包含的所有字段的数量。确定了每一记录集合包含的目标字段的数量之后,按照数量从大到小对记录集合进行排序。

在步骤S402中,按照所述排序的顺序确定多个目标集合,以使所述多个目标集合包含的所有目标字段与所述非空字段集合中的非空字段相同。示例性的,可以按照排序的顺序,选取第一个记录集合作为目标集合,在非空字段集合中除去该目标集合中包含的目标字段,得到剩余的非空字段,然后在按顺序选取第二个记录集合作为目标集合,再在剩余的非空字段中除去该第二个记录集合中包含的目标字段,如果剩余的非空字段中不包含该第二个记录集合中包含的目标字段,则说明该目标字段与第一个记录集合中的目标字段相同,已被除去,因此,对于剩余的非空字段中不包含的目标字段可以跳过,执行下一个目标字段,依次类推,直到非空字段集合中的所有非空字段均被除去,此时,确定出的目标集合即为最终的抽取数据。例如,在非空字段集合中除去第50个记录集合中包含目标字段之后,该非空字段集合为空,则前50个记录集合为目标集合。并且,可以将得到的多个目标集合合并为一个集合,将该集合作为抽取数据。

在可选的实施方式中,从各所述记录集合中确定出目标集合可以包括步骤S501至步骤S503,如图5所示,其中:

在步骤S501中,根据各所述记录集合包含的目标字段,分别计算各所述记录集合与所述非空字段集合的第一补集,将包含的元素最少的目标第一补集对应的记录集合作为候选集合。具体的,每一记录集合中包含的目标字段与非空字段集合进行补集运算后,得到各记录集合对应的第一补集。通过第一补集可以确定该记录集合对非空字段的覆盖情况,补集中的元素越少,则可以说明记录集合对非空字段的覆盖范围越大。将补集中元素最少的作为目标第一补集,并将该目标第一补集对应的记录集合作为候选集合。

在步骤S502中,计算所述目标第一补集与各所述记录集合的第二补集,将包含的元素最少的目标第二补集对应的记录集合合并至所述候选集合中。具体的,再次对候选集合与各记录集合进行补集运算,得到各记录集合对应的第二补集,并将集合元素最少的作为目标第二补集,目标第二补集对应的记录集合中的元素合并至候选集合,即,候选集合中已经包含了目标第一补集对应的记录集合与目标第二补集对应的记录集合。并且,可以将目标第二补集对应的记录集合删去。

在步骤S503中,如果所述候选集合包含的所述目标字段与所述非空字段集合相等,则将所述候选集合确定为所述目标集合。具体的,在步骤S501之后,可以判断候选集合与非空字段集合是否相等,如果相等,则候选集合为目标集合;如果不相等,则执行步骤S503,将目标第二补集合并至候选集合中后,可以对该候选集合再次进行判断,如果该候选集合与非空字段集合相等,则该候选集合为目标集合;如果不相等,则可以再次计算目标第二补集与各记录集合的第三补集,从各记录集合对应的第三补集中,确定包含的元素最少的目标第三补集,将目标第三补集对应的记录集合中的元素可以合并至候选集合中,并将该记录集合删除。需要理解的是,本实施方式中,每一次合并一记录集合到候选集合中后,可以对候选集合进行判断,如果候选集合与非空字段集合相等,则将候选集合确定为目标集合,无需进行下一次的补集计算,如果不相等,则反复迭代计算候选集合与各个记录集合的补集,并将包含元素最少的补集合并至候选集合中,直至候选集合与非空字段集合相等为止。最终得到的目标集合中的数据记录包含了所有非空字段的字段值,利用该目标集合能够满足数据质检和数据验证等需求。

举例而言,如图6所示,假设数据库中包含表1、表2、表3。预先可以对表中的各个字段进行非空判断,如果字段对应的列中存在字段值,则字段为非空字段,并对非空字段进行标识。然后,可以根据表中的标识确定每一表中的非空字段,如图6,表1中非空字段为“字段1、字段2、字段3”,表2中每个字段均有值,即表2中每个字段均为非空字段,表3中“字段3”对应的列中每个数据记录均为空,因此,“字段3”不是非空字段,综合数据库中所有表的字段,可以得出该数据库的非空字段集合为{字段1,字段2,字段3,字段4,字段5,字段6}。根据表的主键,可以确定每一主键值对应的数据记录,其中,“id1”对应的表1中的数据记录包含的目标字段为“字段1、字段2”,对应的表2中的数据记录包含的目标字段为“字段1”;表3中没有通过“id1”标识的数据记录。则,“id1”对应的记录集合中包含的目标字段为“字段1、字段2”。同理的,“id2”对应的记录集合中包含的目标字段为“字段1、字段2、字段3”;“id3”对应的记录集合中包含的目标字段为“字段1、字段4、字段5”;“id4”对应的记录集合中包含的目标字段为“字段1、字段2、字段5、字段6”。根据各记录集合中包含的目标字段的数量,可以先将“id2、id4”分别对应的记录集合作为目标集合,然后将“id1、id3”对应的记录集合作为目标集合。因此,该数据库的抽取数据可以为id1、id2、id3、id4分别对应的记录集合,即,表1、表2、表3中主键值为id1、id2、id3、id4的数据记录。或者,抽取数据可以为主键值集合{id1,id2,id3,id4}。

通过本实施方式,能够找到覆盖全部非空字段的最小的数据集合,从而克服采用穷举的方法抽取数据时造成的计算量过大,并且,在大数据场景中更能减少数据计算量,提高数据处理效率。

进一步的,本示例实施方式中,还提供了一种数据抽取装置,用于执行本公开上述的数据抽取方法。该装置可以应用于一服务器或终端设备。

参考图7所示,该数据抽取装置700可以包括:非空字段获取模块710、表数据确定模块720以及抽取数据确定模块730,其中:

非空字段获取模块710,用于获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录。

表数据确定模块720,用于根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段。

抽取数据确定模块730,用于根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。

在本公开的一种示例性实施例中,该装置还包括非空判断模块,用于判断所述数据库中各个数据表中各字段对应的字段值是否为空,将对应的字段值不为空的字段确定为该数据表中的非空字段,以获取所述非空字段集合。

在本公开的一种示例性实施例中,所述非空判断模块可以具体用于根据各所述字段的字段类型判断定各所述字段对应的字段值是否为空。

在本公开的一种示例性实施例中,抽取数据确定模块730包括分类单元和集合确定单元,其中:

分类单元,用于按照所述多个数据记录中包含的主键值对所述多个数据记录进行分类,确定各所述主键值分别对应的记录集合。

集合确定单元,用于根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,将所述目标集合包含的数据作为所述目标数据记录。

在本公开的一种示例性实施例中,集合确定单元可以具体包括排序单元和集合选取单元,其中:

排序单元,用于确定各所述记录集合包含的目标字段的数量,按照所述数量从大到小对各所述记录集合进行排序。

集合选取单元,用于按照所述排序的顺序确定多个目标集合,以使所述多个目标集合包含的所有目标字段与所述非空字段集合中的非空字段相同。

在本公开的一种示例性实施例中,集合确定单元可以具体包括补集计算单元、集合合并单元,以及集合判断单元,其中:

补集计算单元,用于根据各所述记录集合包含的目标字段,分别计算各所述记录集合与所述非空字段集合的第一补集,将包含的元素最少的目标第一补集对应的记录集合作为候选集合。

集合合并单元,用于计算所述目标第一补集与各所述记录集合的第二补集,将包含的元素最少的目标第二补集对应的记录集合合并至所述候选集合中。

集合判断单元,用于如果所述候选集合包含的所述目标字段与所述非空字段集合相等,则将所述候选集合确定为所述目标集合。

在本公开的一种示例性实施例中,该装置还包括主键确定模块和集合发送模块,其中:

主键确定模块,用于确定各所述目标数据记录分别对应的主键值,以获取主键值集合。

集合发送模块,用于接收到抽取请求,将所述主键值集合发送至所述抽取请求的发送端,以使所述发送端通过所述主键值集合对所述数据库进行抽取。

由于本公开的示例实施例的数据抽取装置的各个功能模块与上述数据抽取方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的数据抽取方法的实施例。

参阅图8,图8示出了可以应用本公开实施例的一种数据抽取方法及数据抽取装置的示例性应用环境的系统架构的示意图。

如图8所示,系统架构800可以包括终端设备801、802、803中的一个或多个,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

终端设备801、802、803可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器805可以是多个服务器组成的服务器集群等。

本公开实施例所提供的数据抽取方法一般由服务器805执行,相应地,数据抽取装置一般设置于服务器805中。但本领域技术人员容易理解的是,本公开实施例所提供的数据抽取方法也可以由终端设备801、802、803执行,相应的,数据抽取装置也可以设置于终端设备801、802、803中,本示例性实施例中对此不做特殊限定。

举例而言,在一种示例性实施例中,服务器805可以接收客户端801抽取请求,获取数据库的非空字段集合,并获取各个数据表中的数据记录,根据各数据记录中包含的字段值确定数据记录中包含的目标字段,进而,根据非空字段集合与各数据记录中包含的目标字段,从多个数据记录中选取目标数据记录,将目标数据记录作为抽取数据发送至客户端801,以使得客户端801能够根据抽取数据对数据库进行操作,例如,数据库数据映射关系验证、数据质检等。

图9示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图9示出的电子设备的计算机系统900仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的方法和装置中限定的各种功能。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图1和图2所示的各个步骤等。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 数据抽取方法、装置、电子设备及计算机可读存储介质
  • 数据抽取方法、装置、电子设备及计算机可读存储介质
技术分类

06120113047608