掌桥专利:专业的专利平台
掌桥专利
首页

数据归档的方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:52:33


数据归档的方法、装置、电子设备及存储介质

技术领域

本申请涉及图像归档技术领域,尤其涉及一种数据归档的方法、装置、电子设备及存储介质。

背景技术

随着社会公共安全意识的提升,多数地方都设置有监控系统或抓拍系统,且系统均有相对应的档案库,用于存储系统对抓拍的人脸图像进行归档后的人脸档案。所谓归档是指将海量抓拍的人脸图像归到档案库中已存在的多个人脸档案中,随着监控系统或抓拍系统覆盖范围、接入量的增加,每天需要归档的人脸图像也呈爆炸式增长,庞大的数据量容易导致归档速度慢。

发明内容

针对上述问题,本申请提供了一种有利于提高人像归档速度的数据归档的方法、装置、电子设备及存储介质。

为实现上述目的,本申请实施例第一方面提供了一种数据归档的方法,该方法包括:

通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;

根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;

动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;

将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。

在一种可能的实施方式中,所述根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区,包括:

若所述待归档数据的数据量大于所述档案数据的数据量,则采用K均值聚类算法将所述待归档数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区;

若所述档案数据的数据量大于所述待归档数据的数据量,则采用K均值聚类算法将所述档案数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区。

在一种可能的实施方式中,所述方法还包括:

在对所述待归档数据进行分区的情况下,对所述档案数据进行广播;

在对所述档案数据进行分区的情况下,对所述待归档数据进行广播。

在一种可能的实施方式中,所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档,包括:

在对所述待归档数据进行分区的情况下,从广播变量中获取所述档案数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将所述待归档数据与广播变量中获取的所述档案数据进行匹配以归档;

在对所述档案数据进行分区的情况下,从广播变量中获取所述待归档数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将广播变量中获取的所述待归档数据与所述档案数据进行匹配以归档。

在一种可能的实施方式中,在所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档之前,所述方法还包括:

检测所述目标GPU卡是否打开;

若是则执行所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档的操作;

若否则通过所述异构平台调用所述目标IP地址所属设备的CPU在目标分区中对所述待归档数据进行归档。

本申请实施例第二方面提供了一种数据归档的装置,该装置包括:

数据读取模块,用于通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;

数据分区模块,用于根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;

GPU获取模块,用于动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;

归档执行模块,用于将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。

本申请实施例第三方面提供了一种电子设备,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据归档的方法中的步骤。

本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据归档的方法中的步骤。

本申请的上述方案至少包括以下有益效果:通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。这样在读取到抓拍的待归档数据和档案库中的档案数据后,对二者中数据量较大者进行分区,然后通过目标IP地址动态调用目标GPU卡在与目标IP地址对应的目标分区中对待归档数据进行归档,充分利用了系统中的GPU资源,从而有利于提高人像归档的速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用架构图;

图2本申请实施例提供的一种数据归档的方法的流程示意图;

图3为本申请实施例提供的另一种数据归档的方法的流程示意图;

图4为本申请实施例提供的一种待归档数据插入档案库的示例图;

图5为本申请实施例提供的一种数据归档的装置的结构示意图;

图6为本申请实施例提供的另一种数据归档的装置的结构示意图;

图7为本申请实施例提供的另一种数据归档的装置的结构示意图;

图8为本申请实施例提供的另一种数据归档的装置的结构示意图;

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。

首先结合相关附图来举例介绍下本申请实施例的方案可能应用到的网络系统架构。请参见图1,图1为本申请实施例提供的一种应用架构图,该应用架构基于如图1所示,主要包括图像采集设备、终端设备、异构平台和档案库,其中,异构平台服务器通过档案库的特征工程构建的归档模型读取或加载图像采集设备抓拍的待归档数据和档案库中的档案数据,且根据二者的数据量决定对其中之一进行分区、对其中之一进行广播,分区即将二者中待分区一者分配到多个终端设备,通过执行器动态调用终端设备的CPU(centralprocessing unit,中央处理器)或GPU(Graphics Processing Unit,图形处理器)对进行归档处理。档案库有对应的特征工程,库中还包括遗留表、归档表、聚档表等各种档案表或事件表,在对待归档数据归档后可对档案库进行更新,还可设置档案库中每个表中数据存储的期限。可以理解的,异构平台是整个应用架构的执行中枢,而未成功归档的待归档数据可进行聚档处理。基于图1所示的应用架构,以下结合其他附图对本申请实施例提供的数据归档的方法进行详细阐述。

请参见图2,图2为本申请实施例提供的一种数据归档的方法的流程示意图,如图2所示,包括步骤:

S21,通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据。

本申请具体实施例中,待归档数据即待归档的人脸图像,档案数据即档案库中已存在的人像档案中的人脸图像,例如:张三的人像档案中会有多张张三的身份证件照。预设特征工程为档案库的特征工程,以档案数据为例,特征工程在读取档案数据时,以求取模型的形式将标识尾数相同的档案数据读取在同一台终端设备,例如:有两个重复的档案数据的标识604715476525912098、604715476525912098,现需要将这两个标识对应的档案数据读取在10个分片上,则求取这两个标识的尾数均为8,尾数相同,便将这两个标识对应的档案数据读取到同一个分片上,后期在去重时调用分布式计算引擎的distinct算子就不会使用到网络,对于待归档数据同样是如此读取。

S22,根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区。

本申请具体实施例中,在读取到待归档数据和档案数据后,对二者的数据量进行判断,若待归档数据的数据量大于档案数据的数据量,则对待归档数据进行分区,将其分配给不同的终端设备,例如:将待归档数据1分配到终端设备1,将待归档数据2、待归档数据4分配到终端设备2等等,同时对档案数据进行广播;若档案数据的数据量大于待归档数据的数据量,则对档案数据进行分区,将档案数据分配到不同的终端设备,同时对待归档数据进行广播。

S23,动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息。

本申请具体实施例中,目标IP(Internet Protocol,网际互联协议)地址即本次需要进行归档处理的终端设备的IP地址,GPU卡信息可以理解为GPU的标识信息,目标GPU卡即与目标IP相关联的GPU卡。由于系统会对配置文件中的IP地址和GPU卡信息组成的分布式计算引擎元组元素进行广播,而IP地址和GPU卡信息组成的分布式计算引擎元组元素表示出了IP地址和GPU卡信息的关联关系,例如:IP1与GPU-1、GPU-2相关联、IP2与GPU-A、GPU-B相关联,因此,获取到目标IP,就能根据从广播变量中获取到的分布式计算引擎元组元素去定出本分区归档需要调用的GPU卡信息。另外,在对分布式计算引擎元组元素和待归档数据(或档案数据)进行广播时,考虑到数据量过大会导致内存溢出的问题,需要对广播的变量进行调优,调节它使用堆外内存或最大变量内存。

S24,将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。

本申请具体实施例中,目标分区即目标IP地址所属的终端设备,在获取到目标GPU卡信息后,若分区的是待归档数据,则分批次将待归档数据添加至异构平台,若分区的是档案数据,则分批次将档案数据添加至异构平台,为使目标GPU卡归档性能达到最佳,每一批次可添加80万。再向异构平台添加数据的同时,将目标GPU卡信息发送给异构平台,异构平台根据目标GPU卡信息调用目标GPU卡在目标分区中进行归档。具体的,现有待归档数据1-5、档案数据1-5,因为在步骤S21读取待归档数据和档案数据后会去重,因此,此处的待归档数据1-5、档案数据1-5均为不同对象的人脸图像,若目标分区中存在待归档数据1、待归档数据2,则说明广播的是档案数据,则调用目标GPU卡获取待归档数据1、待归档数2分别与档案数据1-5的相似度,若档案数据1-5中与待归档数据1相似度最大的是档案数据3,则将待归档数据1归档至档案数据3所在的档案;可以理解的,若第一个目标分区中存在档案数据1、档案数据2,第二个目标分区中存在档案数据3、档案数据4、档案数据5,则说明广播的是待归档数据,调用第一个目标分区的目标GPU卡获取待归档数据1-5在第一个目标分区中与档案数据1、档案数据2的相似度,调用第二个目标分区的目标GPU卡获取待归档数据1-5在第二个目标分区中与档案数据3、档案数据4、档案数据5的相似度,从档案数据1-5中分别确定出与待归档数据1、待归档数据2、待归档数据3、待归档数据4、待归档数据5相似度最大的档案数据,将待归档数据归档至相似度最大的档案数据所在的档案。

可以看出,与现有技术相比,通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。这样在读取到抓拍的待归档数据和档案库中的档案数据后,对二者中数据量较大者进行分区,然后通过目标IP地址动态调用目标GPU卡在与目标IP地址对应的目标分区中对待归档数据进行归档,充分利用了系统中的GPU资源,从而有利于提高人像归档的速度。

请参加图3,图3为本申请实施例提供的另一种数据归档的方法的流程示意图,如图3所示,包括步骤:

S31,通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;

S32,若所述待归档数据的数据量大于所述档案数据的数据量,则采用K均值聚类算法将所述待归档数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区;

S33,若所述档案数据的数据量大于所述待归档数据的数据量,则采用K均值聚类算法将所述档案数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区;

S34,动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;

S35,将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。

本申请具体实施例中,第一预设算子即coalesce算子,在待归档数据的数据量大于档案数据的数据量时,采用K均值聚类算法根据待归档数据的特征值相似度将待归档数据聚类成n个簇,然后调用分布式计算引擎的coalesce算子对n个簇进行分区;同理,在档案数据的数据量大于待归档数据的数据量时,采用K均值聚类算法根据档案数据的特征值相似度将档案数据聚类成n个簇,然后调用分布式计算引擎的coalesce算子对n个簇进行分区,分区的过程应避免相同的人脸图像被聚类到两个不同的簇中而产生宽依赖。

其中,图3所示的实施例中的部分步骤请参见图2所示的实施例中的相关描述,为避免重复,此处不再赘述。

在一种可能的实施例中,所述方法还包括:

在对所述待归档数据进行分区的情况下,对所述档案数据进行广播;

在对所述档案数据进行分区的情况下,对所述待归档数据进行广播。

该实施方式中,针对档案数据和待归档数据,对数据量较大者进行分区,对数据量较小者进行广播,避免了广播较大数据量对网络的消耗和占用,达到不影响系统性能的目的。

在一种可能的实施方式中,所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档,包括:

在对所述待归档数据进行分区的情况下,从广播变量中获取所述档案数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将所述待归档数据与广播变量中获取的所述档案数据进行匹配以归档;

在对所述档案数据进行分区的情况下,从广播变量中获取所述待归档数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将广播变量中获取的所述待归档数据与所述档案数据进行匹配以归档。

本申请具体实施例中,若分区的是待归档数据,则从广播变量中获取档案数据,上述调用目标GPU卡,在目标分区中将待归档数据与广播变量中获取的档案数据进行匹配,即调用目标GPU卡,在目标分区中获取待归档数据与广播变量中获取的档案数据的相似度,将待归档数据归档至相似度最大的档案数据所在的档案。若分区的是档案数据,则从广播变量中获取待归档数据,上述调用所述目标GPU卡,在目标分区中将广播变量中获取的待归档数据与档案数据进行匹配,即调用目标GPU卡,在目标分区中获取广播的待归档数据与档案数据的相似度,将每个待归档数据与所有档案数据中的最大相似度档案数据所在的档案确定为该待归档数据应被归属的档案。

该实施方式中,通过异构平台调用目标GPU卡进行归档操作,有利于实现终端设备CPU和GPU之间的协同计算,充分利用CPU和GPU资源,加速归档。

在一种可能的实施方式中,所述根据所述目标IP地址获取目标GPU卡信息,包括:

从广播变量中获取分布式计算引擎元组元素,所述元组元素包括配置文件中所有IP地址和GPU卡信息的关联关系;

通过所述目标IP地址、所有IP地址和GPU卡信息的关联关系得到所述目标GPU卡信息。

该实施方式中,根据目标IP地址、广播中获取的所有IP地址和GPU卡信息的关联关系确定出目标GPU卡,充分体现出动态获取、动态调用的灵活性。

在一种可能的实施方式中,在通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档之后,所述方法还包括:

返回已归档的档案标识、已归档的所述待归档数据与该已归档的所述待归档数据所属档案的相似度及已归档的档案中数据的特征值标识,并将所述档案标识、所述相似度及所述特征值标识组成元组,将所述特征值标识确定为键值;

所述方法还包括:

按照所述键值的哈希码对所有分区中的数据进行聚合;

调用分布式计算引擎的第二预设算子上传自定义分区函数,所述自定义分区函数用于对分区中的数据进行均衡。

本申请具体实施例中,第二预设算子即GroupByKey算子,在目标分区中对待归档数据归档后,系统将返回归档后的档案标识ID(Identity document)、归档后的待归档数据与其所属档案的相似度、归档后的档案中的所有人脸图像的特征值ID,将特征值ID设为key(键)值,不论前面是对待归档数据进行分区,或者是对档案数据进行分区,都可按照键值的哈希码对所有分区中的数据进行聚合,然后调用分布式计算引擎的GroupByKey算子传一个自定义分区函数,该自定义分区函数规定了分区的数量,例如:80个分区,若先前的分区数较少,而部分分区中的数据量较大,则可将数据量较大的分区中的部分数据划分至其他分区或单独的分区以实现分区均衡。

该实施方式中,通过键值对之前分区的数据再次进行聚合,再通过分布式计算引擎的GroupByKey算子上传自定义分区函数以进行分区均衡,一定程度上避免了将分区中的数据插入档案库时资源占用不均衡的情况。

在一种可能的实施方式中,所述方法还包括:

检测所述待归档数据是否均归档成功;

将归档成功的所述待归档数据存储在归档表中;

将未归档成功的所述待归档数据中,与已归档的档案的相似度大于或等于相似度阈值的所述待归档数据存储在遗留表中;

将未归档成功的所述待归档数据中,与已归档的档案的相似度小于相似度阈值的所述待归档数据存储在聚档表中。

本申请具体实施例中,采用策越模型将归档成功和未归档成功的待归档数据分类插入档案库相关表中,具体的,如图4所示,将归档成功的待归档数据插入档案库归档表中进行存储;针对未归档成功的待归档数据,判断其与归档后得到的档案之间的相似度是否大于或等于相似度阈值,将大于或等于相似度阈值的待归档数据过滤掉,插入聚档表进行存储,便于后期走聚档流程,将小于相似度阈值的待归档数据插入遗留表中进行存储,并可设置在遗留表中保留的时间周期。该实施方式中,对抓拍的待归档数据按不同类型插入相关表中,有利于数据的后期利用,同时,将未归档成功的待归档数据中与已归档的档案相似度较大的待归档数据过滤掉,减少了此类数据对已归档的档案的干扰。

在一种可能的实施方式中,在所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档之前,所述方法还包括:

检测所述目标GPU卡是否打开;

若是则执行所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档的操作;

若否则通过所述异构平台调用所述目标IP地址所属设备的CPU在目标分区中对所述待归档数据进行归档。

本申请具体实施例中,在目标GPU卡开关未打开的情况下,通过异构平台调用目标IP地址所属设备的CPU进行归档,实现了CPU与GPU协同计算,归档速度明显提升。

请参见图5,图5为本申请实施例提供的一种数据归档的装置的结构示意图,如图5所示,该装置包括:

数据读取模块51,用于通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;

数据分区模块52,用于根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;

GPU获取模块53,用于动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;

归档执行模块54,用于将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。

可以看出,本申请提供的数据归档的装置通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。这样在读取到抓拍的待归档数据和档案库中的档案数据后,对二者中数据量较大者进行分区,然后通过目标IP地址动态调用目标GPU卡在与目标IP地址对应的目标分区中对待归档数据进行归档,充分利用了系统中的GPU资源,从而有利于提高人像归档的速度。

在一种示例中,在根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区方面,所述数据分区模块52具体用于:

若所述待归档数据的数据量大于所述档案数据的数据量,则采用K均值聚类算法将所述待归档数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区;

若所述档案数据的数据量大于所述待归档数据的数据量,则采用K均值聚类算法将所述档案数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区。

在一种示例中,如图6所示,所述装置还包括广播模块55,所述广播模块55具体用于:

在对所述待归档数据进行分区的情况下,对所述档案数据进行广播;

在对所述档案数据进行分区的情况下,对所述待归档数据进行广播。

在一种示例中,在通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档方面,所述归档执行模块54具体用于:

在对所述待归档数据进行分区的情况下,从广播变量中获取所述档案数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将所述待归档数据与广播变量中获取的所述档案数据进行匹配以归档;

在对所述档案数据进行分区的情况下,从广播变量中获取所述待归档数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将广播变量中获取的所述待归档数据与所述档案数据进行匹配以归档。

在一种示例中,在根据所述目标IP地址获取目标GPU卡信息方面,所述GPU获取模块53具体用于:

从广播变量中获取分布式计算引擎元组元素,所述元组元素包括配置文件中所有IP地址和GPU卡信息的关联关系;

通过所述目标IP地址、所有IP地址和GPU卡信息的关联关系得到所述目标GPU卡信息。

在一种示例中,如图7所示,所述装置还包括结果返回模块56、分区均衡模块57,所述结果返回模块56具体用于:

返回已归档的档案标识、已归档的所述待归档数据与该已归档的所述待归档数据所属档案的相似度及已归档的档案中数据的特征值标识,并将所述档案标识、所述相似度及所述特征值标识组成元组,将所述特征值标识确定为键值;

所述分区均衡模块57具体用于:

按照所述键值的哈希码对所有分区中的数据进行聚合;

调用分布式计算引擎的第二预设算子上传自定义分区函数,所述自定义分区函数用于对分区中的数据进行均衡。

在一种示例中,如图8所示,所述装置还包括数据插入模块58,所述数据插入模块58具体用于:

检测所述待归档数据是否均归档成功;

将归档成功的所述待归档数据存储在归档表中;

将未归档成功的所述待归档数据中,与已归档的档案的相似度大于或等于相似度阈值的所述待归档数据存储在遗留表中;

将未归档成功的所述待归档数据中,与已归档的档案的相似度小于相似度阈值的所述待归档数据存储在聚档表中。

在一种示例中,所述归档执行模块54具体还用于:

检测所述目标GPU卡是否打开;

若是则执行所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档的操作;

若否则通过所述异构平台调用所述目标IP地址所属设备的CPU在目标分区中对所述待归档数据进行归档。

需要说明的是,图2和图3所示的数据归档的方法中的各个步骤均可以是由本申请实施例提供的数据归档的装置中的各个单元模块来执行,且能达到相同或相似的有益效果,例如:步骤S21和步骤S31可用数据归档的装置中的数据读取模块51实现,再例如:步骤S22可用数据归档的装置中的的数据分区模块52实现等等。需要说明的是,本申请实施例提供的数据归档的装置能够应用在各种人脸图像的归档场景中,具体的,上述数据归档的装置可应用于服务器、计算机等能够进行人脸图像处理的设备中。

请参见图9,图9为本申请实施例提供的一种电子设备的结构示意图,如图9所示,包括:存储器901,用于存储一个或多个计算机程序;处理器902,用于调用存储器901存储的计算机程序执行上述数据归档的方法实施例中的步骤;通信接口903,用于进行输入输出,该通信接口903可以为一个或多个;可以理解的,电子设备中各部分分别通过总线连接通信。其中,处理器902具体用于调用计算机程序执行如下步骤:

通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;

根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;

动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;

将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。

在一种可能的实施方式中,处理器902执行所述根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区,包括:

若所述待归档数据的数据量大于所述档案数据的数据量,则采用K均值聚类算法将所述待归档数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区;

若所述档案数据的数据量大于所述待归档数据的数据量,则采用K均值聚类算法将所述档案数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区。

在一种可能的实施方式中,处理器902还用于在对所述待归档数据进行分区的情况下,对所述档案数据进行广播;在对所述档案数据进行分区的情况下,对所述待归档数据进行广播。

在一种可能的实施方式中,处理器902执行所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档,包括:

在对所述待归档数据进行分区的情况下,从广播变量中获取所述档案数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将所述待归档数据与广播变量中获取的所述档案数据进行匹配以归档;

在对所述档案数据进行分区的情况下,从广播变量中获取所述待归档数据;

通过所述异构平台调用所述目标GPU卡,在目标分区中将广播变量中获取的所述待归档数据与所述档案数据进行匹配以归档。

在一种可能的实施方式中,处理器902执行所述根据所述目标IP地址获取目标GPU卡信息,包括:

从广播变量中获取分布式计算引擎元组元素,所述元组元素包括配置文件中所有IP地址和GPU卡信息的关联关系;

通过所述目标IP地址、所有IP地址和GPU卡信息的关联关系得到所述目标GPU卡信息。

在一种可能的实施方式中,在通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档之后,处理器902还用于:

返回已归档的档案标识、已归档的所述待归档数据与该已归档的所述待归档数据所属档案的相似度及已归档的档案中数据的特征值标识,并将所述档案标识、所述相似度及所述特征值标识组成元组,将所述特征值标识确定为键值;

处理器902还用于:按照所述键值的哈希码对所有分区中的数据进行聚合;调用分布式计算引擎的第二预设算子上传自定义分区函数,所述自定义分区函数用于对分区中的数据进行均衡。

在一种可能的实施方式中,处理器902还用于:检测所述待归档数据是否均归档成功;将归档成功的所述待归档数据存储在归档表中;将未归档成功的所述待归档数据中,与已归档的档案的相似度大于或等于相似度阈值的所述待归档数据存储在遗留表中;将未归档成功的所述待归档数据中,与已归档的档案的相似度小于相似度阈值的所述待归档数据存储在聚档表中。

在一种可能的实施方式中,处理器902还用于:检测所述目标GPU卡是否打开;若是则执行所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档的操作;若否则通过所述异构平台调用所述目标IP地址所属设备的CPU在目标分区中对所述待归档数据进行归档。

示例性的,上述电子设备可以是计算机、笔记本电脑、平板电脑、掌上电脑、服务器、云端服务器等设备。电子设备可包括但不仅限于存储器901、处理器902、通信接口903。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。

需要说明的是,由于电子设备的处理器902执行计算机程序时实现上述的数据归档的方法中的步骤,因此上述数据归档的方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的数据归档的方法中的步骤。

具体的,计算机程序被处理器执行时实现如下步骤:

通过分布式计算引擎调用预设特征工程以读取抓拍的待归档数据和档案库中的档案数据;

根据所述待归档数据和所述档案数据的数据量确定出所述待归档数据和所述档案数据中的一者进行分区;

动态获取目标IP地址,并根据所述目标IP地址获取目标GPU卡信息;

将所述目标GPU卡信息发送给异构平台,通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档。

可选的,计算机程序被处理器执行时还实现如下步骤:若所述待归档数据的数据量大于所述档案数据的数据量,则采用K均值聚类算法将所述待归档数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区;若所述档案数据的数据量大于所述待归档数据的数据量,则采用K均值聚类算法将所述档案数据聚类成n个簇,并调用分布式计算引擎的第一预设算子对该n个簇进行分区。

可选的,计算机程序被处理器执行时还实现如下步骤:在对所述待归档数据进行分区的情况下,对所述档案数据进行广播;在对所述档案数据进行分区的情况下,对所述待归档数据进行广播。

可选的,计算机程序被处理器执行时还实现如下步骤:在对所述待归档数据进行分区的情况下,从广播变量中获取所述档案数据;通过所述异构平台调用所述目标GPU卡,在目标分区中将所述待归档数据与广播变量中获取的所述档案数据进行匹配以归档;在对所述档案数据进行分区的情况下,从广播变量中获取所述待归档数据;通过所述异构平台调用所述目标GPU卡,在目标分区中将广播变量中获取的所述待归档数据与所述档案数据进行匹配以归档。

可选的,计算机程序被处理器执行时还实现如下步骤:从广播变量中获取分布式计算引擎元组元素,所述元组元素包括配置文件中所有IP地址和GPU卡信息的关联关系;通过所述目标IP地址、所有IP地址和GPU卡信息的关联关系得到所述目标GPU卡信息。

可选的,计算机程序被处理器执行时还实现如下步骤:返回已归档的档案标识、已归档的所述待归档数据与该已归档的所述待归档数据所属档案的相似度及已归档的档案中数据的特征值标识,并将所述档案标识、所述相似度及所述特征值标识组成元组,将所述特征值标识确定为键值;按照所述键值的哈希码对所有分区中的数据进行聚合;调用分布式计算引擎的第二预设算子上传自定义分区函数,所述自定义分区函数用于对分区中的数据进行均衡。

可选的,计算机程序被处理器执行时还实现如下步骤:检测所述待归档数据是否均归档成功;将归档成功的所述待归档数据存储在归档表中;将未归档成功的所述待归档数据中,与已归档的档案的相似度大于或等于相似度阈值的所述待归档数据存储在遗留表中;将未归档成功的所述待归档数据中,与已归档的档案的相似度小于相似度阈值的所述待归档数据存储在聚档表中。

可选的,计算机程序被处理器执行时还实现如下步骤:检测所述目标GPU卡是否打开;若是则执行所述通过所述异构平台调用所述目标GPU卡在目标分区中对所述待归档数据进行归档的操作;若否则通过所述异构平台调用所述目标IP地址所属设备的CPU在目标分区中对所述待归档数据进行归档。

示例性的,计算机可读存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是,由于计算机可读存储介质的计算机程序被处理器执行时实现上述的数据归档的方法中的步骤,因此上述数据归档的方法的所有实施例均适用于该计算机可读存储介质,且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 一种区块链数据归档方法、装置、电子设备及可读存储介质
  • 数据归档方法、装置、电子设备及存储介质
技术分类

06120113083991