掌桥专利:专业的专利平台
掌桥专利
首页

一种数据匹配方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:13:22


一种数据匹配方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域,特别是涉及一种数据匹配方法、装置、电子设备及存储介质。

背景技术

在数据处理领域中,通常需要将待匹配数据与库数据中的各个数据进行匹配。例如,在人脸识别场景中,需要将采集到的人脸数据与人脸数据数据库中各个已注册的人脸数据进行匹配。为了提高数据匹配效率,可以利用分布式数据匹配系统对待匹配数据进行分布式匹配。

相关技术中,分布式数据匹配系统可以包括多个物理机,各个物理机上可以开启固定数量个计算节点,每一节点又可以创建指定数量个线程,然后可以向各个计算节点均匀分配上述库数据,每一计算节点利用所创建的线程对待匹配数据与所分配的库数据进行匹配,最后再将各个计算节点的匹配结果进行汇总,得到最终的匹配结果。

应用上述方案虽然可以实现对待匹配数据进行分布式匹配,但是各个物理机所开启的计算节点数量和线程数量是固定的,而不同物理机的计算能力并不相同,这样可能会导致物理机超载或欠载,不能有效地利用物理机的计算资源,从而降低数据匹配效率。

发明内容

本申请实施例的目的在于提供一种数据处理方法、装置、电子设备及存储介质,以提高数据匹配效率。具体技术方案如下:

第一方面,本申请实施例提供了一种数据匹配方法,所述方法包括:

获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,所述输入资源包括待分配的库数据的数据总量,所述第一数量为:待开启的计算节点的数量,所述第二数量为:各计算节点中待创建的线程的数量;

开启所述第一数量个计算节点,并为每一计算节点创建所述第二数量个线程;

为所开启的各个计算节点分配所述库数据;

在接收到数据匹配请求的情况下,基于所述数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述为所开启的各个计算节点分配所述库数据,包括:

为所开启的各个计算节点分配组数据,其中,各个组数据中包含所述库数据中不同部分的数据,所有组数据中包含所述库数据中的全部数据;

所述基于所述数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果,包括:

为每一组数据创建对应的子任务,其中,每一组数据对应的子任务为:对待匹配数据与该组数据中各个数据进行匹配的任务;

基于所述数据匹配请求,利用各个计算节点中的线程,执行各个计算节点所分配的组数据对应的子任务,得到待匹配数据与每一计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述为所开启的各个计算节点分配组数据,包括:

以轮循预设的标签组中各个标签的方式,为所述库数据中的各个数据设置标签;

将所述库数据中标签相同的数据划分为同一组数据,为所开启的各个计算节点分配所划分的组数据。

本申请的一个实施例中,在所述数据匹配请求中携带指定线程数量的情况下,所述在接收到数据匹配请求的情况下,基于所述数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果,包括:

在接收到数据匹配请求的情况下,若所述数据匹配请求中携带的指定线程数量小于等于所创建的线程的总数量,从所开启的各计算节点内创建的线程中,选择所述指定线程数量个线程;

利用各计算节点中所选择的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述计算资源包括:所述电子设备的处理器核心数量;

在为每一计算节点创建所述第二数量个线程步骤之后,所述方法还包括:

根据所述电子设备的处理器核心数量、以及所创建的线程的总数量,为各个线程绑定所占用的核心。

本申请的一个实施例中,所述输入资源还包括:预设的待创建的线程的总数。

第二方面,本申请实施例提供了一种数据匹配装置,所述装置包括:

数量获得模块,用于获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,所述输入资源包括待分配的库数据的数据总量,所述第一数量为:待开启的计算节点的数量,所述第二数量为:各计算节点中待创建的线程的数量;

资源开启模块,用于开启所述第一数量个计算节点,并为每一计算节点创建所述第二数量个线程;

数据分配模块,用于为所开启的各个计算节点分配所述库数据;

数据匹配模块,用于在接收到数据匹配请求的情况下,基于所述数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述数据分配模块,具体用于:

为所开启的各个计算节点分配组数据,其中,各个组数据中包含所述库数据中不同部分的数据,所有组数据中包含所述库数据中的全部数据;

所述数据匹配模块,具体用于:

在接收到数据匹配请求的情况下,为每一组数据创建对应的子任务,其中,每一组数据对应的子任务为:对待匹配数据与该组数据中各个数据进行匹配的任务;

基于所述数据匹配请求,利用各个计算节点中的线程,执行各个计算节点所分配的组数据对应的子任务,得到待匹配数据与每一计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述数据分配模块,具体用于:

以轮循预设的标签组中各个标签的方式,为所述库数据中的各个数据设置标签;

将所述库数据中标签相同的数据划分为同一组数据,为所开启的各个计算节点分配所划分的组数据。

本申请的一个实施例中,在所述数据匹配请求中携带指定线程数量的情况下,所述数据匹配模块,具体用于:

在接收到数据匹配请求的情况下,若所述数据匹配请求中携带的指定线程数量小于等于所创建的线程的总数量,从所开启的各计算节点内创建的线程中,选择所述指定线程数量个线程;

利用各计算节点中所选择的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述计算资源包括:所述电子设备的处理器核心数量;

所述装置还包括核心绑定模块,用于:

在为每一计算节点创建所述第二数量个线程之后,根据所述电子设备的处理器核心数量、以及所创建的线程的总数量,为各个线程绑定所占用的核心。

本申请的一个实施例中,所述输入资源还包括:预设的待创建的线程的总数。

第三方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据匹配方法。

本申请实施例有益效果:

本申请实施例提供的数据匹配方案,首先获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,输入资源包括待分配的库数据的数据总量,第一数量为:待开启的计算节点的数量,第二数量为:各计算节点中待创建的线程的数量;开启第一数量个计算节点,并为每一计算节点创建第二数量个线程;为所开启的各个计算节点分配库数据;在接收到数据匹配请求的情况下,基于数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。这样电子设备所开启的计算节点的数量、以及每一计算节点中创建的线程的数量,均是根据输入资源和电子设备的计算资源确定的,也就是,在确定计算节点的第一数量和每一计算节点中线程的第二数量时,参考了输入资源和电子设备的计算资源,从而在利用各个计算节点中的线程对待匹配数据进行匹配时,能够充分利用电子设备的计算能力。由此可见,应用本申请实施例提供的方案,可以提高数据匹配效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的一种数据匹配方法的流程示意图;

图2为本申请实施例提供的另一种数据匹配方法的流程示意图;

图3为本申请实施例提供的一种数据加载方法的流程示意图;

图4为本申请实施例提供的又一种数据匹配方法的流程示意图;

图5为本申请实施例提供的一种数据匹配装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。

为了提高数据匹配效率,本申请实施例提供了一种数据匹配方法、装置、电子设备及存储介质,下面分别进行详细介绍。

参见图1,图1为本申请实施例提供的一种数据匹配方法的流程示意图,该方法可以应用于分布式数据匹配系统中的物理机,上述物理机可以是电子计算机、服务器、平板电脑、手机等电子设备,上述数据匹配方法包括如下步骤S101-S104:

S101,获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量。

其中,第一数量为:待开启的计算节点的数量,第二数量为:各计算节点中待创建的线程的数量。

上述输入资源包括待分配的库数据的数据总量,该库数据中包括:待向各个计算节点分配的数据。

例如,在人脸匹配的应用场景中,上述库数据中可以包括各个用于进行匹配的、已注册的人脸数据。每一人脸数据可以包括人脸的特征信息和身份信息,上述特征信息可以是对人脸图像进行建模时得到的人脸特征模型信息,包括但不限于嘴角、鼻子、眼睛、眉毛、额头、头发等特征模型信息。

其他场景中,上述库数据中所包括的数据还可以是用于进行匹配的车辆数据、运动轨迹数据、指纹数据等。

除此之外,上述输入资源还可以包括待分配的库数据中每条数据需占用的内存的内存大小、用于对上述库数据进行处理的算法的规模等。

上述计算资源用于反映电子设备的计算能力,计算资源可以包括:电子设备的内存大小、中央处理器的核心数量、存储空间大小、中央处理器的类型等。

具体的,可以根据上述输入资源和计算资源,计算电子设备中待开启的计算节点的最优数量、以及每一计算节点中待创建的线程的最优数量,以使得所开启的计算节点在利用线程执行任务时,能够充分利用电子设备的计算能力,并且不会导致电子设备超载。

本申请的一个实施例中,可以由电子设备自身获得输入资源和计算资源,然后根据上述输入资源和计算资源计算自身待开启的计算节点的第一数量、以及每一计算节点中待创建的线程的第二数量;

除此之外,也可以由控制设备获得该电子设备的输入资源和计算资源,并根据上述资源计算电子设备所要开启的计算节点的第一数量、以及每一计算节点所要创建的线程的第二数量,然后将计算得到的第一数量、第二数量发送至该电子设备,电子设备从而获得待开启的计算节点的第一数量、每一计算节点待创建的线程的第二数量。其中,上述控制设备可以是分布式数据匹配系统中除该电子设备之外的其他设备,例如,可以是用于对上述系统中各个物理机进行控制的总控设备等。

本申请的一个实施例中,可以在上述数据匹配系统启动时,获得上述第一数量和第二数量,从而便于后续开启第一数量个计算节点、并为每一计算节点创建第二数量个线程;

除此之外,也可以是在接收到部署指令时,获得第一数量和第二数量,其中,上述部署指令可以是数据匹配请求。这样可以在需要进行数据匹配的情况下,才获得第一数量和第二数量,并基于上述数量创建计算节点及线程。

S102,开启第一数量个计算节点,并为每一计算节点创建第二数量个线程。

具体的,电子设备在上述S101中获得待开启的计算节点的第一数量、以及每一计算节点待创建的线程的第二数量之后,可以开启上述第一数量个计算节点,并为各个计算节点创建第二数量个线程。

例如,假设上述第一数量为5,第二数量为10,则电子设备可以开启5个计算节点,并为每一计算节点创建10个线程,从而共创建50个线程。

S103,为所开启的各个计算节点分配库数据。

具体的,电子设备在开启第一数量个计算节点后,可以向上述第一数量个计算节点分配库数据。

本申请的一个实施例中,可以向各个计算节点均匀地分配上述库数据。例如,假设库数据中共包括1000条数据,第一数量为10,则可以将1000条数据均匀地分配给10个计算节点,每一计算节点分配有100条数据。

S104,在接收到数据匹配请求的情况下,基于数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

具体的,数据匹配请求中可以携带期望进行匹配的待匹配数据,在接收到数据匹配请求的情况下,可以将数据匹配请求同步给各个计算节点,针对每一计算节点,可以利用该计算节点中的线程,对待匹配数据与该计算节点所分配的库数据进行匹配,得到匹配结果。

本申请的一个实施例中,在得到各个计算节点的匹配结果之后,可以对各个匹配结果进行汇总,得到汇总结果。

具体的,在得到各个计算节点的匹配结果之后,可以将各个计算节点对应的匹配结果进行汇总,从而得到反映待匹配数据与所有库数据之间匹配结果的汇总结果。

例如,假设库数据中包含10000条人脸数据,所开启的计算节点的第一数量为4,包括计算节点A、B、C、D,其中每一计算节点中创建的线程的第二数量为5,为每一计算节点分配有2500条人脸数据,在接收到数据匹配请求的情况下,将上述请求同步至各个计算节点,针对每一计算节点,可以利用所创建的5个线程,对待匹配的人脸数据与自身所分配的2500条人脸数据进行匹配,最后再将4个计算节点的匹配结果进行汇总,从而得到待匹配的人脸数据与10000条人脸数据的匹配结果。

上述实施例提供的数据匹配方案,首先获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,输入资源包括待分配的库数据的数据总量,第一数量为:待开启的计算节点的数量,第二数量为:各计算节点中待创建的线程的数量;开启第一数量个计算节点,并为每一计算节点创建第二数量个线程;为所开启的各个计算节点分配库数据;在接收到数据匹配请求的情况下,基于数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。这样电子设备所开启的计算节点的数量、以及每一计算节点中创建的线程的数量,均是根据输入资源和电子设备的计算资源确定的,也就是,在确定计算节点的第一数量和每一计算节点中线程的第二数量时,参考了输入资源和电子设备的计算资源,从而在利用各个计算节点中的线程对待匹配数据进行匹配时,能够充分利用电子设备的计算能力。由此可见,应用上述实施例提供的方案,可以提高数据匹配效率。

本申请的一个实施例中,对于上述S101在确定第一数量和第二数量时,可以将输入资源和计算资源输入预先训练完成的部署模型,该部署模型可以根据输入的输入资源和计算资源,预测电子设备所要开启的计算节点的最优数量、以及每一计算节点所要创建的线程的最优数量,从而输出第一数量与第二数量。

在上述方案的基础上,本申请的一个实施例中,在S104利用各计算节点中的线程获得匹配结果时,还可以:获得第一数量、第二数量的评估参数,利用该评估参数对上述部署模型进行参数调整,实现对部署模型的优化。

其中,上述评估参数用于表征:基于第一数量个计算节点、以及每一计算节点中第二数量个线程对库数据和待匹配数据进行匹配时的数据匹配效率。

具体的,在获得上述部署模型输出的第一数量和第二数量后,可以按照上述第一数量和第二数量开启对应的计算节点以及线程,利用所开启的计算节点以及线程进行数据匹配,在进行数据匹配过程中还可以确定数据匹配效率,得到评估参数,然后基于该评估参数对部署模型进行参数调整,实现对模型的优化。

本申请的又一实施例中,可以预先建立输入资源、计算资源与计算节点数量、每一计算节点中线程数量之间的对应关系,这样在确定第一数量、第二数量时,可以获得输入资源和电子设备的计算资源,然后从上述对应关系中查找上述输入资源、计算资源对应的计算节点数量,作为第一数量,并查找对应的线程数量,作为第二数量。其中,上述对应关系可以是人工基于实验预先设定的。

另外,还可以对输入资源进行评估,得到第一评估值,并对计算资源进行评估,得到第二评估值,然后将上述第一评估值、第二评估值代入预设的部署公式,计算得到第一数量和第二数量。

本申请的一个实施例中,对于上述步骤S103在分配库数据时,可以通过以下步骤实现:

为所开启的各个计算节点分配组数据。

其中,各个组数据中包含库数据中不同部分的数据,所有组数据中包含库数据中的全部数据。上述组数据可以理解为:对库数据进行分组得到的各个数据集合。

具体的,可以对库数据中的各个数据进行分组,得到多个组数据,然后向上述组数据均匀分配至各个计算节点。

例如,假设库数据中包含200000条数据,可以将上述库数据平均分为100个组数据,每一组数据中包含2000条数据,共有5个计算节点,则可以将上述100个组数据平均分至5个计算节点,每一计算节点分配有20个组数据。

这样在接收到数据匹配请求后,可以为每一组数据创建对应的子任务;

基于数据匹配请求,利用各个计算节点中的线程,执行各个计算节点所分配的组数据对应的子任务,得到待匹配数据与每一计算节点所分配的库数据之间的匹配结果。

其中,每一组数据对应的子任务为:对待匹配数据与该组数据中各个数据进行匹配的任务。

具体的,在接收到数据匹配请求后,可以将上述请求同步至各个计算节点,针对每一计算节点,可以根据所分配的组数据,创建对应的子任务,即利用每一计算节点为所分配的组数据创建对应的子任务,然后利用该计算节点中的线程执行上述子任务,从而实现将待匹配数据与每一子任务对应的组数据中的各个数据进行匹配,得到匹配结果。这样可以将所分配的库数据划分为多个组数据,然后每一计算节点可以利用多个线程同步对待匹配数据与上述多个组数据进行匹配,提高数据匹配效率。

例如,假设一计算节点中分配有10个组数据,每一组数据中包含500条数据,则该计算节点在接收到数据匹配请求后,可以创建10个子任务,各个子任务用于对待匹配数据与不同的组数据中的500条数据进行匹配,然后由该计算节点中的线程执行上述子任务,从而得到匹配结果。

本申请的一个实施例中,针对每一计算节点,在由该计算节点中的线程执行所创建的子任务时,可以将该计算节点所创建的子任务,平均分配至该计算节点中的各个线程。例如,假设该计算节点创建了20个子任务,该计算节点中有4个线程,则可以为每一线程分配5个子任务。

除此之外,也可以是,针对每一计算节点,在该计算节点中存在未执行的子任务、且当前存在处于空闲状态的线程时,则为该空闲的线程分配一未执行的子任务。

本申请的一个实施例中,在得到组数据时,可以按照预设组数对库数据进行分组,将库数据平均分为预设组数个组数据,该预设组数可以是50、100、200等;

除此之外,也可以按照预设数据量对库数据进行分组,所得到的每一组数据中包含预设数据量个数据,该预设数据量可以是500、1000、2000等。

参见图2,图2为本申请实施例提供的另一种数据匹配方法的流程示意图,该方法包括如下步骤S201-S202:

S201,接收数据匹配请求,将所接收的数据匹配请求同步至各个计算节点。

具体的,在接收到数据匹配请求后,可以将上述请求同步至所开启的各个计算节点,以使得每一计算节点均可获得待匹配数据。

S202,利用每一计算节点为该计算节点所分配的组数据创建对应的子任务,利用各计算节点中的线程执行各计算节点创建的子任务,得到各个匹配结果。

具体的,针对每一计算节点,可以由该计算节点根据所分配的组数据创建对应的子任务,然后再由该计算节点中的线程执行上述各个子任务,从而实现将待匹配数据与各个组数据中的数据进行匹配,得到待匹配数据与分配至该计算节点的库数据的匹配结果。

本申请的一个实施例中,在得到各个计算节点的匹配结果后,可以对各个匹配结果进行汇总,得到汇总结果。

具体的,利用每一计算节点,可以得到待匹配数据与分配至该计算节点的库数据的匹配结果,然后对上述匹配结果进行汇总,可以得到待匹配数据与所有库数据的匹配结果。

本申请的一个实施例中,在为各个计算节点分配组数据时,可以:以轮循预设的标签组中各个标签的方式,为库数据中的各个数据设置标签;将库数据中标签相同的数据划分为同一组数据,为所开启的各个计算节点分配所划分的组数据。

其中,每一组数据可以理解为:标签相同的数据。标签组中可以包含预设数量个标签,上述标签可以是数字,如1、2、3……,也可以是字母,如A、B、C……,还可以是数字与字母的组合,如tag-1、tag-2、tag-3……等。每一数据的标签可以理解为该数据的mod_id。

具体的,可以轮循标签组中的各个标签,为各个库数据设置标签。例如,假设标签组中包含4个标签,分别为0、1、2、3,存在10个库数据,则上述10个库数据的标签分别为:

0、1、2、3、0、1、2、3、0、1

在分配组数据时,可以将标签相同的库数据作为同一组数据,然后将各个组数据分配至各个计算节点。

除此之外,也获得库数据中各个数据的哈希值;根据库数据中各个数据的哈希值,为所开启的各个计算节点分配组数据。

其中,每一组数据为:哈希值相同的数据。

具体的,可以计算库数据中各个数据的哈希值,然后将哈希值相同的数据作为同一组数据,从而得到多个组数据,再将上述多个组数据分配至各个计算节点。

例如,可以将每一数据的哈希值作为该数据的mod_id,从而将mod_id相同的数据作为同一组数据,再将各个组数据分配至各个计算节点,实现将mod_id相同的数据分配至同一计算节点。

本申请的一个实施例中,在计算得到每一数据的哈希值后,还可以为各个数据建立索引index,从而便于后续线程根据上述索引查找数据,进而对待匹配数据与查找到的数据进行匹配。

参见图3,图3为本申请实施例提供的一种数据加载方法的流程示意图,该方法包括如下步骤S301-S303:

S301,以轮循预设的标签组中各个标签的方式,为库数据中的各个数据设置标签,得到每一数据的mod_id。

S302,将mod_id相同的数据作为一个组数据,向各个计算节点均匀分配上述组数据。

S303,各个计算节点将所分配的组数据加载到内存中。

上述方案中按照mod_id对数据进行分组,并且由计算节点按照组数据对各个数据进行加载,从而实现对各个数据的分桶存放,这样便于后续利用线程同步对待匹配数据与上述组数据进行匹配。

本申请的一个实施例中,数据匹配请求中可以携带指定线程数量,上述指定线程数量为:对该请求进行响应时所使用的线程的总数量。

这样在接收到数据匹配请求的情况下,若数据匹配请求中携带的指定线程数量小于等于所创建的线程的总数量,从所开启的各计算节点内创建的线程中,选择指定线程数量个线程;

利用各计算节点中所选择的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

具体的,若数据匹配请求中携带的指定线程数量小于等于各个计算节点中所创建的线程的总数量,则说明现有的线程的数量能够满足上述指定线程数量的要求,因此可以从现有的线程中选择上述指定线程数量个线程,然后利用所选择的线程对待匹配数据与各个库数据进行匹配。

本申请的一个实施例中,在从所开启的各计算节点内创建的线程中选择指定线程数量个线程时,可以均匀地从各个计算节点中选择指定线程数量个线程。

例如,假设计算节点有10个,指定线程数量为30个,则可以从每一计算节点中选择3个线程。

这样可以根据数据匹配请求,动态地调整所使用的线程,实现针对不同的数据匹配请求动态地调用电子设备的资源。

本申请的一个实施例中,电子设备的计算资源可以包括:电子设备的处理器核心数量。电子设备的处理器可以是CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)等,处理器的核心数量可以是16、40、50等。

这样在S102为每一计算节点创建第二数量个线程之后,还可以根据电子设备的处理器核心数量、以及所创建的线程的总数量,为各个线程绑定所占用的核心。

具体的,在创建线程之后,还可以为每一线程绑定该线程占用的核心,从而保证所绑定的核心仅供该线程调用,避免该线程在调用核心执行任务过程中,上述核心受到其他线程干扰,提高数据匹配效率。

本申请的一个实施例中,在上述处理器的核心数量大于线程的总数量的情况下,可以为每一线程绑定一个或多个核心;

或者,在核心数量小于等于线程的总数量的情况下,可以由一个或多个线程共同绑定一个核心,本申请实施例并不对此进行限定。

本申请的一个实施例中,上述输入资源还包括:预设的待创建的线程的总数。

具体的,可以预先设定电子设备所创建的线程的总数量,这样在S101根据输入资源和电子设备的计算资源确定的待开启的计算节点的第一数量和各计算节点中待创建的线程的第二数量时,可以按照上述输入资源中的总数量,确定待开启的计算节点的第一数量、以及每一计算节点中待创建的线程的第二数量,以保证各个计算节点中创建的线程的总数量为上述输入资源中指定的线程的总数量。

这样可以由人工控制电子设备中所创建的线程的总数量,防止电子设备超载。

参见图4,图4为本申请实施例提供的又一种数据匹配方法的流程示意图,该方法包括如下步骤S401-S408:

S401,在数据匹配系统启动的情况下,获得基于输入资源和电子设备的计算资源所确定的、待开启的计算节点的第一数量和各计算节点中待创建的线程的第二数量。

S402,开启第一数量个计算节点,并为每一计算节点创建第二数量个线程。

S403,以轮循预设的标签组中各个标签的方式,为库数据中的各个数据设置标签,得到每一数据的mod_id。

S404,将mod_id相同的数据作为一个组数据,向各个计算节点均匀分配上述组数据。

S405,各个计算节点按照mod_id对所分配的组数据分桶加载到内存中。

S406,接收数据匹配请求,将所接收的数据匹配请求同步至各个计算节点。

S407,利用每一计算节点为该计算节点所分配的组数据创建对应的子任务,利用各计算节点中的线程执行各计算节点创建的子任务,得到各个匹配结果。

S408,对各个匹配结果进行汇总,得到汇总结果。

上述实施例提供的数据匹配方案,首先获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,输入资源包括待分配的库数据的数据总量,第一数量为:待开启的计算节点的数量,第二数量为:各计算节点中待创建的线程的数量;开启第一数量个计算节点,并为每一计算节点创建第二数量个线程;为所开启的各个计算节点分配库数据;在接收到数据匹配请求的情况下,基于数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。这样电子设备所开启的计算节点的数量、以及每一计算节点中创建的线程的数量,均是根据输入资源和电子设备的计算资源确定的,也就是,在确定计算节点的第一数量和每一计算节点中线程的第二数量时,参考了输入资源和电子设备的计算资源,从而在利用各个计算节点中的线程对待匹配数据进行匹配时,能够充分利用电子设备的计算能力。由此可见,应用上述实施例提供的方案,可以提高数据匹配效率。

参见图5,图5为本申请实施例提供的一种数据匹配装置的结构示意图,所述装置包括:

数量获得模块501,用于获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,所述输入资源包括待分配的库数据的数据总量,所述第一数量为:待开启的计算节点的数量,所述第二数量为:各计算节点中待创建的线程的数量;

资源开启模块502,用于开启所述第一数量个计算节点,并为每一计算节点创建所述第二数量个线程;

数据分配模块503,用于为所开启的各个计算节点分配所述库数据;

数据匹配模块504,用于在接收到数据匹配请求的情况下,基于所述数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述数据分配模块503,具体用于:

为所开启的各个计算节点分配组数据,其中,各个组数据中包含所述库数据中不同部分的数据,所有组数据中包含所述库数据中的全部数据;

所述数据匹配模块504,具体用于:

在接收到数据匹配请求的情况下,为每一组数据创建对应的子任务,其中,每一组数据对应的子任务为:对待匹配数据与该组数据中各个数据进行匹配的任务;

基于所述数据匹配请求,利用各个计算节点中的线程,执行各个计算节点所分配的组数据对应的子任务,得到待匹配数据与每一计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述数据分配模块503,具体用于:

以轮循预设的标签组中各个标签的方式,为所述库数据中的各个数据设置标签;

将所述库数据中标签相同的数据划分为同一组数据,为所开启的各个计算节点分配所划分的组数据。

本申请的一个实施例中,在所述数据匹配请求中携带指定线程数量的情况下,所述数据匹配模块504,具体用于:

在接收到数据匹配请求的情况下,若所述数据匹配请求中携带的指定线程数量小于等于所创建的线程的总数量,从所开启的各计算节点内创建的线程中,选择所述指定线程数量个线程;

利用各计算节点中所选择的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。

本申请的一个实施例中,所述计算资源包括:所述电子设备的处理器核心数量;

所述装置还包括核心绑定模块,用于:

在为每一计算节点创建所述第二数量个线程之后,根据所述电子设备的处理器核心数量、以及所创建的线程的总数量,为各个线程绑定所占用的核心。

本申请的一个实施例中,所述输入资源还包括:预设的待创建的线程的总数。

上述实施例提供的数据匹配方案,首先获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,输入资源包括待分配的库数据的数据总量,第一数量为:待开启的计算节点的数量,第二数量为:各计算节点中待创建的线程的数量;开启第一数量个计算节点,并为每一计算节点创建第二数量个线程;为所开启的各个计算节点分配库数据;在接收到数据匹配请求的情况下,基于数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。这样电子设备所开启的计算节点的数量、以及每一计算节点中创建的线程的数量,均是根据输入资源和电子设备的计算资源确定的,也就是,在确定计算节点的第一数量和每一计算节点中线程的第二数量时,参考了输入资源和电子设备的计算资源,从而在利用各个计算节点中的线程对待匹配数据进行匹配时,能够充分利用电子设备的计算能力。由此可见,应用上述实施例提供的方案,可以提高数据匹配效率。

本申请实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,

存储器603,用于存放计算机程序;

处理器601,用于执行存储器603上所存放的程序时,实现数据匹配的方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据匹配方法的步骤。

在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据匹配方法。

上述实施例提供的数据匹配方案,首先获得基于输入资源和电子设备的计算资源所确定的第一数量和第二数量,其中,输入资源包括待分配的库数据的数据总量,第一数量为:待开启的计算节点的数量,第二数量为:各计算节点中待创建的线程的数量;开启第一数量个计算节点,并为每一计算节点创建第二数量个线程;为所开启的各个计算节点分配库数据;在接收到数据匹配请求的情况下,基于数据匹配请求,利用各计算节点中的线程,对待匹配数据与各计算节点所分配的库数据进行匹配,得到待匹配数据与各计算节点所分配的库数据之间的匹配结果。这样电子设备所开启的计算节点的数量、以及每一计算节点中创建的线程的数量,均是根据输入资源和电子设备的计算资源确定的,也就是,在确定计算节点的第一数量和每一计算节点中线程的第二数量时,参考了输入资源和电子设备的计算资源,从而在利用各个计算节点中的线程对待匹配数据进行匹配时,能够充分利用电子设备的计算能力。由此可见,应用上述实施例提供的方案,可以提高数据匹配效率。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

相关技术
  • 一种数据匹配的方法、装置、电子设备及存储介质
  • 一种数据匹配方法、装置、电子设备及存储介质
技术分类

06120113212949