掌桥专利:专业的专利平台
掌桥专利
首页

数据存储方法、装置、查询方法、电子设备及可读介质

文献发布时间:2023-06-19 10:24:22


数据存储方法、装置、查询方法、电子设备及可读介质

技术领域

本申请涉及计算机技术领域,具体涉及小程序、大数据、云计算和互联网技术领域,尤其涉及数据存储方法、装置、查询方法、电子设备及计算机可读介质。

背景技术

小程序开发者大部分是以流量运营。小程序开发者通常在开发者平台圈选用户画像及行为特征定向生成特定的人群包,再对该特定的人群包内的用户进行精准触达。

在实际操作过程中,小程序开发者需要根据用户行为建立不同类别的标签数据,在标签主题数量较多的情况下,通常会涉及到多表关联查询,导致数据在网络中大量传输。

发明内容

提供了一种数据存储方法、装置、查询方法、电子设备及计算机存储介质。

根据第一方面,提供了一种数据存储方法,包括:

基于用户标识对所有用户的标签数据进行分桶,获得每个所述用户的分桶数据;其中,所述所有用户的标签数据分布于不同的标签表;

将同一用户的所述分桶数据存储于同一存储模块。

根据第二方面,提供了一种数据存储装置,包括:

多个存储模块,用于存储所有用户的标签数据,而且同一用户的分桶数据存储于同一所述存储模块,其中,所述所有用户的标签数据分布于不同的标签表中,所述分桶数据是基于用户标识对所述所有用户的标签数据进行分桶获得的数据。

根据第三方面,提供了查询方法,包括:

响应标签查询请求,从同一存储模块的分桶数据中获得所要查询用户的标签数据;其中,所述标签查询请求包括用于标识所述用户的身份的用户标识;

所述分桶数据是基于用户标识对所有所述用户的标签数据进行分桶获得的数据;而且,同一用户的所述分桶数据存储于同一所述存储模块。

根据第四方面,提供了一种电子设备,其包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行数据存储方法或查询方法中任一项所述的方法。

根据第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述任意一种数据存储方法或查询方法。

本申请提供的数据存储方法,基于用户标识对所有用户的标签数据进行分桶,获得每个用户的分桶数据;用户的标签数据分布于不同的标签表,将同一用户的分桶数据存储于同一存储模块,在多个标签表关联查询时,由于不同的标签表中属于同一用户的分桶数据存储于同一存储模块,同一用户的标签数据不再需要通过网络传输,减少了数据网络的传输量,提高了查询速度,有效地提高了超大规模数据场景下的查询性能。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1为本申请实施例提供的一种数据存储方法的流程图;

图2为本申请实施例提供的数据存储方法的示意图;

图3为本申请实施例提供的一种数据存储装置的结构示意图;

图4为本申请实施例提供的一种查询方法的流程图;

图5是用来实现本申请实施例的数据存储方法或查询方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。

如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

小程序开发者在开发者平台圈选用户画像及行为特征并定向生成特定的人群包,再对人群包内的用户进行精准触达,以进行流量运营。

开发者平台需要根据用户行为建立不同类别的标签数据,每类标签数据称为一个主题域。例如,开发者平台以用户标识ID作为用户的唯一标识,根据用户行为建立基本属性标签数据、活跃度标签数据以及支付行为标签数据。其中,基本属性标签数据为用户的基本属性,包括但不限于用户的性别和兴趣点,如表1所示。

表1用户的基本属性标签表。

活跃度标签数据为用户打开小程序的行为特征,例如,当日的活跃度和近30日的活跃度,如表2所示。

表2用户的活跃度标签表。

支付行为标签数据为用户在小程序内的支付行为,例如,当日支付的订单数和近30日是否有支付行为,如表3所示。

表3用户的支付行为标签表。

不同的标签数据在底层的存储是相关且独立的,即每个标签表在底层的存储是相对独立的,但不同标签表中属于同一用户的标签数据是相关的。小程序开发者的查询涉及到用户的多个标签主题时,需要通过多表关联查询,才能返回所需的结果。

例如,若用户以20200102为当前查询日期,查询近30日活跃且性别为“1”的用户。该查询需要根据用户ID关联查询两个标签表,即对基本属性标签表和活跃度标签表进行关联查询。

若用户以20200102为当前查询日期,查询近30日有活跃、性别为“1”且近7日支付订单总数大于10的用户。该查询需要根据用户ID关联查询三个标签表,即对基本属性标签表、活跃度标签表和支付行为标签数据进行关联查询。

由于按照用户行为设置一个标签表,不同用户行为的标签数据保存在不同的标签表中,不同的标签表在底层存储于位置不同的物理介质上,在关联查询时数据网络的传输量较大,查询速度较慢,影响查询的性能。而且,随着业务需求精细化,数据库中表的数量急剧膨胀,增加了业务使用复杂性和数据库维护成本。

第一方面,本申请实施例提供一种数据存储方法。该数据存储方法可对分布于不同标签表中的所有用户的标签数据进行本地协同存储,减少多表关联查询时网络数据的传输量,提高查询速度。

图1为本申请实施例提供的一种数据存储方法的流程图。图2为本申请实施例提供的数据存储方法的示意图。参照图1和图2,本申请实施例提供的数据存储方法包括:

步骤101,基于用户标识对所有用户的标签数据进行分桶,获得每个用户的分桶数据。

其中,用户标识ID是用户身份的唯一标识,通过用户ID可以区分并确定用户。用户在使用网络过程中实施了不同行为,对这些行为添加标签并建立标签表,标签表中的标签数据是记录用户行为的数据。该标签表将用户ID与用户行为建立对应关系。标签可以扩充业务实体的分析角度,通过对不同标签的操作,可以进行数据筛选和分析。

其中,分桶是指按照标签数据的类型对标签数据进行分桶,将属于同一用户的标签数据分配在一个分桶内。

在一些实施例中,基于用户标识对所有用户的标签数据进行分桶,获得每个用户的分桶数据,包括:将所有用户的标签数据按照标签类型进行分类,获得对应的标签表;基于用户标识对每个标签表中的标签数据进行分桶,获得每个用户的分桶数据。

其中,分桶数据是分配在一个分桶内的数据,换言之,属于同一用户的不同标签数据的集合。

在一些实施例中,按照标签的查询方式对标签数据进行分类,生成标签表。例如,标签类型包括静态标签和动态标签,其中,静态标签对应的标签数据不随时间变化;动态标签对应的数据是随时间变化。即标签数据包括静态标签数据和动态标签数据,根据静态标签数据建立静态标签数据表,根据动态标签数据建立动态标签数据表。其中,静态标签数据是不随时间变化的数据,即用户在某个时间点的标签值。例如,静态标签数据包括但不限于基础属性标签和活跃度标签,如表4所示。

表4用户的静态标签数据表。

动态标签数据是随时间变化的数据,即用户在某个时间段内的标签值。例如,动态标签数据包括但不限于支付标签数据,如表5所示。

表5用户的动态标签数据。

在本实施例中,对标签数据按照查询方式进行分类,并且为每个类型的标签数据建立一个标签表,相对于按照行为方式建立标签表而言,可以减少标签表的数量,从而降低数据库维护成本和查询语句的复杂性;而且在查询标签数据时,可以降低多表关联查询的概率,从而提高查询速度,进而提高查询性能,有效地解决了超大规模数据场景下查询性能的问题。

例如,在表4的静态标签数据表中包括所有用户的静态标签数据,在表5的动态标签数据表中包括所有用户的动态标签数据。因此,本申请仅用两个标签表即可将基础属性标签、活跃度标签和支付标签分类。如果按照行为方式建立标签表,则需要三个标签表,因此,本申请减少了标签表的数量。

本实施例中,按照查询方式建立标签表,可以减少标签表的数量,避免精细化运营过程中标签表数量膨胀的问题。而且,标签表数量的减少,还有利于降低查询语句的复杂性。

参阅图2,基于用户标识将每个标签表中的标签数据进行分桶。将用户1的静态标签数据分配在第一分桶211内,将用户1的动态标签数据分配在第二分桶212内。第一分桶211和第二分桶212位于同一存储模块,即第一存储模块21。其它用户的标签数据与此类似,将同一用户的标签数据存储在同一存储模块,并按照标签类型分布在不同的分桶中。

为了实现本地协同存储,第一分桶211和第二分桶212的存储编号相同,以实现同一用户的标签数据存储在同一存储模块。

在一些实施例中,基于用户标识对所有用户的标签数据进行分桶,获得每个用户的分桶数据,包括:基于用户标识通过哈希算法对所有用户的标签数据进行分桶,获得每个用户的分桶数据。

例如,按照用户ID对每个标签数据进行哈希运算,取余数得到分桶号,即对标签表中的每个记录进行哈希运算,取运算结果的余数,为每条记录生成一个分桶号,分桶号相同的标签数据为同一用户的标签数据,将分桶号相同的标签数据存储在同一存储模块上。

步骤102,将同一用户的分桶数据存储于同一存储模块。

在一些实施例中,将同一用户的分桶数据存储于同一存储模块,即,同一存储模块中存储同一用户的所有标签数据。

参阅图2,存储模块包括第一存储模块21和第二存储模块22。基于用户ID将用户1的标签数据存储于第一存储模块21中,将用户2的标签数据存储于第二存储模块22中。

例如,第一存储模块21包括第一分桶211和第二分桶212,其中,第一分桶211用于存储用户1对应的静态标签表中的标签数据,如,第一分桶1存储有用户1的基础属性标签和活跃度标签。例如:“用户1,20200102,1,1001,1,1”,其中,用户ID为用户1,日期为2020年01月02日,性别为1,兴趣点为1001,近30日为活跃用户,当日活跃的次数为1。第二分桶212用于存储用户1对应的动态标签表中的标签数据,如第二分桶存储有用户1的支付标签。例如:“用户1,20200101,1,2”,其中,用户ID为用户1,日期为2020年01月01日,近30日有支付,当日的支付次数为2。

需要说明的是,本实施例以两个存储模块为例进行说明,但这并不表示本申请只能提供两个存储模块,实际上,存储模块的数量可以是两个以上的任何数量。

本申请实施例利用多个存储模块本地协同存储静态标签表和动态标签表;并且,将不同标签数据表中的同一用户的标签数据存储在一个存储模块中,在进行多表查询时,可以减少数据网络的传输量,提高查询速度,从而提高查询性能。

需要说明的是,将同一用户的标签数据存储于同一存储模块,并不表示每个用户占用一个存储模块,同一存储模块可以存储多个用户的标签数据,只需要确保同一用户的标签数据存储在同一存储模块,以确保多表查询时,只需要从一个存储模块获得需要查询用户的标签数据即可。

在一些实施例中,在同一台机器上可以对标签数据备份至少一份,即每个标签表设置多个副本,进行冗余存储,以保证数据的安全性。

需要说明的是,本实施例以两个标签数据表为例进行介绍,但这并不表示本申请只能针对两个标签表进行处理。实际上,本申请实施例提供的数据存储方法可以应用于三个或更多个标签表,在多个标签表关联查询时,可以减少数据网络的传输量,提高了查询速度,有效地提高了超大规模数据场景下的查询性能。

本申请提供的数据存储方法,基于用户标识对所有用户的标签数据进行分桶,获得每个用户的分桶数据;用户的标签数据分布于不同的标签表,将同一用户的分桶数据存储于同一存储模块,在多个标签表关联查询时,由于不同的标签表中属于同一用户的分桶数据存储于同一存储模块,同一用户的标签数据不再需要通过网络传输,减少了数据网络的传输量,提高了查询速度,有效地提高了超大规模数据场景下的查询性能。

第二方面,本申请实施例提供一种数据存储装置,该装置对分布于不同标签表中的所有用户的标签数据进行本地协同存储,减少多表关联查询时网络数据的传输量,提高查询速度。

图3为本申请实施例提供的一种数据存储装置的结构示意图。参照图3,数据存储装置,包括:

多个存储模块,用于存储所有用户的标签数据,而且同一用户的分桶数据存储于同一存储模块。

其中,用户的标签数据是以用户标识ID为基准,记录每个用户行为的记录。用户ID是用户身份的唯一标识,通过用户ID可以区分并确定用户。用户在使用网络过程中实施了不同行为,对这些行为添加标签并建立标签表,标签数据是记录用户行为的数据。为了便于记录,用户的标签数据分布于不同的标签表。标签可以扩充业务实体的分析角度,通过对不同标签的操作,可以进行数据筛选和分析。

其中,分桶数据是基于用户标识对不同标签数据表中的标签数据进行分组,再将同一标签表中且属于同一用户的标签数据分配在一个分桶内。对于同一用户而言,不同的标签数据表可以获得不同的分桶,将同一用户的分桶数据存储于同一存储模块中。

需要说明的是,本申请实施例中,存储装置可以分布设置在不同的物理节点,也可以设置在同一个物理节点,或者,将一部分存储装置设置在一个物理节点,将另一部分存储装置设置在其他物理节点。在实际应用中,可以根据需要将存储装置设置在一个或分布设置在多个物理节点。

在一些实施例中,标签类型依据查询方式确定,即按照标签的查询方式对标签数据进行分类,生成标签表,而且将属于相同类型的标签数据分布在一个标签表中。例如,按照查询方式将所有用户的标签数据分为静态标签数据和动态标签数据,对应的分为静态标签数据表和动态标签数据表。其中,静态标签数据是用户在某个时间点的标签值,即标签数据不随时间变化。例如,静态标签数据包括但不限于基础属性标签和活跃度标签。动态标签数据是用户在某个时间段内的标签值,即随时间变化的数据。例如,动态标签数据包括但不限于支付标签。

在本实施例中,按照查询方式建立标签表,相对于按照用户行为建立标签表,可以减少标签表的数量,从而降低数据库维护成本和业务使用的复杂性;而且在查询标签数据时,可以降低多表关联查询的概率,从而提高查询速度,进而提高查询性能。

本申请实施例提供的数据存储装置,包括多个存储模块,用于存储所有用户的标签数据,而且同一用户的分桶数据存储于同一存储模块,因此,在多个标签表关联查询时,可以减少数据网络的传输量,提高了查询速度,有效地提高了超大规模数据场景下的查询性能。

第三方面,本申请实施例提供一种查询方法,该方法可以减少多表关联查询时网络数据的传输量,提高查询速度。

图4为本申请实施例提供的一种查询方法的流程图。参考图4,查询方法包括:

步骤401,响应标签查询请求,从同一存储模块的分桶数据中获得所要查询用户的标签数据。

其中,标签查询请求包括用于标识用户的身份的用户标识。用户标识ID是用户身份的唯一标识,通过用户ID可以区分并确定用户。

其中,分桶是指按照标签数据的类型对标签数据进行分组。分桶数据是基于用户标识对所有用户的标签数据进行分桶获得的数据;而且,同一用户的分桶数据存储于同一存储模块。

在一些实施例中,分桶数据是基于用户标识对标签数据进行分组,将同一标签表中且属于同一用户的标签数据分配在一个分桶内,并将同一用户的分桶存储于同一存储模块中。

在一些实施例中,按照标签的查询方式对标签数据进行分类,生成标签表,而且将属于相同类型的标签数据分布在一个标签表中。例如,按照查询方式将所有用户的标签数据分为静态标签数据和动态标签数据,对应的分为静态标签数据表和动态标签数据表。其中,静态标签数据是用户在某个时间点的标签值,即标签数据不随时间变化。例如,静态标签数据包括但不限于基础属性标签数据和活跃度标签数据。动态标签数据是用户在某个时间段内的标签值,即随时间变化的数据。例如,动态标签数据包括但不限于支付标签数据。

对于动态标签数据,在查询时,可以通过时间维度进行动态聚合,在指定的查询时间范围内满足取值要求的数据对应的用户即为需求用户。

在本实施例中,按照查询方式建立标签表,相对于按照用户行为建立标签表,可以减少标签表的数量,从而降低数据库维护成本和业务使用的复杂性;而且在查询标签数据时,可以降低多表关联查询的概率,从而提高查询速度,进而提高查询性能。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图5所示,是根据本申请实施例的数据存储方法或查询方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的数据存储方法或查询方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据存储方法或查询方法。

存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据存储方法或查询方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据存储方法或查询方法。

存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据存储方法或查询方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至数据存储方法或查询方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据存储方法或查询方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息,以及产生与数据存储方法或查询方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 数据存储方法和装置、数据查询方法和装置、数据结构、电子设备及计算机可读存储介质
  • 数据存储方法、查询方法、装置、电子设备及存储介质
技术分类

06120112533303