掌桥专利:专业的专利平台
掌桥专利
首页

一种处理数据的方法、装置和系统

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及信息安全领域,尤其涉及一种处理数据的方法、装置和系统。

背景技术

通常在开发平台提供访问权限给其他主体的同时,往往需要提供待处理的原始数据,以使其他主体基于获取的原始数据进行统计分析的操作,并接收其他主体的分析结果进一步处理,但是为保证原始数据的数据安全,通用开发平台往往需要对原始数据进行加工处理,将加工处理后的加工数据提供给其他主体。

目前通用开发平台加工处理加工数据的方法主要有:1)根据其他主体的统计需求直接提供基于原始数据生成的统计数据;2)对原始数据进行加噪声处理得到加工数据并提供加工数据;但是,在其他主体的数量较多,统计需求较多并且需求颗粒度较小(例如:分组统计)的情况下,方法1)存在消耗计算资源较大、处理数据灵活性较差的问题;方法2)得到的加工数据存在无法满足其他主体分组数据处理需求的问题。

发明内容

有鉴于此,本发明实施例提供一种处理数据的方法和装置,能够接收数据需求端发送的数据获取请求,从数据源中获取对应于请求数据范围的多条原始数据;根据所述数据处理类型以及针对数据处理类型确定的噪声数据,为每一条所述原始数据生成对应的目标数据,发送多个目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行分组处理。克服了无法满足数据需求方的分组处理数据的需求的问题,提高了数据提供方的数据安全性,提高了数据需求方处理数据的灵活性和效率。

为实现上述目的,根据本发明实施例的一个方面,提供了一种处理数据的方法,其特征在于,包括:接收数据需求方发送的数据获取请求;所述数据获取请求指示一个或多个数据范围以及数据处理类型;根据所述数据获取请求指示的一个或多个所述数据范围,从数据源中获取属于一个或多个所述数据范围内的多条原始数据;根据所述数据处理类型以及所述确定出的所述多条原始数据的对应于所述数据处理类型的噪声数据,为每一条所述原始数据生成对应的目标数据,其中,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求;发送多个所述目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行处理。

可选地,所述处理数据的方法,包括:所述数据获取请求进一步指示所述数据需求方所需数据组的个数以及每一个所述数据组的第一数据量阈值;在所述接收数据需求方发送的数据获取请求之后,进一步包括:在确定出任一所述数据组的第一数据量阈值小于第二数据量阈值的情况下,发送指示请求异常的信息给所述数据需求方,其中,所述第二数据量阈值指示任意一种数据处理类型的噪声数据满足分组需求所需的最小数据量。

可选地,所述处理数据的方法,进一步包括:在确定出任一所述数据组的第一数据量阈值不小于所述第二数据量阈值的情况下,确定所述多条原始数据的数量;在确定出所述多条原始数据的数量小于或等于所述第二数据量阈值的情况下,发送指示请求异常的信息给所述数据需求方;在确定出所述多条原始数据的数量大于所述第二数据量阈值的情况下,执行所述为每一条所述原始数据生成对应的目标数据的步骤。

可选地,所述处理数据的方法,在所述从数据源中获取属于一个或多个所述数据范围内的多条原始数据之后,还包括:基于所述多个原始数据,计算所述数据处理类型对应的均值;基于所述数据处理类型对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,生成所述数据处理类型的噪声数据。

可选地,所述处理数据的方法,针对所述数据处理类型指示求总和或者求均值的情况,所述计算所述数据处理类型对应的均值,包括:计算所述多个原始数据的均值。

可选地,所述处理数据的方法,进一步包括:针对数据处理类型为方差或标准差的情况,所述计算所述数据处理类型对应的均值,包括:针对每一条所述原始数据,执行对所述原始数据进行平方运算,生成所述原始数据对应的第一数据;计算多个所述第一数据的均值。

可选地,所述生成所述数据处理类型的噪声数据,包括:基于所述数据处理类型对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,计算隐私预算参数;将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据。

为实现上述目的,根据本发明实施例的第二方面,提供了一种处理数据的方法,其特征在于,包括:发送数据获取请求给数据提供方,其中,所述数据获取请求指示一个或多个数据范围以及数据处理类型;在接收到所述数据提供方发送的多条目标数据的情况下,将所述多条目标数据分为一个或多个数据组,并对所述数据组内的目标数据进行处理,其中,所述目标数据是基于所述数据提供方的原始数据以及对应于所述数据处理类型的噪声数据形成,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求。

可选地,所述处理数据的方法,还包括:设置有所需数据组的个数以及每一个所述数据组的第一数据量阈值,所述将所述多条目标数据分为一个或多个数据组,包括:在所述多条目标数据的数量不小于各个所述数据组的第一数据量阈值之和的情况下,根据所述数据组的个数以及每一个所述数据组的第一数据量阈值,划分所述多条目标数据。

可选地,所述处理数据的方法,进一步包括:在所述多条目标数据的数量小于各个所述数据组的第一数据量阈值之和的情况下,获取第一数据量阈值小于所述多条目标数据的数量的一个或多个目标数据组,并对所述目标数据组内的目标数据进行处理。

可选地,所述对所述数据组内的目标数据进行处理,包括:针对数据处理类型为方差或标准差的情况,为所述数据组确定所述数据提供方提供的数据处理类型为总和或均值对应的第一目标数据、以及数据处理类型为方差或标准差对应的第二目标数据;基于所述第一目标数据的均值的平方、以及所述第二目标数据的均值之间的计算关系,计算所述数据组的方差或标准差。

为实现上述目的,根据本发明实施例的第三方面,提供了一种处理数据的装置,其特征在于,应用于数据提供端,包括:获取数据模块、处理数据模块和发送数据模块;其中,

所述获取数据模块,用于接收数据需求方发送的数据获取请求;所述数据获取请求指示一个或多个数据范围以及数据处理类型;根据所述数据获取请求指示的一个或多个所述数据范围,从数据源中获取属于一个或多个所述数据范围内的多条原始数据;

所述处理数据模块,用于根据所述数据处理类型以及所述确定出的所述多条原始数据的对应于所述数据处理类型的噪声数据,为每一条所述原始数据生成对应的目标数据,其中,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求;

所述发送数据模块,用于发送多个所述目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行处理。

可选地,所述处理数据的装置,包括:所述数据获取请求进一步指示所述数据需求方所需数据组的个数以及每一个所述数据组的第一数据量阈值;在所述接收数据需求方发送的数据获取请求之后,进一步包括:在确定出任一所述数据组的第一数据量阈值小于第二数据量阈值的情况下,发送指示请求异常的信息给所述数据需求方,其中,所述第二数据量阈值指示任意一种数据处理类型的噪声数据满足分组需求所需的最小数据量。

可选地,所述处理数据的装置,进一步用于在确定出任一所述数据组的第一数据量阈值不小于所述第二数据量阈值的情况下,确定所述多条原始数据的数量;在确定出所述多条原始数据的数量小于或等于所述第二数据量阈值的情况下,发送指示请求异常的信息给所述数据需求方;在确定出所述多条原始数据的数量大于所述第二数据量阈值的情况下,执行所述为每一条所述原始数据生成对应的目标数据的步骤。

可选地,所述处理数据的装置,用于在所述从数据源中获取属于一个或多个所述数据范围内的多条原始数据之后,还包括:基于所述多个原始数据,计算所述数据处理类型对应的均值;基于所述数据处理类型对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,生成所述数据处理类型的噪声数据。

可选地,所述处理数据的装置,针对所述数据处理类型指示求总和或者求均值的情况,所述计算所述数据处理类型对应的均值,包括:计算所述多个原始数据的均值。

可选地,所述处理数据的装置,进一步用于针对数据处理类型为方差或标准差的情况,所述计算所述数据处理类型对应的均值,包括:针对每一条所述原始数据,执行对所述原始数据进行平方运算,生成所述原始数据对应的第一数据;计算多个所述第一数据的均值。

可选地,所述处理数据的装置,用于生成所述数据处理类型的噪声数据,包括:基于所述数据处理类型对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,计算隐私预算参数;将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据。

为实现上述目的,根据本发明实施例的第四方面,提供了一种处理数据的装置,其特征在于,应用于数据需求端,包括:请求数据模块和处理数据模块;其中,

所述请求数据模块,用于发送数据获取请求给数据提供方,其中,所述数据获取请求指示一个或多个数据范围以及数据处理类型;

所述处理数据模块,用于在接收到所述数据提供方发送的多条目标数据的情况下,将所述多条目标数据分为一个或多个数据组,并对所述数据组内的目标数据进行处理,其中,所述目标数据是基于所述数据提供方的原始数据以及对应于所述数据处理类型的噪声数据形成,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求。

可选地,所述处理数据的装置,还用于设置有所需数据组的个数以及每一个所述数据组的第一数据量阈值,所述将所述多条目标数据分为一个或多个数据组,包括:在所述多条目标数据的数量不小于各个所述数据组的第一数据量阈值之和的情况下,根据所述数据组的个数以及每一个所述数据组的第一数据量阈值,划分所述多条目标数据。

可选地,所述处理数据的装置,进一步用于在所述多条目标数据的数量小于各个所述数据组的第一数据量阈值之和的情况下,获取第一数据量阈值小于所述多条目标数据的数量的一个或多个目标数据组,并对所述目标数据组内的目标数据进行处理。

可选地,所述处理数据的装置,用于对所述数据组内的目标数据进行处理,包括:针对数据处理类型为方差或标准差的情况,为所述数据组确定所述数据提供方提供的数据处理类型为总和或均值对应的第一目标数据、以及数据处理类型为方差或标准差对应的第二目标数据;基于所述第一目标数据的均值的平方、以及所述第二目标数据的均值之间的计算关系,计算所述数据组的方差或标准差。

为实现上述目的,根据本发明实施例的第五方面,提供了一种处理数据的系统,具有第三方面处理数据的装置的数据提供端以及具有第四方面处理数据的装置的数据需求端。

为实现上述目的,根据本发明实施例的第六方面,提供了一种处理数据的电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述处理数据的方法中任一所述的方法。

为实现上述目的,根据本发明实施例的第七方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述处理数据的方法中任一所述的方法。

上述发明中的一个实施例具有如下优点或有益效果:能够接收数据需求端发送的数据获取请求,从数据源中获取对应于请求数据范围的多条原始数据;根据所述数据处理类型以及针对数据处理类型确定的噪声数据,为每一条所述原始数据生成对应的目标数据,发送多个目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行分组处理。克服了无法满足数据需求方的分组处理数据的需求的问题,提高了数据提供方的数据安全性,提高了数据需求方处理数据的灵活性和效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是本发明一个实施例提供的一种应用于数据提供端的处理数据的方法的流程示意图;

图2是本发明一个实施例提供的一种应用于数据需求端的处理数据的方法的流程示意图;

图3是本发明一个实施例提供的一种处理数据的装置的数据提供端的结构示意图;

图4是本发明一个实施例提供的一种处理数据的装置的数据需求端的结构示意图;

图5是本发明一个实施例提供的一种处理数据的系统的结构示意图;

图6是本发明实施例可以应用于其中的示例性系统架构图;

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

如图1所示,本发明实施例提供了一种处理数据的方法,应用于数据提供端,该方法可以包括以下步骤:

步骤S101:接收数据需求方发送的数据获取请求;所述数据获取请求指示一个或多个数据范围以及数据处理类型;根据所述数据获取请求指示的一个或多个所述数据范围,从数据源中获取属于一个或多个所述数据范围内的多条原始数据。

具体地,针对软件开放平台提供访问接口的应用场景,一个或多个其他主体可以基于软件开放平台提供的访问接口开发业务模块,通常其他主体作为数据需求方需要从软件开放平台(即数据提供方)获取数据;进一步地,其他主体可以通过所开发的业务模块提供数据给软件开放平台,以使软件开放平台进一步处理来自于其他主体的数据。

进一步地,接收数据获取请求,数据获取请求可以指示数据范围以及数据处理类型;其中,数据范围可以为待处理数据的数据范围,数据范围关联于获得数据的查询条件,例如待处理数据的数据范围为:一个月内的abc数量;数据处理类型包括:总和(或均值)、方差(或标准差);即,数据需求方可以基于获取到的数据进一步统计数据对应的总和(或均值)、方差(或标准差)。

进一步地,数据提供方可以根据数据获取请求指示的一个或多个所述数据范围(例如:数据查询条件指示的数据范围),从数据提供方内部的数据源(例如数据库)中得到属于一个或多个所述数据范围内的多条原始数据。其中,原始数据为内部数据,未经过加噪声处理的数据。进一步地,基于原始数据生成目标数据,将目标数据提供给数据需求方,以提高数据的安全性。

优选地,在基于数据需求方的数据获取请求获取原始数据之前,对数据获取请求、原始数据的有效性加以判断;在本发明的实施例中,数据需求方可以基于数据提供方提供的数据计算对应的总和(或均值)、方差(或标准差),并可以对接收到数据提供方提供的数据进行分组计算,提高了处理数据的灵活性。

具体地,从数据获取请求中解析出数据需求方所需数据组的个数以及每一个所述数据组的第一数据量阈值,即,所述数据获取请求进一步指示所述数据需求方所需数据组的个数以及每一个所述数据组的第一数据量阈值;其中,第一数据量阈值为数据组包含的数据数量;数据提供方在在所述接收数据需求方发送的数据获取请求之后,进一步包括:在确定出任一所述数据组的第一数据量阈值小于第二数据量阈值的情况下,发送指示请求异常的信息给所述数据需求方,其中,所述第二数据量阈值指示任意一种数据处理类型的噪声数据满足分组需求所需的最小数据量。其中,第二数据量阈值为设定数量阈值,根据应用场景以及数据类型的分布所确定,例如:第二数据量阈值设置为30;可以理解的是,在任一数据组数据量达到第二数据量阈值的情况下,对原始数据加噪声数据的结果可以使计算结果在设定误差范围内(即满足分组需求的最小数据量),即,在所述第二数据量阈值指示任意一种数据处理类型的噪声数据满足分组需求所需的最小数据量;因此,在确定出任一所述数据组的第一数据量阈值(例如:20)小于第二数据量阈值(例如:30)的情况下,发送指示请求异常的信息给所述数据需求方。通过发送请求的异常信息提高了数据提供方提供数据的有效性和安全性。

进一步地,在确定出任一所述数据组的第一数据量阈值不小于所述第二数据量阈值的情况下,确定所述多条原始数据的数量;在确定出所述多条原始数据的数量小于或等于所述第二数据量阈值的情况下,发送指示请求异常的信息给所述数据需求方;在确定出所述多条原始数据的数量大于所述第二数据量阈值的情况下,执行所述为每一条所述原始数据生成对应的目标数据的步骤。具体地,在第一数据量阈值满足不小于所述第二数据量阈值的情况下,执行从数据源获取原始数据的步骤,并判断原始数据的数量,如果得到的原始数据的数量小于第二数据量阈值(例如:30),则不执行基于原始数据生成目标数据并提供数据给数据需求方的步骤,并发送指示请求异常的信息给所述数据需求方,否则执行所述为每一条所述原始数据生成对应的目标数据的步骤,关于基于原始数据生成对应的目标数据与步骤S102的描述一致,在此不再赘述;通过发送请求的异常信息提高了数据提供方提供数据的有效性和安全性。

步骤S102:根据所述数据处理类型以及所述确定出的所述多条原始数据的对应于所述数据处理类型的噪声数据,为每一条所述原始数据生成对应的目标数据,其中,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求。

具体地,在所述从数据源中获取属于一个或多个所述数据范围内的多条原始数据之后,还包括:基于所述多个原始数据,计算所述数据处理类型对应的均值;基于所述数据处理类型对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,生成所述数据处理类型的噪声数据。以通过本地差分隐私的方式加噪处理。

具体地,针对不同数据处理类型生成噪声数据的方法为:

1)针对数据处理类型为求和(或均值)的情况下:

例如获取的多条原始数据表示为数据序列R1;对应地生成的目标数据表示为R2;

计算R1的均值表示为avg(R1);即,针对所述数据处理类型指示求总和或者求均值的情况,所述计算所述数据处理类型对应的均值,包括:计算所述多个原始数据的均值。

结合数据获取请求进一步指示的任一数据组的数据的第一数据量阈值(例如n)和处理误差(例如a,a根据应用场景例如可以设置为0.1%-20%等);进一步地,确定隐私预算参数ε为:

进一步地,将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据L(0,ε);其中,L为拉普拉斯分布函数。即,所述生成所述数据处理类型的噪声数据,包括:基于所述数据处理类型(即求和或均值)对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,计算隐私预算参数;将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据。也即,基于所述数据处理类型对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,生成所述数据处理类型的噪声数据L(0,ε)。

进一步地,假设针对原始数据R1的一条原始数据表示为X,生成的目标数据R2对应的数据为表示为Y,则Y=X+L(0,ε)。

数据需求方可以基于提供给数据需求方的多个目标数据可以使数据需求方进行分组求和、求均值等操作,得到的统计结果与基于原始数据求和、求均值的结果之间的误差值小于数据需求方设定的误差值,从而通过为原始数据加噪声数据实现了数据安全,并使数据需求方基于处理后的数据得到满足误差条件的统计值(求和或均值)。

下面描述本发明确定噪声数据的过程以及目标数据的求和(或均值)的可用性证明:对于拉普拉斯分布模型L(u,b),分布的均值为u,方差为2b

对于R2某一数据组分组求和可得sum(Y)=sum(X)+sum(L(0,b)),为了保证求和可用性,需要sum(X)与sum(Y)无限接近,即sum(L(0,b))无限接近于0。当一个分组的数据量n(即为第一数据量阈值)满足要求时(例如n大于等于30),根据中心极限定理,sum(L(0,b))服从正态分布N(0,2nb

2)针对数据处理类型为求和(或均值)的情况下:

例如获取的多条原始数据为数据序列R1;对应地生成的目标数据为R3;

计算R1对应的R1’列的均值avg(R1’);其中,R1包含的原始数据进行平方运算得到的结果为R1’列的数据(即第一数据);通过R1’的数据计算R1’的均值表示为avg(R1’)(即多个所述第一数据的均值);即,针对数据处理类型为方差或标准差的情况,所述计算所述数据处理类型对应的均值,包括:针对每一条所述原始数据,执行对所述原始数据进行平方运算,生成所述原始数据对应的第一数据;计算多个所述第一数据的均值。

结合数据获取请求进一步指示的任一数据组的数据的第一数据量阈值(例如n)和处理误差a,确定隐私预算参数ε为:

进一步地,将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据L(0,ε);其中,L为拉普拉斯分布函数。即,所述生成所述数据处理类型的噪声数据,包括:基于所述数据处理类型(求方差或标准差)对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,计算隐私预算参数;将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据。进一步地,将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据L(0,ε);其中,L为拉普拉斯分布函数。即,所述生成所述数据处理类型的噪声数据,包括:基于所述数据处理类型(即求方差或标准差)对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,计算隐私预算参数;将所述隐私预算参数输入拉普拉斯分布函数,得到所述噪声数据。也即,基于所述数据处理类型对应的均值、所述数据获取请求进一步指示的任一数据组的数据的第一数据量阈值和处理误差,生成所述数据处理类型的噪声数据。

进一步地,针对原始数据R1的一条原始数据表示为X,生成对应的目标数据R3对应的数据为表示为Y,则Y=X+L(0,ε)。

基于该处理,提供给数据需求方的多个目标数据R3可以使数据需求方基于R3、以及R2进行分组求方差、标准差等操作,得到的统计结果与基于原始数据方差、标准差的结果之间的误差值小于数据需求方设定的误差值,从而通过为原始数据加噪声数据实现了数据安全,并使数据需求方基于处理后的数据得到满足误差条件的统计值。

类似地,本发明确定噪声数据对分组求方差的可用性证明的描述如下:由于|avg(R1)-avg(R2)|≤a*avg(R1),因此可以得到如下的表达式:|avg(R1)

步骤S103:发送多个所述目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行处理。

具体地,在根据获取数据的请求指示的数据处理类型确定对应的一种或多种目标数据后,发送目标数据给数据需求方。

示例性地,多条原始数据表示为R1;

在数据处理类型为求和或均值的情况下,发送R1对应的第一目标数据R2给数据需求方。

在数据处理类型为求方差或标准差的情况下,发送R1对应的第一目标数据R2、以及R1对应的第二目标数据R3给数据需求方给数据需求方。

进一步地,发送多个所述目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行处理。关于数据需求方基于所述数据处理类型对多个所述目标数据进行处理的描述与步骤S201-步骤S202的描述一致,在此不再赘述。

优选地,接收数据需求方针对多个目标数据进行处理(例如统计分析等)的处理结果,结合处理结果以及关联数据进行进一步处理。

如图2所示,本发明实施例提供了一种处理数据的方法,应用于数据需求方,该方法可以包括以下步骤:

步骤S201:发送数据获取请求给数据提供方,其中,所述数据获取请求指示一个或多个数据范围以及数据处理类型。

具体地,关于数据获取请求、数据获取请求指示一个或多个数据范围以及数据处理类型的描述与步骤S101的描述一致,在此不再赘述。

步骤S202:在接收到所述数据提供方发送的多条目标数据的情况下,将所述多条目标数据分为一个或多个数据组,并对所述数据组内的目标数据进行处理,其中,所述目标数据是基于所述数据提供方的原始数据以及对应于所述数据处理类型的噪声数据形成,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求。

具体地,关于生成目标数据的描述与步骤S102的描述一致,在此不再赘述。

进一步地,接收数据提供方发送的目标数据,还包括:设置有所需数据组的个数以及每一个所述数据组的第一数据量阈值,所述将所述多条目标数据分为一个或多个数据组,包括:在所述多条目标数据的数量不小于各个所述数据组的第一数据量阈值之和的情况下,根据所述数据组的个数以及每一个所述数据组的第一数据量阈值,划分所述多条目标数据。例如:数据组的个数为1-10中的任意数值,第一数据量阈值均为40(大于30,例如第二数据量阈值为30,第二数据量阈值指示任意一种数据处理类型的噪声数据满足分组需求所需的最小数据量),将接收到的目标数据划分为一个或多个数据组,并针对每个数据组,计算所述数据处理类型对应的统计数据,例如,求和(或均值)、求方差(或标准差);其中,可以对目标数据基于多种维度进行分组,例如根据应用场景包含的分组维度,针对年龄、区域、性别等对目标数据划分数据组。

进一步地,在所述多条目标数据的数量小于各个所述数据组的第一数据量阈值之和的情况下,获取第一数据量阈值小于所述多条目标数据的数量的一个或多个目标数据组,并对所述目标数据组内的目标数据进行处理。例如:获取到的目标数据的数量为40条,两个数据组的第一数据量阈值之和为80(35+45);即在所述多条目标数据的数量小于各个所述数据组的第一数据量阈值之和的情况下,则获取第一数据量阈值为35的目标数据组,并对所述目标数据组内的目标数据进行处理。可以理解的是,上述关于第一数据量阈值、原始数据的数量仅为示例,在实际的大数据应用场景中,通常目标数据的数量为较大数量级;通过分组计算统计值,提高了数据需求方针对不同维度得到统计值的灵活性,提高了数据的可用性和安全性。

进一步地,针对不同数据处理类型处理目标数据的方法为:

仍以步骤S102描述的基于原始数据系列R1生成的目标数据序列R2、R3为例:

1)针对数据处理类型为求和或均值的情况,例如:目标数据序列为R2,划分为1…N个数据组,例如:数据组1中包含的目标数据为(x1…x100),则为数据组1包含的目标数据求和为SUM(x1…x100)或者均值AVG=SUM(x1…x100)/100

2)针对数据处理类型为方差或标准差的情况,例如:目标数据序列为R2、以及R3,划分为1…N个数据组,例如:数据组1中包含的目标数据R2为(x1…x100),R3为(y1…y100),则为数据组1包含的目标数据求方差的公式可以为:avg(y1…y100)-avg(x1…x100)

如图3所示,本发明实施例提供了一种处理数据的装置300,应用于数据提供端,包括:获取数据模块301、处理数据模块302和发送数据模块303;其中,

所述获取数据模块301,用于接收数据需求方发送的数据获取请求;所述数据获取请求指示一个或多个数据范围以及数据处理类型;根据所述数据获取请求指示的一个或多个所述数据范围,从数据源中获取属于一个或多个所述数据范围内的多条原始数据;

所述处理数据模块302,用于根据所述数据处理类型以及所述确定出的所述多条原始数据的对应于所述数据处理类型的噪声数据,为每一条所述原始数据生成对应的目标数据,其中,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求;

所述发送数据模块303,用于发送多个所述目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行处理。

如图4所示,本发明实施例提供了一种处理数据的装置400,应用于数据需求端,包括:请求数据模块401和处理数据模块402;其中,

所述请求数据模块401,用于发送数据获取请求给数据提供方,其中,所述数据获取请求指示一个或多个数据范围以及数据处理类型;

所述处理数据模块402,用于在接收到所述数据提供方发送的多条目标数据的情况下,将所述多条目标数据分为一个或多个数据组,并对所述数据组内的目标数据进行处理,其中,所述目标数据是基于所述数据提供方的原始数据以及对应于所述数据处理类型的噪声数据形成,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求。

如图5所示,本发明实施例提供了一种处理数据的系统500,包括:具有处理数据的装置的数据提供端502以及处理数据的装置的数据需求端501。

本发明实施例还提供了一种处理数据的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例提供的方法。

本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的方法。

图6示出了可以应用本发明实施例的处理数据的方法或处理数据的装置的示例性系统架构600。

如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种客户端应用,例如为基于开放平台开发的各种应用模块等。

终端设备601、602、603可以是具有显示屏并且支持各种客户端应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所使用的客户端应用提供支持的后台管理服务器。后台管理服务器可以对接收到的数据获取请求进行处理,并将处理后的目标数据反馈给终端设备。

需要说明的是,本发明实施例所提供的处理数据的方法的数据需求端一般由终端设备601、602、603执行,本发明实施例所提供的处理数据的方法的数据提供端一般由服务器605执行,相应地,数据需求端处理数据的装置一般设置于终端设备601、602、603中;数据提供端处理数据的装置一般设置于服务器605中。

应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取数据模块、处理数据模块和发送数据模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,发送数据模块还可以被描述为“发送多个所述目标数据给数据需求方的模块”。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:

针对数据提供端,接收数据需求方发送的数据获取请求;所述数据获取请求指示一个或多个数据范围以及数据处理类型;根据所述数据获取请求指示的一个或多个所述数据范围,从数据源中获取属于一个或多个所述数据范围内的多条原始数据;根据所述数据处理类型以及所述确定出的所述多条原始数据的对应于所述数据处理类型的噪声数据,为每一条所述原始数据生成对应的目标数据,其中,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求;发送多个所述目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行处理。

针对数据需求端,发送数据获取请求给数据提供方,其中,所述数据获取请求指示一个或多个数据范围以及数据处理类型;在接收到所述数据提供方发送的多条目标数据的情况下,将所述多条目标数据分为一个或多个数据组,并对所述数据组内的目标数据进行处理,其中,所述目标数据是基于所述数据提供方的原始数据以及对应于所述数据处理类型的噪声数据形成,对应于所述数据处理类型的噪声数据使多条所述目标数据满足分组需求。

本发明的实施例,能够接收数据需求端发送的数据获取请求,从数据源中获取对应于请求数据范围的多条原始数据;根据所述数据处理类型以及针对数据处理类型确定的噪声数据,为每一条所述原始数据生成对应的目标数据,发送多个目标数据给数据需求方,以使所述数据需求方基于所述数据处理类型对多个所述目标数据进行分组处理。克服了无法满足数据需求方的分组处理数据的需求的问题,提高了数据提供方的数据安全性,提高了数据需求方处理数据的灵活性和效率。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术分类

06120114722309