掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法及系统、存储介质及电子设备

文献发布时间:2023-06-19 13:46:35


数据处理方法及系统、存储介质及电子设备

技术领域

本发明涉及信息安全技术领域,具体涉及一种数据处理方法及系统、介质及设备。

背景技术

信息社会中,企业或个人信息交互的各个环节越来越依赖于数字化实现。例如银行、保险及其相关生态企业在产品的定价、反欺诈、营销等商业行为的各环节均需要建立不同的模型来提高精准性,然而往往受限于企业自身数据维度导致模型精度欠佳。因此需要依赖其他相关渠道的数据来实现更好地建模,例如从金融生态中其他的中介企业、主机厂、互联金融企业等数据提供应方获取数据进行补充。然而由于涉及公司利益及个人隐私等,导致如果数据供应方直接把个体初始数据提供给需求方,会存在巨大的安全隐患,不仅涉及个人隐私泄露,还可能导致商业机密流失,这也是增加企业间的数据共享难度的主要原因之一。

发明内容

本发明要解决的技术问题是为了克服现有技术中数据供应方提供初始数据给需求方的过程中,存在个体数据泄露的安全隐患的缺陷,提供一种数据处理方法及系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题:

本发明提供了一种数据处理方法,所述方法应用在供应方,所述方法包括如下步骤:

接收需求方发送的初始加密数据;其中,所述初始加密数据包括各个对象的加密标识数据和加密业务数据;

基于所述对象的加密标识数据,获取筛选得到的对象对应的评价参数;

基于所述评价参数,将所述对象对应的加密业务数据划分为若干个数据集合;

对所述每个所述数据集合进行处理,以得到对应的目标数据;

将所述目标数据发送至所述需求方进行解密处理。

较佳地,所述评价参数包括对象评分数据;

基于所述评价参数,将所有所述加密业务数据划分为若干个数据集合的步骤包括:

基于所述对象评分数据,确定若干个评分数据区间;

根据所述评分数据区间,将所述对象对应的加密业务数据划分为若干个所述数据集合;

每个所述评分数据区间对应一个所述数据集合,每个所述数据集合对应若干所述加密业务数据。

较佳地,所述加密业务数据根据同态加密算法加密得到;

将所述目标数据发送至所述需求方进行解密处理的步骤包括:

将所述目标数据发送至所述需求方,以使所述需求方根据所述同态加密算法对所述目标数据进行解密。

较佳地,对所述每个所述数据集合进行处理,以得到对应的目标数据的步骤包括:

分别基于每个所述数据集合对应的加密业务数据,得到所述目标数据。

较佳地,分别基于每个所述数据集合对应的加密业务数据,得到所述目标数据的步骤包括:

计算所有的所述数据集合中所述加密业务数据的总体均值;

根据所述总体均值和预设的随机数范围,分别生成每个所述数据集合的噪声参数;

获取每个所述数据集合对应的第一均值;

合并每个所述数据集合对应的所述第一均值和所述噪声参数,以获取每个所述数据结合对应的所述目标数据。

较佳地,所述接收需求方发送的初始加密数据的步骤之后包括:

检测所述加密业务数据;

若所述加密业务数据出现的次数超过预设阈值,则停止数据处理操作;否则,则执行基于所述对象的加密标识数据,获取筛选得到的对象对应的评价参数的步骤。

较佳地,所述加密标识数据基于单向加密算法进行加密;

所述基于所述对象的加密标识数据,筛选得到与所述对象对应的评价参数的步骤包括:

对供应方数据中的对象的标识数据采用所述单向加密算法进行加密处理,以获取加密结果;

根据所述加密结果,与接收的所述加密标识数据进行筛选处理,以确定所述供应方数据与所述初始加密数据中共有的所述对象;

获取与所述对象对应的所述评价参数。

较佳地,所述同态加密算法为同态加法加密算法。

本发明还提供一种数据处理系统,所述处理系统应用在供应方,所述处理系统包括如下步骤:

数据接收模块,用于接收需求方发送的初始加密数据;其中,所述初始加密数据包括各个对象的加密标识数据和加密业务数据;

筛选模块,用于基于所述对象的加密标识数据,获取筛选得到的对象对应的评价参数;

划分模块,用于基于所述评价参数,将所述对象对应的加密业务数据划分为若干个数据集合;

数据处理模块,用于对所述每个所述数据集合进行处理,以得到对应的目标数据;

发送模块,用于将所述目标数据发送至所述需求方进行解密处理。

较佳地,所述评价参数包括对象评分数据;

所述划分模块包括:

第一单元,用于基于所述对象评分数据,确定若干个评分数据区间;

第二单元,用于根据所述评分数据区间,将所述对象对应的加密业务数据划分为若干个所述数据集合;

每个所述评分数据区间对应一个所述数据集合,每个所述数据集合对应若干所述加密业务数据。

较佳地,所述加密业务数据根据同态加密算法加密得到;

所述发送模块具体用于将所述目标数据发送至所述需求方,以使所述需求方根据所述同态加密算法对所述目标数据进行解密。

较佳地,所述数据处理模块具体用于分别基于每个所述数据集合对应的加密业务数据,得到所述目标数据。

较佳地,所述数据处理模块包括:

计算单元,用于计算所有的所述数据集合中所述加密业务数据的总体均值;

噪声生成单元,用于根据所述总体均值和预设的随机数范围,分别生成每个所述数据集合的噪声参数;

合并单元,用于获取每个所述数据集合对应的第一均值,并合并每个所述数据集合对应的所述第一均值和所述噪声参数,以获取每个所述数据结合对应的所述目标数据。

较佳地,所述数据处理系统还包括检测模块,用于检测所述加密业务数据;并当所述加密业务数据出现的次数超过预设阈值时,停止数据处理操作;或所述加密业务数据出现的次数未超过所述预设阈值时,调用所述筛选模块。

较佳地,所述加密标识数据基于单向加密算法进行加密;

所述筛选模块包括:

单向加密单元,用于对供应方数据中的对象的标识数据采用所述单向加密算法进行加密处理,以获取加密结果;

匹配单元,用于根据所述加密结果,与接收的所述加密标识数据进行筛选处理,以确定所述供应方数据与所述初始加密数据中共有的所述对象;

评价获取单元,用于获取与所述对象对应的所述评价参数。

较佳地,所述同态加密算法为同态加法加密算法。

本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据处理方法。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据处理方法。

本发明的积极进步效果在于:

本发明提供的数据处理方法及系统、电子设备及存储介质,通过对需求方提供的加密业务数据划分为若干个数据集合进行处理,并将处理结果回传需求方,使需求方能够获得所需要的数据群体性统计结果的同时,防止了个体信息泄露的风险,并通过设置随机噪声避免了恶意套取个体数据信息,有效地保证了数据交互的安全性。

附图说明

图1为本发明的实施例1的数据处理方法的流程示意图。

图2为本发明的实施例1的需求方和供应方的数据交互示意图。

图3为本发明的实施例2的数据处理系统的模块示意图。

图4为本发明的实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

参见图1所示,本实施例具体提供了一种数据处理方法,应用于数据的供应方,包括如下步骤:

S1.接收需求方发送的初始加密数据;其中,初始加密数据包括各个对象的加密标识数据和加密业务数据;

S2.基于对象的加密标识数据,获取筛选得到的对象对应的评价参数;

S3.基于评价参数,将对象对应的加密业务数据划分为若干个数据集合;

S4.对每个数据集合进行处理,以得到对应的目标数据;

S5.将目标数据发送至需求方进行解密处理。

具体地,需求方和供应方的数据交互流程参见图2所示。

本实施例中,需求方拥有原始数据,其对于原始数据的使用目的包括但不限于用于模型训练及预测;但需求方处的原始数据由于缺少部分用于分类或统计的属性信息,从而无法应用于包括上述例举的各种场景。本实施例中的供应方拥有与上述原始数据缺少的属性信息。

步骤S1中,供应方从需求方处接收初始加密数据;初始加密数据包括各个对象的加密标识数据和加密业务数据。为了便于描述实施例中的技术方案,上述初始加密数据中的各个对象可以认为是数据库或数据表中的各条数据记录;而加密标识数据和加密业务数据分别对应于各数据记录的标识符字段(例如主键)的字段值以及业务属性字段的字段值。本领域技术人员可知,上述和之后相应的应用场景设定均是了更清楚地介绍数据处理方法的各个步骤,并不对本发明构成任何的限定。

在一种可选的实施方式中,步骤S1之后,检测初始加密数据;若初始加密数据出现的次数超过预设阈值,则停止数据处理操作;否则,则执行步骤S2。

该可选的实施方式用于防止需求方对于供应方的个体评价参数的恶意探测。例如,需方发来的大部分业务数据均为某固定值,比如为零;而只有个别的业务数据为真实值,根据供方返回的非零值落在哪个区间,需方即可推知这些特定个体的相对关系。而本实施方式基于对相同加密业务数据的出现频次的判断可以有效地防止该情况,即超出设置的预设阈值时,认为存在上述数据恶意探测的可能而中止数据操作,保护数据安全。

步骤S2中,供应方基于对象的加密标识数据,筛选得到与各个对象对应的评价参数。本领域技术人员可知,需求方数据和供应方数据中,每条数据记录均具有标识符字段;需求方和供应方可以通过标识符字段来确定共有的数据,从而实现数据共享。通常为了保护数据涉及主体的信息安全,需求方会将标识符字段的字段值进行加密后发送给供应方,在一种可选的实施方式中,供应方本地数据具有标识信息,并基于需求方发送的加密标识数据,供应方将其解密后和本地数据的标识信息进行筛选,以获得匹配的本地数据,并进而基于这些匹配的本地数据得到评价参数。由于该方式对于供需双方存在关于标识数据具体加密方式的约定或协议,存在一定的应用限制。因此,本实施例中提供了一种较佳的实施方式如下。

在一种较佳的实施方式中,加密标识数据基于单向加密算法进行加密;步骤S2包括:

对供应方数据中的对象的标识数据采用单向加密算法进行加密处理,以获取加密结果;

根据加密结果,与接收的加密标识数据进行筛选处理,以确定供应方数据与初始加密数据中共有的对象;

获取与对象对应的评价参数。

本实施方式中,需求方通过单项加密算法生成加密标识数据。单向加密算法即不可逆加密算法,其特征是加密过程中不需要使用密钥,输入明文后由系统直接经过加密算法处理成密文,这种加密后的数据是无法被解密的,只有重新输入明文,并再次经过同样不可逆的加密算法处理,得到相同的加密密文并被系统重新识别后才能真正解密。本实施方式中的单向加密算法包括但不限于MD5(Message-Digest Algorithm,密码散列算法)加密算法和SHA(Secure Hash Algorithm,安全散列算法)加密算法。

由于加密标识数据经过单项加密算法的处理而生成且不可解密,因此供应方对于供应方数据也要基于同样的单向加密算法的处理;当然本领域技术人员可以理解,所进行加密的是对应于需求方标识符字段的供应方标识符字段。这样,通过得到一组单项加密后的数据,将其与需求方发来的加密标识数据进行筛选匹配。这样就能够筛选得到供需双方的数据交集,即确定了供应方数据与初始加密数据中共有的对象。进一步地,供应方获取与上述确定的供需双方所共有的对象对应的评价参数,以便后续步骤进行具体的处理。本实施方式通过供应方利用与需求方共同的单向加密方式对数据进行鉴别匹配,保证了对象数据传输过程中的安全可靠,同时对于供应方来说也是一种较为方便可行的处理方式。

在步骤S2的基础上,步骤S3基于确定的共有对象的评价参数,将共有对象对应的加密业务数据划分为若干个数据集合。其中,划分的依据可以结合需求方的使用目的进行,可以理解,此时需求方也能够掌握该种划分依据,并最终基于这种划分依据来使用目标数据。划分的依据可以包括但不限于按照评价参数的属性进行分类划分,或按照评价参数的值进行划分,或对于评价参数经统计或计算后的结果进行划分等。其意义在于通过将加密业务数据划分为若干个数据集合,将原来需求方发送的无序数据集按照需求方的使用目的形成若干个具有统计意义的数据集合,以便于后续模型训练等应用。

当评价参数是具体的评分数据时,步骤S3的一种较佳实施方式包括:

基于对象评分数据,确定若干个评分数据区间;

根据评分数据区间,将对象对应的加密业务数据划分为若干个数据集合;其中,每个评分数据区间对应一个数据集合,每个数据集合对应若干加密业务数据。

本实施方式中提供了基于对象的评分数据划分数据集的处理方式。对象评分数据是一种常见的需求方需要从供应方获得的数据种类。为描述方便,以车险模型为例进行说明,当然本实施方式的评分数据范畴不限于此。保险公司通常需要从主机厂获得车辆的评分数据,用于训练车险模型,预测不同车型的车险理赔结果。此时评分数据具体可以是对于不同车型的评分。

首先,根据评分数据的大小,将其划分为若干个区间,例如划分为车型评分<1以及车型评分≥1的区间。之后根据上述区间,将对于的加密业务数据划分为数据集合。在上述车型评分的例子中即划分为两个数据集合。

当然本领域技术人员可以理解,根据评分数据的大小进行划分只是一个具体的实现方式,也可以通过基于数据本身的特性,例如奇偶数进行划分,或基于评分数据的后处理结果进行划分,例如基于评分数据的平方根值进行划分等;上述划分依据不构成对于本发明生成数据集合的任何限定。

基于步骤S3的执行结果,步骤S4进一步对每个数据集合进行处理,得到对应的目标数据。由于步骤S3中的数据集合虽然能够区分若干组数据之间的区别,但是考虑到需求方发送加密数据至供应方的初衷,往往需要得到更为直观精确的统计结果,也就是目标数据;因此需要对每个数据集合进行进一步的处理。

然而,由于每个数据集合中,各个对象对应的加密业务数据依然是以密文形式存在的。因此,供应方在基于评分参数对其划分的基础上,需要保证对上述密文进行处理得到的目标数据依然是能够最终为需求方所用的。

在一种较佳的实施方式中,供需双方采用了同态加密算法来实现这种目的。具体地,需求方的加密业务数据根据同态加密算法加密生成。步骤S5中,供应方将目标数据发送至需求方后,需求方依然根据相应的同态加密算法对目标数据进行解密。

同态加密算法是基于数学难题的计算复杂性理论的密码学技术,经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果一致。本实施方式利用同态加密算法的这一原理,能够由供应方直接处理需求方发送的加密业务数据,从而保证了处理过程的目的性强,针对性高。而处理的结果即目标数据密文传回需求方后,需求方可以基于同态加密算法解密得到对应的准确结果,从而保证了需求方的数据需求的同时,也确保了目标数据的安全。作为一种可选的实施方式,具体可以采用同态加法加密算法实现。

较佳地,当本实施方式中的评价参数为评分数据时,基于同态算法执行的步骤S4可以通过分别基于每个所述数据集合对应的加密业务数据,得到所述目标数据。虽然目标数据是根据加密业务数据的计算得到,但是由于应用了同态加密算法,因此目标数据最终能够在需求方被还原为可使用的原始数据。

考虑到存在需求方进行数据恶意探测的可能性,除了上述通过发送固定值的方式,需求方还可能发送特定的小数位数来达到目的。比如:需求方发送的业务数据中大多为整数,但个别带有小数。虽然供应方返回了评分区间的均值,但需求方从均值是否含有特定的小数就可以了解该个体的评分情况。针对这种情况,在一种可选的实施方式中,可以通过设置噪声参数来进行应对,具体通过以下步骤实现:

计算所有的数据集合中加密业务数据的总体均值;

根据总体均值和预设的随机数范围,分别生成每个数据集合的噪声参数;

获取每个所述数据集合对应的第一均值;

合并每个所述数据集合对应的第一均值和所述噪声参数,以获取每个数据结合对应的目标数据。

本实施方式中,有若干个数据集合,某个对象i对应的加密业务数据为enc(x

基于放置数据恶意探测的目的,设置噪声参数

则每个数据集合的目标数据为

步骤S5将目标数据发送至需求方后,需求方对目标数据进行解密得到:

其中,decrypt代表基于同态加密算法的解密处理。从而,需求方获得各分区实际的业务数据均值,并带有放置恶意探测的随机噪声。

本实施例通过一具体例子对数据处理方法进行说明,但本领域技术人员可以理解,本发明的应用场景和实现方式并不因此收到限定。其中,需求方为车险公司,拥有的业务数据是分别是4辆车对应的满期保费和满期赔付金额,现需要通过供应方的车辆评分数据来验证不同评分的车辆对应的满期赔付率。其中,对象即上述的4辆车辆。满期保费数据如表1所示。

表1

对于表1中的车辆,假设其通过上述单向加密的方式分别在供应方数据中得到了匹配结果,则上述车辆a~d均为筛选后得到的对象。

具体地,以某一对象如车辆a为例,假设其标识为车架号V=LSVHJ133022221761,采用MD5的单向加密方式进行处理,得到加密结果V’=8B975667099154E2301A90C5145914AA;从而供应方从需求方接收到V’后,在经过MD5加密的供应方数据的标识内进行匹配,得到了车辆a对应的车辆评分为0.3。对于其他对象即车辆的处理方式类似。

基于上述的车辆评分,将其划分为车辆评分<1和车辆评分≥1两个数据集A和B。对于数据集A,其对应的对象是车辆a和车辆b;对于数据集B,其对应的对象是车辆c和车辆d。基于同态加法加密算法,某车辆i的满期保费密文数据为enc(x

从而,根据目标数据计算公式

表2中示出了上述车辆的满期赔付数据。并且,基于和上述满期保费相同的计算过程,需求方分别得到解密后的满期赔付金额的明文为302.53575(对应车辆a、b)和4973.75(对应车辆c、d)。从而,根据满期赔付率=满期赔付金额/满期保费,分别得到数据集A和B对应的经过解密的满期赔付率为8%和126%。

表2

需求方可以基于得到的数据认为,评分越低的车辆(通常表征性能越好的车辆)的满期赔付率越低。从而,为今后车险模型提供了可靠的评测依据。

作为一种验证,根据上述所有的明文数据直接进行相关数据集划分及对应的运算,最终得到的数据集A和B对应的满期赔付率为7%和125%。可见,本发明的数据处理方式虽然经由供应方对于需求方发送的加密业务数据进行了直接的计算,但依然保证了极高的数据准确性和可参考性。

本实施例提供的数据处理方法对需求方提供的加密业务数据划分为若干个数据集合进行处理,并将对数据集合进行处理的结果回传需求方,使需求方能够获得所需要的数据群体性统计结果的同时,无法获得其中的个体数据信息,防止了个体信息泄露的风险,并通过增加随机干扰量避免了恶意套取个体数据信息。

实施例2

参见图3所示,本实施例具体提供了一种数据处理方法,应用于数据的供应方,包括:

数据接收模块1,用于接收需求方发送的初始加密数据;其中,初始加密数据包括各个对象的加密标识数据和加密业务数据;

筛选模块2,用于基于对象的加密标识数据,获取筛选得到的对象对应的评价参数;

划分模块3,用于基于评价参数,将对象对应的加密业务数据划分为若干个数据集合;

数据处理模块4,用于对每个数据集合进行处理,以得到对应的目标数据;

发送模块5,用于将目标数据发送至需求方进行解密处理。

本实施例中,需求方拥有原始数据,其对于原始数据的使用目的包括但不限于用于模型训练及预测;但需求方处的原始数据由于缺少部分用于分类或统计的属性信息,从而无法应用于包括上述例举的各种场景。本实施例中的供应方拥有与上述原始数据缺少的属性信息。

通过数据接收模块1,供应方从需求方处接收初始加密数据;初始加密数据包括各个对象的加密标识数据和加密业务数据。为了便于描述实施例中的技术方案,上述初始加密数据中的各个对象可以认为是数据库或数据表中的各条数据记录;而加密标识数据和加密业务数据分别对应于各数据记录的标识符字段(例如主键)的字段值以及业务属性字段的字段值。本领域技术人员可知,上述和之后相应的应用场景设定均是了更清楚地介绍数据处理系统,并不对本发明构成任何的限定。

在一种可选的实施方式中,系统还包括检测模块6,用于检测初始加密数据;若初始加密数据出现的次数超过预设阈值,则停止数据处理操作;否则,则调用筛选模块2。

该可选的实施方式用于防止需求方对于供应方的个体评价参数的恶意探测。例如,需方发来的大部分业务数据均为某固定值,比如为零;而只有个别的业务数据为真实值,根据供方返回的非零值落在哪个区间,需方即可推知这些特定个体的相对关系。而本实施方式基于对相同加密业务数据的出现频次的判断可以有效地防止该情况,即超出设置的预设阈值时,认为存在上述数据恶意探测的可能而中止数据操作,保护数据安全。

对于筛选模块2,供应方基于对象的加密标识数据,筛选得到与各个对象对应的评价参数。本领域技术人员可知,需求方数据和供应方数据中,每条数据记录均具有标识符字段;需求方和供应方可以通过标识符字段来确定共有的数据,从而实现数据共享。通常为了保护数据涉及主体的信息安全,需求方会将标识符字段的字段值进行加密后发送给供应方,在一种可选的实施方式中,供应方本地数据具有标识信息,并基于需求方发送的加密标识数据,供应方将其解密后和本地数据的标识信息进行筛选,以获得匹配的本地数据,并进而基于这些匹配的本地数据得到评价参数。由于该方式对于供需双方存在关于标识数据具体加密方式的约定或协议,存在一定的应用限制。因此,本实施例中提供了一种较佳的实施方式如下。

在一种较佳的实施方式中,加密标识数据基于单向加密算法进行加密;筛选模块2包括:

单向加密单元21,用于对供应方数据中的对象的标识数据采用单向加密算法进行加密处理,以获取加密结果;

匹配单元22,用于根据加密结果,与接收的加密标识数据进行筛选处理,以确定供应方数据与初始加密数据中共有的对象;

评价获取单元23,用于获取与对象对应的评价参数。

本实施方式中,需求方通过单项加密算法生成加密标识数据。单向加密算法即不可逆加密算法,其特征是加密过程中不需要使用密钥,输入明文后由系统直接经过加密算法处理成密文,这种加密后的数据是无法被解密的,只有重新输入明文,并再次经过同样不可逆的加密算法处理,得到相同的加密密文并被系统重新识别后才能真正解密。本实施方式中的单向加密算法包括但不限于MD5加密算法和SHA加密算法。

由于加密标识数据经过单项加密算法的处理而生成且不可解密,因此供应方对于供应方数据也要基于同样的单向加密算法的处理;当然本领域技术人员可以理解,所进行加密的是对应于需求方标识符字段的供应方标识符字段。这样,通过得到一组单项加密后的数据,将其与需求方发来的加密标识数据进行筛选匹配。这样就能够筛选得到供需双方的数据交集,即确定了供应方数据与初始加密数据中共有的对象。进一步地,供应方获取与上述确定的供需双方所共有的对象对应的评价参数,以便后续进行具体的处理。本实施方式通过供应方利用与需求方共同的单向加密方式对数据进行鉴别匹配,保证了对象数据传输过程中的安全可靠,同时对于供应方来说也是一种较为方便可行的处理方式。

在筛选模块2得到的结果的基础上,划分模块3基于确定的共有对象的评价参数,将共有对象对应的加密业务数据划分为若干个数据集合。其中,划分的依据可以结合需求方的使用目的进行,可以理解,此时需求方也能够掌握该种划分依据,并最终基于这种划分依据来使用目标数据。划分的依据可以包括但不限于按照评价参数的属性进行分类划分,或按照评价参数的值进行划分,或对于评价参数经统计或计算后的结果进行划分等。其意义在于通过将加密业务数据划分为若干个数据集合,将原来需求方发送的无序数据集按照需求方的使用目的形成若干个具有统计意义的数据集合,以便于后续模型训练等应用。

当评价参数是具体的评分数据时,在一种较佳的实施方式中,划分模块3包括:

第一单元31,用于基于对象评分数据,确定若干个评分数据区间;

第二单元32,用于根据评分数据区间,将对象对应的加密业务数据划分为若干个数据集合;其中,每个评分数据区间对应一个数据集合,每个数据集合对应若干加密业务数据。

本实施方式中提供了基于对象的评分数据划分数据集的处理方式。对象评分数据是一种常见的需求方需要从供应方获得的数据种类。为描述方便,以车险模型为例进行说明,当然本实施方式的评分数据范畴不限于此。保险公司通常需要从主机厂获得车辆的评分数据,用于训练车险模型,预测不同车型的车险理赔结果。此时评分数据具体可以是对于不同车型的评分。

首先,根据评分数据的大小,将其划分为若干个区间,例如划分为车型评分<1以及车型评分≥1的区间。之后根据上述区间,将对于的加密业务数据划分为数据集合。在上述车型评分的例子中即划分为两个数据集合。

当然本领域技术人员可以理解,根据评分数据的大小进行划分只是一个具体的实现方式,也可以通过基于数据本身的特性,例如奇偶数进行划分,或基于评分数据的后处理结果进行划分,例如基于评分数据的平方根值进行划分等;上述划分依据不构成对于本发明生成数据集合的任何限定。

基于划分模块3得到的数据集,数据处理模块4进一步对每个数据集合进行处理,得到对应的目标数据。由于数据集合虽然能够区分若干组数据之间的区别,但是考虑到需求方发送加密数据至供应方的初衷,往往需要得到更为直观精确的统计结果,也就是目标数据;因此需要对每个数据集合进行进一步的处理。

然而,由于每个数据集合中,各个对象对应的加密业务数据依然是以密文形式存在的。因此,供应方在基于评分参数对其划分的基础上,需要保证对上述密文进行处理得到的目标数据依然是能够最终为需求方所用的。

在一种较佳的实施方式中,供需双方采用了同态加密算法来实现这种目的。具体地,需求方的加密业务数据根据同态加密算法加密生成。发送模块5将目标数据发送至需求方后,需求方依然根据相应的同态加密算法对目标数据进行解密。

同态加密算法是基于数学难题的计算复杂性理论的密码学技术,经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果一致。本实施方式利用同态加密算法的这一原理,能够由供应方直接处理需求方发送的加密业务数据,从而保证了处理过程的目的性强,针对性高。而处理的结果即目标数据密文传回需求方后,需求方可以基于同态加密算法解密得到对应的准确结果,从而保证了需求方的数据需求的同时,也确保了目标数据的安全。作为一种可选的实施方式,具体可以采用同态加法加密算法实现。

较佳地,当本实施方式中的评价参数为评分数据时,基于同态加密算法的数据处理模块4可以通过分别基于每个所述数据集合对应的加密业务数据,得到所述目标数据。虽然目标数据是根据加密业务数据的计算得到,但是由于应用了同态加密算法,因此目标数据最终能够在需求方被还原为可使用的原始数据。

考虑到存在需求方进行数据恶意探测的可能性,除了上述通过发送固定值的方式,需求方还可能发送特定的小数位数来达到目的。比如:需求方发送的业务数据中大多为整数,但个别带有小数。虽然供应方返回了评分区间的均值,但需求方从均值是否含有特定的小数就可以了解该个体的评分情况。针对这种情况,在一种可选的实施方式中,可以通过设置噪声参数来进行应对,具体地,数据处理模块4包括:

计算单元41,用于计算所有的数据集合中加密业务数据的总体均值;

噪声生成单元42,用于根据总体均值和预设的随机数范围,分别生成每个数据集合的噪声参数;

合并单元43,用于分别获取每个所述数据集合对应的第一均值,并合并每个所述数据集合对应的第一均值和所述噪声参数,以获取每个数据结合对应的目标数据。

本实施方式中,有若干个数据集合,某个对象i对应的加密业务数据为enc(x

基于放置数据恶意探测的目的,设置噪声参数

则每个数据集合的目标数据为

发送模块5将目标数据发送至需求方后,需求方进行解密得到:

其中,decrypt代表基于同态加密算法的解密处理。从而,需求方获得各分区实际的业务数据均值,并带有放置恶意探测的随机噪声。

本实施例提供的数据处理系统,通过对需求方提供的加密业务数据划分为若干个数据集合进行处理,并将处理结果回传需求方,使需求方能够获得所需要的数据群体性统计结果的同时,防止了个体信息泄露的风险,并通过设置随机噪声避免了恶意套取个体数据信息,有效保证了数据交互的安全性。

实施例3

图4为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例1中的数据处理方法。图4显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1中的数据处理方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1中的数据处理方法中的步骤。

其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1中的数据处理方法中的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

技术分类

06120113807629