掌桥专利:专业的专利平台
掌桥专利
首页

特征距离的确定方法、装置和服务器

文献发布时间:2023-06-19 13:46:35


特征距离的确定方法、装置和服务器

技术领域

本说明书属于互联网技术领域,尤其涉及特征距离的确定方法、装置和服务器。

背景技术

在一些较复杂的数据处理场景中,第一数据方、第二数据方分别持有同一群组的数据对象不同类型的特征数据。有时,需要双方合作来计算待测数据对象相对于该群组的特征距离,且要求在合作计算特征距离的过程中,避免向对方或者其他第三方泄露己方所持有的数据。

因此,亟需一种能够在保护双方数据隐私的前提下合作计算待测数据对象相对于群组的特征距离的方法。

发明内容

本说明书实施例提供了一种特征距离的确定方法、装置和服务器,能够在保护双方数据隐私的前提下,合作确定出目标数据对象相对于第一对象群的特征距离。

本说明书实施例提供的一种特征距离的确定方法、装置和服务器是这样实现的:

一种特征距离的确定方法,应用于第一服务器,包括:根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

一种特征距离的确定装置,包括:构建模块,用于根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;交互模块,用于使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;运算模块,用于根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现以下步骤:根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

本说明书实施例提供的特征距离的确定方法、装置和服务器器,在持有不同数据的第一服务器和第二服务器需要合作确定目标数据对象相对第一对象群的特征距离时,第一服务器可以先使用基于所持有的目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建得到的目标数据对象的第一目标特征列,并与持目标数据对象的第二目标特征列的第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;第一服务器再根据预设的协议规则,以目标数据对象的目标特征列的第一分片、所持有的第一对象群的特征的协方差矩阵的逆的第一分片,与持有并使用目标数据对象的目标特征列的第二分片、第一对象群的特征的协方差矩阵的逆的第二分片的第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片,同时第二服务得到该特征距离的第二分片。从而可以在保护双方数据隐私的前提下,合作确定出目标数据对象相对于第一对象群的特征距离,有效避免了在合作确定特征距离的过程中,向对方或者其他第三方泄露己方所持有的数据。

附图说明

为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的特征距离的确定方法的系统的结构组成的一个实施例的示意图;

图2是在一个场景示例中,应用本说明书实施例提供的特征距离的确定方法的一种实施例的示意图;

图3是在一个场景示例中,应用本说明书实施例提供的特征距离的确定方法的一种实施例的示意图;

图4是本说明书的一个实施例提供的特征距离的确定方法的流程示意图;

图5是本说明书的一个实施例提供的服务器的结构组成示意图;

图6是本说明书的一个实施例提供的特征距离的确定装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。

本说明书实施例提供一种特征距离的确定方法,所述特征距离的确定方法具体可以应用于包含有第一服务器和第二服务器的系统中。具体可以参阅图1所示。第一服务器和第二服务器可以通过有线或无线的方式相连,以进行具体的数据交互。

其中,上述第一服务器具体可以理解为部署于第一数据方(例如,某购物网站等)一侧的服务器。具体的,第一服务器至少可以持有第一数据方所拥有的多个第一对象(例如,用户对象)的第一类特征的特征值。其中,所述第一类特征具体可以包括一个或多个第一特征。

例如,上述第一特征具体可以为用户对象的购物类特征;相应的,上述多个第一特征可以包括:用户对象的购物频率、用户对象的月度购物消费金额、用户对象的购买商品的商品类型、用户对象最常购买的商品品牌等等。

上述第二服务器具体可以理解为部署于第二数据方(例如,某银行等)一侧的服务器。具体的,第二服务器至少可以持有第二数据方所拥有的相同的多个第一对象的第二类特征的特征值。其中,所述第二类特征具体可以包括一个或多个第二特征。

例如,上述第二类特征具体可以为用户对象的资产类特征;相应的,上述多个第二特征可以包括:用户对象的月收入、用户对象的房贷记录、用户对象的理财收益等等。

在本实施例中,上述第一服务器、第二服务器具体可以包括一种应用于数据处理系统一侧,能够实现数据传输、数据处理等功能的后台服务器。具体的,上述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,上述第一服务器、第二服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定上述第一服务器、第二服务器所包含的服务器的数量。上述第一服务器、第二服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。

需要说明的是,第一服务器所持有的多个第一对象的第一类特征的特征值,与第二服务器所持有的多个第一对象的第二类特征的特征值为同一批用户对象的不同类型的特征的特征值。组合上述多个第一对象所得到群组可以记为第一对象群。

具体实施前,第一服务器和第二服务器还可以先根据特征数据的用户对象的身份标识,对各自所持有的第一类特征的特征值和第二类特征的特征值进行了对齐处理。通过上述对齐处理,可以使得第一服务器所持有的在第一对象群中排序在第i位置处(或编号为i)的用户对象的第一类特征的特征值,与第二服务器所持有的在第一对象群中排序在第i位置处(或编号为i)的用户对象的第二类特征的特征值所对应的是同一个用户对象。

具体的,例如,第一服务器可以持有W个用户对象的第一类特征的特征值,且第一类特征具体包括m个不同的第一特征。对于W个用户对象中的任意一个编号为i的用户对象的第一类特征的特征值,可以采用以下向量表示:(x

类似的,第二服务器可以持有同一批W个用户对象的第二类特征的特征值,且第二类特征具体可以包括n个不同的第二特征。对于W个用户对象中的任意一个编号为i的用户对象的第二类特征的特征值,可以采用以下向量表示:(y

其中,上述第一类特征的特征值(x

还需要说明的是,上述第一对象群中所包含的多个用户对象可以是携带有相同的类型标签(例如,风险标签),属于相同的第一类型(例如,风险用户)的用户对象。

在本实施例中,具体实施前,参阅图2所示,第一服务器可以先根据预设的协议规则,使用所持有的用户对象的第一类特征的特征值,与持有用户对象的第二类特征的特征值的第二服务器进行第二交互,以在保护数据隐私的前提下,获得第一对象群的特征的协方差矩阵的第一分片(协方差矩阵的一个share);其中,第二服务器可以获得第一对象群的特征的协方差矩阵的第二分片(协方差矩阵的另一个share)。

其中,上述预设的协议规则至少包括基于秘密分享的协议规则。

上述不经意传输(Oblivious Transfer,OT)具体可以是指一种可保护双方数据隐私的通信协议。基于该协议,通信双方无法知晓对方输入的具体数据,使得通信双方可以以一种选择模糊化的方式来传送数据信息。

上述秘密分享(Secret Sharing,SS)也称秘密共享,具体可以是指一种多方安全协议。基于秘密分享,可以将秘密以适当的方式拆分,拆分后的每一个份额(记为一个share)可以由不同的参与者持有和管理,且单个参与者无法基于单个份额恢复秘密信息,只有若干个参与者一同协作才能恢复秘密消息。

通过上述预设的协议规则进行交互,可以使得第一服务器和第二服务器在无法知晓对方所使用的具体数据的情况下,安全地完成相关的多种函数运算和数据交互,保护参与方的数据安全。

具体的,首先,第一服务器可以在本地根据第一对象群所包含的多个第一对象的第一类特征的特征值,计算得到针对第一对象群的第一类特征中的各个第一特征的方差(可以记为第一类特征的方差)、第一类特征中不同第一特征之间的协方差(可以记为第一类特征之间的协方差),以及第一类特征中各个第一特征的特征均值(可以记为第一类特征的特征均值,例如,u)。

接着,第一服务器可以根据多个第一对象的第一类特征的特征值,构建得到第一对象群的初始第一类特征列。

例如,针对第一类特征中编号为t的第一特征,可以构建得到以下所示的特征列:[x

然后,第一服务器可以将上述初始的第一类特征列中的各个特征值分别减去相对应的特征均值,得到所需要的第一对象群的第一类特征列。

例如,针对第一类特征中编号为t的第一特征,相对应的特征均值为u

类似的,第二服务器也可以先在本地根据多个第一对象的第二类特征的特征值,计算得到第一对象的第二类特征的方差、第二类特征之间的协方差,以及第二类特征的特征均值;再根据多个第一对象的第二类特征的特征值、第一对象群的第二类特征的特征均值,构建第一对象群的第二类特征列。

进一步,第一服务器可以使用第一对象群的第一类特征列,与使用第一对象的第二类特征列的第二服务器进行合作,计算得到第一类特征与第二类特征之间的协方差的第一分片;其中,第二服务器得到第一类特征与第二类特征之间的协方差的第二分片。

具体的,以第一服务器和第二服务器合作计算第一类特征中任意一个编号为p的第一特征,与第二类特征中任意一个编号为q的第二特征之间的协方差为例。

第一服务器或第二服务器可以发起关于计算协方差的第一联合运算请求。

第一服务器可以响应第一联合运算请求,将第一类特征列中与编号为p的第一特征对应的特征列a

其中,上述联合进行第一函数运算,具体可以是基于安全多方计算(MPC)协议进行第一函数运算,以保证参与计算的第一服务器和第二服务器只知晓己方输入的数据以及己方得到的数据,而无法知晓对方输入的数据以及对方得到的数据,从而可以有效地保护参与计算的双方的数据安全。

上述第一函数具体可以包括一种基于安全多方计算协议改造后的协方差运算函数。具体运算该第一函数时,可以先将特征列a

通过上述方式,第一服务器和第二服务器可以进行多次合作计算第一类特征中的各个第一特征与第二类特征中的各个第二特征之间的协方差;并且,第一服务器可以得到第一类特征中的各个第一特征与第二类特征中的各个第二特征之间的协方差的第一分片,作为第一类特征与第二类特征之间的协方差的第一分片;同时,第二服务器可以得到第一类特征中的各个第一特征与第二类特征中的各个第二特征之间的协方差的第二分片,作为第一类特征与第二类特征之间的协方差的第二分片。

然后,第一服务器可以使用第一类特征的方差、第一类特征之间的协方差、第一类特征与第二类特征之间的协方差的第一分片,与使用第二类特征的方差、第二类特征之间的协方差、第一类特征与第二类特征之间的协方差的第二分片进行交互,以组合出完整的协方差矩阵,即第一对象群的特征的协方差矩阵C。并且,第一服务可以得到并持有该协方差矩阵的第一分片;同时,第二服务器可以得到并持有该协方差矩阵的第二分片。

其中,上述第一对象群的特征的协方差矩阵可以基于统计分布的维度,有效、全面地反映出第一对象群中的多个第一对象的集群特征。

需要说明的是,由于上述特征的协方差矩阵同时包含有第一服务器所持有的第一类特征的相关信息和第二服务器所持有的第二类特征的相关信息。

为了避免第一服务器和第二服务器中的任何一方基于该协方差矩阵推测出对方所持有的相关数据,不会将完整的协方差矩阵提供给任何一方。而是将协方差矩阵拆分成第一分片和第二分片两部分,并由第一服务器和第二服务器分别持有并保管该协方差矩阵的一个分片。这样可以保证任何一方都不持有完整的协方差矩阵。并且,当双方合作需要使用到协方差矩阵时,可以分别输入各自所持有的协方差矩阵的分片,以得到和使用完整的协方差矩阵。

在本实施例中,为了方便后续能够在保护数据隐私的前提下,更加高效地利用协方差矩阵进行具体的数据处理,第一服务器还可以使用第一对象群的特征的协方差矩阵的第一分片与使用第一对象的特征的协方差矩阵的第二分片的第二服务器进行第三交互,在保护数据隐私的前提下对该协方差矩阵进行求逆运算。并且,第一服务器可以得到并保管第一对象群的特征的协方差矩阵的逆的第一分片;同时,第二服务器可以得到并保管第一对象群的特征的协方差矩阵的逆的第二分片。这样,后续第一服务器和第二服务器可以直接使用上述协方差矩阵的逆的分片来合作进行数据处理,减少了后续数据处理的处理量。

通过上述过程,在具体实施前,第一服务器和第二服务器可以分别使用各自所持有的第一对象的不同特征的特征值,在保护双方数据隐私的前提下,合作得到并分别保管第一对象群的特征的协方差矩阵的一个分片。

当前第一服务器想要检测新注册的目标用户对象(或者称目标数据对象)是否属于风险用户。其中,第一服务器持有该目标用户对象的第一类特征的特征值,第二服务器持有该目标用户对象的第二类特征的特征值。

具体实施时,首先,第一服务器可以发起关于目标用户对象的检测请求。其中,该检测请求至少携带有待检测的目标用户对象的身份标识。

参阅图3所示,第一服务器可以响应该检测请求,根据所持有的目标用户对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建得到目标用户对象的第一目标征列。

具体的,第一服务器可以先根据目标用户对象的第一类特征的特征值,构建目标用户对象的初始的第一目标特征列:h

再将上述初始的第一目标特征列中的各个第一特征的特征值分别减去相对应的特征均值,得到该目标用户对象的第一目标特征列:h

类似的,第二服务器可以响应检测请求,在本地根据所持有的目标用户对象的第二类特征的特征值、第一对象群的第二类特征的特征均值,构建得到目标用户对象的第二目标特征列,可以记为:r

然后,第一服务器可以使用目标用户对象的第一目标特征列,与使用目标用户对象的第二目标特征列的第二服务器进行第一交互,以在保护双方数据隐私的前提下,组合得到目标用户对象完整的目标特征列,可以表示为c

这样,第一服务器和第二服务器都不持有目标用户对象完整的目标特征列,从而可以避免向对方泄露己方所持有的目标用户对象的特征。

进一步,上述预设的协议规则还可以包括基于多方安全计算的协议规则,第一服务器可以根据预设的协议规则,以所持有的目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与以所持有的目标数据对象的目标特征列的第二分片、第一对象群的特征的协方差矩阵的逆的第二分片作为输入的第二服务器合作,进行预设的特征距离函数的运算,以计算出目标用户对象相对第一对象群的特征距离;并且,第一服务器得到该特征距离的第一分片;同时,第二服务器得到该特征距离的第二分片。

其中,上述特征距离具体可以是马氏距离。马氏距离(Mahalanobis distance)是一种基于统计学的,能够表示出点与一个分布之间差异情况的距离。

需要说明的是,在本实施例中,选择使用马氏距离而不是欧式距离(或者称欧几里得距离)作为用于衡量目标用户对象与第一对象群整体的差异情况的特征距离,这是考虑到使用欧式距离,对不同的特征维度是不作区分的,这样势必会忽略掉某些特征统计信息。而使用马氏距离能够充分地利用上述特征统计信息,进而可以基于统计分布的维度,更加精准地反映出目标用户对象相对于第一对象群整体在特征上的差异情况,提高检测的精度,减少检测误差。

在所述特征距离为马氏距离的情况下,上述预设的特征距离函数可以表示为以下形式:

(c

其中,c

具体的,第一服务器可以根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器合作通过安全多方计算,对上述预设的特征距离函数进行求解,以得到特征距离的第一分片。

最后,第一服务器可以发起比较请求。

第一服务器响应比较请求,以特征距离的第一分片作为输入,与以特征距离的第二分片作为输入的第二服务器合作进行预设的比较函数运算,得到对应的比较结果。

其中,上述预设的比较函数用于根据输入的特征距离的第一分片和第二分片,还原出特征距离;并将该特征距离,与预设的距离阈值进行数值比较,得到并输出对应的比较结果。

相应的,第一服务器可以获取并根据该比较结果,确定特征距离是否小于预设的距离阈值。在确定所述特征距离小于预设的距离阈值的情况下,可以确定目标用户对象与第一对象群中的第一对象属于相同的类型。因此,可以确定目标用户对象的类型为风险用户。进而可以对该目标用户对象设置风险标签,和/或,对该目标用户对象进行风险追踪监测。相反,在确定所述特征距离大于等于预设的距离阈值的情况下,可以确定目标用户对象与第一对象群中的第一对象属于不相同的类型。因此,可以确定目标用户对象的类型为正常用户。

通过上述实施例,基于本说明书实施例所提供的方法,第一服务器和第二服务器可以在不向对方泄露己方所持有的数据的前提下,合作计算并得到目标用户对象相对第一对象群的特征距离的不同分片;并利用各自所持有的特征距离的不同分片,还可以进一步在不向对方泄露己方所持有的数据的前提下,合作确定出目标用户对象的具体类型。

参阅图4所示,本说明书实施例提供了一种特征距离的确定方法,其中,该方法具体应用于第一服务器一侧。具体实施时,该方法可以包括以下内容:

S401:根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;

S402:使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;

S403:根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

在一些实施例中,上述第一服务器具体可以为部署于第一数据方的服务器,第一服务器可以持有第一对象群所包含的第一对象的第一类特征的特征值,以及目标数据对象的第一类特征的特征值。

上述第二服务器具体可以为部署于第二数据方的服务器,第二服务器可以持有第一对象群所包含的第一对象的第二类特征的特征值,以及目标数据对象的第二类特征的特征值。

其中,上述第一对象群具体可以包含有多个第一对象。上述目标数据对象具体可以是第一对象群中的某一个数据对象,也可以是第一对象群外的任意一个数据对象。

上述第一类特征具体可以包含有一个或多个不同的第一特征。上述第二类特征具体可以包含有一个或多个不同的第二特征。

在一些实施例中,上述第一对象群所包含的多个第一对象可以是属于同一个类型(记为第一类型)数据对象。

在一些实施例中,上述目标数据对象具体可以是待检测是否存在风险的目标用户对象。相应的,上述第一类型具体可以包括风险用户。上述第一对象群所包含的多个第一对象具体可以是已知存在风险的、属于风险用户的样本用户对象。

当然,上述所列举的目标数据对象、第一类型只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,上述目标数据对象还可以包括其他类型的数据对象。例如,在企业运营监管场景中,上述目标数据对象还可以是待检测运营状况的目标企业对象。相应的,上述第一类型还可以包括运营正常企业等等。

在一些实施例中,具体实施前,第一服务器可以先根据预设的协议规则,使用所持有的第一对象群的第一类特征的特征值,与使用持有第二类特征的特征值的第二服务器合作,计算得到第一对象群的特征的协方差矩阵的逆的第一分片;其中,第二服务器得到第一对象群的特征的协方差矩阵的逆的第二分片。

上述第一对象群的特征的协方差矩阵能够基于统计分布的维度,有效、全面地反映出第一对象群中的多个第一对象的集群特征。

上述预设的协议规则至少包括基于秘密分享的协议规则。进一步,上述预设的协议规则还可以包括基于不经意传输的协议规则。基于上述预设的协议规则进行交互,可以使得第一服务器和第二服务器在无法知晓对方所使用的具体数据的情况下,安全地完成相关的函数运算和数据交互,保护参与方的数据安全。此外,针对具体的应用场景,上述预设的协议规则还可以包括基于多方安全计算的协议规则。

在一些实施例中,上述根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列,具体实施时,可以包括以下内容:第一服务器根据预设的特征排序,排列目标数据对象的第一类特征的特征值,得到目标数据对象的初始的第一目标特征列;再将初始的第一目标特征列中的各个特征值分别减去第一对象群的第一类特征的特征均值中相对应的特征均值,得到目标数据对象的第一目标特征列。

类似的,第二服务器可以构建得到目标数据对象的第二目标特征列。

在一些实施例中,第一服务器可以根据预设的协议规则,使用目标数据对象的第一目标特征列与使用目标数据对象的第二目标特征列的第二服务器进行第一交互,组合得到完整的目标数据对象的目标特征列;并且,第一服务器可以得到该目标特征列的第一分片;同时,第二服务器可以得到该目标特征列的第二分片。

在一些实施例中,第一服务器可以根据预设的协议规则,使用目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与使用目标数据对象的目标特征列的第二分片、第一对象群的特征的协方差矩阵的逆的第二分片作为输入的第二服务器合作进行预设的特征距离函数的运算,以计算出目标数据对象相对第一对象群的特征距离;并且,第一服务器可以得到该特征距离的第一分片;同时,第二服务器可以得到该特征距离的第二分片。

在一些实施例中,上述特征距离具体可以包括马氏距离等。当然,具体实施时,根据具体的应用场景和处理需求,还可以使用其他合适类型的距离作为用于衡量目标数据对象相对第一对象群整体的差异情况的特征距离。

在一些实施例中,在得到目标数据对象相对第一对象群的特征距离的第一分片之后,所述方法具体实施时,还可以包括以下内容:第一服务器响应比较请求,以特征距离的第一分片作为输入,与以特征距离的第二分片作为输入的第二服务器合作进行预设的比较函数运算,得到比较结果;根据所述比较结果,确定特征距离是否小于预设的距离阈值;在确定所述特征距离小于预设的距离阈值的情况下,可以确定目标数据对象的类型为第一类型。

在一些实施例中,在确定所述特征距离大于等于预设的距离阈值的情况下,可以确定目标数据对象的类型不是第一类型。其中,上述预设的距离阈值具体可以是预先根据历史样本数据统计得到的。

在一些实施例中,在根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列之前,所述方法具体实施时,还可以包括以下内容:第一服务器使用多个第一对象的第一类特征的特征值与第二服务器进行第二交互,以得到第一对象群的特征的协方差矩阵的第一分片;其中,第二服务器得到第一对象群的特征的协方差矩阵的第二分片;第一服务器使用第一对象群的特征的协方差矩阵的第一分片与第二服务器进行第三交互,以得到第一对象群的特征的协方差矩阵的逆的第一分片;其中,第二服务器得到第一对象群的特征的协方差矩阵的逆的第二分片。

在一些实施例中,上述使用第一对象的第一类特征的特征值与第二服务器进行第二交互,具体实施时,可以包括以下内容:第一服务器根据多个第一对象的第一类特征的特征值,计算第一类特征的方差、第一类特征之间的协方差,以及第一对象群的第一类特征的特征均值;第一服务器根据多个第一对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建第一对象群的第一类特征列;第一服务器使用第一对象群的第一类特征列,与使用第一对象的第二类特征列的第二服务器合作,计算得到第一类特征与第二类特征之间的协方差的第一分片;其中,第二服务器得到第一类特征与第二类特征之间的协方差的第二分片;第一服务器使用第一类特征的方差、第一类特征之间的协方差、第一类特征与第二类特征之间的协方差的第一分片,与第二服务器交互,得到协方差矩阵的第一分片;其中,第二服务器得到协方差矩阵的第二分片。

在一些实施例中,所述第一类特征具体可以包括多种第一特征;相应的,所述第一类特征列具体可以包括多个第一特征列。其中,每一个第一特征列对应一种第一特征。

类似的,所述第二类特征具体可以包括多种第二特征;相应的,所述第二类特征列具体可以包括多个第二特征列。其中,每一个第二特征列对应一种第二特征。

在一些实施例中,上述使用第一对象群的第一类特征列,与使用第一对象的第二类特征列的第二服务器合作,计算得到第一类特征与第二类特征之间的协方差的第一分片,具体实施时,可以包括以下内容:第一服务器分别使用第一对象的多个第一特征列,与使用第一对象的第二类特征列的第二服务器合作,计算得到第一类特征中的多个第一特征分别与第二类特征之间的协方差的第一分片,作为第一类特征与第二类特征之间的协方差的第一分片。

其中,上述第一类特征与第二类特征之间的协方差具体可以包括第一类特征中的各个第一特征与第二类特征中各个第二特征之间的协方差。

在一些实施例中,上述根据多个第一对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建第一对象群的第一类特征列,具体实施时,可以包括以下内容:第一服务器根据多个第一对象的第一类特征的特征值,构建第一对象群的初始第一类特征列;将所述第一对象群的初始第一类特征列中的各个特征值分别减去第一对象群的第一类特征的特征均值,得到所述第一对象群的第一类特征列。

在一些实施例中,上述第一对象群的第一类特征列具体可以包括与多个第一特征分别对应的多个第一特征列。以构建多个第一特征列中任意一个当前的第一特征列为例,第一服务器可以从所持有的第一对象的第一类特征的特征值中抽取各个第一对象的当前的第一特征的特征值;再根据预先与第二服务器对齐过的第一对象的对象标识的排序,排列多个第一对象的当前的第一特征的特征值,得到当前初始的第一特征列;进一步,再将当前初始的第一特征列中的各个特征值,分别减去第一对象群的第一类特征的特征均值中的当前的第一特征的特征均值,得到当前的第一特征列。

按照上述方式,第一服务器可以在本地构建出多个第一特征列,作为第一对象群的第一类特征列。类似的,第二服务器可以在本地构建出多个第二特征列,作为第一对象群的第二类特征列。

由上可见,基于本说明书实施例提供的特征距离的确定方法,在双方需要合作确定目标数据对象相对第一对象群的特征距离时,第一服务器先使用基于所持有的目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值构建得到的目标数据对象的第一目标特征列,与第二服务器进行第一交互,分别得到目标数据对象的目标特征列的不同分片;第一服务器再根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片,与第二服务器进行预设的特征距离函数的运算,分别得到目标数据对象相对第一对象群的特征距离的不同分片。从而可以在保护双方数据隐私的前提下,合作确定出目标数据对象相对于第一对象群的特征距离;还可以根据上述特征距离,在保护双方数据隐私前提下,进一步通过合作准确地确定出目标数据对象是否与第一对象群中第一对象的类型相同,是否属于第一类型。

本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

为了能够更加准确地完成上述指令,参阅图5所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口501、处理器502以及存储器503,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。

其中,所述网络通信端口501,具体可以用于向第二服务器发起协作处理请求。

所述处理器502,具体可以用于响应该协作处理请求,根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

所述存储器503,具体可以用于存储相应的指令程序。

在本实施例中,所述网络通信端口501可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。

在本实施例中,所述处理器502可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中,所述存储器503可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。

本说明书实施例还提供了一种基于上述特征距离的确定方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。

在本实施例中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。

参阅图6所示,在软件层面上,本说明书实施例还提供了一种特征距离的确定装置,该装置具体可以包括以下的结构模块:

构建模块601,具体可以用于根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列;其中,第一对象群包含有多个第一对象;

交互模块602,具体可以用于使用目标数据对象的第一目标特征列与第二服务器进行第一交互,得到目标数据对象的目标特征列的第一分片;其中,第二服务器得到目标数据对象的目标特征列的第二分片;

运算模块603,具体可以用于根据预设的协议规则,以目标数据对象的目标特征列的第一分片、第一对象群的特征的协方差矩阵的逆的第一分片作为输入,与第二服务器进行预设的特征距离函数的运算,得到目标数据对象相对第一对象群的特征距离的第一分片;其中,第二服务器得到特征距离的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

在一些实施例中,所述特征距离具体可以包括马氏距离等。

在一些实施例中,所述第一对象群所包含的第一对象的类型具体可以为第一类型。

在一些实施例中,所述第一类特征具体可以包括多种第一特征;相应的,所述第一类特征列可以包括多个第一特征列。

在一些实施例中,所述预设的协议规则具体还可以包括基于不经意传输的协议规则。

在一些实施例中,所述目标数据对象具体可以包括待检测是否存在风险的目标用户对象等,所述第一类型包括风险用户等。

在一些实施例中,所述装置具体还可以比较模块,具体可以用于响应比较请求,以特征距离的第一分片作为输入,与以特征距离的第二分片作为输入的第二服务器合作进行预设的比较函数运算,得到比较结果;根据所述比较结果,确定特征距离是否小于预设的距离阈值;在确定所述特征距离小于预设的距离阈值的情况下,确定目标数据对象的类型为第一类型。

在一些实施例中,所述装置还包括预处理模块,其中,所述预处理模块具体用于在在根据目标数据对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建目标数据对象的第一目标特征列之前,使用多个第一对象的第一类特征的特征值与第二服务器进行第二交互,以得到第一对象群的特征的协方差矩阵的第一分片;其中,第二服务器得到第一对象群的特征的协方差矩阵的第二分片;使用第一对象群的特征的协方差矩阵的第一分片与第二服务器进行第三交互,以得到第一对象群的特征的协方差矩阵的逆的第一分片;其中,第二服务器得到第一对象群的特征的协方差矩阵的逆的第二分片。

在一些实施例中,上述预处理模块具体实施时,可以按照以下程序执行,进行第二交互,以得到协方差矩阵的第一分片:根据多个第一对象的第一类特征的特征值,计算第一类特征的方差、第一类特征之间的协方差,以及第一对象群的第一类特征的特征均值;根据多个第一对象的第一类特征的特征值、第一对象群的第一类特征的特征均值,构建第一对象群的第一类特征列;使用第一对象群的第一类特征列,与使用第一对象的第二类特征列的第二服务器合作,计算得到第一类特征与第二类特征之间的协方差的第一分片;其中,第二服务器得到第一类特征与第二类特征之间的协方差的第二分片;使用第一类特征的方差、第一类特征之间的协方差、第一类特征与第二类特征之间的协方差的第一分片,与第二服务器交互,得到协方差矩阵的第一分片;其中,第二服务器得到协方差矩阵的第二分片,所述预设的协议规则至少包括基于秘密分享的协议规则。

需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

由上可见,基于本说明书实施例提供的特征距离的确定装置,可以在保护双方数据隐私的前提下,合作确定出目标数据对象相对于第一对象群的特征距离;进一步还可以在保护双方数据隐私前提下,合作确定出目标数据对象是否与第一对象群所包含的第一对象的类型相同,是否为第一类型。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。

通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

技术分类

06120113807614