一种参与方确定方法、装置、电子设备及可读存储介质

文献发布时间：2024-04-18 20:01:23

技术领域

本申请涉及人工智能技术领域，尤其涉及一种参与方确定方法、装置、电子设备及可读存储介质。

背景技术

为保护用户隐私以及数据安全，目前可使用联邦学习算法构建多个参与方共享的高性能模型，具体方法包括使用多方的数据联合建模，建模过程中各方数据不离开本地，不暴露给其他参与建模方，以达到保护用户隐私和数据安全的目的，同时利用各方数据建立高性能模型。

由于联邦学习过程中，各参与方利用本地数据训练局部模型，即各方本地数据保密，若参与方的数据与需求方所需数据的差异较大，易导致建模效果较差。

发明内容

本申请提供一种参与方确定方法、装置、电子设备及可读存储介质，以解决建模效果较差的问题。

第一方面，本申请实施例提供了一种参与方确定方法，应用于需求方设备，包括：

获取需求方数据集；

基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，所述M个候选数据集中的第N个候选数据集对应第N个候选参与方设备，所述M个候选数据集的数据分布信息用于表征所述M个候选数据集在所述需求方数据集上的数据分布情况；

基于所述数据分布信息确定与所述需求方目标参与方设备，所述目标参与方设备包括与所述M个候选数据集对应的M个候选参与方设备中的至少一个参与方设备；

其中，M为正整数，N为小于或等于M的正整数。

第二方面，本申请实施例还提供一种参与方确定装置，包括：

第一获取模块，用于获取需求方数据集；

第二获取模块，用于基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，所述M个候选数据集中的第N个候选数据集对应第N个候选参与方设备，所述M个候选数据集的数据分布信息用于表征所述M个候选数据集在所述需求方数据集上的数据分布情况；

确定模块，用于基于所述数据分布信息确定与所述需求方设备进行联邦学习的目标参与方设备，所述目标参与方设备包括与所述M个候选数据集对应的M个候选参与方设备中的至少一个参与方设备；

其中，M为正整数，N为小于或等于M的正整数。

第三方面，本申请实施例还提供了一种电子设备，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的参与方确定方法的步骤。

第四方面，本申请实施例还提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的参与方确定方法的步骤。

本申请实施例中，基于所述需求方数据集，获取M个候选数据集的数据分布信息，可以确保联邦学习中各参与方数据的私密性，并且基于获取的M个候选数据集的数据分布信息，确定目标参与方设备，所述目标参与方设备包括与所述M个候选数据集对应的M个候选参与方设备中的至少一个参与方设备，可以基于每一候选数据集在所述需求方数据集上的数据分布情况，对所述M个候选数据集进行选择，从而确定与所述需求方设备进行联邦学习的目标参与方，也即确定与所述需求方数据集的数据分布更相似的候选数据集，使得参与联邦学习的各参与方之间的数据分布差异减小，所述目标参与方参与联邦学习过程中可提供更符合需求方设备需求的数据，从而提升建模效果。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种参与方确定方法的流程示意图；

图2是本申请实施例提供的一种参与方选择方法的流程示意图；

图3是本申请实施例提供的一种参与方确定装置的结构示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

在联邦学习中，可由需求方设备发起联邦学习，然后，由各个参与方设备利用本地数据训练局部模型，并将参数传给协调方设备，由协调方设备将各方上传的模型参数合并为全局模型，再将全局模型传输给各个参与方设备进行本地化更新，得到符合需求方设备需求的模型。

请参阅图1，图1是本申请实施例提供的一种参与方确定方法的流程示意图，应用于需求方设备，如图1所示，包括以下步骤：

步骤101、获取需求方数据集。

其中，需求方设备可以理解为发起联邦学习的设备，基于上述需求方设备发起的联邦学习，需求方设备使用符合需求的本地需求方数据集，以及其他参与联邦学习的参与方设备使用各自本地的数据集进行联邦学习，以得到与上述需求方设备的需求相适应的模型以及模型参数。

可以理解，上述需求方数据集即与上述联邦学习的目的相适应的数据集，但仅仅使用上述需求方数据集进行模型训练，数据量较少，因而可以通过联邦学习在互相不暴露数据隐私的情况下，联合建模和训练。

步骤102、基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，所述M个候选数据集中的第N个候选数据集对应第N个候选参与方设备，所述M个候选数据集的数据分布信息用于表征所述M个候选数据集在所述需求方数据集上的数据分布情况。

由于联邦学习是在互相不暴露数据隐私的基础上进行的，联邦学习中各参与方设备的数据不离开本地，不暴露给其他参与方设备，那么，若联邦学习过程中各参与方的数据分布差异过大，或与联邦学习的需求不符，也无法对各参与方的数据进行筛选，从而易导致建模效果较差。

本申请实施例中，上述M个候选数据集即为各候选参与方设备的本地数据，可以理解，候选数据集与候选参与方设备为一一对应的关系，即一个候选参与方设备拥有一个候选数据集，在联邦学习中，候选参与方设备可使用本地的候选数据集参与联邦学习。

需要说明的是，上述M个候选数据集中每一候选数据集存在一数据分布信息，数据分布信息可用于表征上述候选数据集在上述需求方数据集上的数据分布差异情况，例如，上述候选数据集中数据分布与上述需求方数据集中数据分布的相似性，上述候选数据集中数据特征与上述需求方数据集中数据特征的匹配度，以及上述候选数据集中数据标签的均衡度等。

其中，可通过在上述M个候选数据集中确定实际用于参与联邦学习的候选数据集，进而确定实际用于参与联邦学习的候选数据集对应的参与方设备。

步骤103、基于所述数据分布信息确定与所述需求方设备进行联邦学习的目标参与方设备，所述目标参与方设备包括与所述M个候选数据集对应的M个候选参与方设备中的至少一个参与方设备；

其中，M为正整数，N为小于或等于M的正整数。

可以理解，每一候选数据集对应一个参与方设备，上述步骤103中确定目标参与方设备，也即确定目标参与方设备的候选数据集。具体的，可通过比较M个候选数据集的数据分布信息，选取M个候选数据集中与上述需求方数据集的数据分布差异较小的一个或多个候选数据集，进而确定与该一个或多个候选数据集对应的候选参与方设备作为上述目标参与方设备，这样，在联邦学习中，仅选取M个候选参与方设备中的目标参与方设备参与联邦学习，可以减小参与建模的数据分布差异，从而提升建模精度。

此外，基于所述M个候选数据集的数据分布信息确定目标参与方设备，即可以通过所述M个候选数据集的数据分布信息对所述M个候选数据集进行筛选，且所述M个候选数据集的数据分布信息基于所述需求方数据集确定，所述需求方数据集可反映所述需求方设备发起联邦学习的需求，通过所述数据分布信息对候选数据集的筛选可使参与联邦学习的数据尽可能大地满足联邦学习的需求，提高数据选择的有效性。

可选地，所述数据分布信息包括如下至少一项信息：

数据分布相似性；

数据特征匹配度；

数据标签的均衡度。

其中，上述数据分布相似性可从数据分布的角度表征候选数据集与上述需求方数据集的相似性，从而基于数据分布相似性确定的目标参与方设备，可以筛选得到与需求方数据集的数据分布相似性较高的候选数据集，避免联邦学习中参与方提供的数据分布差异较大。

其中，上述数据特征匹配度可从数据特征的角度表征候选数据集与上述需求方数据集的匹配度，可通过数据特征表示数据集中的数据类别，从而选择匹配度较高的候选数据集。

其中，上述数据标签的均衡度可从标签类别分布的角度表征候选数据集中与上述需求方数据集的数据分布情况，从而选择标签类别分布差异较小的候选数据集，以及对应的候选参与方设备。

可选地，所述数据分布信息包括数据分布相似性；

步骤102中所述基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，包括：

获取所述需求方数据集的第一数据分布向量；

基于所述第一数据分布向量，得到加密的第一加密数据，并将所述第一加密数据发送至第N个候选参与方设备；

接收所述第N个候选参与方设备发送的第二加密数据；

基于所述第一数据分布向量和所述第二加密数据，确定第N个候选数据集与所述需求方数据集的数据分布相似性；

其中，所述第二加密数据由所述第N个候选参与方设备基于所述第一加密数据和第N个候选数据集的第二数据分布向量加密得到，所述第二数据分布向量为第N个候选参与方设备基于第N个候选数据集得到。

其中，上述第一数据分布向量可用于表征上述需求方数据集的数据分布情况，上述第二数据分布向量可用于表征上述第N个候选数据集的数据分布情况，在计算第N个候选数据集与需求方数据集的数据分布相似性时，可通过上述第一数据分布向量和上述第二数据分布向量间接计算得到，而无需暴露上述需求方数据集和上述第N个候选数据集中的原始数据。

并且，通过上述需求方设备的第一数据分布向量和上述第N个候选参与方设备的第二数据分布向量计算第N个候选数据集与需求方数据集的数据分布相似性时，上述第一数据分布向量对上述第N个候选参与方设备保密，上述第二数据分布向量对上述需求方设备保密。

在计算第N个候选数据集与需求方数据集的数据分布相似性的过程中，上述需求方设备与上述第N个候选参与方设备之间可通过加密算法进行通信，例如，保护隐私的曼哈顿距离算法、基于同态加密算法的欧式距离等。

具体的，上述需求方设备与上述第N个候选参与方设备可预先约定一种加密算法，上述需求方设备将基于第一数据分布向量加密得到的第一加密数据发送至上述第N个候选参与方设备，然后上述第N个候选参与方设备基于第一加密数据和上述第二数据分布向量加密得到第二加密数据，并将第二加密数据发送至上述需求方设备，进而上述需求方设备可基于上述第二加密数据与本地的第一数据分布向量计算，得到第一数据分布向量与第二数据分布向量的距离作为上述第N个候选数据集与上述需求方数据集的数据分布相似性。

需要说明的是，上述需求方设备与上述第N个候选参与方设备之间基于加密算法的通信，可存在更多的交互过程，例如，一方可将生成的公钥发送至另一方，又例如，在一方计算得到两个向量的距离后可将该距离发送至另一方，具体步骤可参照选择的加密算法。

该实施方式中，可基于所述需求方数据集的第一数据分布向量与所述第N个候选数据集的第二数据分布向量，确定第N个候选数据集与所述需求方数据集的数据分布相似性，且确定第N个候选数据集与所述需求方数据集的数据分布相似性的过程中，基于所述第一数据分布向量，得到加密的第一加密数据，并将所述第一加密数据发送至第N个候选参与方设备；接收所述第N个候选参与方设备发送的第二加密数据；所述第N个候选数据集与所述需求方数据集的数据分布相似性基于所述第一数据分布向量和所述第二加密数据得到，即所述第一数据分布向量对于所述第N个候选参与方设备是保密的，所述第二数据分布向量对于所述需求方设备也是保密的，提高了数据的安全性和隐私性。

可选地，获取所述需求方数据集的第一数据分布向量，包括：

基于哈希变换，将所述需求方数据集中的数据映射至至少一个第一桶内，得到所述至少一个第一桶的第一桶信息；

获取M个第二桶信息中的桶编号；

基于所述第一桶信息中的桶编号与所述M个第二桶信息中的桶编号，获取桶编号序列，并将所述桶编号序列发送至所述M个候选参与方设备；

基于所述第一桶信息和所述桶编号序列，获取所述第一数据分布向量；

其中，所述M个第二桶信息中的第N个第二桶信息由第N个候选参与方设备将第N个候选数据集基于所述哈希变换映射得到，所述第二数据分布向量为第N个候选参与方设备基于第N个第二桶信息与所述桶编号序列得到。

其中，上述哈希变换可将距离较近的数据映射到同一个桶内，同时将距离较远的数据映射到不同的桶内，可以理解，上述至少一个第一桶即为上述需求方数据集中的数据映射完成后得到的桶，在同一桶内的数据可理解为相似性较大的数据，并且一个桶内的数据量越多表示该桶对应的数据类别的数据越多。

其中，上述第一桶信息可包括每一第一桶的桶编号，以及每一第一桶内的数据量，通过桶编号，可以确定映射的数据集中的数据有哪些数据类别，进而通过桶编号的对比，可以确定两个数据集中是否存在同一数据类别的数据。

例如，上述需求方数据集中的数据可映射至桶编号为1号桶和2号桶的桶内，且1号桶内有3个数据，2号桶内有2个数据；第N个候选数据集中的数据可映射至桶编号为2号桶和3号桶的桶内，且2号桶内有2个数据，3号桶内有1个数据；在确定上述需求方数据集的第一数据分布向量和该候选数据集的第二数据分布向量过程中，首先将桶编号做并集得到桶编号序列为{1号桶，2号桶，3号桶}，那么，按照该序列，第一数据分布向量为(3,2,0)，第二数据分布向量为(0,2,1)，计算第一数据分布向量与第二数据分布向量的距离为

需要说明的是，若M为大于1的整数，在得到上述桶编号序列时需将M个候选数据集映射得到的桶编号一起做并集，例如，若还存在第K个候选数据集中的数据可映射至桶编号为4号桶的桶内(K为小于或等于M的正整数，且K≠N)，且4号桶内有1个数据，此时，桶编号序列为{1号桶，2号桶，3号桶，4号桶}，那么，按照该序列，第一数据分布向量为(3,2,0,0)，第N个候选数据集的第二数据分布向量为(0,2,1,0)，第K个候选数据集的第二数据分布向量为(0,0,0,1)。

该实施方式中，获取所述需求方数据集的第一数据分布向量，包括：基于哈希变换，将所述需求方数据集中的数据映射至至少一个第一桶内，得到所述至少一个第一桶的第一桶信息；获取M个第二桶信息中的桶编号；基于所述第一桶信息中的桶编号与所述M个第二桶信息中的桶编号，获取桶编号序列，并将所述桶编号序列发送至所述M个候选参与方设备；基于所述第一桶信息和所述桶编号序列，获取所述第一数据分布向量。即所述第一数据分布向量的获取通过对所述需求方数据集的加密后得到的，所述第二数据分布向量在所述M个候选参与方设备内也是加密对应的候选数据集得到的，这样，各方设备可以在确保本地数据集保密的情况下实现数据分布向量的获取，进一步提高了数据的隐私性。

需要说明的是，对于M个候选参与方设备中任一候选参与方设备，可执行如下步骤：

接收需求方设备发送的第一加密数据，所述第一加密数据由所述需求方设备基于第一数据分布向量加密得到，所述第一数据分布向量为所述需求方设备本地基于需求方数据集获取的数据分布向量；

获取本地的候选数据集；

获取所述候选数据集的第二数据分布向量；

基于所述第一加密数据与所述第二数据分布向量，得到加密的第二加密数据；

将所述第二加密数据发送至所述需求方设备，所述第二加密数据用于所述需求方设备基于所述第一数据分布向量确定所述候选数据集与所述需求方数据集的数据分布相似性。

其中，获取所述候选数据集的第二数据分布向量，可具体包括：

基于哈希变换，将所述候选数据集中的数据映射至第二桶内，得到所述第二桶的第二桶信息；

将所述第二桶信息中的桶编号发送至所述需求方设备，所述第二桶信息中的桶编号用于所述需求方设备获取桶编号序列；

基于所述第二桶信息和所述桶编号序列，获取所述第二数据分布向量。

可选地，所述数据分布信息包括数据特征匹配度；

步骤102中所述基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，包括：

获取所述需求方数据集的数据特征序列以及每一数据特征的第一特征参数，所述数据特征序列包括按照数据重要性排序的多个数据特征；

将多个第一特征参数发送至所述M个候选参与方设备，所述多个第一特征参数用于第N个候选参与方设备确定第N个候选数据集中与所述数据特征匹配的匹配特征，以及所述匹配特征的第二特征参数；

接收所述M个候选参与方设备发送的第二特征参数；

基于所述第二特征参数与所述数据特征序列，确定第N个候选数据集与所述需求方数据集的数据特征匹配度。

其中，上述数据特征序列可通过对上述需求方数据集进行特征工程得到。

其中，上述第一特征参数可用于描述每一数据特征，例如，数据特征的名称、数据特征的具体含义等。

对于第N个候选参与方设备来说，可通过每一数据特征的第一特征参数，确定第N个候选数据集中是否存在与其中一个第一特征参数的匹配特征，以及存在多少个匹配特征。对于上述匹配特征的第二特征参数，也可直接使用与其匹配的第一特征参数，例如，匹配的第一特征参数中的特征名称。

具体的，在确定第N个候选数据集与需求方数据集的数据特征匹配度过程中，可通过上述第N个候选数据集中与需求方数据集的数据特征匹配的数量，以及匹配的数据特征的重要性确定，例如，匹配的数据特征的重要性可通过在数据特征序列中的位置确定，具体的，可通过在数据特征序列中的序号表征匹配的数据特征的重要性，若数据特征序列中按重要性从大到小排序，那么匹配的数据特征的位置越前其重要性越高，可将各匹配的数据特征的序号进行逆序化后求和；若数据特征序列中按重要性从小到大排序，那么匹配的数据特征的位置越前其重要性越低，可将各匹配的数据特征的序号直接进行求和。又例如，匹配的数量可直接通过上述第N个候选参与方设备返回给需求方设备的第二特征参数的数量确定。

该实施方式中，获取所述需求方数据集的数据特征序列以及每一数据特征的第一特征参数，所述数据特征序列包括按照数据重要性排序的多个数据特征；将多个第一特征参数发送至所述M个候选参与方设备，所述多个第一特征参数用于第N个候选参与方设备确定第N个候选数据集中与所述数据特征匹配的匹配特征，以及所述匹配特征的第二特征参数；接收所述M个候选参与方设备发送的第二特征参数；基于所述第二特征参数与所述数据特征序列，确定第N个候选数据集与所述需求方数据集的数据特征匹配度。这样，基于所述第N个候选数据集中与所述需求方数据集的数据特征匹配的匹配特征的第二特征参数，以及按照数据重要性排序的数据特征序列，可对所述第N个候选数据集与所述需求方数据集中可匹配的特征以及特征的重要性对数据特征匹配度进行评估，使得得到的数据特征匹配度不仅可反映两个数据集之间的匹配程度，还可反映两个数据集之间可匹配特征的重要性。

可选地，所述数据分布信息包括数据标签的均衡度；

步骤102中所述基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，包括：

获取所述需求方数据集的标签集合；

向所述M个候选参与方设备发送所述标签集合，所述标签集合用于第N个候选参与方设备计算第N个候选数据集中数据标签的均衡度；

接收所述M个候选参与方设备发送的所述数据标签的均衡度。

该实施方式中，通过向所述M个候选参与方设备发送所述标签集合，所述标签集合用于第N个候选参与方设备计算第N个候选数据集中数据标签的均衡度，并接收所述M个候选参与方设备发送的所述数据标签的均衡度，即所述数据标签的均衡度由各候选参与方设备计算得到，且所述需求方数据集也只需告知候选参与方设备标签集合，可确保所述M个候选数据集不出本地即可得到数据集中数据标签的均衡度。

可选地，在所述数据分布信息包括数据特征匹配度、数据标签的均衡度和数据分布相似性中的任意一项信息的情况下，可基于所述任意一项信息确定与所述需求方设备进行联邦学习的目标参与方设备。

例如，在所述数据分布信息为数据分布相似性的情况下，可以使用第N个候选数据集的第二数据分布向量与所述需求方数据集的第一数据分布向量之间的距离，表征第N个候选数据集与所述需求方数据集之间的数据分布相似性，距离越小表示两个数据集的数据分布越相似，从而选取M个候选数据集中距离小于第一预设阈值的多个候选数据集对应的参与方设备作为目标参与方设备，或选取M个候选数据集中距离最小的一个或多个候选数据集对应的参与方设备作为目标参与方设备。

例如，在所述数据分布信息为数据特征匹配度的情况下，可分别得到每一候选数据集与所述需求方数据集的数据特征匹配度，数据特征匹配度越大表示两个数据集的数据分布越相似，从而选取M个候选数据集中数据特征匹配度大于第二预设阈值的多个候选数据集对应的参与方设备作为目标参与方设备，或选取M个候选数据集中数据特征匹配度最大的一个或多个候选数据集对应的参与方设备作为目标参与方设备。

例如，在所述数据分布信息为数据标签的均衡度的情况下，可分别得到每一候选数据集与所述需求方数据集的数据标签的均衡度，数据标签的均衡度越大表示两个数据集的数据分布越相似，从而选取M个候选数据集中数据标签的均衡度大于第三预设阈值的多个候选数据集对应的参与方设备作为目标参与方设备，或选取M个候选数据集中数据标签的均衡度最大的一个或多个候选数据集对应的参与方设备作为目标参与方设备。

可选地，所述数据分布信息包括数据特征匹配度、数据标签的均衡度和数据分布相似性中的至少两项信息；

步骤103中所述基于所述数据分布信息确定与所述需求方设备进行联邦学习的目标参与方设备，包括：

基于所述至少两项信息，综合评价所述M个候选数据集，得到每一候选数据集的评分；

基于M个候选数据集的评分，确定所述目标参与方设备。

其中，可以预先设置一阈值，将大于或等于该阈值的评分对应的候选数据集，选择为目标数据集，并将目标数据集对应的候选参与方设备确定为目标参与方设备；也可以对上述M个候选数据集的评分进行排序，选取排名在前J位的J个候选数据集(J为小于M的正整数)，并将该J个候选数据集对应的J个候选参与方设备确定为目标参与方设备。

具体的，对上述每一候选数据集进行综合评价，可以基于该候选数据集的数据分布相似性、数据特征匹配度和数据标签的均衡度中的至少两项进行，即可以基于该候选数据集的数据分布相似性和数据特征匹配度进行综合评价，也可以基于该候选数据集的数据分布相似性和数据标签的均衡度进行综合评价，也可以基于该候选数据集的数据特征匹配度和数据标签的均衡度进行综合评价，还可以基于该候选数据集的数据分布相似性、数据特征匹配度和数据标签的均衡度进行综合评价。

例如，在基于该候选数据集的数据分布相似性、数据特征匹配度和数据标签的均衡度中的任意两项进行综合评价的情况下，首先可以确定使用的每项信息的权重，从而按照对应的权重对上述M个候选数据集进行数据分布情况的评价。

在对上述每一候选数据集进行综合评价的过程中，可使用综合评价算法，例如，综合指数法、基于理想解相似性的排序技术(Technique for Order Preference bySimilarity to an Ideal Solution，TOPSIS)、秩和比(Rank-sum ratio，RSR)法等算法。

具体的，以使用TOPSIS对该候选数据集的数据分布相似性、数据特征匹配度和数据标签的均衡度三项作为评估维度进行综合评价为例，基于M个候选参数集的数据分布相似性、数据特征匹配度和数据标签的均衡度构建评估矩阵，其中，评估矩阵包括每一候选参数集在每一维度的值，且评估矩阵中的一行对应一个候选参数集的评估向量，可以理解此处矩阵中使用的参数均为标准化后的值。然后，基于该评估矩阵获取每项指标中的最优值作为该项指标的最优向量，获取每项指标中的最劣值作为该项指标的最劣向量，并计算每一候选参数集的评估向量与最优向量、最劣向量的距离，进而得到每一候选参数集的评估向量与最优向量的相对贴近度，贴近度越大该候选参数集与需求方数据集的数据分布差异越小，从而选择贴近度最大的一个或多个候选参数集，贴近度最大的一个或多个候选参数集对应的一个或多个候选参与方设备即上述目标参与方设备。

该实施方式中，基于所述至少两项信息，综合评价所述M个候选数据集，得到每一候选数据集的评分；并基于M个候选数据集的评分，确定所述目标参与方设备，可以综合评价所述M个候选数据集，从而基于所述M个候选数据集的评分选取目标参与方设备。

为更好地理解，具体示例如下：

步骤S1、评估数据提供方数据与需求方数据的特征匹配度；

其中，步骤S1具体包括如下过程：

(1)需求方先对需求方数据进行特征工程，得到按数据重要性排序的数据特征；

(2)需求方发布需求方数据的数据特征名称及对应每个数据特征的数据的具体含义；

(3)数据提供方向需求方发送数据提供方数据中与需求方的数据特征匹配的特征名称；

(4)需求方收到后，与本方建模特征从重要性排名和匹配的特征数量两方面进行综合评估，给出匹配度评分，具体做法如下：

重要性排名逆序化：每个匹配特征在需求方原始特征工程中有其重要性排名，设排名序号为{1,2,……,M}，对每个序号逆序化，记为：

其中，k

计算所有匹配的特征的逆序化序号的和，如：有5个匹配特征，逆序化后的序号分别为n

对所有数据提供方的匹配值进行标准化：

其中，x

步骤S2、评估参与方数据的数据标签均衡性；

其中，步骤S2具体包括如下过程：

(1)数据需求方发布数据的标签列表全集，并发布数据标签分布均衡性计算方法，例如，数据标签分布均衡性可通过以下公式计算得到：

其中，n表示数据标签的总数，p

(2)数据提供方根据上述公式计算本地数据标签均衡性的数值；

(3)对数据提供方的数据标签均衡性的数值进行标准化，具体标准化方式可参照上述步骤S1；

步骤S3、评估提供方数据与需求方数据的相似性；

其中，步骤S3具体包括如下过程：

(1)对需求方数据做局部敏感哈希(Locality Sensitive Hashing，LSH)变换，将数据划分到桶中，记录哈希表(Hash table)中各桶的标号和对应的桶中的数据量；

其中，采用LSH可以将距离较近的数据映射到同一个桶中，同时将距离较远的数据映射到不同的桶中。具体的Hash函数可以选欧氏局部敏感哈希(Exact Euclideanlocality sensitive Hashing，E2LSH)函数：

其中，h

(2)各数据提供方数据也做相同的LSH变换，记录相应Hash table中各桶的桶号和对应的桶中的数据量；

(3)数据提供方将本地LSH变换后所有的桶号发给数据需求方，需求方求并集后发给各提供方。

(4)数据需求方计算数据需求方与数据提供方的数据相似性，具体过程如下：

每个数据拥有方按照Hash table中的桶编号并集的顺序，将本地数据经Hash变换后落在每个桶中的数据量，构成一个向量，作为其数据分布向量；

用加密距离计算方法计算需求方与提供方的数据分布向量间距离，作为度量两方数据相似性的依据。这里可以采用保护隐私的曼哈顿距离计算方法，实现双方在不知道对方数据分布的条件下，完成双方数据分布向量间的距离计算；

对所有数据提供方与需求方的数据分布向量间距离进行标准化，得到数据分布相似性评分。

其中，上述步骤S1、步骤S2和步骤S3可同时执行，也可先后执行。

步骤S4、从数据提供方中选择参与方；

其中，步骤S4具体包括如下过程：

根据上述步骤S1的数据特征匹配度评分、步骤S2的数据均衡性评分和步骤S3的提供方与需求方数据分布相似性评分，利用TOPSIS综合评价方法，对所有数据提供方的数据进行排序，最终确定选择哪些数据集。具体过程如下：

(1)如前所述，共有3个数据质量评估维度，设有K个数据提供方，则每个维度对应的各方数据评估值构成一个标准化的K维向量，所有K维向量构成一个K×3评估矩阵：

其中，每一行表示一个数据集的评估向量，上述所有指标均为正向，即评估值越大，相关维度质量越好。

(2)对矩阵T各列进行归一化：

得到归一化矩阵：

其中，

(3)根据实际评估中的需求给每个维度添加一个权值，构成评估矩阵：

其中，e

(4)构建最优值向量和最劣值向量：

记M

(5)d)计算各数据提供方的评估向量与最优、最劣向量的距离：

其中，i＝1,2,…,K；

(6)计算各评估向量与最优向量间的相对贴近度：

(7)根据r

可以理解，在上述评估体系下，r

其中，可以选取r

参见图3，图3是本申请实施例提供的一种参与方确定装置的结构示意图。如3所示，参与方确定装置300包括：

第一获取模块301，用于获取需求方数据集；

第二获取模块302，用于基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，所述M个候选数据集中的第N个候选数据集对应第N个候选参与方设备，所述M个候选数据集的数据分布信息用于表征所述M个候选数据集在所述需求方数据集上的数据分布情况；

确定模块303，用于基于所述数据分布信息确定与所述需求方设备进行联邦学习的目标参与方设备，所述目标参与方设备包括与所述M个候选数据集对应的M个候选参与方设备中的至少一个参与方设备；

其中，M为正整数，N为小于或等于M的正整数。

可选地，所述数据分布信息包括如下至少一项信息：

数据分布相似性；

数据特征匹配度；

数据标签的均衡度。

可选地，所述数据分布信息包括数据分布相似性；

所述第二获取模块302，包括：

第一获取单元，用于获取所述需求方数据集的第一数据分布向量；

加密单元，用于基于所述第一数据分布向量，得到加密的第一加密数据，并将所述第一加密数据发送至第N个候选参与方设备；

第一接收单元，用于接收所述第N个候选参与方设备发送的第二加密数据；

第一确定单元，用于基于所述第一数据分布向量和所述第二加密数据，确定第N个候选数据集与所述需求方数据集的数据分布相似性；

可选地，所述第一获取单元，包括：

映射子单元，用于基于哈希变换，将所述需求方数据集中的数据映射至至少一个第一桶内，得到所述至少一个第一桶的第一桶信息；

第一获取子单元，用于获取M个第二桶信息中的桶编号；

第二获取子单元，用于基于所述第一桶信息中的桶编号与所述M个第二桶信息中的桶编号，获取桶编号序列，并将所述桶编号序列发送至所述M个候选参与方设备；

第三获取子单元，用于基于所述第一桶信息和所述桶编号序列，获取所述第一数据分布向量；

可选地，所述数据分布信息包括数据特征匹配度；

所述第二获取模块302，包括：

第二获取单元，用于获取所述需求方数据集的数据特征序列以及每一数据特征的第一特征参数，所述数据特征序列包括按照数据重要性排序的多个数据特征；

第一发送单元，用于将多个第一特征参数发送至所述M个候选参与方设备，所述多个第一特征参数用于第N个候选参与方设备确定第N个候选数据集中与所述数据特征匹配的匹配特征，以及所述匹配特征的第二特征参数；

第二接收单元，用于接收所述M个候选参与方设备发送的第二特征参数；

第二确定单元，用于基于所述第二特征参数与所述数据特征序列，确定第N个候选数据集与所述需求方数据集的数据特征匹配度。

可选地，所述数据分布信息包括数据标签的均衡度；

所述第二获取模块302，包括：

第三获取单元，用于获取所述需求方数据集的标签集合；

第二发送单元，用于向所述M个候选参与方设备发送所述标签集合，所述标签集合用于第N个候选参与方设备计算第N个候选数据集中数据标签的均衡度；

第三接收单元，用于接收所述M个候选参与方设备发送的所述数据标签的均衡度。

可选地，所述数据分布信息包括数据特征匹配度、数据标签的均衡度和数据分布相似性中的至少两项信息；

所述确定模块303，包括：

评价单元，用于基于所述至少两项信息，综合评价所述M个候选数据集，得到每一候选数据集的评分；

第三确定单元，用于基于M个候选数据集的评分，确定所述目标参与方设备。

参与方确定装置300能够实现本申请实施例中图1方法实施例的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

本申请实施例还提供一种电子设备。由于电子设备解决问题的原理与本申请实施例中图1所示的参与方确定方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。如图4所示，本申请实施例的电子设备，包括存储器420，收发机410，处理器400；

存储器420，用于存储计算机程序；收发机410，用于在所述处理器400的控制下收发数据；处理器400，用于读取所述存储器420中的计算机程序并执行以下操作：

获取需求方数据集；

基于所述数据分布信息确定与所述需求方设备进行联邦学习的目标参与方设备，所述目标参与方设备包括与所述M个候选数据集对应的M个候选参与方设备中的至少一个参与方设备；

其中，M为正整数，N为小于或等于M的正整数。

其中，在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器400代表的一个或多个处理器和存储器420代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机410可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器400负责管理总线架构和通常的处理，存储器420可以存储处理器400在执行操作时所使用的数据。

处理器400可以是中央处理器(Central Processing Unit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable LogicDevice，CPLD)，处理器也可以采用多核架构。

可选地，所述数据分布信息包括如下至少一项信息：

数据分布相似性；

数据特征匹配度；

数据标签的均衡度。

可选地，所述数据分布信息包括数据分布相似性；

所述基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，包括：

获取所述需求方数据集的第一数据分布向量；

基于所述第一数据分布向量，得到加密的第一加密数据，并将所述第一加密数据发送至第N个候选参与方设备；

接收所述第N个候选参与方设备发送的第二加密数据；

基于所述第一数据分布向量和所述第二加密数据，确定第N个候选数据集与所述需求方数据集的数据分布相似性；

可选地，所述获取所述需求方数据集的第一数据分布向量，包括：

基于哈希变换，将所述需求方数据集中的数据映射至至少一个第一桶内，得到所述至少一个第一桶的第一桶信息；

获取M个第二桶信息中的桶编号；

基于所述第一桶信息中的桶编号与所述M个第二桶信息中的桶编号，获取桶编号序列，并将所述桶编号序列发送至所述M个候选参与方设备；

基于所述第一桶信息和所述桶编号序列，获取所述第一数据分布向量；

可选地，所述数据分布信息包括数据特征匹配度；

所述基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，包括：

获取所述需求方数据集的数据特征序列以及每一数据特征的第一特征参数，所述数据特征序列包括按照数据重要性排序的多个数据特征；

接收所述M个候选参与方设备发送的第二特征参数；

基于所述第二特征参数与所述数据特征序列，确定第N个候选数据集与所述需求方数据集的数据特征匹配度。

可选地，所述数据分布信息包括数据标签的均衡度；

所述基于所述需求方数据集，获取与所述需求方数据集参与联邦学习的M个候选数据集的数据分布信息，包括：

获取所述需求方数据集的标签集合；

向所述M个候选参与方设备发送所述标签集合，所述标签集合用于第N个候选参与方设备计算第N个候选数据集中数据标签的均衡度；

接收所述M个候选参与方设备发送的所述数据标签的均衡度。

可选地，所述数据分布信息包括数据特征匹配度、数据标签的均衡度和数据分布相似性中的至少两项信息；

所述基于所述数据分布信息确定与所述需求方设备进行联邦学习的目标参与方设备，包括：

基于所述至少两项信息，综合评价所述M个候选数据集，得到每一候选数据集的评分；

基于M个候选数据集的评分，确定所述目标参与方设备。

本申请实施例提供的电子设备，可以执行上述图1所示的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图1所述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图1所述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国移动通信有限公司研究院;中国移动通信集团有限公司;