导航：首页> 测量；测试>数据处理方法、装置、设备和存储介质

数据处理方法、装置、设备和存储介质

文献发布时间：2023-06-19 11:35:49

技术领域

本公开涉及数据处理技术领域，尤其涉及大数据、人工智能和区块链技术，可用于云计算和云服务。

背景技术

随着人工智能技术的发展，机器学习在各个场景中得到了越来越广泛的应用。在机器学习的方案中，在开始训练模型之前，通常需要对样本集合进行标准化处理，以消除量纲影响，并加速模型收敛。

在分布式机器学习中，多个参与方需要共享样本数据，以实现各方样本数据的统一标准化。然而，上述方式给各参与方的数据安全带来了隐患。

发明内容

本公开提供了一种多方节点在保证数据隐私的情况下，进行统一标准化的数据处理方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种数据处理方法，由多方节点中的任一节点执行，包括：

根据本机节点的第一样本数据的初始统计值的偏离秘密，以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密，确定目标统计值；

根据所述目标统计值，对所述第一样本数据进行标准化处理；

其中，所述目标统计值包括所述多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。

根据本公开的另一方面，还提供了一种数据处理装置，配置于多方节点中的任一节点，包括：

目标统计值确定模块，用于根据本机节点的第一样本数据的初始统计值的偏离秘密，以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密，确定目标统计值；

标准化处理模块，用于根据所述目标统计值，对所述第一样本数据进行标准化处理；

其中，所述目标统计值包括所述多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。

根据本公开的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所提供的任意一种数据处理方法。

根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开实施例所提供的任意一种数据处理方法。

根据本公开的另一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开实施例所提供的任意一种数据处理方法。

根据本公开的技术，为多方节点的样本数据的统一标准化提供了新思路，同时避免了各节点的数据泄露。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种数据处理方法的流程图；

图2是本公开实施例提供的另一种数据处理方法的流程图；

图3是本公开实施例提供的另一种数据处理方法的流程图；

图4是本公开实施例提供的另一种数据处理方法的流程图；

图5是本公开实施例提供的另一种数据处理方法的流程图；

图6是本公开实施例提供的一种数据处理装置的结构图；

图7是用来实现本公开实施例的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供的各数据处理方法和数据处理装置，适用于各自持有满足样本需求的样本数据的多方节点（两方或两方以上），在不泄露数据隐私的情况下，对多方节点的全部样本数据进行统一标准化的情况。本公开的各数据处理方法，可以由数据处理装置执行，该装置采用软件和/或硬件实现，并具体配置于作为多方节点的其中一方的节点设备中。在一个可选实施例中，该节点设备可以是参与构建区块链网络的电子设备。

为了便于理解，首先对本公开所涉及的各数据处理方法进行详细说明。

参见图1所示的一种数据处理方法，由多方节点中的任一节点执行，包括：

S101、根据本机节点的第一样本数据的初始统计值的偏离秘密，以及获取的多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密，确定目标统计值。

其中，目标统计值包括多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。

其中，本机节点即为多方节点中执行数据处理方法的节点。

示例性的，多方节点可以通过本机节点线下招募获取得到。若本机节点为参与区块链网络的区块链节点，则多方节点还可以依赖区块链网络线上招募确定。

在一个可选实施例中，本机节点基于标准化智能合约，向区块链网络发布包括样本需求的节点匹配请求；接收矿工节点反馈的满足样本需求的多方节点的标识信息。

在一个具体实现方式中，本机节点基于自身部署的标准化智能合约，调用标准化智能合约中的节点匹配函数，向区块链网络发布节点匹配请求；其中，该节点匹配请求中包括特征维度、特征类别和标签类别等至少一种样本需求；区块链网络中的矿工节点响应于该节点匹配请求，调用自身部署的标准化智能合约中的节点匹配函数，从收集的各候选节点中，选取满足样本需求的至少部分节点作为多方节点；向节点匹配请求的发起方节点（也即前述本机节点）反馈多方节点的标识信息。

示例性的，若满足样本需求的候选节点的数量较多，还可以根据节点可信度、节点活跃度、节点计算能力和节点存储能力等参数中的至少一种，对满足样本需求的候选节点进行筛选或排序，并将筛选结果或排序结果反馈至节点匹配请求的发起方节点。

可以理解的是，为了便于多方节点中的其他节点获知匹配情况，在确定多方节点之后，还可以向多方节点中除节点匹配请求的发起方节点之外的其他节点，反馈多方节点的标识信息。

可以理解的是，通过区块链网络参与多方节点的确定过程，能够扩大多方节点的查找范围，同时保证查找过程的安全性，以及查找结果的可靠性。

其中，初始统计值用于反映节点自身持有的样本数据的统计情况。例如，初始统计值可以包括样本数据的样本数量、样本数据中预定特征维度下的特征和值和预定特征维度下的特征偏离和值等数据中的至少一种；相应的，初始统计值的偏离秘密可以包括样本数量的偏离秘密、预定特征维度下的特征和值的偏离秘密和预定特征维度下的特征偏离和值的偏离秘密等数据中的至少一种，用于作为目标统计值的确定依据。

为了便于区分，在本公开中，本机节点中的样本数据，统称为第一样本数据，多方节点中除本机节点以外的其他节点中的样本数据，统称为第二样本数据。需要说明的是，第一样本数据与第二样本数据存在至少部分相同的特征维度，本公开中的预定特征维度即为上述相同特征维度中的至少一个。例如，针对学生成绩样本数据，第一样本数据和第二样本数据存在的相同特征维度可以包括学号、语文成绩和数学成绩等。本公开所涉及的标准化处理即为对多方节点中各相同特征维度对应的数据值进行统一的标准化处理。在一个优选实施例中，第一样本数据和第二样本数据的全部特征维度均相同。

需要说明的是，样本数据可以包括样本特征数据和标签特征数据中的至少一种，以适配机器学习或深度学习中的有监督训练和无监督训练等不同的应用场景。

示例性的，初始统计值的偏离秘密可以是基于秘密分享技术和有限域的椭圆曲线运算所确定的初始统计值的本地秘密对应的偏离结果。该偏离结果可用于辅助多方节点中的各节点，进行目标统计值的确定，同时可以保证各节点的样本数据的数据安全，避免了隐私泄露。

在一个可选实施例中，本机节点可以采用以下方式进行初始统计值的偏离秘密的确定：将第一样本数据的初始统计值，按照多方节点的数量切分为秘密碎片，并将各秘密碎片一一对应的传输给多方节点中的每个节点；获取多方节点中其他节点各自切分并传输的秘密碎片；根据获取的多方节点各自的秘密碎片，确定初始统计值的本地秘密；根据本机节点的节点编号和多方节点的节点编号，生成初始统计值的偏离系数，用于表征初始统计值的本地秘密相对于初始统计值的偏离情况；根据初始统计值的偏离系数和本地秘密，确定初始统计值的偏离秘密。其中，节点的节点编号为节点的节点标识经设定编码规则转化后，所得到的大整数。所谓大整数又称之为高精度整数，其含义就是用基本数据类型无法存储其精度的整数。

示例性的，将第一样本数据的初始统计值，按照多方节点的数量切分为秘密碎片，并将各秘密碎片一一对应的传输给多方节点中的每个节点，可以是：按照多方节点的数量，将初始统计值切分为秘密碎片；将各秘密碎片按照秘密碎片被切分时确定的碎片编号和多方节点的节点编号，分别传输给多方节点中的每个节点；其中，每个节点中记录的节点编号与节点的对应关系相同。

示例性的，本机节点根据自身的初始统计值的偏离秘密，以及获取的多方节点中其他节点各自的初始统计值的偏离秘密的和值，确定初始统计总值；根据初始统计总值，确定目标统计值。需要说明的是，这里的和值为基于有限域椭圆曲线的和值。

其中，初始统计总值用于作为目标统计值的确定依据，包括但不限于多方节点的全部样本数据的样本总数量、多方节点的全部样本数据在预定特征维度下的特征总和值和特征偏离总和值等。

S102、根据目标统计值，对第一样本数据进行标准化处理。

需要说明的是，由于目标统计值基于多方节点的样本数据所确定，因此，该目标统计值可以作为对多方节点的样本数据进行统一标准化处理的参照数据。

在一个可选实施例中，若目标统计值中包括特征总均值和特征总标准差，则本机节点可以根据第一样本数据中预定特征维度下的特征总标准差和特征总均值，对相应特征维度下的数据值进行标准化处理。

在另一可选实施例中，若目标统计值中包括特征总均值和特征总方差，则本机节点可以根据特征总方差确定特征总标准差，根据第一样本数据中预定特征维度下的特征总标准差和特征总均值，对相应特征维度下的数据值进行标准化处理。

在又一可选实施例中，若目标统计值中仅包括特征总均值，则本机节点可以通过线下获取等方式，确定多方节点在预定特征维度下的特征总方差或特征总标准差，进而根据线下获取到的第一样本数据中预定特征维度下的特征总方差或特征总标准差，以及相应特征维度下的特征总均值，对相应特征维度下的数据值进行标准化处理。

在再一可选实施例中，若目标统计值中仅包括预定特征维度下的特征总方差或特征总标准差，则本机节点可以通过线下获取等方式，确定多方节点在预定特征维度下的特征总均值，进而根据预定特征维度下的特征总方差或特征总标准差，以及线下获取到的相应特征维度下的特征总均值，对相应特征维度下的数据值进行标准化处理。

示例性的，多方节点可以分别采用标准化后的样本数据进行机器学习模型的分布式联合训练，本公开对机器学习模型自身，以及机器学习模型的分布式联合训练方式，不作任何限定。

示例性的，本机节点在标准化完成之后，可以通过线下方式向多方节点中的其他节点发送标准化完成消息。为了扩大消息传输范围，同时保证消息传输的安全性和有效性，在另一可选实施例中，还可以基于标准化智能合约向区块链网络发布标准化完成消息，以供区块链网络中的区块链节点根据标准化完成消息，进行标准化结果的查找或后续使用。可以理解的是，为了便于多方节点中的其他节点获知统一标准化的数据持有方，还可以在标准化完成消息中携带多方节点的标识信息。

具体的，本机节点通过调用自身部署的标准化智能合约的消息发布函数，向区块链网络发布标准化完成消息；区块链网络中的各节点在接收到标准化完成消息之后，根据实际需求与多方节点中的至少一个节点进行数据交易。

当然，为了便于第三方进行设定样本需求的样本数据的关联查找，还可以将标准化完成消息中携带多方节点的标识信息，向多方节点之外的其他节点进行标准化完成消息的发送。

本公开实施例通过引入多方节点自身样本数据的初始统计值的偏离秘密，进行目标统计值的确定，使得多方节点中的各节点可以基于该目标统计值，对自身样本数据进行统一标准化，为多方节点的样本数据的统一标准化提供了新的思路，同时，避免了直接进行初始统计值交互造成的各节点数据隐私的泄露。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该实施例中，对特征总均值的确定方式进行了优化改进。在本实施例中未详述部分，可参见前述各实施例的表述。

参见图2所示的一种数据处理方法，包括：

S201、根据第一样本数据的样本数量的偏离秘密，以及获取的各第二样本数据的样本数量的偏离秘密，确定样本总数量。

本机节点根据第一样本数据的样本数量，确定第一样本数据的样本数量的偏离秘密；多方节点中的其他节点，分别根据各自第二样本数据的样本数量，确定各自的第二样本数据的样本数量的偏离秘密；多方节点中的各节点，分别交换各自的样本数量的偏离秘密；多方节点中的各节点，根据自身获得的各样本数量的偏离秘密，确定样本总数量。其中，各节点自身获得的偏离秘密包括自身的偏离秘密，以及从多方节点中的其他节点获取到的偏离秘密。

在一个可选实施例中，本机节点将第一样本数据的样本数量，按照多方节点的数量切分为秘密碎片，并将各秘密碎片一一对应的传输给多方节点中的每个节点；获取多方节点中其他节点各自切分并传输的秘密碎片；根据获取的多方节点各自的秘密碎片，确定样本数量的本地秘密；根据本机节点的节点编号和多方节点的节点编号，生成样本数量的偏离系数，用于表征样本数量的本地秘密相对于样本数量的偏离情况；根据样本数量的偏离系数和本地秘密，确定样本数量的偏离秘密。

示例性的，将第一样本数据的样本数量，按照多方节点的数量切分为秘密碎片，并将各秘密碎片一一对应的传输给多方节点中的每个节点，可以是：按照多方节点的数量，将样本数量切分为秘密碎片；将各秘密碎片按照秘密碎片被切分时确定的碎片编号和多方节点的节点编号，分别传输给多方节点中的每个节点；其中，每个节点中记录的节点编号与节点的对应关系相同。

以多方节点包括节点A、节点B和节点C三个节点为例，对各自的样本数量sizeA、sizeB和sizeC对应的偏离秘密Coef_SecretA、Coef_SecretB和Coef_SecretC的生成过程，进行详细说明。

1）各节点将自身样本数量进行切分，得到相应的秘密碎片。

将三个节点的节点标识分别转换为大整数，得到节点编号id_A，id_B，id_C。

节点A根据样本数量sizeA构建多项式f

节点B根据样本数量sizeB构建多项式f

节点C根据样本数量sizeC构建多项式f

需要说明的是，各节点所构建的多项式随机数，可以相同或至少部分不同。多项式中的最高次幂的数值由多方节点的总数量确定。

2）各节点将各秘密碎片一一对应的发送给其他节点。

最终，各节点获得的秘密碎片如下：

节点A：sizeA_partA、sizeB_partA和sizeC_partA；

节点B：sizeA_partB、sizeB_partB和sizeC_partB；

节点C：sizeA_partC、sizeB_partC和sizeC_partC。

3）各节点基于有限域的椭圆曲线，将自身获得的秘密碎片组合，得到自身对应的本地秘密。其中有限域的椭圆曲线可以由技术人员根据需要或经验值进行设定，或通过大量试验反复确定。

最终，各节点确定的本地秘密如下：

节点A：SecretA = sizeA_partA + sizeB_partA + sizeC_partA；

节点B：SecretB = sizeA_partB + sizeB_partB + sizeC_partB；

节点C：SecretC = sizeA_partC + sizeB_partC + sizeC_partC。

4）各节点根据自身节点编号，生成偏离系数，并根据偏离系数和本地秘密，生成偏离秘密。

各节点可以根据自身的节点编号、以及获取到的秘密碎片的其他节点的节点编号，基于对各个节点多项式的插值计算，确定该节点的偏离系数；根据自身偏离秘密和本地秘密的乘积，生成偏离秘密。其中，本地秘密为节点自身存储数据，不能泄露给其他节点；偏离秘密可用于节点间共享。

具体的，每个节点j的样本数量sizej转换后的大整数（本地秘密）乘以偏离系数，累加求和，得到的是通过所有点(x，sum(y))的基多项式f

可选的，偏离系数可以通过拉格朗日插值公式（Lagrange interpolationformula）来获得插值基函数（Lagrange base polynomial）。需要说明的是，由于多方节点仅需获知x=0时f(x)的值，得到全部样本数量之和即可。因此，无需关注计算过程中采用何种基多项式，仅需获知各基多项式当x=0时的值即可。

最终，各节点确定的偏离秘密如下：

节点A：Coef_SecretA = coefA * SecretA；

节点B：Coef_SecretB = coefB * SecretB；

节点C：Coef_SecretC = coefC * SecretC。

相应的，所确定的多方节点的样本总数量为sizeSum = Coef_SecretA + Coef_SecretB + Coef_SecretC = sizeA + sizeB + sizeC。

S202、根据第一样本数据在预定特征维度下的特征和值的偏离秘密，以及获取的各第二样本数据在对应特征维度下的特征和值的偏离秘密，确定预定特征维度下的特征总和值。

本机节点通过累加第一样本数据在预定特征维度下的数据值，得到该预定特征维度下的特征和值；多方节点中的其他节点，分别通过累加各自第二样本数据在该预定特征维度下的数据值，得到该预定特征维度下的特征和值；本机节点确定第一样本数据在该预定特征维度下的特征和值的偏离秘密；多方节点中的其他节点分别确定各自第二样本数据在该预定特征维度下的特征和值的偏离秘密；多方节点中的各节点分别交换各自的该预定特征维度下的特征和值的偏离秘密；多方节点中的各节点根据自身获得的该预定特征维度下各特征和值的偏离秘密，确定特征总和值。

针对预定特征维度下的特征总和值的具体确定过程，可参照前述样本总数量的详细描述，仅采用该预定特征维度下的特征和值替代样本总数量确定过程中的样本数量即可，在此不再赘述。

S203、根据样本总数量和预定特征维度下的特征总和值，确定预定特征维度下的特征总均值。

本机节点获得有多方节点的全部样本数据的样本总数量和在预定特征维度下的特征总和值。因此，可以确定该预定特征维度下的特征总和值与样本总数量的比值，并将所确定结果作为多方节点的全部样本数据在该预定特征维度下的特征总均值。

S204、根据预定特征维度下的特征总均值，对第一样本数据进行标准化处理。

本机节点将第一样本数据中预定特征维度下的数据值，分别与对应特征维度下的特征总均值作差；确定各差值与对应特征维度下的特征总标准差的比值，以实现对第一样本数据的标准化处理。其中，预定特征维度下的特征总标准差可以采用线下获取的方式得到，或基于秘密分享技术和椭圆曲线运算计算得到。当然，预定特征维度下的特征总标准差还可以采用现有技术中的其他方式加以确定，本公开不再赘述。

本公开实施例通过将初始统计值的偏离秘密，细化为包括样本数量的偏离秘密和预定特征维度下的特征和值的偏离秘密；相应的，将目标统计值的确定操作，细化为根据第一样本数据的样本数量的偏离秘密，以及获取的各第二样本数据的样本数量的偏离秘密确定样本总数量；根据第一样本数量在预定特征维度下的特征和值的偏离秘密，以及获取的各第二样本数据在对应特征维度下的特征和值的偏离秘密，确定预定特征维度下的特征总和值；根据样本总数量和预定特征维度下的特征总和值，进行特征总均值的确定，从而完善了特征总均值的确定方式，为多方节点中各节点的样本数据的统一标准化提供了数据支撑，同时避免了各节点的数据隐私的泄露。

需要说明的是，S202可以在S201之前或之后执行，还可以与S201并行或交叉执行，本公开对两者具体的执行顺序不作任何限定。

在上述各技术方案的基础上，本公开还提供了另一可选实施例。在该实施例中，对特征总均值的确定方式进行了优化改进。在本实施例中未详述部分，可参见前述各实施例的表述。

参见图3所示的一种数据处理方法，包括：

S301、根据第一样本数据的样本数量的偏离秘密，以及各第二样本数据的样本数量的偏离秘密，确定样本总数量。

S302、根据样本总数量和第一样本数据在预定特征维度下的特征和值，确定第一样本数据在预定特征维度下的模拟特征均值。

本机节点通过如下方式进行模拟特征均值的确定：累加第一样本数据在预定特征维度下的数据值，得到该预定特征维度下的特征和值；将该预定特征维度下的特征和值与样本总数量的比值，作为该预定特征维度下的模拟特征均值。或者，根据第一样本数据在该预定特征维度下的数据值，确定该预定特征维度下的特征均值；将第一样本数据在该预定特征维度下的样本数量与样本总数量的比值，与该预定特征维度下的特征均值的乘积，作为该预定特征维度下的模拟特征均值。

S303、根据第一样本数据在预定特征维度下的模拟特征均值的偏离秘密，以及获取的各第二样本数据在相应特征维度下的模拟特征均值的偏离秘密，确定预定特征维度下的特征总均值。

本机节点确定第一样本数据在预定特征维度下的模拟特征均值的偏离秘密；多方节点中的其他节点，分别确定各自第二样本数据在该预定特征维度下的模拟特征均值的偏离秘密；多方节点中的各节点，分别交换各自的该预定特征维度下的模拟特征均值的偏离秘密；多方节点中的各节点，根据自身获得的该预定特征维度下各模拟特征均值的偏离秘密，确定特征总和值。

针对预定特征维度下的特征总均值的具体确定过程，可参照前述样本总数量的详细描述，仅将该预定特征维度下的模拟特征均值替代样本总数量确定过程中的样本数量即可，在此不再赘述。

S304、根据预定特征维度下的特征总均值，对第一样本数据进行标准化处理。

本机节点将第一样本数据中预定特征维度下的数据值，分别与对应维度下的特征总均值作差；确定各差值与对应特征维度下的特征总标准差的比值，以实现对第一样本数据的标准化处理。其中，预定特征维度下的特征总标准差可以采用线下获取的方式得到，或基于秘密分享技术和椭圆曲线运算计算得到。当然，预定特征维度下的特征总标准差还可以采用现有技术中的其他方式加以确定，本公开不再赘述。

本公开实施例通过将初始统计值的偏离秘密，细化为包括样本数量的偏离秘密；相应的，将目标统计值的确定操作，细化为根据第一样本数据的样本数量的偏离秘密，以及各第二样本数据的样本数量的偏离秘密，确定样本总数量；根据样本总数量和第一样本数据在该预定特征维度下的特征和值，确定第一样本数据在该预定特征维度下的模拟特征均值；根据第一样本数据在预定特征维度下的模拟特征均值的偏离秘密，以及获取的各第二样本数据在相应特征维度下的模拟特征均值的偏离秘密，确定预定特征维度下的特征总均值，从而完善了特征总均值的确定方式，为多方节点中各节点的样本数据的统一标准化提供了数据支撑，同时避免了各节点的数据隐私的泄露。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该实施例中，对特征总标准差和/或特征总方差的确定方式进行了优化改进。在本实施例中未详述部分，可参见前述各实施例的表述。

S401、根据第一样本数据的样本数量的偏离秘密，以及获取的各第二样本数据的样本数量的偏离秘密，确定样本总数量。

S402、根据第一样本数据在预定特征维度下的特征偏离和值的偏离秘密，以及获取的各第二样本数据在对应特征维度下的特征偏离和值的偏离秘密，确定预定特征维度下的特征偏离总和值。

其中，预定特征维度下样本数据的特征偏离和值，用于表征该样本数据在该预定特征维度下的各数据值，相对于该预定特征维度对应的特征总均值的偏离程度。其中，特征总均值可以通过线下获取、或者采用上述各实施例所提供的技术方案加以确定。当然，特征总均值还可以采用现有技术中的其他方式加以确定，本公开不再赘述。

本机节点通过累加第一样本数据在预定特征维度下，各数据值与该预定特征维度下的特征总均值的差值平方和，得到该预定特征维度下的特征偏离和值；多方节点中的其他节点，分别通过累加各自第二样本数据该预定特征维度下，各数据值与该预定特征维度下的特征总均值的差值平方和，得到该预定特征维度下的特征偏离和值；本机节点确定第一样本数据在该预定特征维度下的特征偏离和值的偏离秘密；多方节点中的其他节点，分别确定各自第二样本数据在该预定特征维度下的特征偏离和值的偏离秘密；多方节点中的各节点，分别交换各自的该预定特征维度下的特征偏离和值的偏离秘密；多方节点中的各节点，根据自身获得的该预定特征维度下各特征偏离和值的偏离秘密，确定特征偏离总和值。

针对预定特征维度下的特征偏离总和值的具体确定过程，可参照前述样本总数量的详细描述，仅将该预定特征维度下的特征偏离和值替代样本总数量确定过程的样本数量即可，在此不在赘述。

S403、根据样本总数量和预定特征维度下的特征偏离总和值，确定预定特征维度下的特征总标准差和/或特征总方差。

本机节点获得有多方节点的全部样本数据的样本总数量和在预定特征维度下的特征偏离总和值。因此，可以确定该预定特征维度下的特征偏离总和值与样本总数量的比值，并将所确定结果作为多方节点的全部样本数据在该预定特征维度下的特征总方差；对该预定特征维度下的特征总方差进行开方，并将开方结果作为多方节点的全部样本数据在该预定特征维度下的特征总标准差。

S404、根据预定特征维度的特征总标准差和/或特征总方差，对第一样本数据进行标准化处理。

本机节点将第一样本数据中的预定特征维度下的数据值，分别与对应特征维度下的特征总均值作差；确定各差值与对应特征维度下的特征总标准差的比值，以实现对第一样本数据的标准化处理。其中，预定特征维度下的特征总均值可以通过线下获取的方式得到，或者采用上述各实施例所提供的技术方案加以确定。当然，预定特征维度下的特征总均值还可以采用现有技术中的其他方式加以确定，本公开不再赘述。

需要说明的是，S402可以在S401之前或之后执行，还可以与S401并行或交叉执行，本公开对两者具体的执行顺序不作任何限定。

本公开实施例通过将初始统计值的偏离秘密，细化为包括样本数量的偏离秘密和预定特征维度下的特征偏离和值的偏离秘密；相应的，将目标统计值的确定操作，细化为根据第一样本数据的样本数量的偏离秘密，以及获取的各第二样本数据的样本数量的偏离秘密，确定样本总数量；以及根据第一样本数据在预定特征维度下的特征偏离和值的偏离秘密，以及获取的各第二样本数据在对应特征维度下的特征偏离和值的偏离秘密，确定预定特征维度下的特征偏离总和值；根据样本总数量和预定特征维度下的特征偏离总和值，确定预定特征维度下的特征总标准差和/或特征总方差，从而完善了特征总标准差和/或特征总方差的确定方式，为多方节点中各节点的样本数据的统一标准化提供了数据支撑，同时避免了各节点的数据隐私的泄露。

在上述各技术方案的基础上，本公开还提供了另一可选实施例。在该实施例中，对特征总标准差和/或特征总方差的确定方式进行了优化改进。在本实施例中未详述部分，可参见前述各实施例的表述。

参见图5所示的一种数据处理方法，包括：

S501、根据第一样本数据的样本数量的偏离秘密，以及获取的各第二样本数据的样本数量的偏离秘密，确定样本总数量。

S502、根据样本总数量和第一样本数据在预定特征维度下的特征偏离和值，确定第一样本数据在预定特征维度下的模拟特征方差。

本机节点通过如下方式进行模拟特征方差的确定：累加第一样本数据在预定特征维度下的数据值与该预定特征维度下的特征总均值的差值平方和，得到该预定特征维度下的特征偏离和值；将该预定特征维度下的特征偏离和值与样本总数量的比值，作为该预定特征维度下的模拟特征方差。或者，根据第一样本数据在该预定特征维度下的特征偏离和值，确定该预定特征维度下的特征方差；将第一样本数据在该预定特征维度下的样本数量与样本总数量的比值，与该预定特征维度下的特征方差的乘积，作为该预定特征维度下的模拟特征方差。

S503、根据第一样本数据在预定特征维度下的模拟特征方差的偏离秘密，以及获取的各第二样本数据在相应特征维度下的模拟特征方差的偏离秘密，确定预定特征维度下的特征总标准差和/或特征总方差。

本机节点确定第一样本数据在预定特征维度下的模拟特征方差的偏离秘密；多方节点中的其他节点，分别确定各自第二样本数据在该预定特征维度下的模拟特征方差的偏离秘密；多方节点中的各节点，分别交换各自的该预定特征维度下的模拟特征方差的偏离秘密；多方节点中的各节点，根据自身获得的该预定特征维度下各模拟特征方差的偏离秘密，确定特征总方差；对该预定特征维度下的特征总方差进行开方，并将开方结果作为多方节点的全部样本数据在该预定特征维度下的特征总标准差。

针对预定特征维度下的特征总方差的具体确定过程，可参照前述样本总数量的详细描述，仅将该预定特征维度下的模拟特征方差替代样本总数量确定过程中的样本数量即可，在此不再赘述。

S504、根据预定特征维度的特征总标准差和/或特征总方差，对第一样本数据进行标准化处理。

本机节点将第一样本数据中的预定特征维度下的数据值，分别与对应维度下的特征总均值作差；确定各差值与特征总标准差的比值，从而实现对第一样本数据的标准化处理。其中，预定特征维度下的特征总均值可以通过线下获取、或者采用上述各实施例所提供的技术方案加以确定。当然，预定特征维度下的特征总均值还可以采用现有技术中的其他方式加以确定，本公开不再赘述。

本公开实施例通过将初始统计值的偏离秘密，细化为包括样本数量的偏离秘密；相应的，将目标统计值的确定操作，细化为根据第一样本数据的样本数量的偏离秘密，以及获取的各第二样本数据的样本数量的偏离秘密，确定样本总数量；根据样本总数量和第一样本数据在预定特征维度下的特征偏离和值，确定第一样本数据在预定特征维度下的模块特征方差；根据第一样本数据在预定特征维度下的模拟特征方差的偏离秘密，以及获取的各第二样本数据在相应特征维度下的模拟特征方差的偏离秘密，确定预定特征维度下的特征总标准差和/或特征总方差，从而完善了特征总标准差和/或特征总方差的确定方式，为多方节点中各节点的样本数据的统一标准化提供了数据支撑，同时避免了各节点的数据隐私的泄露。

作为上述各数据处理方法的实现，本公开还提供了一种实施数据处理方法的虚拟装置的可选实施例。

参见图6所示的一种数据处理装置的结构图，该数据处理装置600，配置于多方节点中的任一节点，包括：目标统计值确定模块601和标准化处理模块602。其中，

目标统计值确定模块601，用于根据本机节点的第一样本数据的初始统计值的偏离秘密，以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密，确定目标统计值；

标准化处理模块602，用于根据所述目标统计值，对所述第一样本数据进行标准化处理；

其中，所述目标统计值包括所述多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。

在一个可选实施例中，所述初始统计值的偏离秘密包括样本数量的偏离秘密和预定特征维度下的特征和值的偏离秘密；

所述目标统计值确定模块601，包括：

样本总数量确定单元，用于根据所述第一样本数据的样本数量的偏离秘密，以及获取的各所述第二样本数据的样本数量的偏离秘密，确定样本总数量；

特征总和值确定单元，用于根据所述第一样本数据在所述预定特征维度下的特征和值的偏离秘密，以及获取的各所述第二样本数据在对应特征维度下的特征和值的偏离秘密，确定所述预定特征维度下的特征总和值；

特征总均值确定单元，用于根据所述样本总数量和所述预定特征维度下的特征总和值，确定所述预定特征维度下的特征总均值。

在一个可选实施例中，所述初始统计值的偏离秘密包括样本数量的偏离秘密；

所述目标统计值确定模块601，包括：

样本总数量确定单元，用于根据所述第一样本数据的样本数量的偏离秘密，以及各所述第二样本数据的样本数量的偏离秘密，确定样本总数量；

模拟特征均值确定单元，用于根据所述样本总数量和所述第一样本数据在所述预定特征维度下的特征和值，确定所述第一样本数据在所述预定特征维度下的模拟特征均值；

特征总均值确定单元，用于根据所述第一样本数据在所述预定特征维度下的模拟特征均值的偏离秘密，以及获取的各第二样本数据在相应特征维度下的模拟特征均值的偏离秘密，确定预定特征维度下的特征总均值。

在一个可选实施例中，初始统计值的偏离秘密包括样本数量的偏离秘密和所述预定特征维度下的特征偏离和值的偏离秘密；

所述目标统计值确定模块601，包括：

样本总数量确定单元，用于根据所述第一样本数据的样本数量的偏离秘密，以及获取的各所述第二样本数据的样本数量的偏离秘密，确定样本总数量；

特征偏离总和值确定单元，用于根据所述第一样本数据在所述预定特征维度下的特征偏离和值的偏离秘密，以及获取的各所述第二样本数据在对应特征维度下的特征偏离和值的偏离秘密，确定所述预定特征维度下的特征偏离总和值；

特征总标准差确定单元，用于根据所述样本总数量和所述预定特征维度下的特征偏离总和值，确定所述预定特征维度下的特征总标准差；和/或，特征总方差确定单元，用于根据所述预定特征维度下的特征偏离总和值和所述样本总数量，确定所述预定特征维度下的特征总方差。

在一个可选实施例中，初始统计值的偏离秘密包括样本数量的偏离秘密；

所述目标统计值确定模块601，包括：

样本总数量确定单元，用于根据所述第一样本数据的样本数量的偏离秘密，以及获取的各所述第二样本数据的样本数量的偏离秘密，确定样本总数量；

模拟特征方差确定单元，用于根据所述样本总数量和所述第一样本数据在所述预定特征维度下的特征偏离和值，确定所述第一样本数据在所述预定特征维度下的模拟特征方差；

特征总标准差确定单元，用于根据所述第一样本数据在预定特征维度下的模拟特征方差的偏离秘密，以及获取的各第二样本数据在相应特征维度下的模拟特征方差的偏离秘密，确定预定特征维度下的特征总标准差；和/或，特征总方差确定单元，用于根据所述第一样本数据在预定特征维度下的模拟特征方差的偏离秘密，以及获取的各第二样本数据在相应特征维度下的模拟特征方差的偏离秘密，确定预定特征维度下的特征总方差。

在一个可选实施例中，样本数据包括样本特征数据和/或标签特征数据；所述样本数据包括所述第一样本数据和所述第二样本数据。

在一个可选实施例中，所述装置，还包括：

节点匹配请求发送模块，用于基于标准化智能合约向区块链网络发布包括样本需求的节点匹配请求；

标识信息接收模块，用于接收矿工节点反馈的满足所述样本需求的所述多方节点的标识信息。

在一个可选实施例中，所述装置，还包括：

完成消息发布模块，用于基于标准化智能合约向区块链网络发布标准化完成消息，以供所述区块链网络中的区块链节点根据所述标准化完成消息，进行标准化结果的查找。

上述数据处理装置可执行本公开任意实施例所提供的数据处理方法，具备执行数据处理方法相应的功能模块和有益效果。

需要说明的是，本公开的技术方案中，所涉及的各初始统计值的偏离秘密的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算（cloud computing），指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：荆博;
专利申请人：北京百度网讯科技有限公司;

上一篇：基于北斗下行信号频率辅助时分体制信号捕获方法及装置
下一篇：图像检测方法、装置、电子设备及存储介质