导航：首页> 家具；家庭用的物品或设备；咖啡磨；香料磨；一般吸尘器>基于联邦学习的客户端数据真实性校验方法、介质及设备

基于联邦学习的客户端数据真实性校验方法、介质及设备

文献发布时间：2024-05-31 01:29:11

技术领域

本发明涉及电数字数据处理的技术领域，特别涉及一种数据可靠性验证领域的基于联邦学习的客户端数据真实性校验方法、介质及设备。

背景技术

联邦学习(Federated Learning,FL)是一种机器学习的分布式训练方法，旨在保护数据隐私的同时，使多个参与方能够合作构建共同的机器学习模型。在传统的中心化机器学习中，所有的数据都被集中在一个中央服务器上进行模型训练，这可能引发隐私和安全问题，而联邦学习通过将模型的训练分布在多个本地设备或数据中心上，避免了中央化的数据集中式存储，从而解决一些数据隐私和安全方面的问题。

在联邦学习场景下，中心客户端无法判断本地客户端数据的真实性和可靠性，这可能导致以下一些问题和挑战：

(1)恶意本地客户端：一些本地客户端可能有意图地提供虚假或有害的数据，以干扰模型的训练或损害整个系统的性能，这种恶意行为可能包括数据篡改、故意错误的模型更新、数据泄漏等；

(2)数据偏见：由于中心客户端无法验证本地客户端数据的真实性，可能存在数据偏见的问题，某些本地客户端的数据可能不够多样化或不足够代表整个数据分布，导致模型在某些方面出现偏差；

(3)不可靠的梯度更新：本地客户端在本地训练后将模型参数的梯度更新传回中心客户端，如果本地客户端的训练过程不稳定或低质量，那么传回的梯度可能不可靠，可能会对全局模型的性能产生不良影响；

(4)数据泄漏风险：联邦学习的目标之一是保护数据隐私，然而中心客户端无法完全控制本地客户端的操作，存在数据泄漏的风险，恶意本地客户端或者不慎的本地操作可能导致敏感信息泄露。

发明内容

本发明解决了现有技术中存在的问题，提供了一种基于联邦学习的客户端数据真实性校验方法、介质及设备。

本发明所采用的技术方案是，一种基于联邦学习的客户端数据真实性校验方法，所述方法设置本地模型，用于学习数据特征及对应标签；基于联邦学习，以所有参与方的数据的特征和标签协同训练全局模型，以全局模型聚合本地信息，对客户端数据的真实性做出校验。

优选地，所述方法包括以下步骤：

S1构建混合数据集；

S2使用本地数据训练客户端本地模型，以不同的数据可靠性标签对应不同的数据特征；

S3使用FedMix算法训练优化数据，解决数据异构导致的客户端偏移；

S4计算每个训练轮次中客户端模型梯度与全局模型梯度的余弦相似度，获取客户端模型作为全局聚合的权重；

S5通过加权聚合，对来自所有参与者的本地模型参数进行聚合；

S6以全局信息为依据判别客户端数据的真实性。

优选地，S1中，构建所述混合数据集包括以下步骤：

S1.1确定用于计算平均值的样本数量Mk；

S1.2对每个客户端中的样本数据按样本数量Mk划分为多个批次，对于各批次数据分别求取均值，作为新的样本加入混合数据集(X

优选地，S2中，数据可靠性标签包括数据可靠、数据不可靠、数据源不可靠、数据缺失、数据错误或异常值、数据造假。

优选地，S3包括以下步骤：

S3.1接收全局模型w

S3.2对于每一批次数据，从混合数据集(X

S3.3上传训练后的本地模型w；

S3.4完成迭代则结束，输出更新后的全局模型，否则聚合全局模型，并发送到本地，使用本地数据训练模型参数，继续迭代。

优选地，S3.2中，l＝l

优选地，S4包括以下步骤：

S4.1设置均值聚合全局模型WG，

其中，i为本地客户端序号，n为本地客户端的总数；

S4.2每个训练轮次中客户端模型梯度与全局模型梯度的余弦相似度，

其中，

S4.3以softmax函数计算聚合权值，weights(i)＝softmax(Sim

优选地，S5包括以下步骤：

S5.1初始化全局模型参数w

S5.2判断客户端是否参与模型训练，将混合数据集(X

S5.3接收来自客户端的本地模型

S5.4加权聚合

一种计算机可读存储介质，其上存储有基于联邦学习的客户端数据真实性校验程序，该程序被处理器执行时实现上述基于联邦学习的客户端数据真实性校验方法。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述基于联邦学习的客户端数据真实性校验方法。

本发明涉及一种基于联邦学习的客户端数据真实性校验方法、介质及设备，方法设置本地模型，用于学习数据特征及对应标签；基于联邦学习，以所有参与方的数据的特征和标签协同训练全局模型，以全局模型聚合本地信息，对客户端数据的真实性做出校验；基于方法实现计算机可读存储介质和计算机设备。

本发明的有益效果在于，在本地模型学习数据特征及对应标签，通过全局模型聚合本地信息，对客户端数据真实性做出判别，在不侵犯数据隐私的前提下，所有参与方的特征与标签以联邦学习的形式协同训练全局模型，能够分布式学习本地客户端数据特征与可靠性标签之间的联系，并以全局信息为指导，以全局信息为依据来判别各个客户端数据的真实性和可靠性；特别适用于联邦学习场景下，实现对客户端数据真实性和可靠性的判别。

附图说明

图1为本发明的方法流程图；

图2为本发明的加权聚合的算法示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种基于联邦学习的客户端数据真实性校验方法，包括以下具体步骤：

(1)混合数据集构建；混合数据集由平均客户端数据的方式构建，用于后续优化数据异构导致的本地客户端偏移问题；

(2)客户端本地模型训练；客户端使用本地的数据进行模型训练，不同的数据可靠性标签对应不同的数据特征；

(3)数据异构问题训练优化；使用FedMix算法缓解客户端之间存在数据异构而导致客户端偏移的问题；

(4)基于余弦相似度的权重计算；计算每个训练轮次中客户端模型梯度与全局模型梯度的余弦相似度，输入softmax函数，输出作为全局聚合的权重；

(5)全局模型加权聚合；通过加权聚合的方式对来自所有参与者的本地模型参数进行聚合，全局模型在不直接访问本地数据的前提下学习来自所有参与者数据及对应真实性标签的信息；

(6)客户端数据真实性验证；经过多轮迭代后达到收敛要求的全局模型已经充分学习了数据集真实性和可靠性的判别，以全局信息为依据判别客户端数据的真实性。

(1)混合数据集构建

具体步骤如下：

(1.1)均值参数确定

通过平均客户端数据的方式构建混合数据集，用于计算平均值的样本数量Mk由具体的隐私保护要求决定，使用MAFL(Mean Augmented Federated Learning)算法作为联邦学习的整体框架，用于计算平均值的数据实例数量Mk控制着MAFL的关键特征，是决定隐私性和通信消耗的关键变量；Mk越小代表传递的信息越多，但同时隐私安全性越差，且通信成本增加；在Mk＝1的极端情况下，原始数据被彻底交换，隐私完全不受保护，但是在另一个极端，每个客户的所有数据都会被平均，以确保相当程度的隐私；

(1.2)混合数据集构建

对各个客户端中的样本数据按照(1.1)确定的均值参数划分为多个批次，对于各个批次分别求取均值并作为新的样本

(2)客户端本地模型训练及(3)Fedmix优化

客户端使用本地的数据进行模型训练，不同的数据可靠性标签对应不同的数据特征，提出使用FedMix算法来缓解客户端之间存在数据异构而导致客户端偏移的问题，本地训练过程基于对本地数据进行过上述标签划分的数据集。具体如下：

(2.1)本地数据处理：依据客户端不同的数据特征给予对应数据可靠性标签，包括数据可靠、数据不可靠：数据源不可靠、数据缺失、数据错误或异常值、数据造假等；

此处的本地数据经过处理，标签是后续机器学习任务的依据，共同用于后续的本地模型训练；

(3.1)接收全局模型w

(3.2)迭代本地训练：对于每一批次数据(X，Y)从混合数据集(X

l＝l

λ为调节参数，λ∈(0,1)；此处l

(3.3)上传训练后的本地模型w，

(3.4)完成迭代则结束，输出更新后的全局模型，否则从本地数据中学习模型参数，重复。

FedMix对本地模型的训练进行创新，从各个客户端中抽取部分数据求平均，得到平均样本，然后在每个客户端进行训练时，从这些平均样本中再抽取部分，在这种训练方式下，本地客户端训练时不仅仅使用本地数据，还使用部分通过平均得到的平均样本，与其他数据进行关联，这使得本地模型的泛化能力增强。

(4)基于余弦相似度的权重计算

使用均值聚合的方式计算当前轮次的均值全局模型，计算每个训练轮次中客户端模型梯度与均值全局模型梯度的余弦相似度，输入softmax函数，输出作为全局模型加权聚合的权重。具体如下：

(4.1)均值聚合全局模型WG

(4.2)计算余弦相似度

式中W

(4.3)softmax函数计算聚合权值，

weights(i)＝softmax(Sim

(5)全局模型聚合

通过加权聚合的方式，对来自所有参与者的本地模型参数进行聚合，因此全局模型在不直接访问本地数据的前提下学习了来自所有参与者数据及对应真实性标签的信息；具体如下：

(5.1)初始化全局模型参数为w

(5.2)判断客户端是否参与模型训练，将混合数据集(X

(5.3)接收来自客户端的本地模型

(5.4)按照下式进行加权聚合得到全局模型，

此处←为赋值。

模型聚合使用基于余弦相似度的聚合权重计算，核心的思想是在全局聚合时给与全局聚合方向相近的本地模型更多的权重，这样可以加速全局模型的收敛。如图2所示，全局聚合方向使用一般的均值聚合模型减去上一轮全局模型来代表，本地模型的方向使用训练后的本地模型减去初始的全局模型来代表，计算上述两者的余弦相似度，相似度越高说明该本地模型的收敛方向与全局越相近，将所有余弦相似度输入softmax函数，得到对应客户端聚合时模型的权重。

(6)客户端数据真实性验证

经过多轮迭代后，当全局模型达到收敛要求时，它已经从参与的本地客户端数据中充分学习到了数据集的特征、分布和模式，对数据真实性和可靠性具有一定判别能力。在这个阶段，全局模型可以用于验证本地客户端数据的真实性。如果某个本地客户端的数据在全局模型验证过程中出现与全局信息不一致的情况，这可能表明该客户端的数据存在问题。

本发明在应用中还涉及一种计算机可读存储介质，其上存储有基于联邦学习的客户端数据真实性校验程序，该程序被处理器执行时实现上述基于联邦学习的客户端数据真实性校验方法。

本发明在应用中还涉及一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述基于联邦学习的客户端数据真实性校验方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载