掌桥专利:专业的专利平台
掌桥专利
首页

一种跨域异质场景下的联邦学习隐私性评估方法

文献发布时间:2023-06-19 19:27:02


一种跨域异质场景下的联邦学习隐私性评估方法

技术领域

本发明涉及联邦学习隐私评测技术领域,特别涉及一种跨域异质场景下的联邦学习隐私性评估方法。

背景技术

现有的联邦学习隐私评测指标大多都是通过计算客户端私人原始数据和模型梯度的互信息量来实现,这种方法并不适用于跨域异质场景下的联邦学习,首先异质下的Non-IID数据无法在统计模型中得到降维处理,无法实现多维下的互信息计算;同时统计模型的效能会直接影响互信息计算的准确性,对于跨域场景下拥有不同学习任务、不同数据集和不同算力的客户端来说需要在评测过程中训练多个统计模型进行评测这很显然并不现实;最后由于客户端的本地任务不同对应数据集也有差异,不能只通过一个指标来对所有数据集进行隐私性评测,数据集的复杂程度会直接和攻击难易挂钩。

发明内容

本发明提供了一种跨域异质场景下的联邦学习隐私性评估方法,通过在客户端模拟攻击,计算攻击结果来判断隐私性的安全程度,对联邦学习模型和数据都没有要求,适用于大部分实际情况。

本发明提供了一种跨域异质场景下的联邦学习隐私性评估方法,包括:

确定联邦学习在跨域异质场景下的任务和数据集,并根据算法确定潜在攻击风险;

根据任务对数据集进行关联度筛选;

将客户端发送给联邦学习中央服务器的数据采用设定的隐私加强技术进行加密处理;

根据具有代表性的攻击模型计算客户端的隐私性指标;

根据设置的阈值判定客户端参与联邦学习时所上传数据的隐私泄露风险。

进一步地,所述确定联邦学习在跨域异质场景下的任务和数据集,去除本地数据冗余并根据算法确定潜在攻击风险的步骤,包括:

在跨域异质场景下客户端在设定数据集和全局梯度的基础上进行局部数据预训练并上传至客户端聚合,通过不断迭代以实现本地模型的训练;其中,所述设定数据集包括手写体数字数据库MNIST、用于识别普适物体的小型彩色数据库CIFAR10、人脸数据库LFW;

将每个样本的类别标签归纳在一个矩阵

α=(α

其中,x为符合要求的随机向量,而α为分布参数,其越大分布越接近均匀分布,越小则分布越聚集。

采用FedSGD算法,客户端和中央服务器进行迭代通信优化每个对应数据集下任务k的全局任务模型

确定恶意窃听者通过获取目标客户端发送的梯度参数和联邦学习模型对客户端的原始数据进行估计和还原,其攻击行为包括成员推理攻击、属性推理攻击、数据重构攻击。

进一步地,所述根据任务对数据集进行关联度筛选的步骤,包括:

以批量大小B对每个客户端的数据集进行采样,使得第i个客户端进行训练的数据为

引入查询向量q,通过评分函数

其中,α

进一步地,所述根据具有代表性的攻击模型计算客户端的隐私性指标的步骤,包括:

通过

根据现有的DLG模型,随机生成一份和真实数据同样大小的虚拟数据x

计算不同任务对应数据集的跨域权重;

计算攻击得到的原始数据与原始样本的相似度,以确定客户端的隐私性指标。

进一步地,所述计算不同任务对应数据集的跨域权重的步骤,包括:

在客户端模型的不同数据集下的DLG攻击中,当估计梯度在新的迭代轮次中的变化值小于δ时判定DLG达到收敛:|G'

将每个数据集下的迭代次数的比例值

进一步地,所述计算攻击得到的原始数据与原始样本的相似度,以确定客户端的隐私性指标的步骤,包括:

假设在第i个数据集中,推测出的估计数据为

对于样本标签的估计值采用计数函数来判定他们的一致性,其公式为:

根据RMSE,LC和P的综合性指标判定第k数据集对应任务下的联邦学习数据总的泄露性,其公式为:

进一步地,所述根据设置的阈值判定客户端参与联邦学习时所上传数据的隐私泄露风险的步骤,包括:

对不同客户端设备下的加密模型进行准确性测试,当测试集的分类准确率低于阈值时,模型均不允进一步确定其隐私性;

设定不同数据集下的阈值M

本发明还提供了一种跨域异质场景下的联邦学习隐私性评估装置,包括:

确定模块,用于确定联邦学习在跨域异质场景下的任务和数据集,并根据算法确定潜在攻击风险;

筛选模块,用于根据任务对数据集进行关联度筛选;

加密模块,用于将客户端发送给联邦学习中央服务器的数据采用设定的隐私加强技术进行加密处理;

计算模块,用于根据具有代表性的攻击模型计算客户端的隐私性指标;

判定模块,用于根据设置的阈值判定客户端参与联邦学习时所上传数据的隐私泄露风险。

本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的有益效果为:

本发明首先确定了联邦学习在跨域异质场景下的任务和数据集,去除本地数据冗余并根据算法确定潜在攻击风险;其次客户端通过具有代表性的攻击模型DLG对自身发起模拟攻击,通过重构自身原始数据的方式得到对原始数据的估计值;然后计算估计数据和原始数据的误差距离和不同任务下数据集的跨域权重值来计算该客户端自身的隐私性指标;最后比较隐私性指标是否大于相应攻击模型下的阈值,若大于阈值则提示安全;对联邦学习模型和数据都没有要求,适用于大部分实际情况。本发明还将攻击模型在每一种数据集下的迭代收敛的次数作为跨域权重表示每种任务下的数据集被攻击的难易程度。

附图说明

图1为本发明一实施例的方法流程示意图。

图2为本发明中第k数据集下的FedSGD算法架构示意图。

图3为本发明一实施例的装置结构示意图。

图4为本发明一实施例的计算机设备内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明提供了一种跨域异质场景下的联邦学习隐私性评估方法,包括:

S1、确定联邦学习在跨域异质场景下的任务和数据集,并根据算法确定潜在攻击风险;

步骤S1具体包括:

S11、在跨域异质场景下客户端在设定数据集和全局梯度的基础上进行局部数据预训练并上传至客户端聚合,通过不断迭代以实现本地模型的训练;其中,所述设定数据集包括手写体数字数据库MNIST、用于识别普适物体的小型彩色数据库CIFAR10、人脸数据库LFW;

如上述步骤S11所述,确定联邦学习数据集和任务。在跨域异质场景的要求下客户端拥有不同的学习任务对应不同的数据集,假设采用各种不同的图片数据集,如手写体数字数据库MNIST、用于识别普适物体的小型彩色数据库CIFAR10以及人脸数据库LFW等共M种。而联邦学习的任务就是使客户端在上述数据集和全局梯度的基础上进行局部数据预训练并上传至客户端聚合,通过不断迭代该过程实现本地模型的训练并达到对本地智能识别任务的高质量完成。

S12、数据集的划分,为了实现数据的异质特性以及将不同标签的样本均匀划分到每个客户端以实现全面的非独立同分布(Non-IID)场景,将每个样本的类别标签归纳在一个矩阵

α=(α

其中,x为符合要求的随机向量,而α为分布参数,其越大分布越接近均匀分布,越小则分布越聚集。

S13、确定联邦学习算法和潜在推理攻击。采用FedSGD算法,如图2所示,客户端和中央服务器进行迭代通信优化每个对应数据集下任务k的全局任务模型

S14、此时确定恶意窃听者通过获取目标客户端发送的梯度参数和联邦学习模型对客户端的原始数据进行估计和还原,其攻击行为包括成员推理攻击、属性推理攻击、数据重构攻击;通过发起成员推理攻击,属性推理攻击或者是数据重构攻击等,造成目标客户端隐私的泄露,威胁客户端的安全。

S2、根据任务对数据集进行关联度筛选;

步骤S2具体包括:

S21、以批量大小B对每个客户端的数据集进行采样,使得第i个客户端进行训练的数据为

S22、在数据集中并不是所有数据点都能为分类任务提供作用,在防止和评价隐私泄露的过程中本专利在神经网络中插入注意力机制来使神经网络具有将注意力集中到一部分输入(或特征)的能力。

首先需要引入一个和任务相关的表示,称为查询向量q,通过评分函数

其中,α

S3、将客户端发送给联邦学习中央服务器的数据采用设定的隐私加强技术进行加密处理。

如上述步骤S3所述,目前现有的隐私加强技术包括差分隐私(differentialprivacy)、合成数据(synthetic data)、安全多方计算(Secure Multiparty Computation,SMPC)和同态加密(homomorphic encryption)等。假设使用同态加密技术来对模型的梯度信息进行加密,该方法需要较高的计算和通信成本,对于不同算力的客户端,此加密方法会导致模型性能和对抗推理攻击的能力的不同。

S4、根据具有代表性的攻击模型计算客户端的隐私性指标;

步骤S4具体包括:

S41、为了保证模型的基本性能,以免出现模型数据隐私性高但是无法适用于实际的联邦学习任务,同时也为了防止某些客户端以牺牲其模型的准确性来换取隐私性,本发明提出将联邦学习准确性纳入衡量模型隐私性。

由于跨域异质场景中客户端的数据集、任务和算力不同,尤其是在算力的限制下客户端会选择部分同态、近似同态、有限级数全同态与完全同态等加密方式,这些加密方法下的客户端准确性不同。通过

S42、根据潜在可能发生的推理攻击模型计算隐私性指标。尝试使用具有代表性的攻击模型攻击上述联邦学习过程并尝试提高梯度窃取还原各客户端的原始数据。

目前针对于梯度数据泄露的攻击模型大致分为两种,一种为部分泄露,一种为完全泄露,各种攻击模型的特点如下表所列:

在现有的攻击模型中,DGL模型具有在交换的梯度数据中推理出客户端的私人数据的能力,具有极大的隐私威胁性。根据现有的DLG模型,客户端在发送梯度到中央服务器之前利用攻击模型进行一个模拟攻击:随机生成一份和真实数据同样大小的虚拟数据x

S43、计算不同任务对应数据集的跨域权重;

步骤S43具体包括:

S431、在跨域场景下,客户端本地任务不同对应数据集也不同。DLG攻击模型在不同的

数据中的表现也不同,具体体现在数据集越复杂模型迭代攻击的次数越多,估计梯度和原始梯度之间越难收敛,需要花费的计算成本也越多。

在客户端模型的不同数据集下的DLG攻击中,当估计梯度在新的迭代轮次中的变化值小于δ时判定DLG达到收敛:|G

S432、将每个数据集下的迭代次数的比例值

S44、计算攻击得到的原始数据与原始样本的相似度,以确定客户端的隐私性指标。

步骤S44具体包括:

S441、假设在第i个数据集中,推测出的估计数据为

S442、对于样本标签的估计值采用计数函数来判定他们的一致性,其公式为:

S443、根据RMSE,LC和P的综合性指标判定第k数据集对应任务下的联邦学习数据总的泄露性,其公式为:

S5、根据设置的阈值判定客户端参与联邦学习时所上传数据的隐私泄露风险。

步骤S5具体包括:

S51、对不同客户端设备下的加密模型进行准确性测试,当测试集的分类准确率低于阈值时,模型均不允进一步确定其隐私性;

如上述步骤S51所述,首先针对不同客户端设备下的加密模型进行准确性测试,当测试集的分类准确率低于阈值时,模型都不允进一步确定其隐私性,因为其加密方案影响了模型的性能,哪怕隐私性能满足条件也无法在现实场景中得到运用。

S52、设定不同数据集下的阈值

当前的联邦学习隐私性评测中没考虑到跨域异质场景下客户端数据集不同、任务不同甚至是算力不同所带来的评测难度。而本发明首先确定了联邦学习在跨域异质场景下的任务和数据集,去除本地数据冗余并根据算法确定潜在攻击风险;其次客户端通过具有代表性的攻击模型DLG对自身发起模拟攻击,通过重构自身原始数据的方式得到对原始数据的估计值;然后计算估计数据和原始数据的误差距离和不同任务下数据集的跨域权重值来计算该客户端自身的隐私性指标;最后比较隐私性指标是否大于相应攻击模型下的阈值,若大于阈值则提示安全。根据这种隐私性评估方法,客户端判定是否要额外付出一定的计算和通信成本对自身数据进行加密或改进加密。

如图3所示,本发明还提供了一种跨域异质场景下的联邦学习隐私性评估装置,包括:

确定模块1,用于确定联邦学习在跨域异质场景下的任务和数据集,并根据算法确定潜在攻击风险;

筛选模块2,用于根据任务对数据集进行关联度筛选;

加密模块3,用于将客户端发送给联邦学习中央服务器的数据采用设定的隐私加强技术进行加密处理;

计算模块4,用于根据具有代表性的攻击模型计算客户端的隐私性指标;

判定模块5,用于根据设置的阈值判定客户端参与联邦学习时所上传数据的隐私泄露风险。

在一个实施例中,确定模块1,包括:

预训练单元,用于在跨域异质场景下客户端在设定数据集和全局梯度的基础上进行局部数据预训练并上传至客户端聚合,通过不断迭代以实现本地模型的训练;其中,所述设定数据集包括手写体数字数据库MNIST、用于识别普适物体的小型彩色数据库CIFAR10、人脸数据库LFW;

数据划分单元,用于将每个样本的类别标签归纳在一个矩阵

α=(α

其中,x为符合要求的随机向量,而α为分布参数,其越大分布越接近均匀分布,越小则分布越聚集。

第一计算单元,用于采用FedSGD算法,客户端和中央服务器进行迭代通信优化每个对应数据集下任务k的全局任务模型

确定单元,用于确定恶意窃听者通过获取目标客户端发送的梯度参数和联邦学习模型对客户端的原始数据进行估计和还原,其攻击行为包括成员推理攻击、属性推理攻击、数据重构攻击。

在一个实施例中,筛选模块2,包括:

采样单元,用于以批量大小B对每个客户端的数据集进行采样,使得第i个客户端进行训练的数据为

引入单元,用于引入查询向量q,通过评分函数

其中,α

在一个实施例中,计算模块4,包括:

第二计算单元,用于通过

生成单元,用于根据现有的DLG模型,随机生成一份和真实数据同样大小的虚拟数据x

第三计算单元,用于计算不同任务对应数据集的跨域权重;

第四计算单元,用于计算攻击得到的原始数据与原始样本的相似度,以确定客户端的隐私性指标。

在一个实施例中,第三计算单元,包括:

判断子单元,用于在客户端模型的不同数据集下的DLG攻击中,当估计梯度在新的迭代轮次中的变化值小于δ时判定DLG达到收敛:|G'

作为子单元,用于将每个数据集下的迭代次数的比例值

在一个实施例中,第四计算单元,包括:

推测子单元,用于假设在第i个数据集中,推测出的估计数据为

第一判定子单元,用于对于样本标签的估计值采用计数函数来判定他们的一致性,其公式为:

第二判定子单元,用于根据RMSE,LC和P的综合性指标判定第k数据集对应任务下的联邦学习数据总的泄露性,其公式为:

在一个实施例中,判定模块5,包括:

测试单元,用于对不同客户端设备下的加密模型进行准确性测试,当测试集的分类准确率低于阈值时,模型均不允进一步确定其隐私性;

设定单元,用于设定不同数据集下的阈值

上述各模块、单元、子单元均是用于对应执行上述跨域异质场景下的联邦学习隐私性评估方法中的各个步骤,其具体实现方式参照上述方法实施例所述,在此不再进行赘述。

如图4所示,本发明还提供了一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储跨域异质场景下的联邦学习隐私性评估方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现跨域异质场景下的联邦学习隐私性评估方法。

本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一个跨域异质场景下的联邦学习隐私性评估方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 一种跨域异质场景下的面向联邦学习的评测方法及装置
  • 跨域异质场景下基于TDD通信的联邦学习效率评测方法
技术分类

06120115918047