掌桥专利:专业的专利平台
掌桥专利
首页

一种基于能够验证的可信服务器的联邦学习系统及方法

文献发布时间:2023-06-19 19:30:30


一种基于能够验证的可信服务器的联邦学习系统及方法

技术领域

本申请涉及属于数据安全保护领域,尤其涉及一种基于能够验证的可信服务器的联邦学习系统及方法。

背景技术

现有技术中,联邦学习是一种分布式机器学习的框架,联邦学习的一个主要应用方向就是能够实现多个客户端在一个可信服务器的协调下,协作解决机器学习的问题,可信服务器通常由一个知名组织来操作,如医疗辅助诊断场景下,中心化服务器可由卫健委来进行操作;为了保证客户端隐私,客户端的用户数据是不离开本地存储设备的,客户端在本地进行训练后,将模型参数或梯度发送给可信服务器,这样能帮助多个参与者联合进行机器学习建模。

而随着大数据的进一步发展,用户信息等隐私泄露事件频发,数据隐私和安全已经成为世界性的趋势。已有一些研究表明,虽然联邦学习可以保障用户的原始数据不离开本地,但攻击者可以截获用户上传的梯度或模型参数,这样就导致原始的训练数据泄露等安全问题。而目前联邦学习系统想要解决这方面的问题,通常采用通过在本地客户端和服务器中同时加入噪声,同步进行差分隐私的方式,最终使客户端的安全聚合结果中的噪声与中心服务器集中添加的噪声相匹配。但是由于在(横向)联邦学习中,一般符合参与的用户是动态变化的,事先并不能清楚具体多少个客户端可以参与训练,另外参与训练的用户可能由于网络条件不好或电量不足等中途掉线;此外还可能存在粗心大意的客户端,忘记在本地增加差分隐私,这样都会导致提前设计的差分隐私与预设的(在可信服务器存在的情况下)可能存在一定的差异,从而要么一定程度上牺牲了模型的准确性,要么牺牲了用户数据的隐私性。因此迫切需要比传统产品更为可靠的技术防护措施。

发明内容

为了解决问题,本申请提供一种基于能够验证的可信服务器的联邦学习系统,包括可信服务器以及参与训练的客户端;

其中,所述可信服务器包括初始化模块、安全聚合模块、差分隐私模块以及生成证明模块;

所述初始化模块用于获得初始的模型和模型参数,将所述初始的模型和模型参数发送到参与训练的客户端;

所述安全聚合模块用于将参与训练的客户端发送到可信服务器的本地模型参数进行安全聚合,得到聚合后的模型参数;所述差分隐私模块用于聚合后的模型参数上根据隐私预算添加噪声,得到差分隐私后的模型参数,同时更新模型,将更新的模型和模型参数发送到参与训练的客户端;所述生成证明模块用于生成可验证证明,将可验证证明发送到客户端;

所述客户端包括本地训练模块和验证模块;所述本地训练模块用于对客户端收到初始的或者更新的模型和模型参数在本地进行训练和优化,将得到的优化模型参数发送到可信服务器;所述验证模块用于对服务器发来的可验证证明进行验证,当验证成功时,本地训练模块进行训练,当验证不成功时,停止训练。

本申请还提供一种使用如上所述的能够验证的可信服务器的联邦学习系统的方法,步骤包括:

S10,所述可信服务器获得初始化的模型以及模型参数,将所述初始化的模型以及模型参数发送至参与训练的客户端;

S20,所述参与训练的客户端将收到的模型和模型参数在本地进行训练,生成本地模型参数,对所述本地模型参数进行优化,得到优化模型参数;

所述参与训练的客户端将所述优化模型参数以及用于验证的本地生成元参数发送至所述可信服务器;其中,所述本地生成元参数为公开的有限循环群G的生成元;

S30,所述可信服务器以黑盒的方式对所述优化模型参数进行安全聚合,得到聚合后的模型参数;可信服务器根据预先设定的隐私预算,在聚合后的模型参数上添加相应的噪声,得到差分隐私后的模型参数,并对模型进行更新;

S40,所述可信服务器通过zk-snark协议,使用所述参与训练的客户端发来的本地生成元参数,计算生成可验证证明;

S50,将更新后的模型和模型参数以及所述可验证证明发送至下一轮参加训练的客户端;

S60,下一轮参加训练的客户端对所述服务器发来的可验证证明进行验证,若验证通过,则转入步骤S20,若验证不通过,则退出训练。

其中,在步骤S20中,对所述本地模型参数进行优化时采用剪枝操作,设本地模型参数为

其中,在步骤S30中,设置优化模型参数为

其中,在步骤S30中,差分隐私后的模型参数

其中,在步骤S40中,生成可验证证明的过程为:

S401,由受信任的第三方外包服务提供者提供外包函数Fn(u,w)以及随机的公共参考串crs,其中,u是公开信息,w是私有信息;

S402,设置Fn(g,S

运行算法Prove(crs,Fn,g,S

S403,将

其中,在步骤S50中,包括:

步骤S501,客户端根据服务器端发来的

步骤S502,客户端运行算法Verify(crs,Fn,g,S

本申请实现的有益效果如下:

基于全局性差分隐私、安全聚合、以及zk-snark零知识证明协议等技术共同设计了一种基于可信的中心服务器同时又能可进行验证的的联邦学习方法。为了平衡模型实用性和用户数据的隐私性,本申请的联邦学习系统基于可信且能够验证的中心化服务器模型下,在更新模型的过程当中,服务器不再直接发送参数模型给与中心服务器,而是先对中心服务器的验证证明进行验证后再进入本地进行训练,而验证证明中,也能够证明服务器对数据进行了安全聚合和增加噪声的操作,当中心的服务器偏离原定协议时,客户端能够通过验证而及时得到发现,不会泄漏本地数据,加强了远程交互训练过程中的安全性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本申请基于可验证可信服务器的联邦学习系统的方法的流程示意图。

具体实施方式

下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请包括一个可信的中心服务器,可信的中心服务器一般是由一个知名组织来操作,如医疗辅助诊断场景下,中心化服务器可由卫健委来进行操作,以及参与训练的客户端,可信的中心服务器将参与训练的客户端发送过来的信息参数进行联合学习,形成分布式的联邦机器学习的框架。

具体的,首先,可信的中心服务器根据需求获得一个初始化模型,得到初始化模型的初始化模型参数θ

其中,在本实施例中,客户端与服务器端使用同样的剪枝阈值C,也就是说,客户端和服务器端在交互前,训练得到模型的模型参数中超过剪枝阈值C长度的将被剪去。

参加训练的q·n个客户端的第0轮模型优化参数

服务器收到参与训练的在线客户端的第0轮优化参数后,对所有客户端的第0轮优化参数进行安全聚合,本实施例中采用Kallista A.Bonawitz、 Vladimir Ivanov、BenKreuter、Antonio Marcedone、H.Brendan McMahan、Sarvar Patel、Daniel Ramage、AaronSegal、Karn Seth在 CCS2017(全称Conference on Computer and CommunicationsSecurity)会议上提出的《Practical Secure Aggregation for Privacy-PreservingMachine Learning》文章公开的安全聚合方法,以黑盒的方式进行安全聚合操作,得到聚合模型参数

在安全聚合的基础上,引入噪声增加全局性差分隐私,本实施例中,使用BrendanMcMahan和Galen Andrew在CoRR2018上的文章《A General Approach to AddingDifferential Privacy to Iterative Training Procedures》的公开方案中提出的差分隐私训练方法进行差分隐私训练,服务器得到聚合模型参数

具体算法为:

进行安全聚合和差分隐私后,为了能够向客户端提供验证,服务器端生成可验证证明;根据文章《Pinocchio:Nearly Practical Verifiable Computation》 S&P2013(全称2013IEEE Symposium on Security and Privacy)作者Bryan Parno、 Jon Howell、CraigGentry和Mariana Raykova,我们在使用零知识可验证计算时,考虑函数Fn(u,w)作为一个外包函数,它的输入由两部分组成:u为客户要求计算的输入,w为外包服务提供者为计算提供的私有信息。与一般化的可验证计算相比,零知识可验证计算不仅可以保证计算的正确性、可验证性,也可以保证外包服务提供者的私有信息。该协议主要包含以下三个部分:

受信任的第三方外包服务提供者提供外包函数Fn(u,w)以及随机的公共参考串crs,其中,u是公开信息,w是私有信息;

设置Fn(g,S

运行算法Prove(crs,Fn,g,S

在本实施例中,我们考虑Fn(g,S

是均值为0,标准差为S

服务器将

参与下一轮(客户端第1轮)训练的客户端i在训练之前,先对收到的零知识证明进行验证,确认证明的正确性后,继续参与训练;如果证明不通过,那么退出训练过程。

具体证明过程如下:

首先客户端i计算

随后客户端i运行算法Verify(crs,Fn,g,S

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

技术分类

06120115931384