掌桥专利:专业的专利平台
掌桥专利
首页

基于全同态加密的逻辑回归方法、装置及系统

文献发布时间:2024-04-18 19:52:40


基于全同态加密的逻辑回归方法、装置及系统

技术领域

本发明属于计算机技术领域,具体涉及一种基于全同态加密的逻辑回归方法、装置及系统。

背景技术

随着云计算的飞速发展,其强大的计算能力和巨大的存储空间为大数据的计算和处理提供了强有力的支持,因此大数据通常与云计算相结合。云计算对大数据的分析有重要影响,云计算提供了一个可配置的计算环境,可以有效地管理和快速部署。通过将数据的计算卸载到云端,云客户可以轻松、方便地使用计算资源,而不受资源设备的限制。

尽管云计算具有各种优势,但在隐私保护方面仍存在许多挑战,在云端保存与大数据相关的数据受到越来越多的关注。在收集大数据的过程中,可能会包含一些敏感或专有信息,一旦泄露,将导致灾难性的后果。因此,对参与云计算的数据进行加密是必要的。然而,机器学习算法不能直接访问加密数据。如果解密密钥被提供给云服务器,数据隐私就无法保证。因此,利用运行在云上的机器学习算法处理加密数据是一个具有挑战性的问题。

作者Kim在其发表论文“Ensemble Method for Privacy-Preserving LogisticRegression Based on Homomorphic Encryption”(IEEE Access,2018)中用全同态加密技术可以对密文执行任意计算这一特性,构造了一种隐私保护的逻辑回归算法。该方法存在的不足之处是:随着迭代次数的增加,密文的计算深度也随之增加,为了避免噪声影响解密必须设置很大的加密参数。而加密参数越大,加解密和密文运算的所需时间越长,导致整体方案的效率低下;并且该方案仅适用于小型数据集,对大型数据集训练结果较差。

作者Fan在其发表论文“Privacy preserving based logistic regression onbig data”(Journal of Network and Computer Applications,2020)中提出在云服务器每轮迭代后将密文发送给数据拥有者,后者解密后进行梯度下降,之后再将新的模型参数加密后发送给云服务器进行新一轮迭代。通过数据拥有者解密后重加密的操作,可以减少密文的计算深度,从而无需设置kim和Song方案中的极大加密参数,以此提高了方案的效率。该方法存在的不足之处是:数据拥有者在整个模型训练过程中都需要在线。并且该方案对于大型数据集来说计算量大,效率较低,通信复杂度较高。

发明内容

为了解决现有技术中存在的效率不高,训练大维数数据集效果较差的问题,本发明提供了一种基于全同态加密的逻辑回归方法、装置及系统。本发明要解决的技术问题通过以下技术方案实现:

第一方面,本发明提供了一种基于全同态加密的逻辑回归方法,应用于研究机构,包括:

S11:基于全同态CKKS密码算,法生成公私钥对;

S12:响应于接收到协方差矩阵密文C

S13:对所述降维矩阵P进行加密得到密文向量C

S14:响应于接收到第j次迭代的梯度密文向量

S15:持续接收梯度密文向量,并重复步骤S14,直至达到最大迭代次数,得到最终的模型参数。

第二方面,本发明提供了一种基于全同态加密的逻辑回归方法,应用于云服务器,包括:

S21:获取用户上传的密文向量C和标签密文C

S22:对所述密文向量C进行预处理,得到新的密文向量C

S23:响应于接收到密文向量C

S24:基于密文向量C

S25:响应于接收到参数密文

第三方面,本发明提供了一种基于全同态加密的逻辑回归装置,应用于研究机构,包括:

密钥生成模块,用于基于全同态CKKS密码算法生成公私钥对;

第一降维模块,用于响应于接收到协方差矩阵密文C

加密模块(13),用于对所述降维矩阵P进行加密得到密文向量C

第一计算模块,用于响应于接收到第j次迭代的梯度密文向量

第四方面,本发明提供了一种基于全同态加密的逻辑回归装置,应用于云服务器,包括:

数据获取模块,用于获取用户上传的密文向量C和标签密文C

预处理模块,用于对所述密文向量C进行预处理,得到新的密文向量C

第二降维模块,用于响应于接收到密文向量C

第二计算模块,用于基于密文向量C

第五方面,本发明提供了一种基于全同态加密的逻辑回归系统,包括上述实施例提供的应用于研究机构端的基于全同态加密的逻辑回归装置和应用于云服务器端的基于全同态加密的逻辑回归装置。

本发明的有益效果:

1、本发明采用的隐私保护逻辑回归方案在进行迭代前对加密后的金融数据集进行了降维处理,减少了数据维数,降低了无关特征项的干扰,从而减少了计算量,同时提高了效率和准确率,对大型数据集具有很好的训练效果;且该方法采用了金融领域的双云模型,使得数据拥有者上传自身数据后便可离线,既保证了客户数据的安全性,又无需实时在线,提高了便捷性,而做到了真正的云计算;

2、本发明在进行迭代前对加密后的金融数据集进行了预处理,由于加密时使用批处理技术来按列加密数据集,在计算均值、方差和协方差时可以做到同时对n条数据计算,从而提升了效率;

3、本发明在进行迭代前对加密后的金融数据集进行了预处理,对数据集进行标准化处理,将原值减去均值后除以标准差,使得得到的特征满足均值为0,标准差为1的正态分布;从而让不同维度之间的特征在数值上有一定比较性,得出的参数大小可以反应出不同特征对样本的贡献度,可以大大提高准确性。

附图说明

图1是本发明实施例提供的一种应用于研究机构端的基于全同态加密的逻辑回归方法的流程示意图;

图2是本发明实施例提供的一种应用于云服务器端的基于全同态加密的逻辑回归方法的流程示意图;

图3是本发明实施例提供的一种应用于研究机构端的基于全同态加密的逻辑回归装置的结构示意图;

图4是本发明实施例提供的一种应用于云服务器端的基于全同态加密的逻辑回归装置的结构示意图;

图5是本发明实施例提供的一种基于全同态加密的逻辑回归系统的结构示意图;

图6是本发明实施例提供的一种基于全同态加密的逻辑回归系统的工作流程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

实施例一

本实施例提供了一种应用于研究机构端的基于全同态加密的逻辑回归方法。请参见图1,图1是本发明实施例提供的一种应用于研究机构端的基于全同态加密的逻辑回归方法的流程示意图,其包括:

S11:基于全同态CKKS密码算法生成公私钥对。

具体的,在研究机构端,利用全同态CKKS密码算法中的加密算法中的密钥生成算法生成所需公私钥对{pk,sk}。

其中,CKKS加密算法中的密钥生成算法的步骤如下:

第1步,初始化安全参数λ,深度上限L。设置N为2的幂,模数Q=p

第2步,构建多项式商环

第3步,从多项式商环R上的一个离散高斯分布χ中随机均匀采样得到私钥相关的分布χ

第4步,从χ

第5步,设置私钥sk=(1,s),公钥pk=(b,a),其中b=-a·s+e mod Q。

S12:响应于接收到协方差矩阵密文C

具体的,当接收到云服务器发送的协方差矩阵密文C

然后计算协方差矩阵X的特征值和特征向量;

按照特征值大小将特征向量从上到下按行排成矩阵,并取前k行组成新的矩阵,得到降维矩阵P。

至此,将矩阵由原来的m维降至k维。

S13:对降维矩阵P进行加密得到密文向量C

具体的,继续采用CKKS密码算法降维矩阵P加密得到密文向量C

S14:响应于接收到第j次迭代的梯度密文向量

具体的,当接收到云服务器发送过来的第j次迭代的梯度密文向量

其中,CKKS解密算法的步骤如下:

第1步,按照下式计算密文解密结果:

m'=modQ

=((-a·s+e)·r+m+e

=e·r+m+e

≈m

其中,m'为解密结果,是明文m的近似值。

然后,根据明文梯度向量g

为预设的学习率,i表示梯度向量的维度,且1≤i≤k,j表示当前迭代次数。

需要说明的是,当j为1时,

最后,对修正后的模型参数w

S15:持续接收梯度密文向量,并重复步骤S14,直至达到最大迭代次数,得到最终的模型参数。

本实施例在进行迭代前对加密后的数据集进行了降维处理,减少了数据维数,降低了无关特征项的干扰,从而减少了计算量,同时提高了效率和准确率。

实施例二

本实施例提供了一种应用于云服务器端的基于全同态加密的逻辑回归方法。请参见图2,图2是本发明实施例提供的一种应用于云服务器端的基于全同态加密的逻辑回归方法的流程示意图,其包括:

S21:获取用户上传的密文向量C和标签密文C

首先,金融公司对数据使用CKKS加密算法加密。

具体的,金融公司利用公钥pk使用CKKS加密算法列加密客户数据集矩阵D得到密文向量C={C

其中,每行代表一个客户的全部数据,共包含n个客户数据,每行客户数据有m个特征数据d

具体的,CKKS加密算法的步骤如下:

第1步,从中χ

第2步,对于明文多项式m∈R,按照下式计算对应的密文:

C=r·pk+(m+e

其中,密文向量C对应的明文是一个向量。由于CKKS加密算法支持对一组实数向量加密成一个密文,对该密文的操作相当于并行对向量中每个元素的操作,该功能称为密文批处理。

然后,金融公司上传密文向量C和密文C

S22:对所述密文向量C进行预处理,得到新的密文向量C

22a)对密文向量C中的每一个密文C

首先,计算均值μ

本实施例使用批处理技术对每个特征的数据求均值。每个特征数据向量加密到了对应的密文C

具体的,批处理技术的步骤如下:

第1步,对密文CT

CT

其中,密文CT

第2步,将密文CT

CT=Enc(v

第3步,重复上述两步m次,m为明文向量的维数。在循环移位求和n次后,得到总和密文如下:

其中,总和密文对应的明文向量为向量每个维数的总和。

然后,计算标准差σ

具体的,此处依然使用批处理技术对每个特征的数据求标准差。对密文向量C中的每一个密文C

其中,近似开方操作的步骤如下:

第1步,设置a

第2步,迭代3次,其中

第3步,迭代结束后得到x的开方近似值

本实施例在进行迭代前对加密后的金融数据集进行了预处理,由于加密时使用批处理技术来按列加密数据集,在计算均值、方差和协方差时可以做到同时对n条数据计算,从而提升了效率。

22b)对密文向量C中的每一个密文C

/>

本实施例在进行迭代前对加密后的金融数据集进行了预处理,对数据集进行标准化处理,将原值减去均值后除以标准差,使得得到的特征满足均值为0,标准差为1的正态分布;从而让不同维度之间的特征在数值上有一定比较性,得出的参数大小可以反应出不同特征对样本的贡献度,可以大大提高准确性。

22c)根据密文向量C

其中,T表示转置,n表示数据集中数据的条数。

S23:响应于接收到密文向量C

具体的,将接收到的密文向量C

C

其中,T表示转置。

此时,密文C

S24:基于密文向量C

在本实施例中,密文梯度向量

首先,依次计算当前第j次迭代中损失函数的梯度密文向量

其中,j表示当前迭代次数,C

然后,将密文梯度向量

S25:响应于接收到参数密文

具体的,当接收到研究机构发送的第j+1次迭代的参数密文

本发明采用的隐私保护逻辑回归方案在进行迭代前对加密后的金融数据集进行了降维处理,减少了数据维数,降低了无关特征项的干扰,从而减少了计算量,同时提高了效率和准确率,对大型数据集具有很好的训练效果;且该方法采用了金融领域的双云模型,使得数据拥有者上传自身数据后便可离线,既保证了客户数据的安全性,又无需实时在线,提高了便捷性,而做到了真正的云计算。

实施例三

在上述实施例一的基础上,本实施例提供了一种应用于研究机构端的基于全同态加密的逻辑回归装置。请参见图3,图3是本发明实施例提供的一种应用于研究机构端的基于全同态加密的逻辑回归装置的结构示意图,其包括:

密钥生成模块11,用于基于全同态CKKS密码算法生成公私钥对;

第一降维模块12,用于响应于接收到协方差矩阵密文C

加密模块13,用于对降维矩阵P进行加密得到密文向量C

第一计算模块14,用于响应于接收到第j次迭代的梯度密文向量

本实施例提供的装置可以实现上述实施例一提供的方法,详细过程在此不再介绍。

由此,本实施例提供的装置也可以减少计算量,同时提高效率和准确率。

实施例四

在上述实施例二的基础上,本实施例提供了一种应用于云服务器端的基于全同态加密的逻辑回归装置。请参见图4,图4是本发明实施例提供的一种应用于云服务器端的基于全同态加密的逻辑回归装置的结构示意图,其包括:

数据获取模块21,用于获取用户上传的密文向量C和标签密文C

预处理模块22,用于对密文向量C进行预处理,得到新的密文向量C

第二降维模块23,用于响应于接收到密文向量C

第二计算模块24,用于基于密文向量C

本实施例提供的装置可以实现上述实施例二提供的方法,详细过程在此不再介绍。

由此,本实施例提供的装置也可以减少了计算量,同时提高效率和准确率。

实施例五

本实施例提供了一种基于全同态加密的逻辑回归系统,其主要包括研究机构端装置和云服务器端装置。请参见图5,图5是本发明实施例提供的一种基于全同态加密的逻辑回归系统的结构示意图。其中,研究机构端装置为上述实施例三提供的装置,云服务器端装置为上述实施例四提供的装置。

本实施例提供的基于全同态加密的逻辑回归系统的工作过程如图6所示:

1、研究机构通过密钥生成模块11生成加密系统公私钥对;

2、云服务器通过数据获取模块21获取金融公司上传的加密数据集;

3、云服务器通过预处理模块22对加密数据集进行预处理操作,包括求均值、标准差和协方差矩阵,并将协方差矩阵密文传给研究机构;

4、研究机构利用第一降维模块12计算协方差矩阵的特征值和特征向量,以进行降维操作,然后通过加密模块13进行加密后传给云服务器;

5、云服务器通过第二降维模块23计算得到降维后的数据集密文;

6、云服务器利用第二计算模块24进行逻辑回归模型运算,并将得到的梯度密文向量发送给研究机构;

7、研究机构利用第一计算模块14更新模型参数,并将新的模型参数加密后发送给云服务器;

8、云服务器开始新一轮迭代计算,直到迭代次数达到研究机构的预设值则停止迭代,得到最终训练好的模型参数。

关于本实施例提供的基于全同态加密的逻辑回归系统的详细工作过程可参考上述实施例一和实施例二,在此不再进行介绍。

本发明采用的隐私保护逻辑回归方案在进行迭代前对加密后的金融数据集进行了降维处理,减少了数据维数,降低了无关特征项的干扰,从而减少了计算量,同时提高了效率和准确率,对大型数据集具有很好的训练效果;且该方法采用了金融领域的双云模型,使得数据拥有者上传自身数据后便可离线,既保证了客户数据的安全性,又无需实时在线,提高了便捷性,而做到了真正的云计算。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

相关技术
  • 秘密S型函数计算系统、秘密逻辑回归计算系统、秘密S型函数计算装置、秘密逻辑回归计算装置、秘密S型函数计算方法、秘密逻辑回归计算方法、程序
  • 秘密S型函数计算系统、秘密逻辑回归计算系统、秘密S型函数计算装置、秘密逻辑回归计算装置、秘密S型函数计算方法、秘密逻辑回归计算方法、程序
技术分类

06120116332912