掌桥专利:专业的专利平台
掌桥专利
首页

一种面向医疗数据的差分隐私知识迁移方法及系统

文献发布时间:2023-06-19 19:30:30


一种面向医疗数据的差分隐私知识迁移方法及系统

技术领域

本发明涉及差分隐私机器学习技术领域,具体涉及一种面向医疗数据的差分隐私知识迁移方法及系统。

背景技术

近年来,随着医疗信息化的发展,许多纸质医疗记录都转化为电子医疗记录,从而产生了大量的电子医疗记录数据。对于各个医疗中心而言,现在需求将各自拥有的电子医疗记录数据投入使用。现如今各种机器学习以及深度学习的算法以及模型得到了广泛应用,但是模型本身会隐式记忆原数据的相关信息。这对于敏感的医疗数据来说是不可接受的。

为了保障数据的安全性,现有技术采取的重要措施是对机器学习或深度学习模型产生的参数进行差分隐私的保护。差分隐私技术是对隐私敏感数据进行加噪保护,使得攻击者无法从得到的数据分析出任意一个个体是否存在于该数据集中,从而保护个体的隐私。

电子医疗记录具有数据量大,属性多、更新快的特性,因此挖掘其中价值的需求越来越迫切,机器学习天然满足这一需求。大量研究利用ML技术进行大脑相关研究,例如将高维非线性模式分类方法应用于功能磁共振成像图像,以区分与谎言和真相相关的大脑活动的空间模式;一种结合常规和灌注磁共振的计算机辅助分类方法,用于鉴别诊断脑瘤类型和分级;利用SVM通过分析头皮EEG,通过构建特定于患者的分类器来检测癫痫发作;各种机器学习算法(如SVM、NN和随机森林(RF))在预测中重度创伤性脑损伤(TBI)预后方面的附加值;使用改进的CSP和转移学习算法来提高EEG信号分类的准确性,并加快训练时间等。医学图像的模式可以通过ML技术识别,允许放射科医生根据放射信息做出明智的决定,如基本放射照相术、计算机断层扫描(CT)、MRI、正电子发射断层扫描(PET)图像和放射学报告。研究人员提出了一种序列增强学习技术,用于在乳房X光片中使用SVM检测微钙化(MC)簇时提高性能等。ML和模式识别算法对大脑成像有重大影响,从长远来看,ML领域的技术发展和放射学可以互惠互利。深度学习(DL)是ML的一个分支,它处理的是受大脑的生物和功能启发的算法(即ANN)。DL已经迅速成为医学影像领域评估医学图像的首选方法,这使得相关研究的数量不断增加,覆盖神经病理学、腹部、肺部、心脏、视网膜、肌肉骨骼和乳房等。为了提供隐私保护性,必须对整个模型采取差分隐私进行保护。然而,由于差分隐私的噪声会对机器学习模型本身产生影响,差分隐私机器学习不可避免会出现模型效用与隐私保护性的权衡。降低噪声尺度虽然能在模型效果上得到一些改善,但是必然会将来保护性的降低。

现有的基于差分隐私的机器学习方法为了保证模型的可用性,会选择牺牲一定的隐私保护性。由于电子医疗记录的高度隐私性和敏感性,无法采取这种方式。因此如何在不牺牲隐私保护性的强噪声的影响下仍然保持模型的可用性,这成为一个特别需要解决的问题。

发明内容

为了在不牺牲隐私保护性的强噪声的影响下仍然保持模型的可用性,本发明提出一种面向医疗数据的差分隐私知识迁移方法及系统,所述方法包括以下步骤:

数据使用者拥有公开的无标签医疗数据,数据拥有者本地储存有隐私医疗数据;

数据拥有者将拥有的隐私医疗数据划分为n份,利用每一份数据分别采用逻辑回归训练一个医疗诊断分类模型,n个模型一起组成医疗诊断teacher模型;

数据使用者将无标签医疗数据发送给数据拥有者,数据拥有者利用完成训练的teacher模型对所有无标签医疗数据进行预测,给出每一条样本的分类结果,分类结果表现为一系列标签的概率;

每个模型对其得出的分类结构进行投票并投票给投票结果中概率最高的标签,将n个模型的投票结果聚合在一起后,在聚合后的投票结果上加上高斯噪声扰动,并将加上扰动后投票数最多的标签发送给数据使用者;

数据使用者根据收到的预测结果将无标签数据打上标签,并采用k-NN算法对标签进行聚类,对无标签数据的标签进行优化;

数据使用者利用获得的带标签的数据在本地进行训练,采用逻辑回归训练自身的分类模型,得到student模型,利用student模型对数据使用者端的医疗数据进行分类。

进一步的,数据拥有者在获得的预测结果中添加高斯噪声对预测结果进行聚合即设置噪声参数,包括隐私预算ε和隐私尺度δ对投票结果进行训练,训练过程包括以下步骤:

从隐私预算ε和隐私尺度δ构成的高斯分布中随机选择一个随机数,将该随机数作为噪声加到投票结果中;

计算加入噪声后的投票结果的隐私损失,判断是否ε-c≤0,若是则结束训练,否则继续加入噪声直到ε-c≤0。

进一步的,加入噪声之后的隐私损失表示为:

其中,c(o;M,aux,d,d')表示加入噪声之后的隐私损失,o表示输入噪声之后的投票结果,M表示逻辑回归训练算法,aux表示逻辑回归训练算法的训练参数,d和d'表示两个数据集且两个数据集只相差一个数据;Pr[M(aux,d)=o]表示网络参数为aux的逻辑回归训练算法M计算数据集d的投票结果为o的概率,Pr[M(aux,d')=o]表示网络参数为aux的逻辑回归训练算法M计算数据集d'的投票结果为o的概率。

进一步的,对于在预测结果中加入的噪声是服从均值为0、方差为σ

其中,s表示敏感度。

进一步的,通过调节噪声参数(ε,δ)控制隐私损失,噪声参数与隐私损失的关系可表示为:

/>

其中,α

进一步的,采用k-NN算法对标签进行清洗,获得无标签数据的标签包括以下步骤:计算无标签数据之间的距离,对无标签数据中的一个样本而言,将与该样本距离最近的k个样本的标签进行聚合,设置一个阈值t,当当前样本的k个样本中标签占多数样本标签的比例大于设定阈值t,则将当前样本的标签重新标记为其最近k个样本的标签的并集;若当前样本的k个样本中标签占多数样本标签的比例不大于设定阈值t,则不对当前样本的标签进行重新标记。

进一步的,数据使用者本地存储有可信数据,当数据使用者利用获得的带标签的数据对本地模型完成训练后,将可信数据输入完成训练的模型进行测试,若模型的损失小于设定阈值,则完成知识迁移,否则重新进行知识迁移。

本发明还提供一种面向医疗数据的差分隐私知识迁移系统,该系统用于实现一种面向医疗数据的差分隐私知识迁移方法,包括数据使用者服务器和数据拥有者服务器,数据拥有者服务器将本地隐私数据分为n份,每一份基于逻辑回归训练得到一个分类模型;当数据使用者服务器向数据使用者服务器请求服务时,数据请求服务器将其本地的无标签的数据发送给数据拥有者,数据拥有者利用本地的n个模型分别分别预测每个无标签数据的标签,每个模型投票给预测结果中概率最大的标签,并将n个分类模型的投票结果聚合起来,在聚合结果中加入高斯噪声,加入噪声后得票最高的标签作为对应数据的标签,数据拥有者将所有无标签数据的预测标签发送给数据使用者服务器;数据使用者服务器对收到的标签进行清洗,将本地的无标签数据打上清洗后的标签,利用打上标签的数据对本地分类模型进行训练。

本发明与现有技术的方案相比,提升了加噪后标签的正确性,在不降低差分隐私隐私保护的前提下,很大程度上提高了模型的可用性,有效解决了现有技术在医疗中心的强隐私要求下模型准确率低下的问题。

附图说明

图1为本发明一种面向医疗数据的差分隐私知识迁移方法流程图;

图2为本发明中数据使用者的student通过k-NN算法重新标记数据集的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出一种面向医疗数据的差分隐私知识迁移方法,如图1,具体包括以下步骤:

数据使用者拥有公开的无标签医疗数据,数据拥有者本地储存有隐私医疗数据;

数据拥有者将拥有的隐私医疗数据划分为n份,利用每一份数据分别采用逻辑回归训练一个医疗诊断分类模型,n个模型一起组成医疗诊断teacher模型;

数据使用者将无标签医疗数据发送给数据拥有者,数据拥有者利用完成训练的teacher模型对所有无标签医疗数据进行预测,给出每一条样本的分类结果,分类结果表现为一系列标签的概率;

每个模型对其得出的分类结构进行投票并投票给投票结果中概率最高的标签,将n个模型的投票结果聚合在一起后,在聚合后的投票结果上加上高斯噪声扰动,并将加上扰动后投票数最多的标签发送给数据使用者;

数据使用者根据收到的预测结果将无标签数据打上标签,并采用k-NN算法对标签进行聚类,对无标签数据的标签进行优化;

数据使用者利用获得的带标签的数据在本地进行训练,采用逻辑回归训练自身的分类模型,得到student模型,利用student模型对数据使用者端的医疗数据进行分类。

进一步的,数据拥有者在获得的预测结果中添加高斯噪声对预测结果进行聚合即设置噪声参数,包括隐私预算ε和隐私尺度δ对投票结果进行训练,训练过程包括以下步骤:

从隐私预算ε和隐私尺度δ构成的高斯分布中随机选择一个随机数,将该随机数作为噪声加到投票结果中;

计算加入噪声后的投票结果的隐私损失,判断是否ε-c≤0,若是则结束训练,否则继续加入噪声直到ε-c≤0。

进一步的,加入噪声之后的隐私损失表示为:

其中,c(o;M,aux,d,d')表示加入噪声之后的隐私损失,o表示输入噪声之后的投票结果,M表示逻辑回归训练算法,aux表示逻辑回归训练算法的训练参数,d和d'表示两个数据集且两个数据集只相差一个数据;Pr[M(aux,d)=o]表示网络参数为aux的逻辑回归训练算法M计算数据集d的投票结果为o的概率,Pr[M(aux,d')=o]表示网络参数为aux的逻辑回归训练算法M计算数据集d'的投票结果为o的概率。

进一步的,对于在预测结果中加入的噪声是服从均值为0、方差为σ

其中,s表示敏感度。

进一步的,通过调节噪声参数(ε,δ)控制隐私损失,噪声参数与隐私损失的关系可表示为:

进一步的,采用k-NN算法对标签进行清洗,获得无标签数据的标签包括以下步骤:计算无标签数据之间的距离,对无标签数据中的一个样本而言,将与该样本距离最近的k个样本的标签进行聚合,设置一个阈值t,当当前样本的k个样本中标签占多数样本标签的比例大于设定阈值t,则将当前样本的标签重新标记为其最近k个样本的标签的并集;若当前样本的k个样本中标签占多数样本标签的比例不大于设定阈值t,则不对当前样本的标签进行重新标记。

进一步的,数据使用者本地存储有可信数据,当数据使用者利用获得的带标签的数据对本地模型完成训练后,将可信数据输入完成训练的模型进行测试,若模型的损失小于设定阈值,则完成知识迁移,否则重新进行知识迁移。

本发明还提出一种面向医疗数据的差分隐私知识迁移系统,该系统用于实现一种面向医疗数据的差分隐私知识迁移方法,包括数据使用者服务器和数据拥有者服务器,数据拥有者服务器将本地隐私数据分为n份,每一份基于逻辑回归训练得到一个分类模型;当数据使用者服务器向数据使用者服务器请求服务时,数据请求服务器将其本地的无标签的数据发送给数据拥有者,数据拥有者利用本地的n个模型分别分别预测每个无标签数据的标签,每个模型投票给预测结果中概率最大的标签,并将n个分类模型的投票结果聚合起来,在聚合结果中加入高斯噪声,加入噪声后得票最高的标签作为对应数据的标签,数据拥有者将所有无标签数据的预测标签发送给数据使用者服务器;数据使用者服务器对收到的标签进行清洗,将本地的无标签数据打上清洗后的标签,利用打上标签的数据对本地分类模型进行训练。

本发明采用基于k-NN的差分隐私框架,该框架旨在解决医疗场景下医疗中心的数据不出库情况下,需要为其他医疗中心或第三方提供服务的问题,在本实施例中,基于k-NN的差分隐私框架总体上包括三个部分,即属于数据拥有者的teacher模型,属于数据拥有者的聚合机制,数据使用者的student模型,数据拥有者为拥有隐私数据的医疗中心等机构,数据使用者为未拥有隐私数据且想借助隐私数据进行机器学习模型进行训练的医疗中心或者其他第三方服务机构。

数据拥有者拥有的隐私数据是本申请需要保护的数据,这些数据包括但不限于病人的身份信息、医疗记录等数据,本申请将该类数据统称为电子医疗数据,作为数据拥有者的医疗中心将电子医疗数据表示为D={D

数据拥有者的聚合机制是将来自teacher模型的投票结果聚合,加入高斯噪声进行扰动,根据查询将对应的查询结果提供给数据使用者。

数据使用者需要公开一部分非隐私的无标签的数据集提供给作为数据拥有者的医疗中心,让数据拥有者对每一条数据做出预测并将预测结果聚合后反馈给数据使用者,数据使用者拿到预测结果后,根据预测结果将无标签的数据打上标签,并根据打上标签后的数据训练本地的模型。

针对以上方案,本实施例给出一种具体的实施方法,包括以下步骤:

1.数据使用者的公开无标签的数据集,医疗中心拥有隐私的本地数据。数据使用者拥有少量的验证集,该验证集为数据使用者自己认为可信的数据。

对于teacher模型:

2.医疗中心手动将自己的数据分为n份,在本实施例中,n∈{3,5,10,15,20,25,30,50},对于每一份数据,训练本地模型,为了方便可以全部选取一样的训练算法,例如在本实施例中选择使用逻辑回归算法进行训练。对于数据使用者公开的每一个无标签样本,医疗中心的每个模型给出自己的预测结果。

3.聚合机制收集所有医疗中心的预测结果进行聚合,本实施例称为投票结果。对于每一条数据的投票结果,加上高斯噪声。

医疗中心根据RDP方法计算本次的隐私损失。具体过程如下:

医疗中心将所有的预测结果收集之后,聚合,生成直方表,对于直方表的统计结果加入高斯噪声。

对于噪声的参数(ε,δ),根据实际数据集的情况使用不同的δ,一般设置为1/n,其中n为数据集的大小;对于ε参数,设置ε∈{0.1,0.2,0.3,0.4,0.5,1}。医疗中心根据不同的ε参数计算出相应的隐私损失,隐私损失越大代表模型越不安全,但是投票结果受到的扰动越小,数据使用者接收到的投票结果越真实,可用性越强;隐私损失越小代表模型越安全,但是投票结果受到的扰动越大,可用性越弱。医疗中心根据可以接受的隐私损失情况,选取不同的ε。

根据当前的噪声尺度,根据RDP方法计算隐私损失。

根据实际情况,我们将不同尺度的噪声加入到投票结果当中,并将投票结果发送给数据使用者。

对于student模型:

4.数据使用者拿到投票结果之后,根据投票结果,将原本的公开的无标签数据集打上标签,数据使用者拿到完整的数据集。

5.由于标签受到差分隐私噪声的干扰,导致其出现一定程度上的偏差,数据使用者采用k-NN算法对打上标签后的数据集进行处理,消除由于差分隐私噪声带来的标签翻转,根据差分隐私的后处理性,该过程不会降低差分隐私的保护性。如图2,具体步骤如下:

对于重新标记后的数据集中的每一条样本,计算数据集中与之距离最近的k个样本,在本实施例中选取欧氏距离的计算方法来计算两个样本之间的距离(其他例如余弦距离、汉明距离等距离计算方法也可以),另外对于k值,可根据实际情况进行调整,本实施例测试了1-15之间k值的效果,本领域技术人员可以择优选择。

对于这k个样本,设置一个阈值t,当这k个样本中占多数的样本的标签比例大于阈值时,将原标签重新标记为此时占多数的标签;反之不做任何操作。

对于所有的样本重新标记后,数据使用者得到了经过标签消毒的数据集,根据差分隐私的后处理性,这个过程不会降低差分隐私的隐私保护性。

6.数据使用者在消毒后的数据集上训练,得到自己的模型,并在自己验证集上验证自己模型的效果。此时数据使用者实质上得到了医疗中心数据的价值,完成了知识迁移,同时这个过程中医疗中心的数据始终不离开本地,处于差分隐私的保护之下。

在本实施例中,用户根据噪声参数与隐私损失的关系,通过调整噪声参数调整模型的隐私损失,用户设置噪声参数(ε,δ)时,(ε,δ)的值越小,代表着当前的噪声尺度越大,噪声越强,对于原本结果的扰动程度越大,隐私保护效果越好。根据(ε,δ)的值,从高斯分布中取值加到原本结果之上。过大的噪声会导致加噪后的结果与原本结果偏差过大而导致数据完全不可用,较小的噪声又会使得隐私保护程度不够,容易被攻击者推断出个人的隐私信息。通常情况下,ε的值不超过10,在能保证模型可用的前提下越小越好;δ的值通常设置为1/n,其中n为数据量的大小。

在实际情况中,需要通过不断调整(ε,δ)从而在模型可用性和隐私保护程度之间得到一个平衡。通常来说,差分隐私模型训练之前,会设置一个总的ε,称为隐私预算,这是用户能接受而隐私泄露的程度。随着模型的训练,这个过程当中会不断加入噪声,每加入一次噪声,就会带来一次隐私损失c,从隐私预算当中减去此时的隐私损失c,当隐私预算ε减为0的时候,模型停止训练;ε设置的越大,模型安全性越低,但是模型的训练效果会更好;ε设置的越小,模型安全性越高,但是模型的训练效果会变差。

模型的可用性可以通过分类模型分类的准确率来体现,隐私保护程度需要通过隐私损失的计算来体现。在本实施例中,采用RDP方法计算隐私损失,具体过程如下:

令M表示逻辑回归训练算法,d,d'表示两个相邻的医疗数据集(两个医疗数据集之间只相差一个样本),相差的这个数据是为了在训练过程中令探测隐私的程序无法分辨出两个数据集相差的这个样本是否参与模型的训练,例如对于任意一个样本x,若d数据集包括样本x,d'=d{x},即d'与d的差别为不包括样本x;

经过差分隐私处理过后,在敌手看来模型是在d或者d'上构建的概率是差不多的,也就分辨不出来是d还是d',就能保护个体的隐私;aux表示训练算法中其他的所有参数,对于加噪后的任意一个输出结果o,隐私损失定义为:

令λ∈{1,2,...,32},定义α

根据组合定理以及尾界定理有:

对于设置的噪声参数(ε,δ),对于每一个样本的预测结果,我们在其中加入高斯噪声,高斯噪声为从高斯分布当中选取的随机数,高斯分布的方差σ满足以下关系:

其中,s为敏感度,一般设置为1,(ε,δ)为事先设置好的参数。

本实施例还提出面向医疗数据的差分隐私知识迁移系统,该系统用于实现一种面向医疗数据的差分隐私知识迁移方法,包括数据使用者服务器和数据拥有者服务器,数据拥有者服务器将本地隐私数据分为n份,每一份基于逻辑回归训练得到一个分类模型;当数据使用者服务器向数据使用者服务器请求服务时,数据请求服务器将其本地的无标签的数据发送给数据拥有者,数据拥有者利用本地的n个模型分别分别预测每个无标签数据的标签,每个模型投票给预测结果中概率最大的标签,并将n个分类模型的投票结果聚合起来,在聚合结果中加入高斯噪声,加入噪声后得票最高的标签作为对应数据的标签,数据拥有者将所有无标签数据的预测标签发送给数据使用者服务器;数据使用者服务器对收到的标签进行清洗,将本地的无标签数据打上清洗后的标签,利用打上标签的数据对本地分类模型进行训练。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120115933825