掌桥专利:专业的专利平台
掌桥专利
首页

基于差分隐私的基因组数据生成方法

文献发布时间:2024-04-18 19:57:31


基于差分隐私的基因组数据生成方法

技术领域

本发明涉及一种基于差分隐私的基因组数据生成方法,属于信息安全技术领域。

背景技术

单核苷酸多态性(SNPs)是最常见的变异类型,每个个体具有约10万个SNP位点。SNPs数据被广泛应用于生物信息学分析中,自高通量测序技术发明以来,随着基因测序的成本不断下降,对SNPs数据的大数据分析已经引起了人们的重视。然而,由于测序成本的限制和SNPs数据的敏感性对数据共享的阻碍,SNPs数据的应用常常面临着数据短缺的问题。使用生成模型生成具有和真实数据相同分布的生成数据是应对数据短缺问题的一种有效方法。生成对抗网络(Generative Adversarial Network)是目前最有前景的生成高质量数据方法之一。目前,已经有人使用GAN来生成染色体片段上的SNPs数据,解决数据短缺问题。

GAN在训练时鉴别器对训练集的数据会出现过拟合,导致输出的生成数据相比于非训练集数据会更接近训练集数据。因此,GAN中训练数据的成员身份具有一定脆弱性,攻击者可以通过成员推理攻击的方式判断出目标在GAN训练集中的成员身份。在使用GAN生成用于医疗或疾病研究工作的SNPs数据时,训练集样本成员身份的泄露会揭露个体的患病史等敏感信息,例如如果知道了某人的数据被用于艾滋病的临床研究中,那么就可以判断出这个人患有艾滋病。在此基础上攻击者可以根据泄露的成员身份发起其他攻击,如数据分析、属性推断等,进一步侵害受害者的隐私。除了隐私问题外,在生成时还需要兼顾到生成数据的可用性。部分隐私保护措施的实现以显著降低数据的可用性为代价。SNPs数据等位基因类别的不平衡也会导致生成器不能对低频率的次等位基因样本充分表示,甚至出现模式崩溃现象,降低生成数据的可用性。

现有的SNPs数据生成模型数量较少,大多缺乏隐私保护措施不能对成员推理攻击进行很好的抵御。部分生成模型采用基于差分隐私的隐私保护方法来抵抗成员推理攻击,但缺乏对数据可用性的考虑,噪声的过度引入以及等位基因类别不平衡问题会导致生成数据可用性较低。

发明内容

为了有效解决SNPs数据生成过程中的隐私泄露和生成数据可用性不足问题,本发明提出了一种抵抗成员推理攻击的SNPs数据差分隐私生成方法。该方法首先使用条件生成的方法,使生成数据保持和真实数据相似的分布的同时让生成器可以充分学习到不平衡数据的分布。然后采用了自适应隐私预算分配策略,依据梯度和隐私损失动态调整预算分配,通过对鉴别器梯度加噪的方式实现对生成模型的隐私保护。最后,利用总代价函数选择合适的总隐私预算来获得好的隐私可用性权衡。。

本发明的技术方案:

一种基于差分隐私的基因组数据生成方法,步骤如下:

定义变量:

表1常用的变量及说明

(1)训练生成模型,采用条件生成的方式用生成器生成数据,根据生成数据分别计算用于条件生成的生成器的损失函数和对生成数据进行评价的鉴别器的损失函数,根据各自的损失函数更新生成器和鉴别器;SNPs数据条件生成的具体步骤如下:

(1.1)将数据持有者掌握的真实SNPs数据作为生成模型的训练数据集,首先计算训练数据集中每个SNPs位点的等位基因频率,找出其中等位基因频率低于阈值的不平衡SNPs位点;

在条件生成SNPs位点数据时,从不平衡SNPs位点中按相等的概率随机选择一个SNPs位点,再按照等位基因频率随机选择该SNPs位点处的取值,将该SNPs位点处的取值作为约束条件;

(1.2)将约束条件与随机高斯噪声即潜变量一同作为生成器的输入,按条件生成的方式生成数据;

鉴别器从生成模型的训练集中筛选出满足步骤(1.1)中约束条件即对应SNPs位点取值和约束条件相同的数据,从中随机进行采样,将采集到的真实数据和使用当前生成器条件生成的数据作为鉴别器的输入;鉴别器使用WGAN中的wassertein距离作为损失函数

然后计算生成器的损失函数L

生成器的损失函数:L

其中

对生成模型进行隐私保护,通过对鉴别器梯度加噪实现差分隐私机制,选择合适的总隐私预算以获得好的隐私效用权衡;

(1.2)采用自适应的隐私预算分配策略,依梯度大小和隐私损失调整分配的隐私预算:

首先在训练开始前,选择一个初始隐私预算∈

其中,E(||g

隐私损失P

其中,x

通过对鉴别器的梯度进行添加方差为

(1.3)将鉴别器的损失函数L

本发明的有益效果:利用生成模型生成基因组数据可以缓解数据短缺的问题,但直接地利用生成模型会造成隐私安全问题,特别是会受到成员推理攻击的威胁,且不适当的隐私保护措施和等位基因类别不平衡问题会严重降低生成数据的可用性。因此本发明提出了一种基于差分隐私的基因组数据生成方法。

本发明利用条件GAN来生成SNPs数据,改善了SNPs数据等位基因类别不平衡问题,从而获得具有更高可用性的SNPs生成数据。

提出了一个在训练过程中依据梯度大小和隐私损失灵活分配隐私预算的差分隐私方法,在保护了训练数据隐私的同时,可以指导数据所有者合理分配隐私预算,提高生成SNPs数据的可用性。

另外本发明用一个总的代价函数指导生成模型在训练过程中找到最佳的隐私效用权衡点,获得更好的隐私效用权衡。

附图说明

图1为本发明所述的基因组数据差分隐私生成方法的结构图。

图2为本发明所述的条件生成SNPs数据过程的流程图。

图3为本发明所述的对生成模型进行差分隐私保护的流程图。

具体实施方式

为了将本发明的目的,技术方案和优点表达的更清晰明了,接下来将通过实施例和附图,对本发明做进一步的详尽的说明。

一种基于差分隐私的基因组数据生成方法,本方法包括如何对SNPs数据进行条件生成、如何对生成模型进行差分隐私保护。

参照图2,如何对SNPs数据进行条件生成具体运行过程如下:

步骤1.选择千人基因组计划3阶段2500个个体的1号染色体的1000个SNPs数据作为训练集来训练生成模型。计算训练数据集中每个SNPs位点的等位基因频率。确定阈值μ=20%,对SNPs位点进行筛选,找出其中等位基因频率低于阈值μ的位点视作不平衡位点。

步骤2.将约束条件cond初始化为零向量。从不平衡位点中按相等的概率随机选择一个位点,然后按照等位基因频率随机选择约束条件cond在该位点处的取值。

步骤3.将条件向量cond与潜变量(随机高斯噪声)z一同作为生成器的输入来生成SNPs数据。在生成器中,使用批处理归一化和Relu激活函数,包括两个隐藏层和两个全连接层。

步骤4.鉴别器从整个生成模型的训练集中筛选出满足约束条件的样本中进行采样,从中随机采集m个样本,将采集到的m个真实数据和使用当前生成器条件生成的m个数据作为鉴别器的输入。将生成数据条件分布P(x

步骤5.计算生成器的损失函数:L

其中

然后计算梯度并更新生成器参数。

参照图3,如何对生成模型进行差分隐私保护的具体运行过程如下:

步骤6.检测距离上次更新隐私预算的迭代数是否等于t次,若等于t则执行步骤7-9,否则执行步骤10

步骤7.计算t次迭代中鉴别器梯度的2-范数的平均大小。

步骤8.计算重构误差,并利用重构误差求得面对成员推理攻击的隐私损失P

其中x

步骤9.根据梯度大小和隐私损失为接下来t次迭代分配隐私预算:

其中g

步骤10.计算鉴别器梯度,按照分配到的∈通过对鉴别器的梯度进行添加方差为

步骤11.利用差分隐私的组合定理计算消耗的总隐私预算,分别计算当前的隐私损失P

步骤12.计算总代价函数C:

经上述步骤,我们获得了可以生成与训练数据集,即千人基因组计划3阶段2500个个体的1号染色体的1000个SNPs数据,具有相似分布的生成基因组数据的生成模型。比较生成数据和真实数据的次等位基因频率(MAF),结果表明二者的MAF相接近。计算生成数据和真实数据间的F

技术分类

06120116459483