掌桥专利:专业的专利平台
掌桥专利
首页

一种跨域模型逆向攻击方法

文献发布时间:2023-06-19 18:37:28


一种跨域模型逆向攻击方法

技术领域

本发明属于人工智能安全技术领域,具体涉及一种跨域模型逆向攻击方法。

背景技术

随着深度学习的广泛应用,其存在的安全问题也日益受到了人们的重视。模型逆向攻击(Mode l I nvers i on Attack,M IA)旨在通过查询给定的深度神经网络模型来恢复其使用的训练数据。目前,模型逆向攻击根据其所采用的技术路线可以被分为两种:基于搜索的逆向方法和基于训练的逆向方法。基于搜索的逆向方法通过搜索输入的原始图像空间或其对应的潜在空间得到隐私图像。基于训练的逆向方法利用辅助数据训练一个逆向模型,使用逆向模型直接将隐私图像对应的深度特征或预测向量恢复成隐私图像。

文献Matt Fredr i kson,SomeshJha,and Thomas Ri stenpart.Mode li nversi on attacks that exp l o i t conf i dence i nformat i onand bas i ccountermeasures.I n Proceed i ngs of the 22nd ACMS I GSAC Conference onComputer and Commun i cat i ons Secur i ty,CCS’15,page 1322–1333,New York,NY,USA,Oct2015.Assoc i at i on for Comput i ng Mach i nery.最早提出了基于搜索的逆向方法。作者通过搜索原始图像空间从简单的全连接神经网络中恢复出了肉眼可辨别的人脸图像。紧接着,文献Yuheng Zhang,Ruox i J i a,Hengzh iPe i,Wenx i aoWang,Bo Li,and Dawn Song.The secret revea l er:Generat i vemode l-i nvers i on attacksaga i nst deep neura l networks.I n2020I EEE/CVF Conference on Computer Vi si on and PatternRecogn i t i on(CVPR),page 250–258,Jun 2020.和文献S i Chen,Mostafa Kah l a,Ruox i J i a,and Guo-Jun Qi.Knowl edge-enr i ched d i str ibut i ona l mode l i nvers i on attacks.I n2021I EEE/CVF I nternat i ona lConference on ComputerVi s i on(I CCV),page16158–16167,2021.等文献提出将生成对抗网络结合进来。通过搜索生成对抗网络的潜在空间,缩小基于搜索的逆向方法的搜索空间,并使得输出图像更自然。文献Z i q i Yang,J iy i Zhang,Ee-Ch i en Chang,andZhenka i L i ang.Neura lnetwork i nvers i on i n adversar i a l sett i ng v ia backgroundknow l edge a l i gnment.I n Proceed i ngs of the 2019ACM S IGSAC Conference on Computer and Commun i cat i onsSecur ity,CCS’19,page 225–240,New York,NY,USA,Nov 2019.Assoc i at i on for Comput i ng Mach i nery.提出了基于训练的逆向方法。作者通过构建逆向模型,从预测向量中成功的恢复出了隐私的训练集。

虽然现有的模型逆向攻击方法展示出了较好的恢复效果,但绝大多数的方法都假设攻击者使用的辅助数据集和训练目标网络所使用的隐私数据集具有相同的分布。因此,现有的方法在辅助数据集和隐私数据集同分布(同域)的情况下表现良好,在辅助数据集和隐私数据集不同分布(跨域)的情况下表现很差甚至无法恢复出图像。然而,在实际的攻击场景中,攻击者往往很难获得与隐私数据集同分布的数据集,获得一个与隐私数据集分布有差异的数据集往往却容易的多。因此,如何在辅助数据集和隐私数据集不同分布的情况下实现高性能的模型逆向攻击成为了一个亟待解决的问题。

发明内容

本发明正是针对现有模型逆向攻击在辅助数据集和隐私数据集跨域时效果差,无法恢复出隐私图像的问题,提供了一种跨域模型逆向攻击方法,包括如下步骤:获取待攻击目标网络模型的白盒访问权限;获取隐私图像深度特征并制作数据集;获取辅助图像样本并制作数据集;建立对抗域对齐模型逆向攻击网络模型;使用建立好的辅助图像数据集和隐私图像深度特征数据集训练对抗域对齐模型逆向攻击网络模型,对网络内的权重参数进行更新,直到网络的损失函数收敛,得到训练好的对抗域对齐模型逆向攻击网络模型;将采集得到的隐私图像深度特征输入训练好的对抗域对齐模型逆向攻击网络模型,得到恢复的隐私训练图像,其在辅助数据集和隐私数据集具有域差异的场景下实现了高性能的跨域模型逆向攻击。

为了实现上述目的,本发明采取的技术方案是:一种跨域模型逆向攻击方法,包括如下步骤:

S1,获取待攻击目标网络的白盒访问权限:所述待攻击目标网络已使用隐私图像训练完成,具备图像分类功能,隐私图像保密,所述白盒访问权限包括但不限于查询网络对输入图像的分类结果,获取网络的结构,网络中间层输出的深度特征;

S2,获取隐私图像深度特征并制作数据集:所述隐私图像深度特征为目标网络中间层输出的深度特征;

S3,获取辅助图像样本并制作数据集:所述辅助图像数据集和训练目标网络使用的隐私图像数据集具有相同的类别,但两者有域差异;

S4,建立对抗域对齐模型逆向攻击网络模型:所述对抗域对齐模型逆向攻击网络模型包括特征对齐模块、图像重构模块和域判别模块,所述特征对齐模块用于对来自不同域的深度特征进行重新提取并对齐,以消除不同域深度特征之间的域差异,所述图像重构模块位于特征对齐模块之后,用于恢复图像,所述域判别模块也位于特征对齐模块之后,用于判别深度特征所属的域;

S5,训练对抗域对齐模型逆向攻击网络模型:使用建立好的隐私图像深度特征数据集和辅助图像数据集对对抗域对齐模型逆向攻击网络模型进行训练,对网络内的权重参数进行更新,直到网络的损失函数收敛,得到训练好的对抗域对齐模型逆向攻击网络模型;

S6,结果输出:将采集得到的隐私图像深度特征输入训练好的对抗域对齐模型逆向攻击网络模型,得到恢复的隐私图像。

作为本发明的进一步技术方案,所述步骤S1中的待攻击目标网络包括特征提取器和分类器,所述特征提取器用于提取图像的深度特征,所述分类器用于对图像的深度特征进行分类进而得到图像的分类结果。

进一步地,所述特征提取器包括多个卷积层、批归一化层、池化层与激活层,所述池化层为最大池化、均匀池化中的任意一种,所述激活层使用的激活函数形式包括但不限于ReLU、tanh;所述分类器包括多个全连接层与Dropout层。

进一步地,所述步骤S1和S2中通过白盒访问获得的网络中间层输出的深度特征包括但不限于所述特征提取器输出的深度特征和分类器中全连接层输出的深度特征。

进一步地,所述步骤S4中的特征对齐模块包括多个全连接层与激活层,所述激活层使用的激活函数形式包括但不限于ReLU、tanh。

进一步地,所述步骤S4中的图像重构模块包括多个反卷积层、批归一化层、激活层及一个s i gmo i d输出层,所述激活层使用的激活函数形式包括但不限于ReLU、tanh。

进一步地,所述步骤S4中的域判别模块包括一个梯度反转层,多个全连接层与激活层,所述激活层使用的激活函数形式包括但不限于ReLU、tanh,所述梯度反转层在模型训练时将输出梯度值设置为输入梯度值的相反数。

进一步地,所述步骤S5中训练对抗域对齐模型逆向攻击网络模型所使用的误差函数为:

其中,D表示域判别模块的权重参数,A表示特征对齐模块的权重参数,R表示图像重构模块的权重参数,E

进一步地,所述步骤S5中训练对抗域对齐模型逆向攻击网络模型时图像重构误差E

其中,x

进一步地,所述步骤S5中训练对抗域对齐模型逆向攻击网络模型时域误差E

其中,f

本发明采用以上技术方案与现有技术相比,提出了一个对抗域对齐模型逆向攻击网络模型,该模型在现有基于训练的逆向方法的图像重构模块的基础上加入了一个特征对齐模块及一个域判别模块。本发明提出的对抗域对齐模型逆向攻击网络模型能够在学习重构图像的同时使用对抗学习训练特征对齐模块和域判别模块,使得特征对齐模块能够进一步提取输入的隐私特征和辅助特征信息,消除不同域特征向量之间的域差异,从而实现跨域模型逆向攻击。

附图说明

图1是本发明方法实施例1中待攻击目标网络结构示意图;

图2是本发明方法实施例1中隐私训练数据集图像;

图3是本发明方法实施例1步骤S3中辅助数据集图像;

图4是本发明方法实施例1步骤S4对抗域对齐模型逆向攻击网络模型结构示意图;

图5是本发明方法实施例1步骤S4对抗域对齐模型逆向攻击网络模型中的特征对齐模块结构示意图;

图6是本发明方法实施例1步骤S4对抗域对齐模型逆向攻击网络模型中的域判别模块结构示意图;

图7是本发明方法实施例1步骤S4对抗域对齐模型逆向攻击网络模型中的图像重构模块结构示意图;

图8为本发明方法实施例1步骤S5对抗域对齐模型逆向攻击网络模型的训练流程图;

图9为本发明实施例1中使用对抗域对齐模型逆向攻击网络进行模型逆向攻击恢复得到的图像;

图10为使用现有模型逆向攻击恢复得到的图像。

具体实施方式

下面结合附图对本发明的技术方案做进一步详细说明。

一种跨域模型逆向攻击方法,包括如下步骤:

S1:获取待攻击目标网络的白盒访问权限:所述待攻击目标网络已使用隐私图像训练完成,具备图像分类功能,隐私图像保密,所述白盒访问权限包括但不限于查询网络对输入图像的分类结果,获取网络的结构,网络中间层输出的深度特征等。

待攻击目标网络包括特征提取器和分类器,特征提取器用于提取图像的深度特征,分类器用于对图像的深度特征进行分类进而得到图像的分类结果。其中,特征提取器包括多个卷积层、批归一化层、池化层与激活层,池化层为最大池化、均匀池化中的任意一种,激活层使用的激活函数形式包括但不限于ReLU、tanh等;分类器包括多个全连接层与Dropout层。

本实施例中待攻击目标网络模型的结构具体如图1所示,由以下两个部分组成:

(1)由3个卷积组组成的特征提取器,用于提取输入的32*32大小图像的深度特征。其中每个卷积组依次包括一个3*3大小的卷积层,一个批归一化层,一个最大池化层和一个ReLU激活层,三个卷积模块的通道数依次为128,256,512。

(2)由两个全连接层组成的分类器,用于对提取到的深度特征进行分类。其中输入特征维度为8192,隐含层维度为50,输出维度为10。

本实施例中隐私训练图像如图2所示。图2中的样本为黑色底色的白色手写字符,字体较大且轮廓模糊。

S2:获取隐私图像深度特征并制作数据集:所述隐私图像深度特征为目标网络中间层输出的深度特征。

步骤S1和S2中通过白盒访问获得的网络中间层输出的深度特征包括但不限于所述特征提取器输出的深度特征和分类器中全连接层输出的深度特征。

S3:获取辅助图像样本并制作数据集:所述辅助图像数据集和训练目标网络使用的隐私图像数据集具有相同的类别,但两者有域差异;

辅助图像数据集和隐私图像数据集包含样本以及其对应的标签,所述标签指代每个样本的类别,所述域差异可以为采集图像的设备带来的差异、采集图像时环境光照带来的差异、图像中物体表面质地差异中的一种或多种。本实施例中使用的辅助图像样本如图3所示,图3中的样本为黑色底色的白色的手写数字,字体轮廓清晰且相对居中。与图2所示的隐私图像相比,图3所示的辅助图像样本具有较大的域差异。

S4:建立对抗域对齐模型逆向攻击网络模型:所述对抗域对齐模型逆向攻击网络模型包括特征对齐模块、图像重构模块和域判别模块,所述特征对齐模块用于对来自不同域的深度特征进行重新提取并对齐,以消除不同域深度特征之间的域差异,特征对齐模块包括多个全连接层与激活层,所述激活层使用的激活函数形式包括但不限于ReLU、tanh;所述图像重构模块位于特征对齐模块之后,用于恢复图像,包括多个反卷积层、批归一化层、激活层及一个s igmoi d输出层,所述激活层使用的激活函数形式包括但不限于ReLU、tanh等;所述域判别模块也位于特征对齐模块之后,用于判别深度特征所属的域,域判别模块包括一个梯度反转层,多个全连接层与激活层,所述激活层使用的激活函数形式包括但不限于ReLU、tanh等,所述梯度反转层能够在模型训练时将输出梯度值设置为输入梯度值的相反数。

本实施例中对抗域对齐模型逆向攻击网络模型的结构具体如图4所示,其中特征对齐模块的结构如图5所示,由三个全连接层组成,两两之间包含一个ReLU激活层,特征对齐模块的输入特征维度为8192,输出特征维度为50,中间的隐含层维度均为1024。

本实施例中对抗域对齐模型逆向攻击网络模型的域判别模块的结构如图6所示,由一个梯度反转层,三个全连接层和一个Sigmoid层组成,三个全连接层两两之间包含一个ReLU激活层和一个Dropout层,域判别模块的输入特征维度为50,输出特征维度为1,中间的隐含层维度均为1024,域判别模块中的梯度反转层能在梯度反传时对梯度取相反数,使得对抗学习能够试用正常的梯度下降方法完成。

本实施例中对抗域对齐模型逆向攻击网络模型的图像重构模块的结构如图7所示,由四个反卷积组和一个S i gmo i d层组成,其中前三个反卷积组依次包含一个4*4的反卷积层,一个批归一化层和一个ReLU激活层,第四个反卷积组仅包含一个4*4的反卷积层,反卷积组的通道数依次为512,256,128。

S5:训练对抗域对齐模型逆向攻击网络模型:使用建立好的隐私图像深度特征数据集和辅助图像数据集对对抗域对齐模型逆向攻击网络模型进行训练,对网络内的权重参数进行更新,直到网络的损失函数收敛,得到训练好的对抗域对齐模型逆向攻击网络模型;

训练对抗域对齐模型逆向攻击网络模型所使用的误差函数为:

其中,D表示域判别模块的权重参数,A表示特征对齐模块的权重参数,R表示图像重构模块的权重参数,E

训练对抗域对齐模型逆向攻击网络模型时图像重构误差E

其中,x

训练对抗域对齐模型逆向攻击网络模型时域误差E

其中,f

参照图8,训练对抗域对齐模型逆向攻击网络模型的具体步骤为:

S51:采用图像增强技术扩充建立好的辅助图像数据集,所述图像增强技术为图像的几何变换、图像的光照变换或使用人工神经网络改变图像风格,生成新图像中的任意一种或几种;

S52:将步骤S51中扩充好的辅助图像数据集输入待攻击网络的特征提取器中,得到相应的深度特征;

S53:将辅助数据的深度特征和隐私图像深度特征一同输入特征对齐模块中,将模块的输出特征进一步输入到域判别模块中,将特征对齐模块输出的辅助数据集深度特征输入到图像重构模块中

S54:域判别模块根据输入的辅助图像深度特征和隐私图像深度特征,计算域误差E

S55:图像重构模块根据输入的辅助图像深度特征,结合辅助图像,计算图像重构误差E

S56:网络通过减小如下误差完成训练:

S6:结果输出:将采集得到的隐私图像深度特征输入训练好的对抗域对齐模型逆向攻击网络模型,得到恢复的隐私图像。

本实施例中将待攻击目标网络的特征提取器根据图2所示的隐私图像得到的特征输入到对抗域对齐模型逆向攻击网络模型中,得到的逆向结果如图9所示,图9中可看出恢复得到的图像均清晰可见,每个样本各不相同,图2中隐私图像的语义信息得到了较好的恢复,同时保留了图3中辅助图像的纹理特征。与图10中现有模型逆向攻击恢复的图像相比,对抗域对齐模型逆向攻击网络模型较好的实现了跨域模型逆向攻击。

结合上述方法过程,本发明涉及的对抗域对齐模型逆向攻击网络模型的核心思路是通过对抗学习对齐隐私图像的深度特征和辅助图像的深度特征,从而消除两者之间的域差异。此外,模型在对齐特征的同时完成逆向任务,达到跨域模型逆向的目的。一旦训练完成,本发明涉及的对抗域对齐模型逆向攻击网络模型便可以从隐私图像的深度特征中恢复出与辅助图像数据不同分布的隐私图像。总的来说,本发明在具有域差异的场景下实现了高性能的跨域模型逆向攻击,能够解决目前的模型逆向攻击仅适用于辅助数据和隐私数据分布相同,无法实现跨域攻击等问题。

需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

技术分类

06120115638077