掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Fisher信息的对抗训练泛化能力提升方法

文献发布时间:2023-06-19 19:30:30


一种基于Fisher信息的对抗训练泛化能力提升方法

技术领域

本发明涉及对抗安全技术领域,特别是涉及一种基于Fisher信息的对抗训练泛化能力提升方法。

背景技术

尽管深度神经网络(Deep Neural Networks,DNN)以出色的优势广泛应用于图像、视频、文本等领域,但基于DNN的模型对对抗图像表现不佳。攻击者通过给干净样本叠加人眼不可见的对抗扰动,可以误导分类器的输出类别。一旦对抗图像被用来攻击安全性能要求高的DNN系统,将造成不良后果。例如,对抗图像可以使得自动驾驶汽车将“停止”路牌识别为“限速”;恶意改动后的视频可以使得视频分类系统将“抢劫”行为误分类为“跳绳”。因此,提高基于DNN的模型的鲁棒性与泛化性至关重要。

为了能够防御住对抗图像,大量对抗防御方法涌现,包括利用编码器和解码器的去噪方法、利用图像压缩消除对抗扰动影响的压缩方法、利用随机平滑对样本周围区域进行鲁棒认证的平滑方法等。然而,较早提出的对抗训练仍然是所有防御方法中最优的,尽管对抗训练需要消耗大量训练成本。对抗训练主要通过将对抗图像引入训练过程,使得分类器学习到对抗图像的特征,从而提高模型对对抗图像的鲁棒性。然而,现有的对抗训练方法均只采用单一的对抗图像生成方式,训练得到的模型只针对训练时所使用的对抗攻击方式生成的对抗图像有效,对多种甚至未知的对抗图像不具有泛化性。

现有技术一提出了一种基于数据增强的深度学习对抗训练方法。该方法通过对干净数据样本进行多次数据增强,并生成对抗攻击样本,一同进行模型训练,最终训练好的分类模型可以提高分类模型对对抗图像的分类准确率,并缓解了传统对抗训练方法的过拟合现象。然而,该方案训练得到的模型只对单一对抗攻击方法生成的对抗图像有效,对不同类型的对抗图像不具有泛化性。

现有技术二提出了一种基于图像预处理与对抗训练结合的防御对抗样本的方法。该方法先将干净图像和对抗图像进行DCT变换(Discrete Cosine Transform,离散余弦变换),并设计量化表。接着,利用不同的压缩比对干净图像进行压缩,并添加噪声训练以获得对抗图像。最后在不同的压缩比下训练多个分类器,并通过投票获得分类结果。该方案提高了分类精度,但需要大量计算量,且对未知对抗图像泛化性差。

现有技术三提出了一种基于显著性对抗训练的对抗样本防御方法。该方法使用投影梯度下降法(Project Gradient Descent,PGD)生成对抗图像,并将对抗图像的显著图切分为若干小块。通过计算每个小块的平均显著值对图像进行压缩,从而训练模型。该方法需要在输入图像时首先进行图像压缩,提升了模型对对抗图像的鲁棒性。然而,显著性压缩需要知道先验信息,且该防御方法对不同和未知类型的对抗图像不具有泛化性。

需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于解决现有对抗训练技术在不同和未知对抗攻击方法下的泛化能力弱的问题。

为此,本发明提出一种基于Fisher信息的对抗训练泛化能力提升方法,包括如下步骤:S1、通过不同对抗攻击方法将干净图像生成不同对抗图像;S2、通过Fisher信息将不同对抗图像进行线性叠加得到泛化对抗图像;S3、通过粒子群算法优化泛化对抗图像加权系数得到最优泛化对抗图像;S4、使用最优泛化对抗图像进行对抗训练得到泛化能力更强的分类模型。

在本发明的一些实施例中,步骤S1中,所述不同对抗攻击方法选自快速梯度符号法(Fast Gradient Sign Method,FGSM)、投影梯度下降法PGD、C&W、JSMA、DeepFool中的两种或两种以上;所述不同对抗攻击方法的种类选自不同类型的对抗攻击方法或者更多数量的同种类型的对抗攻击方法。

在本发明的一些实施例中,步骤S2中,所述Fisher信息计算对抗图像的泛化能力具体为:给定一个图像分类器f,f(y|x)表示分类器在输入干净图像为x下,输出标签y的分布;此时,干净图像x和添加扰动η后的图像x+η在经过分类器后输出分布的KL散度可以表示为:

其中

在本发明的一些实施例中,所述对KL散度中的扰动η进行限制的目标函数为:

其中ε表示扰动限制范围。

在本发明的一些实施例中,对KL散度中的扰动η运用拉格朗日乘数法进行限制的目标函数进行优化,得到优化变量G

在本发明的一些实施例中,所述优化变量将KL散度中的扰动η转化为Fisher信息矩阵G

/>

其中

在本发明的一些实施例中,步骤S2中,所述线性叠加是通过粒子位置对采用N种不同对抗方法生成对抗图像x

在本发明的一些实施例中,步骤S2中,所述线性叠加后的泛化对抗图像表示为:

其中

在本发明的一些实施例中,步骤S3中,所述通过粒子群算法优化泛化对抗图像的不同粒子的适应度函数,所述待优化的适应度函数表示为:

其中B为批量大小,M为分类类别数,

在本发明的一些实施例中,步骤S4中,所述进行对抗训练,包括如下步骤:

S4-1、计算最优泛化对抗图像的不同粒子的待优化的适应度函数,并保存每个粒子的当代最优位置和所有粒子中的全局最优位置;S4-2、进行多次搜索迭代,直至待优化的适应度函数收敛或达到最大迭代次数;S4-3、通过粒子中的全局最优位置计算得到一个batch的最优泛化对抗图像;S4-4、计算整个batch对于分类模型的梯度,进行梯度下降优化分类模型参数;

S4-5、对不同的batch进行对抗训练;对所有训练集数据进行多代训练;

S4-6、当达到最大训练代数时,输出泛化性更强的分类模型。

本发明具有如下有益效果:

本发明提出的一种基于Fisher信息的对抗训练泛化能力提升方法,通过提出一种Fisher信息的泛化能力指标,将不同常见的对抗攻击方法生成的对抗图像进行加权叠加,并通过粒子群算法优化加权系数,得到泛化能力最优的对抗图像,最后用最优泛化对抗图像进行对抗训练,本发明不仅可以维持传统对抗攻击方法在干净图像上的分类准确率,而且对多种和未知的对抗攻击方法生成的对抗图像也具有很强的泛化性。

附图说明

图1为本发明实施例中的工作流程图;

图2(a)为本发明实施例中的Cifar10数据集中初始的干净图像;

图2(b)为本发明实施例中采用快速梯度符号法生成的对抗图像;

图2(c)为本发明实施例中采用投影梯度下降法生成的对抗图像;

图2(d)为本发明实施例中采用C&W对抗攻击方法生成的对抗图像;

图2(e)为本发明实施例中的图2(a)经过优化得到的最优泛化对抗图像;

图3为本发明实施例中Cifar10数据集上对抗训练模拟结果;

图4为本发明实施例1的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在对抗防御领域,相比于图像去噪、图像压缩、随机平滑等方法,对抗训练被认为是防御性能最强的一类防御对抗样本的方法。尽管现有的研究可以通过对抗训练防御住对抗样本,提高了模型的鲁棒性,然而,对抗训练的方法仅针对训练时使用的对抗样本生成方法有效,对多种和未知的对抗样本生成方法的泛化性不足。因此,本方案针对现有对抗训练方法对多种和未知对抗样本泛化性差的问题,提出了一种基于费希尔信息(FisherInformation,Fisher信息)的对抗训练泛化能力提升方法,使用Fisher信息计算模型对不同类型对抗样本的泛化水平,并生成更具代表性的泛化对抗样本用于对抗训练,从而提高模型对不同和未知类型对抗样本的泛化能力。

本发明下述实施例公开了一种基于Fisher信息的对抗训练泛化能力提升方法,属于对抗防御领域,解决现有对抗训练技术在不同和未知对抗攻击方法下的泛化能力弱的问题。本发明下述实施例首先借助Fisher信息将最大化干净图像和添加扰动后的图像在经过分类器后输出分布的KL散度转化为最小化softmax下Fisher信息矩阵的迹,并将其用于评估对抗图像的泛化能力。接着,将不同对抗攻击类型生成的对抗图像进行加权叠加,并使用粒子群算法对加权系数进行优化,以得到泛化能力最优的对抗图像。最后,使用最优泛化对抗图像进行对抗训练。训练得到的分类模型对多种和未知的对抗攻击方法生成的对抗样本均具有泛化性。

本发明下述实施例利用基于Fisher信息的泛化能力衡量指标来评估对抗图像的泛化能力,并通过优化最优泛化对抗图像用于对抗训练,旨在基于Fisher信息提出一个对抗训练泛化能力提升方法。本发明下述实施例训练得到的模型对多种和未知的对抗攻击方法生成的对抗图像均具有泛化性。

本发明下述实施例提供一种基于Fisher信息的对抗训练泛化能力提升方法。本发明实施例主要分为三个部分,第一个是本方案提出了使用Fisher信息衡量对抗图像的泛化能力。第二个是本方案利用多种对抗攻击方法生成对抗图像,并通过Fisher信息优化对抗图像之间的加权系数,并得到泛化能力最优的对抗图像。第三个是本方案使用生成的最优对抗图像对分类模型进行对抗训练,训练得到的模型可提高对不同类型对抗样本的泛化性。

本发明实施例的总体流程图如图1所示。对于干净图像,首先使用多种不同的攻击方法生成多张对抗图像,接着利用Fisher信息计算对抗图像的泛化能力,并利用粒子群算法优化对抗图像的加权系数,最终,将优化得到的最优泛化对抗图像用于对抗训练,得到对不同和未知类型对抗样本泛化性能更强的对抗防御模型。

一、泛化能力衡量指标

不同的对抗攻击方法生成的对抗样本,其泛化能力各有不同。在对抗训练过程中,如果采用泛化能力更强的对抗样本进行训练,将帮助模型学习到更广泛的对抗样本信息,从而提高训练得到的模型对不同类型对抗样本的泛化能力。因此,有必要提出一种衡量对抗样本泛化能力的衡量指标。本发明实施例提出采用Fisher信息来计算对抗样本的泛化能力。具体来说,给定一个图像分类器f,f(y|x)表示分类器在输入干净图像为x下,输出标签y的分布;此时,干净图像x和添加扰动η后的图像x+η在经过分类器后输出分布的KL散度(Kullback-Leibler Divergence)可以表示为:

其中

由于对抗样本希望分类器可以输出与干净样本完全不同的标签,因此,对于攻击者来说,应当希望KL散度越大越好。另一方面,对抗扰动需要尽可能保证人眼不可观测,因此需要对扰动η进行限制。此时,目标函数可以表示为:

其中ε表示扰动限制范围。

运用拉格朗日乘数法对目标函数进行优化,可以得到G

定义

其中p

综上,最大化干净样本和对抗样本输出分布的KL散度可以转化为最小化

本发明实施例采用的泛化能力衡量指标可用于评估不同对抗攻击方法生成的对抗样本的泛化性能。

二、泛化样本生成

由于分类器输出中每个类别的置信分数相等的情况过于极端,因此通过单纯地最小化

本发明实施例中采用的三种对抗攻击方法可以替换成其他先进的对抗攻击方法,攻击方法的数量也可以增加,都有助于提高优化得到的泛化对抗图像,对方案中其他步骤没有影响。

本发明实施例中粒子群优化的迭代终止条件可以灵活调整以降低对抗训练的时间。

三、对抗训练

泛化对抗样本生成后,将用于对抗训练以提高分类器对对抗样本的鲁棒性和对不同类型对抗样本的泛化性。具体来说,在训练过程中,为了减小计算量,给定一个批量的图像,本发明实施例为一批图像选取同一组加权系数。此时,待优化的适应度函数被修改为:

其中B为批量大小,

本发明实施例采用上述适应度函数为每一批图像优化最优加权系数,并进行分类模型的对抗训练。此时,训练好的模型将对不同类型的对抗攻击方法产生泛化性。由于本发明实施例使用Fisher信息来优化最优泛化对抗图像,模型训练学习到的特征可以确保其对未知对抗攻击方法也存在泛化性。

本发明实施例中的技术适用于对抗防御领域,所提出的泛化能力衡量指标有助于寻找泛化能力最优的对抗样本。此外,所提出的对抗训练方法训练得到的模型不仅对已知的多种对抗攻击方法具有不错的防御能力,还对未知的对抗样本具有泛化性。

如图4所示,实施例1的执行流程如下:

S1、通过不同对抗攻击方法将干净图像生成不同对抗图像;

S2、通过Fisher信息将不同对抗图像进行线性叠加得到泛化对抗图像;

S3、通过粒子群算法优化泛化对抗图像加权系数得到最优泛化对抗图像;

S4、使用最优泛化对抗图像进行对抗训练得到泛化能力更强的分类模型。

实施例2的执行流程如下:

(1)输入干净图像;

(2)使用三种对抗攻击方法生成对抗图像,并做加权叠加;

(3)根据适应度函数优化加权系数,得到最优泛化对抗图像;

(4)使用最优泛化对抗图像进行对抗训练。

实施例3:

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

在本实施例中,数据集以7比3的比例被分为训练集和测试集;对于训练集中的每一个batch(批处理)的干净图像,采用FGSM、PGD、C&W三种对抗攻击方式对干净图像进行攻击,并得到对应的对抗图像。FGSM的步长为0.05,PGD的步长为0.007,扰动阈值为0.031,迭代次数为10,C&W的搜索次数为10。图2(a)、图2(b)、图2(c)、图2(d)、图2(e)展示了Cifar10数据集中一张干净图像及其对应的对抗图像。图2(a)为初始的干净图像,图2(b)、图2(c)、图2(d)分别是FGSM、PGD、C&W三种对抗攻击生成的对抗图像,图2(e)展示了图2(a)干净图像经过优化得到的最优泛化对抗图像。

初始化粒子群搜索算法的所有参数。粒子数量为10,粒子位置的维度为批量大小的2倍,最大迭代次数为100,惯性权重为0.8,学习因子为2,所有粒子的位置和速度均在0到1之间随机初始化。

利用粒子位置对三张对抗攻击生成的对抗图像x

其中

计算一个batch图像的适应度函数,所述的待优化的适应度函数可以表示为:

其中B为批量大小,M为分类类别数,

所述的待优化的适应度函数的优化变量α

计算不同粒子的适应度函数,并保存每个粒子的当代最优位置和所有粒子中的全局最优位置。

进行多次搜索迭代,直至适应度函数收敛或达到最大迭代次数。

通过全局最优粒子位置计算得到一个batch的最优泛化对抗图像,图2(e)展示了图2(a)干净图像经过优化得到的最优泛化对抗图像。

计算整个batch对于分类模型的梯度,进行梯度下降优化分类模型参数;不同的batch进行对抗训练;对所有训练集数据进行多代训练。

当达到最大训练代数时,输出鲁棒性更强的分类模型,图3展示了在Cifar10数据集上进行50代对抗训练模拟时,测试集数据的分类准确率,其中横坐标表示迭代次数,纵坐标表示精确度。实线表示干净图像上的分类准确率,虚线表示随机选择一种未知的对抗攻击方法生成的对抗图像上的分类准确率。所述的基于Fisher信息的对抗训练泛化能力提升方法不仅可以维持传统对抗攻击方法在干净图像上的分类准确率,而且对未知的对抗攻击方法生成的对抗样本也具有很强的泛化性。

本发明实施例针对现有对抗训练方法仅针对训练时使用的对抗样本有效,对多种和未知的对抗样本生成方法的泛化性不足的问题,提出了一种基于Fisher信息的对抗训练泛化能力提升方法,采用Fisher信息矩阵优化对抗样本的泛化能力,从而提升对抗训练后的模型对多种和未知对抗样本生成方法的泛化能力。具体来说,本发明实施例通过Fisher信息将对抗图像优化问题转化为softmax下Fisher信息矩阵的迹,并用于衡量对抗图像的泛化性能。接着,本发明实施例将多种不同对抗攻击方法生成的对抗图像进行加权叠加,并使用粒子群算法优化加权系数,以得到泛化能力最优的对抗图像。最后,使用最优泛化对抗图像进行对抗训练,得到泛化能力更强的分类模型。

本发明实施例有助于寻找到泛化能力最优的对抗样本,训练得到的分类模型具有对多种和未知对抗攻击生成的对抗样本具有泛化性。

本发明实施例还具有以下特点:

1.基于Fisher信息的泛化能力指标:为了提高对抗训练时所使用的对抗样本的泛化能力,本发明实施例提出基于Fisher信息的泛化能力指标,将最大化干净图像和添加扰动后的图像在经过分类器后输出分布的KL散度转化为最小化softmax下Fisher信息矩阵的迹,从而获取到泛化能力更强的对抗样本。目前的对抗防御方法均没有考虑泛化对抗样本。

2.优化最优泛化对抗样本:目前对抗训练的方法均采用单一攻击方式生成对抗样本,这样训练的分类模型对其他类型攻击不具有泛化能力。为了使得对抗训练得到的模型可以防御住多种类型的对抗攻击,本发明实施例将三种常见的对抗攻击方法生成的对抗样本进行加权叠加,并通过粒子群算法优化加权系数,以得到泛化能力最优的对抗样本。

3.使用最优泛化对抗样本进行对抗训练:为了缩短训练成本,本发明实施例为同一批量样本使用同一组加权系数,并以泛化指标的均值作为适应度函数。接着,使用优化得到的最优泛化对抗样本进行对抗训练,训练得到的分类模型不仅可以防御住不同类型的对抗攻击样本,对未知的对抗攻击方法也具有泛化性。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。

技术分类

06120115930816