掌桥专利:专业的专利平台
掌桥专利
首页

用于使用基于特征分散的对抗训练来防御对抗攻击的系统和方法

文献发布时间:2023-06-19 09:30:39


用于使用基于特征分散的对抗训练来防御对抗攻击的系统和方法

技术领域

本公开总体上涉及一种用于训练图像模型的系统和方法。更具体地,本公开涉及一种用于针对对抗攻击来训练图像模型以提高模型鲁棒性的系统和方法。

背景技术

尽管在诸如利用深度神经网络的图像分类的许多领域都取得了突破,但是这些模型很容易被所谓的对抗示例所愚弄。在图像分类方面,自然图像的对抗示例是经修改的版本,该版本在视觉上与原始版本没有区别,但是导致分类器产生不同的标签预测。对抗示例已显示出范围从对象检测到语音识别的无处不在的超越分类(beyond classification)。

在针对对抗示例改进模型鲁棒性方面取得了令人鼓舞的进展。其中,对抗训练是最流行的技术之一,对抗训练使用对抗扰动图像代替原始图像进行模型训练。然而,存在一些挑战有待解决。首先,诸如标签泄漏的一些不利影响仍然是阻碍对抗训练的问题。当前可用的补救措施增加了生成攻击的迭代次数,或者使用了除了真值之外的类来生成攻击。增加攻击迭代将成比例地增加训练时间,而使用非真值目标方法无法完全消除标签泄漏。其次,先前用于标准训练和对抗训练的方法都单独处理每个训练样本,并且相对于其他样本孤立。单独操纵每个样本的方式会忽略样本间的关系,并且无法充分利用攻击和防御的潜力,从而限制了性能。

因此,需要用于解决上述问题以便针对对抗攻击来训练图像模型并且提高模型鲁棒性的系统和方法的系统和方法。

发明内容

本公开的实施方式提供用于生成用于训练参数化模型的对抗训练数据的计算机实现的方法、用于对抗训练图像模型的计算机实现的方法以及非暂时性计算机可读介质。

在本公开的一方面,用于生成用于训练参数化模型的对抗训练数据的计算机实现的方法包括:给定一组干净训练数据,生成一组初始的扰动训练数据;使用所述参数化模型,从所述一组干净训练数据和所述一组初始的扰动训练数据中提取特征;计算从所述一组干净训练数据提取的特征与从所述一组初始的扰动训练数据提取的特征之间的传输成本矩阵;基于所述传输成本矩阵来确定传输矩阵,所述传输成本矩阵表示所述一组干净训练数据中的特征与所述一组初始的扰动训练数据中的特征之间的匹配;通过计算所述传输成本矩阵与所述传输矩阵之间的乘积作为所述一组干净训练数据与所述一组初始的扰动训练数据之间的特征匹配距离来确定特征匹配距离;以及至少基于所确定的特征匹配距离来获得一组基于特征分散的训练数据。

在本公开的另一方面,用于对抗训练图像模型的计算机实现的方法包括:接收一批干净图像和对应的真值标签,以及扰动预算;从所述一批干净图像生成经验分布并且从一批扰动的扰动图像生成扰动经验分布,以实现初始化,其中通过对所述一批干净图像的初始扰动来实现对所述扰动图像的初始扰动;在一个或多个迭代步骤中,通过最大化所述经验分布与所述扰动经验分布之间的特征匹配距离,从初始生成的扰动经验分布中更新所述扰动经验分布,并且使用更新的扰动经验分布来更新所述扰动图像;以及至少使用更新的扰动图像和所述真值标签来实施一个或多个对抗训练步骤以学习所述图像模型的参数。

在本公开的又一方面,公开了一种非暂时性计算机可读介质,包括一个或多个指令序列,所述指令序列在被一个或多个处理器执行时引起执行用于生成用于训练参数化模型的对抗训练数据的步骤,所述步骤包括:从一组干净训练数据中生成一组初始的扰动训练数据;从所述一组干净训练数据和所述一组初始的扰动训练数据中提取特征;计算从所述一组干净训练数据提取的特征与从所述一组初始的扰动训练数据提取的特征之间的传输成本矩阵;基于所述传输成本矩阵来确定传输矩阵,所述传输成本矩阵表示所述一组干净训练数据中的特征与所述一组初始的扰动训练数据中的特征之间的匹配;通过计算所述传输成本矩阵与所述传输矩阵之间的乘积作为所述一组干净训练数据与所述一组初始的扰动训练数据之间的特征匹配距离来确定特征匹配距离;以及至少基于所确定的特征匹配距离来获得一组基于特征分散的训练数据。

附图说明

将参考本发明的实施例,其示例可以在附图中示出。这些附图是说明性的,而不是限制性的。尽管本发明通常在这些实施例的上下文中描述,但是应当理解,这并不意味着将本发明的范围限制于这些特定实施例。图中的项目未按比例绘制。

图1示出根据本公开的实施例的基于特征分散的对抗训练流水线。

图2示出根据本公开的实施例的用于基于特征分散的对抗训练的过程。

图3A图形地示出根据本公开的实施例的具有决策边界的干净数据的示例。

图3B图形地示出根据本公开的实施例的使用朝向决策边界移动的监督对抗生成方法而生成的扰动数据的示例。

图3C图形地示出根据本公开的实施例的使用提出的特征分散方法而生成的扰动数据的示例。

图4示出根据本公开的实施例的用于基于特征分散的对抗训练的方法。

图5A图形地示出根据本公开的实施例的在具有不同的攻击预算的投影梯度下降(PGD)攻击下的模型性能。

图5B图形地示出根据本公开的实施例的在具有不同的攻击迭代的PGD攻击下的模型性能,其中攻击迭代的范围是从0至5。

图5C图形地示出根据本公开的实施例的在具有不同的攻击迭代的PGD攻击下的模型性能,其中攻击迭代的范围是从0至100。

图6示出根据本公开实施例的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中,出于解释的目的,阐述了具体细节以提供对本公开的理解。然而,对于本领域技术人员来说,很明显,没有这些细节也可以实践实施例。此外,本领域技术人员将认识到,下面描述的本公开的实施例可以以多种方式实现,诸如在有形计算机可读介质上的过程、装置、系统、设备或方法。

图中所示的部件或模块是本发明的示例性实施例的说明,并且旨在避免模糊本公开。还应当理解,在整个讨论中,部件可以被描述为单独的功能单元,其可以包括子单元,但是本领域技术人员将认识到,各种部件或其部分可以被分成单独的部件或者可以集成在一起,包括集成在单个系统或部件内。应当注意,这里讨论的功能或操作可以实现为部件。部件可以用软件、硬件或其组合来实现。

此外,图中部件或系统之间的连接并不局限于直接连接。相反,这些部件之间的数据可以被中间部件修改、重新格式化或以其他方式改变。另外,可以使用更多或更少的连接。还应注意,术语“联接”、“连接”或“通信联接”应理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。

说明书中对“一个实施例”、“优选实施例”、“实施例”或“一些实施例”的引用意味着结合该实施例描述的特定特征、结构、特性或功能包括在本发明的至少一个实施例中,并且可以在不止一个实施例中。另外,说明书中不同地方出现的上述短语不一定都指相同的一个或多个实施例。

在说明书的不同地方使用某些术语是为了说明,并且不应被解释为限制。服务、功能或资源不限于单一的服务、功能或资源;这些术语的使用可以指分布式的或聚合的一组相关服务、功能或资源。图像可以是静态图像或来自视频的图像。

术语“包括”、“包括着”、“包含”和“包含着”应理解为开放式术语,并且其后的任何所列项目都是示例,且并不意味着限于所列项目。本文中使用的任何标题仅用于组织目的,并且不应用于限制说明书或权利要求的范围。本文中提到的每个参考文献都通过引用整体并入本文。

此外,本领域技术人员应当认识到:(1)某些步骤可被可选地执行;(2)步骤可以不限于本文所述的特定顺序;(3)某些步骤可以以不同的顺序执行;并且(4)某些步骤可以同时进行。

A.

尽管在诸如利用深度神经网络的图像分类的许多领域都取得了突破,但是这些模型很容易被所谓的对抗示例所愚弄。在图像分类方面,自然图像的对抗示例是经修改的版本,该版本在视觉上与原始版本没有区别,但是导致分类器产生不同的标签预测。对抗示例已显示出范围从对象检测到语音识别的无处不在的超越分类。

在针对对抗示例改进模型鲁棒性方面取得了令人鼓舞的进展。其中,对抗训练是最流行的技术之一,它使用对抗扰动图像代替原始图像进行模型训练。然而,存在一些挑战有待解决。首先,诸如标签泄漏的一些不利影响仍然是阻碍对抗训练的问题。当前可用的补救措施增加了生成攻击的迭代次数,或者使用了除了真值之外的类来生成攻击。增加攻击迭代将成比例地增加训练时间,而使用非真值目标方法无法完全消除标签泄漏。其次,先前用于标准训练和对抗训练的方法都单独处理每个训练样本,并且以与其他样本孤立的方式处理每个样本。以这种方式单独操纵每个样本会忽略样本间的关系,并且无法充分利用攻击和防御的潜力,从而限制了性能。

已经证明流形和邻域结构在捕获样本间关系方面是有效的。自然图像存在于低维流形上,其中训练和测试图像作为其中的样本。现代分类器在参数化方面过于完备,并且在干净图像设置下,不同的局部最小值已被示出同样有效。然而,不同的解决方案点可能会利用不同组特征进行预测。为了在自然图像上学习性能良好的分类器,只需将分类边界调整为在训练数据上的类之间具有良好隔离的位置处与该流形相交即可,因为测试数据将很大程度上驻留在同一流形上。然而,扩展到流形之外的分类边界受到的约束较少,这有助于对抗示例的存在。例如,已经指出,一些干净的经训练模型侧重于一些具有区别性但不那么稳健的特征,因此容易受到对抗攻击。因此,试图将特征点移向此决策边界的常规监督攻击可能会忽略原始数据流形结构。当决策边界对于其流形外部分接近于流形时,对抗扰动会导致数据流形产生倾斜效果;在分类边界对于其流形外部分远离流形的位置处,对抗扰动会将点移向决策边界,从而有效地缩小数据流形。由于对抗示例驻留在较大的连续区域中,并且对抗子空间的很大一部分是共享的,因此纯标签指导的对抗示例至少将在共享的对抗子空间中混乱。总而言之,尽管这些影响促使模型更加关注当前的决策边界,但是它们也使用于训练的有效数据流形偏离了原始决策边界,从而有可能阻碍性能。

鉴于这些观察,本文将先前对决策边界的关注转移到样本间结构。可以将所公开的特征分散方法的实施例直观地理解为通过以无监督的方式扰动局部邻域结构,然后对所生成的对抗图像执行模型训练来生成对抗示例。图1示出了基于特征分散的对抗训练的总体框架100,并且图2示出根据本公开的实施例的利用框架100进行基于特征分散的对抗训练的过程。对抗扰动是通过特征分散共同产生的,即最大化干净样本{x

参考图1和图2,特征提取器f

在一个或多个实施例中,可以实施一个或多个迭代步骤(图1中未示出),以使用所获得的最大特征匹配距离

在一个或多个实施例中,来自更新的扰动批次的扰动图像的多个扰动特征矢量{f′

尽管图1和图2以及下文中公开的一些实施例与图像模型有关,但是本领域技术人员可以理解,基于特征分散的对抗训练也可以用于其他应用,包括但不限于语音识别等。这种变化应仍然在本发明的范围内。

本文的一些贡献可以总结如下:

公开了用于生成对抗图像的新颖的特征分散方法的实施例,以便以协作和无监督的方式进行对抗训练;

提出了对抗训练公式的实施例,其偏离常规的极大极小(minimax)公式并且落入更广泛的双层优化类别中;

分析了方法的实施例,并与几种最先进的技术进行了比较,在许多标准基准上进行了广泛的实验。验证了方法的有效性。

B.

1.

最近,对抗示例引起了极大的关注。有人指出,美国有线电视新闻网(CNN)容易受到对抗示例的攻击,并且提出了基于L-BFGS的算法来生成对抗示例。已经开发出用于生成对抗攻击的快速梯度符号方法(FGSM),并将其用于对抗训练。已在后来开发出攻击的许多变型。同时,已为防御对抗示例做出了许多努力。近来,一些研究表明,由于梯度遮蔽,人们对许多现有防御方法在针对对抗攻击的鲁棒性方面存在错误认识,并且对抗训练是针对对抗攻击的有效防御方法之一。它通过如下求解极大极小问题来提高模型鲁棒性:

其中,内层的最大化运算实质上产生攻击,而外层的最小化运算对应于最小化由内层的攻击引起的“对抗损失”。可以使用例如诸如快速梯度符号方法(FGSM)的单步方法(I.Goodfellow等人在2015年的学习代表国际会议中的“解释并驯服对抗示例”)或者多步投影梯度下降(PGD)方法来近似求解内层的最大化运算:

其中,

标签泄漏和梯度遮蔽是阻碍对抗训练的一些众所周知的问题。当加性扰动与真值标签高度相关时,就会发生标签泄漏。因此,当将其添加到图像时,网络可以通过解码加性扰动直接告知类别标签,而无需依赖图像的真实内容,从而在训练过程中产生比干净图像更高的对抗精度。梯度遮蔽是指以下效果,即经对抗训练的模型通过生成针对对抗攻击的较少有用的梯度来学习“改善”鲁棒性,这些对抗攻击可能会被用于生成攻击的替代模型所忽视,从而产生对鲁棒性的错误认识。

2.

欧几里德距离可论证地是用于测量点对之间的距离的最常用度量之一。当涉及到两组点时,很自然的是,在给定适当的对应关系的情况下,将各个成对的距离累加为两组之间的距离的度量。可替代地,每个组都可以视为经验分布,并且使用Kullback-Leibler(KL)或Jensen-Shannon(JS)散度来测量它们之间的距离。利用KL或JS散度学习的挑战在于,当两个经验分布具有不相交支持或者具有包含在测度零集中的非空交集时,将不提供有用的梯度。最佳传输(OT)距离是分布之间的距离的替代性度量,在先前提到的情境下具有优于KL和JS的优点。两种概率度量μ与v之间的OT距离可以定义为:

其中,Π(μ,v)表示具有边际μ(x)和v(y)的所有联合分布γ(x,y)的集合,并且c(x,y)是成本函数(例如,欧几里得距离或余弦距离)。直观地讲,

C.

在本章节中,为了提高对抗鲁棒性,公开了基于特征分散的对抗训练的实施例。

1.

特征匹配。常规训练将训练数据视为来自数据分布的独立且均匀分布的(i.i.d)样本,从而忽略了样本之间的联系。在生成对抗样本以便进行训练时,使用相同的假设,其中对样本进行扰动的方向纯粹基于从当前数据点到决策边界的方向,而与其他样本无关。尽管有效,但是它忽略了不同特征点之间的相互关系,因为对抗扰动是针对每个样本单独计算的,从而忽略了任何集体分布特性。此外,参考图3A,如图3B所示,监督性地生成攻击使得所生成的扰动朝向决策边界高度偏置。在图3A至图3C中,覆盖边界315来自在干净数据上训练的模型。这是不太理想的,因为它可能会忽略对于学习鲁棒模型至关重要的其他方向,并且可能由于扰动与决策边界之间的高度相关性而导致标签泄漏。相比之下,图3C图形地示出根据本公开的实施例的使用提出的特征分散方法而生成的扰动数据的示例。

本文中利用了利用用于学习日期的样本间关系的实施例来进行对抗扰动。通过使用公式(3)中的OT距离,追求对局部结构的利用以及追求与端到端训练框架的无缝集成自然会激发出基于OT的软匹配方案。在一个或多个实施例中,此后考虑离散分布之间的OT,因为本文的重点之一是将OT距离应用于图像特征上。具体地,考虑两个离散分布

其中

其中f

定义1。(特征匹配距离)将两组图像之间的特征匹配距离定义为

应当注意,当f

特征分散。基于以上定义的特征匹配距离,可以将所提出的特征分散方法表述如下:

在一个或多个实施例中,这可以直观地解释为相对于受到域约束的输入最大化原始经验分布与扰动经验分布之间的特征匹配距离S

其中B(x,∈)={z|||z-x||

定义2。(特征分散)给定一组干净的数据{x

由于特征分散是利用样本间结构在一批样本上执行的,因此与结构不可知的随机扰动相比,它作为对抗攻击更有效,同时比以决策边界为导向且遭受标签泄漏的受监督产生的扰动受到更少的约束。章节E中提供了经验比较。

2.

在该小节中,公开了具有特征分散的对抗训练的实施例。

在一个或多个实施例中,用于对抗训练的特征分散可以通过如下数学公式来利用:

在一个或多个实施例中,提出的公式不同于用于对抗训练的常规极大极小公式。更具体地,它可以被视为更一般的双层优化问题的实例。特征分散对于对抗训练情境有效,因为需要更多的数据。与常规的监督方法不同,特征分散促进数据的多样性,而不会像具有标签泄漏(其是一种显现现象)的常规的监督方法那样大幅度地改变数据流形的结构。其次,特征匹配距离将批次内的样本联接在一起,因此,通过考虑样本间关系来协同产生生成的对抗攻击。再次,特征分散隐式地在模型训练上引起联接正则化(以下详述),从而利用样本间结构进行联合正则化。

所公开的方法的总体过程可以在以下示出的方法1中呈现。

方法1:基于特征分散的对抗训练

图4示出根据本公开的实施例的用于基于特征分散的对抗训练的方法。接收(405)图像数据集S、训练时期K、批次大小n、攻击预算∈和攻击迭代T作为输入。对于每个训练时期,从图像数据集S中选择(410)随机批次的图像。随机批次包括多个图像x

实施(420)一个或多个迭代步骤,以通过最大化μ与v之间的特征匹配距离

D.

基于流形的防御。一些人建议通过将扰动图像投影到适当的流形上来进行防御。一些人使用类似的流形投影思想,通过针对网络规模数据库的最近邻域搜索来近似这个步骤。不同地,在本文的实施例中,以样本间关系的形式利用流形来产生扰动,当在对抗训练框架中使用时,其引起模型的隐式正则化。虽然可以通过将扰动输入朝向流形收缩来实现防御,但是在本文的实施例中,使用特征分散,流形得以扩展以生成扰动输入以便进行对抗训练。

样本间正则化。一些人通过在成对的自然样本之间进行线性插值来生成训练样本,从而在训练样本附近引入线性感应偏差。因此,该模型有望减少非流形样品的不希望的振荡的量。一些人提出了对抗分对数配对以增加“配对”损失的原始训练损失,这测量了干净图像与对抗图像的分对数之间的差异。该想法是使用自然分对数作为参考来抑制伪分对数响应。类似地,一些人提出了正则化方法,即虚拟对抗训练,它使用基于原始图像和对抗扰动图像的预测概率的KL散度的正则化项。在所提出的模型的一个或多个实施例中,利用样本间关系来生成对抗扰动,该对抗扰动在联接到所有输入样本上的目标函数中引起隐式正则化项。

Wasserstein GAN和OT-GAN。生成对抗网络(GAN)是一门技术,其通过直接生成样本来隐式捕获数据分布。它最初遭受训练不稳定和模式崩溃的问题。OT相关距离已被用来克服原始GAN训练中遇到的困难。该技术已进一步扩展为生成离散数据,诸如文本。与GAN不同(该GAN使关于鉴别器的参数的鉴别标准最大化以便更好地捕获数据分布),在本文的实施例中,相对于扰动输入来最大化特征匹配距离以生成适当的训练数据来提高模型鲁棒性。

E.

应当注意,这些实验和结果通过说明的方式提供并且使用一个或多个具体实施例在具体条件下执行;因此,这些实验和它们的结果都不应被用来限制本专利文献的公开的范围。

基线和实施细节。在一个或多个实验设置中,呈现的基于特征分散的对抗训练的实施方式是基于PyTorch的。在包括CIFAR10和CIFAR100的几个基准数据集上进行了广泛的实验(A.Krizhevsky在2009年的技术报告的“从微小图像中学习多层特征(Learningmultiple layers of features from tiny images)”)。在一个或多个实验设置中,WideResNet WRN-28-10(S.Zagoruyko等人在2016年的英国机器视觉会议上的“宽残量网络(Wide residual networks)”被用作遵循Madry(Madry)等人的网络结构(在2018年的学习代表国际会议中的“趋向抵抗对抗攻击的深度学习模型(Towards deep learning modelsresistant to adversarial attacks)”)。将提出的方法的实施例的性能与许多基线方法进行了比较,包括:i)使用干净图像的标准方法训练的模型(标准)(A.Krizhevsky在2009年的技术报告的“从微小图像中学习多层特征(Learning multiple layers of featuresfrom tiny images)”);ii)来自Madry的基于PGD的方法;iii)执行利用图像和标签对抗扰动两者的对抗训练的另一种最近的方法(Bilateral)(J.Wang等人的“双边对抗性训练:趋向针对对抗攻击的更健壮模型的快速训练(Bilateral adversarial training:Towardsfast training of more robust models against adversarial attacks)”,CoRR,abs/1811.10716,2018)。对于训练,CIFAR的初始学习率γ为0.1。在一个或多个实验设置中,将标准和Madry方法的时期数设置为100,其中过渡时期为{60,90},因为根据经验观察到,经过训练的模型的性能在100个时期之前趋于稳定。200个时期的训练计划类似于Bilateral(与经验观察到的使用相同的过渡时期),这有助于提高模型性能,可能是由于经由特征分散增加了数据的变型。在一个或多个实验设置中,执行标准数据增强,包括在训练过程中具有4个像素填充的随机裁剪和随机水平翻转。∈=8的扰动预算用于遵循Madry的训练中。在一个或多个实验设置中,使用标签平滑为0.5、攻击迭代为1以及正则化为0.01的Sinkhorn算法。对于测试,通过近似计算测试集上的鲁棒性的上限、通过测量在不同的对抗攻击(包括白盒FGSM、PGD(Madry)、CW(PGD框架内的CW损失)(N.Carlini和D.Wagner在2017年的IEEE安全与隐私研讨会上的“趋向评估神经网络的鲁棒性(Towards Evaluating theRobustness of Neural Networks)”)攻击和黑盒攻击的变型)下的模型的准确性来评估模型鲁棒性。

1.

CIFAR10。在CIFAR10上进行一个或多个实验,CIFAR10是流行的数据集,其广泛用于对抗训练文献中,具有10个类,每个类5K个训练图像和10K个测试图像。报告了原始测试图像(干净)以及在具有T迭代(PGDT和CWT)的PGD和CW攻击下的准确性。评估结果汇总于表1中。在不同的白盒攻击下,观察到标准模型彻底失败。Madry方法比标准模型大大提高了模型鲁棒性。在标准的PGD20攻击下,它实现44.9%的准确率。Bilateral方法进一步将性能提高到57.5%。所提出的方法大幅度胜过两种方法,比Madry改进25.6%,并且优于Bilateral13.0%,从而在标准的20步PGD攻击下实现70.5%的准确性。对于CW度量,已经观察到类似的模式。

在一个或多个实验中,以20的固定攻击步长进一步评估了在不同的攻击预算下针对PGD攻击者的模型鲁棒性,其结果如图5A所示。观察到,随着攻击预算的增加,标准模型的性能迅速下降。Madry模型在大范围的攻击预算范围内显著提高了模型鲁棒性。在不同的攻击预算下,提出的方法相比Madry模型进一步大幅度提高了性能。还使用具有带有固定攻击预算8的不同攻击迭代的PGD攻击者进行实验,结果在图5B和图5C以及还在表1中示出。据观察,当攻击迭代次数增加时,Madry和提出的方法两者都可以维持相当稳定的性能。应当注意,在大范围的攻击迭代中,所提出的方法始终胜过Madry模型。从表1中还观察到,在PGD和CW攻击的所有变型下,提出的方法也胜过Bilateral。在一个或多个实验设置中,其中∈=8并且结果攻击步长为20和100的PGD/CW攻击者被用作威胁模型的一部分。

表1:在不同的威胁模型下在CIFAR10上的、所提出的方法与标准、Madry和Bilateral方法的准确度比较

表2:CIFAR100上的准确度比较

CIFAR100。还对CIFAR100数据集进行了实验,其具有100个类,50K个训练图像和10K个测试图像。应当注意,该数据集比CIFAR10更具挑战性,因为每个类的训练图像的数量比CIFAR10小十倍。如表2中的结果所示,提出的方法明显胜过所有基线方法,在PGD攻击下优于Madry和Bilateral约20%,并且在CW攻击下优于约10%。提出的方法在该数据集上的优越性能进一步证明了利用样本间结构进行学习的重要性。

2.

在本小节中,研究了算法因素的影响。

特征分散的重要性。通过比较使用不同的扰动方案训练的模型的性能,经验验证了特征分散的有效性:I)随机:自然基线方法,其随机地扰动ε邻域内的每个样本;ii)监督:使用真值标签以监督方式产生的扰动;iii)特征分散:使用建议的特征分散方法产生的扰动。除了使用的扰动方案外,所有其他超参数都保持完全相同。结果汇总于表3中。显然,公开的特征分散(FeaScatter)方法胜过随机方法和监督方法两者,从而证明其有效性。此外,由于它是与常规对抗训练流水线不同的主要因素,因此该结果表明,特征分散是提高对抗鲁棒性的主要贡献者。

表3:特征分散的重要性

表4:不同匹配方案的影响

匹配的作用。通过比较几种不同的方案,进一步研究了匹配方案在特征分散因素中的作用:i)均匀匹配,其将每个干净样品与批次中所有扰动样品均匀地匹配;ii)同一性匹配,其仅将每个干净样本与其扰动样本进行匹配;iii)OT-匹配:建议的方法是根据优化标准在干净样本与扰动样本之间分配软匹配。结果汇总于表5中。观察到,匹配方案的所有变型都产生与最新方法相当或更好的性能,这意味着提出的框架总体上是有效的。值得注意的是,OT-匹配产生最佳结果,这表明正确匹配对于特征分散的重要性。

OT-求解器的影响。在T内的公式(4)的精确最小化通常难处理。在一个或多个实验中,将两个实用的求解器,Sinkhorn算法(M.Cuturi在2013年的神经信息处理系统的进展中的“Sinkhorn距离:最优运输的光速计算(Sinkhorn distances:Lightspeed computationof optimal transport)”)以及用于最优传输的不精确近点方法(IPOT)算法(Y.Xie等人的“一种用于Wasserstein距离的快速接近点方法(A Fast Proximal Point Method ForWasserstein Distance)”,arXiv:1802.04307,2018)进行了比较。结果汇总于表5中。结果表明,使用不同的OT求解器的提出的方法的不同的实例化会导致可比较的性能,这意味着无论OT求解器的选择如何,提出的方法通常都是有效的。

表5:OT求解器的影响。利用不同OT求解器的提出的方法的实施例表现良好

3.

为了进一步验证是否获得了退化最小值,针对黑盒攻击(B-攻击)来评估利用提出的方法训练的模型的鲁棒性。使用两种不同的模型来生成测试时间攻击:i)未防御:使用标准方法训练的未防御模型;ii)Siamese:使用提出的方法从另一训练会话获得的稳健模型。如下文表5中的结果所示,使用提出的方法训练的模型针对不同类型的黑盒攻击具有鲁棒性,从而验证了学习到了非退化的解决方案。

表5黑盒攻击下不同模型的性能

F.

本文公开了基于特征分散的对抗训练方法的实施例。提出的方法的实施例通过使用用于生成对抗训练图像的非监督特征分散方法而与其他实施例区分开,该方法利用样本间关系来进行协作扰动生成。在一个或多个实施例中,从特征分散中导出联接正则项以便进行对抗训练。在基准数据集上进行的大量实验证明了提出的方法的有效性。

G.

在各实施例中,本专利文献的各方面可以针对、可以包括或者可以在一个或多个信息处理系统/计算系统上实现。计算系统可以包括可操作来运算、计算、确定、分类、处理、发送、接收、检索、发起、路由、切换、存储、显示、通信、展示、检测、记录、再现、处置或利用任何形式的信息、智能或数据的任何手段或手段的集合。例如,计算系统可以是或可以包括个人计算机(例如笔记本计算机)、平板计算机、平板电脑、个人数字助理(PDA)、智能电话、智能手表、智能包、服务器(例如刀片服务器或机架式服务器)、网络存储设备、照相机或任何其他合适的设备,并且可以在尺寸、形状、性能、功能和价格上变化。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源,诸如中央处理单元(CPU)或者硬件或软件控制逻辑、ROM和/或其他类型的存储器。计算系统的附加部件可以包括一个或多个磁盘驱动器、用于与外部设备以及诸如键盘、鼠标、触摸屏和/或视频显示器的各种输入和输出(I/O)设备通信的一个或多个网络端口。计算系统还可以包括可操作来在各种硬件部件之间发送通信的一条或多条总线。

图6示出根据本公开实施例的计算设备/信息处理系统(或计算系统)的简化框图。应当理解,系统600所示的功能可以操作来支持计算系统的各种实施例——尽管应当理解,计算系统可以被不同地配置并包括不同的部件,包括具有如图6所示的更少或更多的部件。

如图6所示,计算系统600包括提供计算资源并控制计算机的一个或多个中央处理单元(CPU)601。CPU 601可以用微处理器等实现,并且还可以包括一个或多个图形处理单元(GPU)619和/或用于数学计算的浮点协处理器。系统600还可以包括系统存储器602,其可以是随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

还可以提供多个控制器和外围设备,如图6所示。输入控制器603表示到各种输入设备604的接口,诸如键盘、鼠标、触摸屏和/或触笔。计算系统600还可以包括用于与一个或多个存储设备608进行接口式连接的存储控制器607,每个存储设备包括诸如磁带或磁盘的存储介质,或者可以用于记录操作系统、实用程序和应用程序的指令程序的光学介质,所述操作系统、实用程序和应用程序可以包括实现本发明各个方面的程序的实施例。存储设备608也可用于存储已处理数据或根据本发明要处理的数据。系统600还可以包括显示控制器609,用于提供到显示设备611的接口,该显示设备可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统600还可以包括一个或多个外围设备606的一个或多个外围设备控制器或接口605。外围设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器614可以与一个或多个通信设备615接口连接,这使得系统600能够通过包括互联网、云资源(例如以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网(SAN)在内的各种网络中的任何一种或通过任何合适的电磁载波信号(包括红外信号)连接到远程设备。

在所示系统中,所有主要系统部件可以连接到总线616,该总线可以代表多于一个物理总线。然而,各种系统部件可以或可以不在物理上彼此接近。例如,输入数据和/或输出数据可以从一个物理位置远程发送到另一个物理位置。此外,可以通过网络从远程位置(例如,服务器)访问实现本发明各个方面的程序。这种数据和/或程序可以通过各种机器可读介质中的任何一种来传送,包括但不限于:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和全息设备的光学介质;磁光介质;以及专门配置为存储或存储并执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备以及ROM和RAM设备。

本发明的各方面可以用指令编码在一个或多个非暂时性计算机可读介质上,该指令由一个或多个处理器或处理单元执行以使得步骤得以执行。应当注意,一个或多个非暂时性计算机可读介质应当包括易失性和非易失性存储器。应当注意,替代实施方案是可能的,包括硬件实施方案或软件/硬件实施方案。硬件实现的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此,任何权利要求中的术语“装置”旨在涵盖软件和硬件实施方案。类似地,这里使用的术语“计算机可读介质”包括其上包含指令程序的软件和/或硬件,或者它们的组合。考虑到这些替代实施方案,应当理解,附图和随附描述提供了本领域技术人员编写程序代码(即软件)和/或制造电路(即硬件)以执行所需处理所需的功能信息。

应当注意,本发明的实施例还可以涉及具有非暂时性有形计算机可读介质的计算机产品,该计算机可读介质上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本发明的目的专门设计和构造的那些,或者它们可以是相关领域技术人员已知或可获得的类型。有形计算机可读介质的示例包括但不限于:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和全息设备的光学介质;磁光介质;以及专门配置为存储或存储并执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备以及ROM和RAM设备。计算机代码的示例包括机器代码,诸如由编译器产生的代码,以及包含由计算机使用解释器执行的高级代码的文件。本发明的实施例可以全部或部分实现为在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布式计算环境中,程序模块可以物理地位于本地、远程或两者的设置中。

本领域技术人员将认识到,计算系统或编程语言不对本发明的实践起至关重要的作用。本领域技术人员还将认识到,上述许多元件可以在物理上和/或功能上分成子模块或组合在一起。

本领域技术人员将理解,前面的示例和实施例是示例性的,并且不限制本公开的范围。本领域技术人员在阅读说明书和研究附图后显而易见的所有置换、增强、等同物、组合和改进都包含在本公开的真实精神和范围内。还应当注意,任何权利要求的元素可以用不同的方式安排,包括具有多个依赖性、配置和组合。

相关技术
  • 用于使用基于特征分散的对抗训练来防御对抗攻击的系统和方法
  • 一种基于生成对抗网络的对抗攻击防御训练方法
技术分类

06120112198817