掌桥专利:专业的专利平台
掌桥专利
首页

一种高迁移性和弱感知性的对抗样本生成方法

文献发布时间:2024-04-18 19:58:26


一种高迁移性和弱感知性的对抗样本生成方法

技术领域

本发明涉及深度学习图像对抗攻击领域,具体涉及一种高迁移性和弱感知性的对抗样本生成方法。

背景技术

近年来,深度神经网络(DNN)在计算机视觉领域取得了巨大的成功。然而,神经网络的安全与可靠性依然面临巨大的挑战,研究表明,神经网络对于对抗样本极其脆弱。攻击者仅需在干净样本上添加小小的扰动就可以欺骗最先进的深度神经网络。而且,这些对抗样本具有迁移性,即在代理模型上生成的对抗样本可以用于攻击其他的模型。因此,需要尽可能多地发现DNN的缺陷,从而提高DNN的鲁棒性,避免其潜在的风险。

自从2014年Szegedy等人发现了对抗样本的存在,各种攻击算法被提出,以此来研究DNN的脆弱性。攻击者在黑盒设置下只拥有对目标模型的查询权限,无法访问目标模型的结构、参数等信息。基于迁移的对抗攻击可以轻松地越过这些限制,因为它只需要在本地代理模型上生成对抗样本就可以成功地误导目标模型。基于L

发明内容

本发明针对现有技术的不足,发明了一种高迁移性和弱感知性的对抗样本生成方法,旨在通过对特征引导进行三元组损失约束,确保对抗样本的特征远离原始分类区域,增强其迁移性。此外,本发明将攻击扰动限制在低频分量空间中,能够将扰动集中在图像的语义特征上,增强攻击的隐蔽性,同时保持图像的视觉一致性,使得对抗样本更难以被察觉。

本发明所采用的技术方案包括以下步骤:

S1.将原始图像x

S2.将x′,x

S3.利用

S4.进行N次攻击迭代,在迭代的过程中通过优化损失函数对x′进行更新;优化过程中包含四个子损失函数,分别为用于攻击的损失L

本发明与现有技术相比,主要有如下的优点:

1.本发明将攻击扰动限制在低频分量空间中,确保生成的扰动主要集中在图像的语义特征部分,能够使对抗样本更难以被人眼察觉。

2.本发明利用特征引导,扰动更多的特征,以确保在优化过程中,生成的对抗样本特征尽可能地远离原始干净样本的类别区域,生成更高迁移性的不可感知对抗样本。

附图说明

图1为本发明一种高迁移性和弱感知性的对抗样本生成方法的步骤流程图。

图2为本发明的三元组损失说明示意图。

图3为本发明的离散小波变换示意图。

具体实施方式

下面对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明附图仅用于示例性说明,不能理解为对本发明的限制。下面将结合附图和具体实施例,对本发明进行详细说明。

对于以下实施例中的步骤,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

结合附图1所示,本发明提供了一种高迁移性和弱感知性的对抗样本生成方法,该方法包括以下步骤:

先从目标数据集中获取类别标签为y的原始图像x

原始图像输入stable diffusion后经过编码器将x

原始图像x

分别对x′,x

x′

其中,L和H分别为正交小波的低通和高通滤波器;

结合图3分析可知,低频分量包含了图像的基本信息,这些信息通常蕴含着标签的特征,丢弃高频分量仅使用低频分量,这不仅可以专注于在标签对应特征区域施加扰动,还能增强其不可感知性,因此将三个样本的高频分量均丢弃,仅使用低频分量x′

其中,IDWT(·)表示离散小波逆变换,L为正交小波的低通;

其中,α∈R

根据图2可知,对三元组损失L

进行N次迭代,其中N=30,在迭代的过程中通过优化损失函数对x′进行更新,优化过程中包含四个子损失函数,分别为用于攻击的损失L

通过直接在潜在空间干扰z

其中,

在潜在空间中通过对图像与标签之间的交叉注意映射进行累加,破坏图像与标签之间的强识别能力,增强对抗样本迁移性L

其中,Var(·)表示计算输入的方差,Cross(·)表示去噪过程中图像像素与标签C之间所有交叉注意映射的累加,Average(·)表示计算输入的平均值,z

加入自我注意控制确保对抗样本内容结构不变L

z

最终目标函数为:

arg min L=ρL

其中ρ,β,γ,μ为权重因子分别设为10、10000、100、10;直至达到最大攻击迭代次数30次,输出更新后图像样本x′

实施本发明,采用公开的ImageNet-Compatible Dataset开发集评估攻击的性能,该开发集包含1000张大小为299×299×3的图像,考虑到稳定扩散不能处理ImageNet-Compatible Dataset的原始输入大小,在所有的实验中都集中在一个调整了大小的224×224×3版本上。以此为例说明具体实施过程。

采用top-1准确率来评估攻击本发明的性能。此外,利用Frechet InceptionDistance(FID)作为评判对抗样本人类不可感知的指标,一般来说,FID与人的判断一致,很好地反映了干扰的程度。

表格中“S”表示代理模型,“T”表示目标模型。对于白盒攻击即代理模型与目标模型相同,用“*”表示。“AVG(w/o self)”表示除了与代理模型相同的模型外,所有目标模型的平均准确度。表1给出了本发明在正常训练的CNN、transformer和MLPs上对抗样本可迁移性与弱感知性的性能比较。对比结果,本发明带来性能提升显著在Res-50模型上生成的对抗样本迁移到其他正常训练模型,其他正常训练模型的平均准确度度降为32.8%且对抗样本的FID为62.7。为了验证本发明生成的对抗样本的鲁棒性,表2给出了本发明在Inc-v3上生成的对抗样本在防御性模型上的可迁移性与弱感知性的性能比较。对比结果,本发明带来性能提升显著在Inc-v3模型上生成的对抗样本迁移到其他防御模型,防御模型的平均准确度度降为44.8%且对抗样本的FID为62.3。从两个表的结果来看,本发明能很好的平衡高迁移性和弱感知性两个指标。

表1:本发明在正常训练模型上的可迁移性与弱感知性的性能比较

表2:本发明在防御模型上的可迁移性与弱感知性的性能比较

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到技术方案,皆应在由权利要求书所确定的保护范围。

相关技术
  • 一种基于生成对抗网络的林火图像样本生成方法
  • 基于生成模型的高可迁移性图像对抗样本生成方法
  • 一种基于迁移性的图像对抗样本生成装置及方法
技术分类

06120116492030