掌桥专利:专业的专利平台
掌桥专利
首页

基于可解释性的神经网络后门样本过滤方法

文献发布时间:2024-04-18 19:58:30


基于可解释性的神经网络后门样本过滤方法

技术领域

本发明涉及一种神经网络后门样本过滤方法,属于深度学习安全技术领域,特别涉及一种基于可解释性的神经网络后门样本过滤方法。

背景技术

深度学习是一种广泛应用于各个领域的优秀机器学习方法,包括图像分类、目标跟踪和自动驾驶等。卷积神经网络(Convolutional Neural Network,CNN)则是深度学习中最常见的网络结构类型,其采用卷积层、池化层和全连接层的组合模式,可以更高效地处理大尺寸、高维度的数据。

近年来,神经网络在各个领域都取得了令人瞩目的成果,其中最重要的原因之一就是其强大的学习能力。然而,为了获得高质量的神经网络模型,通常需要大量的训练数据来训练模型,即神经网络是一种数据饥饿模型。这对于一般用户而言,往往是难以满足的条件。因此,许多用户会选择使用未知来源的数据集来训练模型,以期望获得更好的训练效果。

然而研究表明,类似于传统计算机领域,神经网络也存在着后门安全问题。在传统计算机领域中,后门植入攻击是指攻击者可以植入一段恶意代码到操作系统或应用软件中,并设置一个触发器(如特定字符串)。当用户的操作满足触发器的条件时,后门将被激活,从而给予恶意攻击者更高的权限以破坏系统。

在深度学习与神经网络这个新领域中,后门攻击利用其神经网络的数据饥饿特性,通过污染训练数据,给神经网络安全带来了严峻挑战。具体来说,攻击者可以向训练数据中添加后门触发器,并修改其分类标签,从而导致模型被植入后门,攻击者可以通过触发器操纵模型做出非预期的错误分类结果。

神经网络的数据饥饿特性,大大提升了后门攻击的隐蔽性。例如,Open Images和Amazon Products数据集分别包含约900万和2.33亿个样本,这些样本是从各种潜在的不安全来源中收集的。而攻击者仅需要注入少量后门样本,即可实现有效的后门攻击。在这种场景下,对训练样本进行全面的人工审查通常是不可行的。

因此,本专利提出了一种基于可解释性的神经网络后门样本过滤方法,可以在无需额外干净对照样本的条件下,实现高效、准确的后门样本过滤。

发明内容

本发明提供了一种基于可解释性的神经网络后门样本过滤方法,该方法在无需额外干净对照样本、无需额外训练后门检测模型的条件下,实现了一种兼顾高效性和准确性的后门样本过滤方法。

为实现上述目的,本发明的技术方案为:

本发明提出的一种基于可解释性的神经网络后门样本过滤方法,包括以下步骤:

S1:将待检测样本x

S2:将待检测样本预测结果向量y

S3:将待检测样本最高卷积层特征图A

S4:选定待提取关键决策区域激活值阈值α;结合类激活图

S5:对关键决策区域p

S6:将修复样本x

S7:根据擦除前后预测类别对比,实现后门样本过滤。

进一步,S1步骤中:将待检测样本x

进一步,S2步骤中:将待检测样本预测结果向量y

其中:

·

·k代表待检测样本最高卷积层特征图A

·

·Z代表待检测样本最高卷积层特征图A

·

由此,可以得到各通道特征图的语义特征信息对于决策结果的重要性程度。

进一步,S3步骤中:待检测样本最高卷积层特征图A

其中:

·k代表待检测样本最高卷积层特征图A

·

·

·

此外,在待检测样本最高卷积层各通道特征图

进一步,S4步骤中:选定待提取关键决策区域激活值阈值α;结合类激活图

其中:

·

·

·

·p

进一步,S5步骤中:对待擦除修复的关键决策区域p

其中:

·I(.)表示像素值;

·p

·q表示p

但是,待擦除修复的关键决策区域p

其中:

·I(.)表示像素值;

·p

·q表示p

·B

·ω(p

邻域像素权重ω(p

其中:

·p

·q表示p

·N(.)表示法向角度;

·T(.)表示到边缘δΩ的距离;

·d0、T0表示距离参数和水平集参数,一般都取为1;

·ω(p

进而,通过邻域像素权重ω(p

进一步,S6步骤中:将修复样本x

进一步,S7步骤中:根据擦除前后预测类别

本发明所提出的基于可解释性的神经网络后门样本过滤方法对选取的神经网络模型没有限制。

有益效果

(1)实现接近100%的后门样本筛选准确率,有效实现后门样本筛选;

(2)在无需额外干净对照样本的条件下,实现后门样本筛选,保证了本方法的易用性;

(3)在无需额外训练后门检测模型的条件下,实现后门样本筛选,保证了本方法的高效性。

附图说明

图1为本发明的基于可解释性的神经网络后门样本过滤方法的流程图;

图2为本实施例对于干净样本及后门样本的擦除修复效果示意图;

图3为本实施例在GTSRB、CIFAR-10、ImageNet数据集的筛选的后门样本示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

神经网络是一种端到端的黑盒模型,使用者无法直观理解其决策过程,这使得攻击者可以隐蔽的通过后门样本向模型植入后门。本发明基于神经网络模型可解释性方法,通过提取待检测样本的关键决策区域,进而得以从模型决策的角度实现后门样本过滤。

实施例

如图1所示,本发明提出的一种基于可解释性的神经网络后门样本过滤方法,包括以下几个步骤:

S1:将待检测样本x

在深度学习中,模型的前向传播是指将待检测样本输入模型进行计算,以进行特征提取并获得预测结果向量。这个过程中,模型会对待检测样本x

S2:将待检测样本预测结果向量y

反向传播是深度学习中的一种优化算法,它可以通过计算梯度来更新模型参数,从而使模型更好地拟合训练数据。待检测样本最高卷积层特征图A

其中:

·

·k代表待检测样本最高卷积层特征图A

·

·Z代表待检测样本最高卷积层特征图A

·

由此,可以得到各通道特征图的语义特征信息对于决策结果的重要性程度。

S3:将待检测样本最高卷积层特征图A

待检测样本最高卷积层特征图A

其中:

·k代表待检测样本最高卷积层特征图A

·

·

·

此外,在待检测样本最高卷积层各通道特征图

S4:选定待提取关键决策区域激活值阈值α;结合类激活图

如果要从类激活图像中筛选出关键决策区域,就需要设置关键决策区域激活值阈值α。本发明设置α=0.65,即待检测样本关键决策区域p

其中:

·

·

·p

S5:对关键决策区域p

本专利基于TELEA算法对关键决策区域p

其中:

·I(.)表示像素值;

·p

·q表示p

但是,待擦除修复的关键决策区域p

其中:

·I(.)表示像素值;

·p

·q表示p

·B

·ω(p

邻域像素权重ω(p

其中:

·p

·q表示p

·N(.)表示法向角度;

·T(.)表示到边缘δΩ的距离;

·d0、T0表示距离参数和水平集参数,一般都取为1;

·ω(p

进而,通过邻域像素权重ω(p

基于此,待擦除修复的关键决策区域p

S6:将修复样本x

获得修复样本x

S7:根据擦除前后预测类别

对于后门样本而言,其关键决策特征为后门触发器;对于干净样本而言,其决策特征为某一语义特征。因此对后门样本进行关键决策区域擦除修复后,无法激活后门,导致擦除前后预测类别

如图2所示,为本发明基于可解释性的神经网络后门样本过滤方法对干净样本、后门样本进行擦除修复的过程。第一列图像显示了原始干净样本、原始后门样本及其预测标签。第二、三列图像显示了通过可解释性方法对原始干净样本及原始后门样本提取关键决策特征区域示意图。第四、五列图像显示了擦除修复后的干净样本、后门样本及其预测标签。通过比较擦除修复前后的预测标签,可以实现对于干净样本及后门样本的筛选区分,进而实现后门样本过滤。

如图3所示,为本发明基于可解释性的神经网络后门样本过滤方法在验证过程中所采用的后门样本示例。本发明实施例选取了三种数据集进行实验验证,分别为:GTSRB、CIFAR-10和ImageNet。如图3(a)所示,为GTSRB数据集后门样本示例。如图3(b)所示,为CIFAR-10数据集后门样本示例。如图3(c)所示,为ImageNet数据集后门样本示例。

本发明所提出的基于可解释性的神经网络后门样本过滤方法对选取的神经网络模型没有限制。为验证发明有效性,选取AlexNet和ResNet-34两种模型进行实验。

为了评估本发明所提出方法的性能,使用如下两个指标:

攻击成功率(Attack Success Rate,ASR),其表示带有触发器的后门样本成功触发后门模型的比例:

其中:

·

·

·D

·

·

干净样本准确率(Clean Sample Accuracy,CSA),其表示后门模型对干净样本的分类准确率:

其中:

·

·

·D

·

对于后门模型,应该具有高攻击成功率ASR;具有与干净模型近似的干净样本准确率CSA,从而后门模型不会因为分类性能被使用者发觉异常。因此,对于一种后门防御方法,则需要在降低ASR的同时,避免对CSA产生影响。

在GTSRB数据集上,本发明实施例结合AlexNet模型进行实验,将后门攻击的平均攻击成功率ASR从100%降低到1.33%;同时干净样本准确率CSA几乎不受影响,防御前后分别为96.88%和96.17%。

在CIFAR-10数据集上,本发明实施例结合ResNet-34模型进行实验,将后门攻击的平均攻击成功率ASR从100%降低到0.20%;同时干净样本准确率CSA几乎不受影响,防御前后分别为88.40%和87.14%。

在ImageNet数据集上,本发明实施例结合ResNet-34模型进行实验,将后门攻击的平均攻击成功率ASR从100%降低到0.44%;同时干净样本准确率CSA几乎不受影响,防御前后分别为83.61%和82.59%。

同时,本发明在实现后门数据过滤的防御过程中,无需额外干净对照样本、无需额外训练后门检测模型,保证了易用性和高效性。

综合结果表明,本发明所提出的基于可解释性的神经网络后门样本过滤方法,在防御的有效性、易用性和高效性均取得良好的效果。

因此,本发明具有如下优点:

实现接近100%的后门样本筛选准确率,有效实现后门样本筛选;

在无需额外干净对照样本的条件下,实现后门样本筛选,保证了本方法的易用性;

在无需额外训练后门检测模型的条件下,实现后门样本筛选,保证了本方法的高效性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于多样本推理神经网络的样本分类方法、系统及介质
  • 一种基于可解释性的检测并恢复神经网络对抗样本方法
  • 一种基于深度神经网络模型可解释性的对抗样本防御方法
技术分类

06120116496043