掌桥专利:专业的专利平台
掌桥专利
首页

一种面向深度学习可解释性的鲁棒性对抗训练方法

文献发布时间:2024-04-18 20:02:18


一种面向深度学习可解释性的鲁棒性对抗训练方法

技术领域

本发明涉及一种深度学习领域对可解释性攻击的防御方法,旨在提供一种对深度学习可解释性操纵防御的解释鲁棒性对抗训练方法。

背景技术

深度学习技术作为人工智能领域的重要支柱,其强大的数据处理和模式识别能力使其在图像处理、自然语言处理等诸多领域取得了显著成就。可解释性是深度学习模型的重要属性之一,指的是对模型决策和预测结果进行解释和理解的能力。在深度学习中,可解释性不仅包括输出结果的解释,还涉及到模型如何对输入数据进行处理和学习到的规律是如何被理解的。理想情况下,具备良好可解释性的模型能够向用户清晰地展示模型对输入数据的认知和理解过程,增强了用户对模型输出的信任度,有助于提高系统的可信度和可靠性。

尽管深度学习模型在许多任务上取得了显著的成绩,但其可解释性在面对对抗攻击时显现出脆弱性。对抗攻击是指针对机器学习模型的有意设计,旨在误导模型的输入数据,以使其产生错误的输出结果。对可解释性攻击的形式多种多样,可能包括对输入数据的微小扰动或修改,以致使深度学习模型产生不可靠的决策结果。这种攻击不仅可能影响模型的输出准确性,也会使得模型的解释性受到威胁,进而降低用户对模型决策的信任度。当前,这种脆弱性限制了深度学习模型在实际应用中的可靠性和稳定性,因此,加强对可解释性攻击的防御成为了当前深度学习领域的研究重点之一。

发明内容

本发明旨在至少在一定程度上解决可解释性攻击的防御问题。为此,本发明的目的在于提出一种基于局部梯度对齐的解释鲁棒性对抗训练方法,本发明所提出的对抗训练方法可以在面对可解释性操纵攻击时提升解释的鲁棒性,降低解释操纵攻击的威胁。

为达到以上目的,本发明提出了一种基于局部梯度对齐的解释鲁棒性训练方法,包括以下步骤:

步骤S1:采用对抗解释操纵攻击方法获取对抗样本,正常样本和对抗样本作为一组模型输入数据,输入数据正向传播计算分类得分的交叉熵损失。

步骤S2:对输入数据进行2次采样,其中包括沿解释结果方向采样和沿垂直于解释结果的方向采样,模型对采样数据正向传播计算预测分数,根据预测分数计算采样数据的采样综合正则项损失。

步骤S3:模型对数据反向传播获取模型对输入数据的梯度,根据梯度计算L2鲁棒性正则项损失和余弦鲁棒性正则项损失。

步骤S4:根据步骤S2、S3、S4的损失项计算对抗训练的总损失,反向传播迭代更新模型参数。

以上所述步骤S1具体步骤为:

采用优化的方式对数据集中干净样本进行迭代生成对抗解释样本,其中对抗解释样本的损失函数设计分为两部分,第一部分目的为控制目标解释改变为指定结果,第二部分目的为保证样本位置原预测分数,具体公式如下:

其中,h(·)为样本的解释结果,h(g,x

并且,为保证模型的分类性能,对抗训练的第一个损失项设置为模型预测分数与真实标签的交叉熵损失,可以描述为:

J(f,x,y)

以上所述步骤S2中对数据进行采样指沿解释方向上采样和沿垂直于解释的方向上采样,其中,沿解释方向的采样步骤可以描述为:

x

沿垂直于解释方向的采样步骤可以描述为:

x

其中,x

以上所述步骤S3中设计了两个正则项,目的在于使模型局部梯度在大小和方向上均对齐,其中l

余弦鲁棒性正则项可以表示为:

其中,

上述步骤S4中计算对抗训练总损失设计表示为:

其中α,λ

本发明的有益效果是:

首先,通过在训练过程中引入对抗解释样本,本方法使得模型更具鲁棒性,能够更有效地对抗对解释的操纵。这种对抗解释样本的引入可以帮助模型更好地理解和捕捉数据中的特征,从而提高模型对解释性操纵的防御能力,增强了模型对错误解释的干扰能力。

其次,本发明所采用的沿解释方向采样的方式对对抗解释样本进行高效采样,不仅提升了对抗训练的效率,降低了训练代价,同时也使得模型在解释鲁棒性方面表现更为出色。这种高效采样的方法有助于模型更快地学习到对解释性操纵的抵抗能力,加速了模型的收敛速度,提高了解释鲁棒性的表现。

最后,本发明对模型梯度进行约束,使得模型的局部梯度在大小和方向上一致。这一约束性操作使得模型在应对基于梯度的对抗解释操纵时更为稳健,提升了模型在解释方面的泛化能力。这种方式有效地减少了梯度对解释性操纵的敏感性,从而增强了模型的鲁棒性和安全性,为神经网络在实际应用中的可靠性和稳定性提供了有力保障。

附图说明

图1为本发明的方法流程示意图;

图2为本发明的方法的实现框架图;

具体实施方式

下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明提出的解释鲁棒性对抗训练方法的流程示意图,如图1所示,本发明的整体实施步骤如下

步骤S1:采用对抗解释操纵攻击方法获取对抗样本,正常样本和对抗样本作为一组模型输入数据,输入数据正向传播计算分类得分的交叉熵损失。

步骤S2:对输入数据进行2次采样,其中包括沿解释结果方向采样和沿垂直于解释结果的方向采样,模型对采样数据正向传播计算预测分数,根据预测分数计算采样数据的采样综合正则项损失。

步骤S3:模型对数据反向传播获取模型对输入数据的梯度,根据梯度计算L2鲁棒性正则项损失和余弦鲁棒性正则项损失。

步骤S4:根据步骤S2、S3、S4的损失项计算对抗训练的总损失,反向传播迭代更新模型参数。

图2为本发明所提出的模型解释鲁棒性对抗训练方法的训练框架图,其中详细描述了本发明所提出方法的训练过程,根据图2的描述,详细训练步骤如下:

在步骤S1中采用优化的方式对数据集中干净样本进行迭代生成对抗解释样本,其中对抗解释样本的损失函数设计分为两部分,第一部分目的为控制目标解释改变为指定结果,第二部分目的为保证样本位置原预测分数,具体对抗样本迭代的损失函数为:

其中,h(·)为样本的解释结果,h(g,x

并且,为保证模型的分类性能,对抗训练的第一个损失项设置为模型预测分数与真实标签的交叉熵损失,可以描述为:

J(f,x,y)

以上所述步骤S2中对数据进行采样指沿解释方向上采样和沿垂直于解释的方向上采样,其中,沿解释方向的采样步骤可以描述为:

x

沿垂直于解释方向的采样步骤可以描述为:

x

其中,x

以上所述步骤S3中设计了两个正则项,目的在于使模型局部梯度在大小和方向上均对齐,其中l

余弦鲁棒性正则项可以表示为:

其中,

上述步骤S4中计算对抗训练总损失设计表示为:

其中α,λ

术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术分类

06120116581786