掌桥专利:专业的专利平台
掌桥专利
首页

一种基于可验证鲁棒AUC的端到端对抗训练方法

文献发布时间:2024-04-18 20:02:18


一种基于可验证鲁棒AUC的端到端对抗训练方法

技术领域

本发明涉及机器学习领域,具体来说涉及图像分类的扰动对抗领域,更具体地说,涉及一种基于可验证鲁棒AUC的端到端对抗训练方法。

背景技术

深度神经网络因为性能较优,在人工智能领域中受到越来越多的关注。虽然深度神经网络在很多领域都有优秀的性能表现,但是其易受到经过精心设计的对抗样本的影响。对抗样本是通过对原样本添加扰动而形成,人类肉眼往往无法发现对抗样本和原样本的区别,且对抗样本能够欺骗深度神经网络,使其做出错误的决策。

常见的对抗样本生成方式包括注入噪声分布、像素扰动、设置触发特征等,例如,通过L∞、L2或者L0范数限制为每个样本注入的扰动大小,使得扰动无法被察觉,这种对抗攻击不需要知道网络参数或梯度的任何信息,在CIFAR、MNIST等公开数据集上可以取得高欺骗率。

但是目前对于深度神经网络的鲁棒性设计方法主要针对于准确率设计,这种思路假设数据类别分布是总体平衡的。在实际场景中,尤其是在注重安全的任务中,数据往往呈现长尾分布,即少部分类的样本数量很大而大部分类的样本数量很小。因此,针对准确率(Accuracy)设计的鲁棒方法,可能会导致网络对样本数量少的类的防御不足,从而在特定场景下造成安全隐患。

因此,在数据往往呈现长尾分布的场景下,如何设计鲁棒的深度神经网络来防御潜在的扰动攻击是一个亟需解决的问题。这在需要有安全保证的场景下十分重要,如图像分类、根据语音的对象分类等。

发明内容

因此,本发明的目的在于克服上述现有技术的缺陷,提供一种基于可验证鲁棒AUC的端到端对抗训练方法。

本发明的目的是通过以下技术方案实现的:

根据本发明的第一方面,提供一种用于图像分类模型的对抗训练方法,包括:获取具有长尾分布性质的图像分类的训练集,其包括多个原始样本和对应的标签,每个原始样本为一张图像,每个标签指示对应原始样本对应的类别;利用所述训练集,按照以下方式对图像分类模型进行多次迭代训练,得到经训练的图像分类模型:基于所述标签,针对每个所述类别,将所述训练集中属于该类别的每个原始样本作为一个正样本与每个负样本组成一个该所述类别的原始样本对,得到各类别的多个原始样本对构成的样本对集合,其中所述负样本是不属于该类别的原始样本;针对所述样本对集合的每个类别的每个原始样本对,构造一个与之对应的该类别的扰动样本对,所述扰动样本对中的扰动正样本和扰动负样本是对应的原始样本对中的正样本和负样本分别加上本次训练时根据预设的正态分布随机采样得到的同一个扰动矩阵得到;将所有的扰动正样本和扰动负样本输入图像分类模型,所述图像分类模型根据每个输入提取其对应的图像特征并根据所述图像特征确定其在各个类别的置信度;利用预设损失函数根据每个类别的扰动样本对中扰动正样本与扰动负样本在该类别的置信度的差值计算的损失更新图像分类模型的参数。

可选的,在所述多次迭代训练中的每次训练中,均对每个类别的每个原始样本对利用以下所述预设的正态分布采样一个该原始样本对的扰动矩阵:

其中,ζ表示扰动矩阵,I表示与所述训练集中原始样本的长宽尺寸一致的单位矩阵,σ表示标准差,基于该预设的正态分布

可选的,所述预设损失函数计算的损失被配置为与每个类别下的各扰动样本对中扰动正样本在该类别的置信度减去扰动负样本在该类别的置信度的差值之和负相关。

可选的,所述图像分类模型为一个基于深度神经网络的特征提取器和一个分类器构成,所述特征提取器用于根据输入的图像提取其对应的图像特征,所述分类器用于根据所述图像特征确定该输入的图像在各个类别的置信度,所述输入的图像是任意扰动样本对中的扰动正样本或者扰动负样本。

可选的,所述预设损失函数计算的损失被配置为以下每种类别的子损失的加权和:

其中,

可选的,所述图像分类模型包括彼此独立的多个图像分类子模型,每个类别设置一个对应的图像分类子模型,该每个类别对应的图像分类子模型仅利用该类别的扰动样本对进行所述训练,其中,每个类别对应的图像分类子模型包括子特征提取器和二分类器,所述子特征提取器用于根据输入的图像提取其对应的图像特征,所述二分类器用于根据所述图像特征确定该输入的图像在该二分类器所属图像分类子模型对应类别的置信度。

可选的,所述预设损失函数计算的损失被配置为按照以下方式确定:

其中,

根据本发明的第二方面,提供一种图像分类方法,所述方法包括:获取待分类的图像;利用第一方面得到的经训练的图像分类模型按照以下方式进行图像分类:

其中,

根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;以及存储器,其中存储器用于存储可执行指令;所述一个或多个处理器被配置为经由执行所述可执行指令以实现第一方面和/或第二方面中任一项所述方法的步骤。

附图说明

以下参照附图对本发明实施例作进一步说明,其中:

图1为根据本发明实施例的用于图像分类模型的对抗训练方法的流程示意图。

具体实施方式

为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如在背景技术部分提到的,在数据往往呈现长尾分布的场景下,如何设计鲁棒的深度神经网络来防御潜在的扰动攻击是一个亟需解决的问题。基于此,深度神经网络的鲁棒性设计需要考虑不平衡数据分布的影响,从而更好地在实际任务中对抗攻击,提高对少数类的防御能力,保持良好的性能。对此,首先,本发明采用具有长尾分布性质的图像分类的训练集,以更好地模拟长尾数据数据的场景;其次,将针对AUC的对抗攻击形式化,针对每个所述类别,构造该所述类别的原始样本对,其中,正样本为属于该类别的每个原始样本,负样本为不属于该类别的原始样本;随后,在同一个原始样本对中的每个原始样本上添加同样的扰动矩阵(因为是针对每个原始样本对从预设的正态分布随机采样得到的扰动矩阵,不同的原始样本对添加的扰动矩阵可能是不同的;而且,是有多次训练,在不同次的训练中,某个原始样本对的扰动矩阵也可能是不同的);最后,利用预设损失函数根据每个类别的扰动样本对中扰动正样本与扰动负样本在该类别的置信度的差值计算的损失更新图像分类模型的参数(相当于是利用AUC方式计算的损失优化,而非直接利用标签和置信度的交叉熵损失),由此,提高图像分类模型对少数类的防御能力,提升模型的鲁棒性,使一些图像被添加了扰动的情况下,仍能被正确分类。

根据本发明的一个实施例,参见图1,本发明提供一种用于图像分类模型的对抗训练方法,包括步骤S1和S2。为了更好地理解本发明,下面结合具体的实施例针对每一个步骤分别进行详细说明。

步骤S1:获取具有长尾分布性质的图像分类的训练集,其包括多个原始样本和对应的标签,每个原始样本为一张图像,每个标签指示对应原始样本对应的类别。

根据本发明的一个实施例,训练集来自图像分类的数据集。例如,CIFAR10-LT数据集、CIFAR100-LT数据集、NSFW(Not Safe(or Suitable)For Work)数据集或者ChestXray14数据集。CIFAR10-LT数据集、CIFAR100-LT数据集本身是具有长尾分布性质的数据集,从中直接随机按比例(比如8:2)提取训练集和测试集,则得到的训练集也具有长尾分布性质(即各个类别下的原始样本的个数不均衡,少数类别具有大量样本,而一些类别可能仅有少量的样本)。如果是NSFW数据集或者ChestXray14数据集,则可以通过自定义的规则去提取各个类别的原始样本数量,比如,假设有三个类别,分别为A类、B类和C类,设定A类取10个原始样本,B类取100个原始样本,C类取20个原始样本等,由此构造具有长尾分布性质的图像分类的训练集。

步骤S2:利用所述训练集,按照以下方式对图像分类模型进行多次迭代训练,得到经训练的图像分类模型。

需要说明的是,图像分类模型有以下两种可选的实施例。

根据本发明的一个可选实施例(Model 1),图像分类模型为一个基于深度神经网络的特征提取器和一个分类器构成,所述特征提取器用于根据输入的图像提取其对应的图像特征,所述分类器用于根据所述图像特征确定该输入的图像在各个类别的置信度,所述输入的图像是任意扰动样本对中的扰动正样本或者扰动负样本。例如,特征提取器可以是深度神经网络ResNet或者VGG的特征提取器,比如:ResNet-20模型、ResNet-50模型、VGG16或者VGG19模型的特征提取器;分类器可以是Softmax分类器。或者分类器可以是Sigmoid分类器,如果是Sigmoid分类器,则会先用Sigmoid分类器将特征提取器提取的图像特征通过线性层调整为多个类别的识别特征,根据每个类别的识别特征用sigmoid函数确定该类别的置信度。假设标签空间总共设有3种标签,即一共有三个类别,分别为A类、B类和C类,所有类别的扰动样本对中的各个扰动正样本和扰动负样本都会输入该特征提取器和Softmax分类器用于训练,那么针对每个输入的图像,Softmax分类器会根据其图像特征,输出一个向量[a,b,c],a1则表示该输入的图像为A类的置信度为a,为B类的置信度为b,为C类的置信度为c。

根据本发明的另一个可选实施例(Model 2),图像分类模型包括彼此独立的多个图像分类子模型,每个类别设置一个对应的图像分类子模型,该每个类别对应的图像分类子模型仅利用该类别的扰动样本对对进行所述训练,其中,每个类别对应的图像分类子模型包括子特征提取器和二分类器,所述子特征提取器用于根据输入的图像提取其对应的图像特征,所述二分类器用于根据所述图像特征确定该输入的图像在该二分类器所属图像分类子模型对应类别的置信度。例如,子特征提取器可以是深度神经网络ResNet或者VGG的特征提取器,比如:ResNet-20模型、ResNet-50模型、VGG16或者VGG19模型的特征提取器;二分类器可以是Sigmoid分类器。Sigmoid分类器只输出一个值,为该样本属于图像分类子模型对应类别的置信度。比如:还是假设标签空间总共设有3种标签,即一共有三个类别,分别为A类、B类和C类,每个类别会分别设置一个对应的图像分类子模型。会将A类的各个扰动样本对用于训练该A类对应的图像分类子模型,将B类的各个扰动样本对用于训练该B类对应的图像分类子模型,将C类的各个扰动样本对用于训练该C类对应的图像分类子模型(某类的扰动样本对和对应类的图像分类子模型是一一对应的,如:B类的各个扰动样本对不会用于训练A类对应的图像分类子模型)。以A类对应的图像分类子模型为例,假设Sigmoid分类器对A类的一个扰动样本对中扰动正样本输出置信度a,对其中扰动负样本输出置信度a’,则该A类的扰动样本对中扰动正样本与扰动负样本在该类别的置信度的差值则为a-a’。

步骤S2包括子步骤S21、S22、S23和S24,下面分别进行介绍。

步骤S21:基于所述标签,针对每个所述类别,将所述训练集中属于该类别的每个原始样本作为一个正样本与每个负样本组成一个该所述类别的原始样本对,得到各类别的多个原始样本对构成的样本对集合,其中所述负样本是不属于该类别的原始样本。

根据本发明的一个实施例,根据每个原始样本的标签,可以知道其对应的类别,从而针对每个类别构造原始样本对。比如:假设有三个类别,分别是A类、B类和C类,以构造A类的原始样本对为例,A类的每个原始样本则分别为一个正样本,假设共n

步骤S22:针对所述样本对集合的每个类别的每个原始样本对,构造一个与之对应的该类别的扰动样本对,所述扰动样本对中的扰动正样本和扰动负样本是对应的原始样本对中的正样本和负样本分别加上本次训练时根据预设的正态分布随机采样得到的同一个扰动矩阵得到;

根据本发明的一个实施例,在所述多次迭代训练中的每次训练中,均对每个类别的每个原始样本对利用以下所述预设的正态分布采样一个该原始样本对的扰动矩阵:

其中,ζ表示扰动矩阵,I表示与所述训练集中原始样本的长宽尺寸一致的单位矩阵,σ表示标准差,基于该预设的正态分布

步骤S23:将所有的扰动正样本和扰动负样本输入图像分类模型,由所述图像分类模型根据每个输入提取其对应的图像特征并根据所述图像特征确定其在各个类别的置信度。

步骤S24:利用预设损失函数根据每个类别的扰动样本对中扰动正样本与扰动负样本在该类别的置信度的差值计算的损失更新图像分类模型的参数。

根据本发明的一个实施例,预设损失函数计算的损失被配置为与每个类别下的各扰动样本对中扰动正样本在该类别的置信度减去扰动负样本在该类别的置信度的差值之和负相关。

对于可选实施例(Model 1),根据本发明的一个实施例,所述预设损失函数计算的损失被配置为以下每种类别的子损失的加权和:

其中,

对于可选实施例(Model 2),根据本发明的一个实施例,所述预设损失函数计算的损失被配置为按照以下方式确定:

其中,

优选的,以上两个实施例的代理损失函数均可以是

根据本发明的一个实施例,还提供一种图像分类方法,所述方法包括:

获取待分类的图像;

利用前述实施例的方法得到的经训练的图像分类模型按照以下方式进行图像分类:

其中,

发明人通过以下细节说明和理论推导,进一步证明了本发明方法(Area UnderCurve Pro,以下简称AUCPro)的可行性。

1.AUCPro实现方式:扰动样本(或者称对抗样本)往往是对正常样本(对应原始样本)添加扰动而得到,为了将扰动样本限制在一个可控范围内,定义样本x

其中,α表示了最大的扰动规模,||·||

基于以上的描述,若扰动样本对的目标没有实现,那么称模型具有可验证的AUC鲁棒性,即

在原模型f的基础上引入高斯光滑的代理模型g,可以得到良好的性质并进一步得到可验证的AUC鲁棒性。代理模型g的结构与原模型f一致,但是通过在训练时对原始样本对中各个原始样本加入随机得到的同一个扰动矩阵并按本发明的预设函数计算损失更新模型参数,可以有效地提升模型的鲁棒性。以图像分类任务为例,传统的模型直接对输入图像进行学习,或者对一些输入图像独立加入随机的高斯噪声,其效果需要优化。而本发明AUCPro方法进行训练得到的模型,对模糊、变形、色差小等受影响的图像仍能保持良好的分类性能。g具有如下性质:

其中,σ表示标准差,其体现了随机光滑的噪声程度。根据这些性质,可以得到如下定理:

当两个不同类的原始样本满足:

则下式成立:

其中,

其证明过程如下:

引理1:令σ>0,

引理2:令σ>0,

其中,,r

由于目标为改变正确的原始样本对

其中,

因此,为了实现证明目标,需要:

从这个定理可以得知,当满足:

(1)

(2)

(3)两个不同类别的样本满足以下排序:

时,可验证的AUC鲁棒性成立。

2.AUCAT的泛化误差分析:通过引入覆盖数和利普西茨连续假设,可以将AUCPro和AUCAT联系起来,并得到AUCAT的泛化界。

覆盖数的定义如下:令

当AUCAT的对抗半径r

其中,

其中

注:AUCAT是一个现有方法,但由于对抗训练引入了min-max优化形式,而在计算AUC的采样过程中,每个样本对中的正例和负例并不独立,在求解优化问题时难以简化,计算成本很高,导致其在实际训练模型时较难优化。具体地,其优化形式为

其中

3.端到端的AUCPro优化框架:在训练过程中,本发明在二分类CIFAR10-LT和CIFAR100-LT上采用ResNet-20作为主干网络,输入数据为带有标签的32×32×3的图像。在NSFW和ChestXray14上采用ResNet-50作为主干网络,输入数据为带有标签的224×224×3的图像。以AUC的定义为基础,可以得到前面提及的预设损失函数,此处不作赘述。

在预测阶段,需要对模型的鲁棒性进行验证,即在不平衡数据集中依然可以有效地完成防御任务。本发明AUCPro方法直接从

通过步骤1、2、3,可以得到一个具有理论保障的完整的端到端优化框架。

为了验证本发明的效果,发明人还进行了对比实验。在实验中本发明使用了多个不平衡/长尾的数据集,包括二分类CIFAR10-LT、二分类CIFAR100-LT、NSFW、ChestXray14。二分类CIFAR10-LT和二分类CIFAR100-LT是从图像分类领域的经典数据集CIFAR-10和CIFAR-100构建而来的。以CIFAR-10为例,它包括飞机(airplane)、汽车(automobile)、鸟(bird)、猫(cat)、鹿(deer)、狗(dog)、青蛙(frog)、马(horse)、船(ship)和卡车(truck)十个类别。选取一个类别作为正例,其余类别作为负例,则数据集可以实现二分类且不平衡。NSFW是一个包含五个类别的不适宜工作场合的数据集,包括正常(neutral)、性感(sexy)、色情(porn)、变态(hentai)和绘图(drawings)。发明人选取其中两个类别,并通过采样手段使两类样本的数量比约为100。ChestXray14是肺部疾病相关的多标签数据集,包括心脏肥大(Cardiomegaly)、水肿(Edema)、肺实变(Consolidation)、肺萎缩(Atelectasis)和胸腔积液(Effusion)等。发明人选取一个类别为正例,其余类别为负例,并通过重采样,使两类样本的数量比约为20。

本发明在数据集NSFW上的实验结果如下表所示:

其中,PGD Step表示按照生成扰动样本进行的PGD步数,r

需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术分类

06120116576113