掌桥专利:专业的专利平台
掌桥专利
首页

一种针对图像分类模型的窃取攻击检测方法

文献发布时间:2024-04-18 20:02:18


一种针对图像分类模型的窃取攻击检测方法

技术领域

本发明属于机器学习模型安全技术领域,涉及一种针对图像分类模型的窃取攻击检测方法,可应用于信息安全行业、金融服务、医疗保健和电子商务等领域。

背景技术

近年来,随着互联网技术的快速发展,数据的产生量呈现爆炸式增长,这也催生了机器学习模型的兴起,并日益普及。其中基于深度神经网络的深度学习模型广泛应用于计算机视觉、图像分类、自然语言处理等领域。由于收集数据并训练一个高性能的深度神经网络模型需要耗费巨大的财力和人力,这也推动了一种新的商业模式——机器学习即服务(MLaaS)的兴起。服务提供商将模型本身部署在安全的云服务器上,向没有资源训练模型的用户提供服务,只有管理者才能访问模型的参数和架构,用户只能通过基于云的应用程序接口(API)进行黑盒查询并获得模型的输出预测。

最近的研究表明,部署在MLaaS上的模型容易受到模型窃取攻击,攻击者即使在数据受限的情况下,也能通过黑盒查询获取目标模型内部参数或构造一个无限逼近目标模型的替代模型,从而达到窃取模型信息的目的,这种攻击称为模型窃取攻击。这些模型可以在攻击者手中以各种方式被滥用,例如攻击者可以使用复制的模型来向用户提供同样的服务,从而侵犯模型拥有者的利益。此外,目标模型可用于制作对抗性样本,通过成员推理攻击损害用户隐私,并通过模型反演攻击泄露用于训练模型的敏感用户数据。在此背景下,检测模型窃取攻击对机器学习即服务提供商至关重要。

在现有的技术中,针对模型窃取攻击的检测方法主要通过检测用户的查询分布与良性查询分布之间的差异来判断用户是否为攻击者。攻击者想要达到窃取目标模型信息的目的往往需要对目标模型进行大量的查询,因此攻击者的查询行为与良性行为会有较大的不同。但现有针对模型窃取攻击的检测方法仍存在以下不足:通过攻击者采用向与目标模型训练数据同分布的一小部分种子样本中添加轻微的噪声的方法来构建攻击数据集,从而增加样本的隐蔽性,但如果想要检测到攻击者和良性用户之间这种轻微的查询分布差异,并保持较高的检测准确率,则需要对攻击者大量的查询数据进行检测,这会造成较大的计算开销。

例如北京理工大学在其申请的专利文献“结合训练集数据分布和W距离的模型窃取检测方法”(专利申请号:CN202211346069.0,申请公布号:CN115935179A)中,公开了一种结合训练集数据分布和W距离的模型窃取检测方法,该发明首先利用VAE方法对训练集和查询集降维;其次利用极大似然估计计算查询集概率分布,依概率分布采样得到多组待检测样本;随后,对每组待检测样本,在训练集中随机采样得到相同数量的参考样本,计算每组待检测样本与参考样本间的W距离;最后,使用参考样本中类别数和总类别数的比值为权值,加权计算所有的W距离,当加权计算结果大于检测阈值时判定检测出为模型窃取。该发明提出关联训练集数据分布的模型窃取检测方法,同时考虑查询集和训练集样本分布特点,改进W距离计算方法,有效提升模型窃取检测的准确率。该方法存在的不足在于需要采样得到多组待检测样本,并需要计算每组待检测样本与参考样本间的W距离,这要求查询集包含较大的数量,会造成较大的计算开销。

发明内容

本发明的目的在于克服上述现有技术存在的不足,提出了一种针对图像分类模型的窃取攻击检测方法,旨在保持较高检测准确率的前提下降低计算开销。

为实现上述目的,本发明采取的技术方案包括如下步骤:

(1)初始化数据集:

将从图像分类模型的训练集中选取的包括K个目标类别的M幅图像D

(2)构建决策树模型:

构建以良性样本集A中图像的每个像素值作为特征属性,以信息增益为划分准则,在分裂时考虑所有特征属性的第一决策树模型T

(3)对决策树模型进行训练:

通过良性样本集A、待检样本集B分别对第一决策树模型T

(4)计算训练后的两个决策树模型信息增益的差值:

将验证样本集S分别作为训练后的第一决策树模型T

(5)计算良性样本集和待检样本集中OOD图像所占比例的差值:

对良性样本集A和待检样本集B中的每个标签进行归一化,并将归一化得到的每个软标签中的最大值p

(6)获取窃取攻击检测结果:

对InG(S,T

本发明与现有技术相比,具有以下优点:

本发明通过训练后的两个决策树模型信息增益的差值以及良性样本集和待检样本集中OOD图像所占比例的差值的加权求和结果判断模型是否受到窃取攻击,信息增益能够有效地检测到攻击者和良性用户之间的查询分布差异,进而保证了较高的检测准确率;OOD图像所占的比例可以在用户进行少量查询输入时,即可判断该用户是否为模型窃取攻击者,降低了计算开销;与现有技术相比,在保持较高检测准确率的前提下,降低了检测过程中的计算开销。

附图说明

图1为本发明的实现流程图。

具体实施方式

下面结合附图和具体实施例,对本发明作进一步详细描述。

参照图1,本发明包括如下步骤:

步骤1)初始化数据集:

将从图像分类模型的训练集中选取的包括K个目标类别的M幅图像D

步骤2)构建决策树模型:

构建以良性样本集A中图像的每个像素值作为特征属性,以信息增益为划分准则,在分裂时考虑所有特征属性的第一决策树模型T

步骤3)对决策树模型进行训练:

通过良性样本集A、待检样本集B分别对第一决策树模型T

(3a)将从良性样本集A中所有特征属性中随机选取的一个特征属性作为第一决策树模型T

(3b)根据T

(3d)分别对T

(3e)判断md=MD是否成立,或子节点的样本数是否为1,若是,将节点标记为叶子节点,并标记叶子节点的类别,得到训练后的第一决策树模型T

步骤4)计算训练后的两个决策树模型信息增益的差值:

将验证样本集S分别作为训练后的第一决策树模型T

在本步骤中,计算T

其中,∑表示求和操作,

步骤5)计算良性样本集和待检样本集中OOD图像所占比例的差值:

对良性样本集A和待检样本集B中的每个标签进行归一化,并将归一化得到的每个软标签中的最大值p

在本步骤中,对良性样本集A和待检样本集B中的每个标签进行归一化,归一化采用的是softmax函数,softmax函数是逻辑函数的一种推广,它能将一个含任意实数的R维向量z压缩到另一个R维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1,归一化的公式为:

其中,σ(z

在本步骤中,每个软标签中的最大值p

在本步骤中,计算良性样本集A、待检样本集中OOD图像所占比例P

步骤6)获取窃取攻击检测结果:

对InG(S,T

在本步骤中,对InG(S,T

H=w

其中,w

技术分类

06120116576810