导航：首页> 计算；推算；计数>一种基于样本选择和加权损失函数的黑盒模型蒸馏方法

一种基于样本选择和加权损失函数的黑盒模型蒸馏方法

文献发布时间：2023-06-19 13:49:36

技术领域

本发明涉及神经网络技术领域，具体是涉及一种基于样本选择和加权损失函数的黑盒模型蒸馏方法。

背景技术

近年来，随着硬件GPU快速发展及大数据时代的来临，深度学习得到迅猛的发展，已席卷人工智能的各个领域，包括语音识别、图像识别、视频跟踪、自然语音处理等在内的图、文、视频领域。深度学习技术突破传统技术方法，大大提高各领域的识别性能，特别是卷积神经网络(Convolutional Neural Networks,CNNs)。目前很多公司(例如：谷歌、亚马逊、百度等)都推出自己的云计算平台，用户可以将自己训练好的深度神经网络部署在云端从而提供服务。这些模型大都以黑盒的形式部署，即输入样本得到预测输出。然而，由于种种原因，这些模型的训练数据可能丢失，使得人们无法了解模型的内部结构，例如，模型结构、梯度、训练数据集等。因此，近些年出现了，黑盒模型蒸馏的方法，这种方法旨在通过查询黑盒模型获得输出的方式构建迁移数据集，利用迁移数据集训练一个和黑盒模型功能相似的替代模型，从而更加深入的了解黑盒模型，或对黑盒模型进行改进。

黑盒模型蒸馏方法的主要难点在于黑盒模型的未知性，黑盒模型的结构、参数、训练数据集和优化方式等都完全未知。目前的模型功能窃取方法可以分为两种，基于数据生成的方法和基于数据选择的方法。其中基于数据生成的方法采用生成模型产生图片用于查询输出，同时根据输出同时更新生成模型和替代模型，然而由于生成模型的训练较为困难需要较多的迭代次数，因此这种类型的方法需要很高的查询次数，从而蒸馏效率很低。基于数据选择的方法首先收集大量无标注图片，之后使用一定的样本选择方法从收集的图片中选择重要图片进行查询，从而提高蒸馏效率。然而由于黑盒模型的训练数据集未知，收集到的图片中会存在对获得黑盒模型功能没有帮助的噪声图片，如果样本选择方法不能选出对蒸馏过程更加有帮助的图片，就无法获得一个更加相似的替代模型。现有的样本选择方法有：基于强化学习的方法和基于主动学习的方法。文献([1].Orekondy T,Schiele B,FritzM.Knockoff nets:Stealing functionality of black-box models[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2019:4954-4963)提出一种基于强化学习的方法，将查询数据集中的图片构建一个由粗到细的树状结构，然而构建这样的树状结构需要这些图片有一定的标注信息，这将带来巨大的开销，因此并不符合黑盒蒸馏的目标。文献([2].Pal S,Gupta Y,Shukla A,et al.ACTIVETHIEF:Model Extraction Using Active Learning and Unannotated Public Data[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(01):865-872)则利用一些常见的主动学习([3].Cohn D A,Ghahramani Z,Jordan M I.Activelearning with statistical models[J].Journal of artificial intelligenceresearch,1996,4:129-145)查询策略作为样本选择方法，主动学习的主要目标是利用尽可能少的标注成本提高模型对数据的拟合能力，然而黑盒模型蒸馏的主要目的为使得替代模型和黑盒模型的功能尽可能相似，两个目的之间虽然相似但是仍有一定区别，因此这种样本选择方法在实际中不够有效。

而在目前的替代模型训练阶段，一般的做法为结合交叉熵损失函数和随机梯度下降算法对替代模型进行优化，然而交叉熵一般为针对one-hot类型的数据标签，对于概率分布这样的标签约束不够强，同时简单的使用交叉熵损失函数在训练过程中不会关注更加重要的样本，从而使得知识的传输不够有效。

发明内容

本发明的目的在于为解决以往黑盒模型蒸馏方法，在样本选择和训练过程中存在不够有效的缺点，无法获得高相似度的替代模型的缺点，考虑不同样本包含不同程度的信息以及训练过程中不同样本的难易程度，提供一种基于样本选择和加权损失函数的黑盒模型蒸馏方法。

本发明包括以下步骤：

1)收集大量无标注的图片作为查询数据集；

2)采用数据选择方法从查询数据集中选择图片查询获得黑盒模型的预测输出；

3)利用选择的图片和预测输出构建迁移集合；

4)利用迁移集合和加权损失函数训练替代模型，从而获得和黑盒模型相似的功能。

在步骤1)中，所述查询数据集为从网络或其他途径收集到的大量无标注图片。

在步骤2)中，所述数据选择的具体方法为：对于查询数据集中的每幅图像计算替代模型对其预测值中的信息含量，选择信息含量高的作为一个高信息量样本子集，之后利用k-Center算法从这个子集中选择最具有代表性的核心集合；如下式计算样本的信息含量，作为重要性度量：

其中，向量v代表黑盒模型输出的概论预测向量,Var(v)为向量v的方差，max(v)为向量v的最大值，MINVar(v)是向量v′的方差通过下式进行计算：

其中，N为向量v的维数，max(v)为向量v的最大值。

在步骤4)中，所述加权损失函数的具体形式为：DL＝∑

本发明的优点如下：

1)本发明设计一种新的样本选择方法，能够选择出更加重要和更加多样性的样本，增强从黑盒模型中提取知识的能力。本发明的数据选择方法，将样本的预测向量中的信息含量作为重要性度量，具有更高信息含量的样本被认为是更能够获取黑盒模型知识的，因此这些样本被认为是更加重要的。

2)本发明设计一种新型的加权损失函数，相比于传统的交叉熵损失函数，将黑盒模型和替代模型的输出之间差值的绝对值经过softmax函数(归一化指数函数)进行归一化之后作为权重，这个权重可以使得替代模型在训练中关注预测输出差异较大的类别，从而使得替代模型更好的模拟黑盒模型的输出，起到提高两者之间相似性的目的。

3)通过本发明获得的替代模型，具有和黑盒模型更加相似的功能。有助于获得现实世界中部署的未知黑盒模型的功能，从而更好的了解这些黑盒模型。本发明具有更好的应用前景。

具体实施方式

以下实施例将对本发明作详细的说明。

本发明实施例包括以下步骤：

1)收集大量无标注的图片作为攻击数据集，图片分布上应尽量分散，从而更好地覆盖黑盒模型的训练数据集；

2)采用数据选择方法从攻击数据集中选择图片查询获得受害者模型的预测输出；

这里使用的数据选择方法具体流程如下：首先对于之前构建的攻击数据集，使用替代模型对没张图片进行预测获得预测向量，使用重要性度量：

其中，向量v代表黑盒模型输出的概论预测向量，Var(v)为向量v的方差，max(v)为向量v的最大值，MINVar(v)是向量v′的方差通过下式进行计算：

其中，N为向量v的维数，max(v)为向量v的最大值。

计算每个样本的重要程度，按照提前设置的半径

表1.k-Center算法

3)利用选择的图片和预测输出构建迁移集合；

4)利用迁移集合和加权损失函数训练替代模型，从而获得和黑盒模型相似的功能；

传统训练中通常使用随机梯度下降法和交叉熵损失函数，交叉熵损失函数的具体形式如下：

其中，f为黑盒模型，

本发明所设计的加权损失函数，将黑盒模型和替代模型的输出之间差值的绝对值经过softmax函数进行归一化之后作为权重，这个权重不仅可以使得模型在训练中更加关注难样本，同时给每个类别加上权重，促使替代模型和黑盒模型的输出更加相似，从而获得更好的相似性。

综上所述，本发明的整体算法流程如表2所示。

表2.基于样本选择和加权损失函数的黑盒模型蒸馏方法

具体实验结果如下：

本发明实验在四个常用数据集：CIFAR10、MNIST、CUBS200和Caltech256上进行验证，选择ResNet34作为黑盒模型结构，分别在这四个数据上进行训练获得：91.56％、99.59％、77.10％和78.40％的测试准确率，之后部署黑盒模型，只能进行查询访问。使用无标签的ImageNet数据集作为查询数据集，模拟最简单的查询数据集获得方式。本发明使用相似性和相似性曲线下面积作为评估指标。具体形式为：

其中，D

本发明实验对比几种常见的黑盒模型蒸馏方法，具体结果如表3所示。从表3中可知，本发明提出的数据选择方法和加权损失函数有效的增强查询的效率，可以看出，本发明训练出的替代模型可以在较小查询次数下有较好的相似性。

表3.在四个常用数据集上几种方法的表现

英文专有名词定义：Similarity定义为两个模型之间的相似度，即对于相同的测试数据集两个模型预测一致的比例。AUC定义为Similarity曲线和x坐标轴围成的区域的面积大小。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：纪荣嵘;王熠旭;
专利申请人：厦门大学;

上一篇：一种基于混合样本与标签的数据增强的图像描述方法
下一篇：基于样本自适应语义引导的自注意力机制的图像描述方法