一种基于集成学习的人脸识别模型遗忘方法及系统

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及模型遗忘技术领域，更具体的说是涉及一种基于集成学习的人脸识别模型遗忘方法及系统。

背景技术

近年来，有关私人信息被非授权利用的问题引起了广泛关注。当机器学习模型所有者收到数据提供方发出的数据移除申请时，必须履行删除目标数据的义务，即数据提供方拥有所谓的“被遗忘的权利”。

然而在目标数据已经参与过模型训练的情况下，目标数据的知识已经被模型所习得，并以参数的形式被存储在模型的记忆中，所以仅仅将其从训练数据集中删除并不能完全满足“被遗忘”。比如，模型反演攻击仅通过标签和模型输出行为就可以复原训练集样本，成员推理攻击能够确定某个数据是否被用于训练目标模型。因此模型的遗忘学习技术被提出，以帮助模型所有者消除已训练的目标数据对模型产生的影响。

针对人脸识别模型，当用户希望移除部分训练数据时，现有的模型遗忘方法通常需要对整个模型进行重新训练，面临数据计算量大、遗忘效果不理想等问题，因此如何克服该技术缺陷，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于集成学习的人脸识别模型遗忘方法及系统，通过集成学习和数据预处理，大幅节约模型遗忘操作开销，在面对大量人脸数据移除申请时具有很好的处理效率和模型遗忘效果，同时还能够保证模型的正常性能不受影响。

为了实现上述目的，本发明提供如下技术方案：

一种基于集成学习的人脸识别模型遗忘方法，包括以下步骤：

步骤1、获取人脸数据集，并进行分类，得到若干个不同类别的子数据集；

步骤2、将每一类子数据集输入对应的单类别分类器进行初始化训练，训练过程为：

步骤2.1、对每一类子数据集均分割成数据块；

步骤2.2、将每一类子数据集的数据块依次输入对应的单类别分类器中进行训练，同时记录每个数据块训练单类别分类器之后的模型参数；

步骤3、将训练好的若干个单分类器进行决策聚合，得到人脸识别模型；

步骤4、根据用户的数据遗忘申请，以用户的目标数据所在的数据块以及前一数据块对应的模型参数作为重训练过程的起点，将对应的单类别分类器进行重训练；

步骤5、将重训练之后的单类别分类器与未变化的单类别分类器重新进行决策聚合，得到重训练的人脸识别模型。

可选的，所述步骤1中，得到若干个不同类别的子数据集之后，还基于信息论对子数据集进行压缩，生成新子数据集。

可选的，所述步骤2.1中，按照预设大小将每一类子数据集均匀地分割成数据块。

可选的，所述步骤2.2中，将每一类子数据集的数据块按照被删除的概率进行排序，从低到高依次输入对应的单类别分类器中进行训练。

可选的，人脸识别模型包括单类别分类器和决策聚合两部分，其中：

单类别分类器生成对应类别子数据集的分布特征表示，进而计算目标样本的异常值，将异常值与预设阈值进行比较，判断目标样本是否属于本类别；

决策聚合将若干个单类别分类器的判断结果进行聚合，确定目标样本的决策聚合结果，作为人脸识别模型的输出内容。

可选的，单类别分类器f

式中，r

可选的，异常值的计算公式为：

anomaly_score＝||f

式中，r

可选的，所述决策聚合时，若仅有一个单类别分类器认定目标样本属于本类别，则直接将该类别作为决策聚合结果；若有超过一个单类别分类器认定目标样本属于本类别，则将异常值最低类别作为决策聚合结果。

一种基于集成学习的人脸识别模型遗忘系统，包括：

数据集获取模块，用于获取人脸数据集，并进行分类，得到若干个不同类别的子数据集；

分类器初始化训练模块，用于将每一类子数据集输入对应的单类别分类器进行初始化训练，训练过程为：

对每一类子数据集均分割成数据块；

将每一类子数据集的数据块依次输入对应的单类别分类器中进行训练，同时记录每个数据块训练单类别分类器之后的模型参数；

第一决策聚合模块，用于将训练好的若干个单分类器进行决策聚合，得到人脸识别模型；

分类器重训练模块，用于根据用户的数据遗忘申请，以用户的目标数据所在的数据块以及前一数据块对应的模型参数作为重训练过程的起点，将对应的单类别分类器进行重训练；

第二决策聚合模块，用于将重训练之后的单类别分类器与未变化的单类别分类器重新进行决策聚合，得到重训练的人脸识别模型。

经由上述的技术方案可知，本发明提供了一种基于集成学习的人脸识别模型遗忘方法及系统，与现有技术相比，具有以下有益效果：

本发明首先在模型重训练阶段采用集成学习，将正常的重训练过程转换为众多单类别分类任务，以降低重训练复杂度、计算量；同时引入多种数据预处理方法，包括代表数据压缩、训练状态存储、训练数据块排序等，进一步降低重训练复杂度、加速模型遗忘过程效率。本发明可以大幅降低模型遗忘计算量，面对大量数据移除申请时具有很好的处理效率和模型遗忘效果，并保持正常模型性能不受影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明的方法流程示意图；

图2是本发明的模型训练整体过程示意图；

图3是本发明重训练方法和现有重训练方法的对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于集成学习的人脸识别模型遗忘方法，其中，将模型的初次训练过程称为初始化训练过程，将模型处理遗忘申请时的训练过程称为重训练过程。参见图1和图2，具体包括以下步骤：

步骤1、获取人脸数据集，并进行分类，得到若干个不同类别的子数据集；例如，对于数据集S，有c个标签类别，划分后子数据集S

在具体实施过程中，还可以基于信息论在不损失预测准确度的情况下对每个子数据集进行压缩处理，选择包含尽可能多有效信息的样本，来形成新子数据集，从而减少后续遗忘学习时重训练样本的数量，提高重训练的效率，表达式为：

式中，S′

步骤2、将每一类子数据集输入对应的单类别分类器进行初始化训练，训练过程为：

步骤2.1、按照预设大小将每一类子数据集均匀地分割成数据块，假设子数据集S

步骤2.2、将每一类子数据集的数据块按照被删除的概率进行排序，即将具有较高概率将来会被申请删除的数据，放在初始化训练时的最后一个数据块中。其中，所谓的被删除概率可由辅助信息(例如，数据提供方诉求、数据来源的隐私级别等)估计得到，本发明对此不做限制。这种将数据块按照被删除概率进行排序的方法，使得当有k个高概率被删除的样本需要遗忘的时候，比起可能需要重训练k个数据块的朴素重训练方式而言，排序后仅需训练

进一步说明，假设需要遗忘学习的目标数据在子数据集S

针对上述的数据排序，假设需要遗忘的样本从第0个数据块到了第m-1个数据块，可能就需要从第m个数据块到第1个数据块进行训练。依据m的统计平均值，共有(m+1)m/2个数据块需要参与重训练，而对直接重训练而言，这个过程总是需要m

步骤3、将训练好的若干个单分类器进行决策聚合，得到人脸识别模型。

步骤4、根据用户的数据遗忘申请，以用户的目标数据所在的数据块以及前一数据块对应的模型参数作为重训练过程的起点，将对应的单类别分类器进行重训练。参见图3，为本发明的重训练方式与现有常规重训练方式的对比示意图。

步骤5、将重训练之后的单类别分类器与未变化的单类别分类器重新进行决策聚合，得到重训练的人脸识别模型，到此完成了人脸识别模型的遗忘过程。

本发明的人脸识别模型包括单类别分类器和决策聚合两部分，对于待分类的目标样本，即待识别的人脸图像，首先由重训练的人脸识别模型中的单类别分类器得到若干个类别判断结果，之后将若干个类别判断结果进行决策聚合，得到待识别人脸图像的识别结果。具体的：

(1)单类别分类器：

单类别分类器f

式中，r

基于特征表示值和类表示值之间的差异，计算目标样本的异常值，计算公式为：

anomaly_score＝||f

式中，r

将异常值与预设阈值进行比较，若低于阈值，则判定属于本类别；若高于阈值，判定不属于本类别；

(2)决策聚合将若干个单类别分类器的判断结果进行聚合，若仅有一个单类别分类器认定目标样本属于本类别，则直接将该类别作为决策聚合结果；若有超过一个单类别分类器认定目标样本属于本类别，则将异常值最低类别作为决策聚合结果。将最终的决策聚合结果作为人脸识别模型的输出内容进行输出，即为目标样本(待识别人脸图像)的最终分类结果。

另一实施例中还公开一种基于集成学习的人脸识别模型遗忘系统，包括：

数据集获取模块，用于获取人脸数据集，并进行分类，得到若干个不同类别的子数据集；

分类器初始化训练模块，用于将每一类子数据集输入对应的单类别分类器进行初始化训练，训练过程为：

对每一类子数据集均分割成数据块；

将每一类子数据集的数据块依次输入对应的单类别分类器中进行训练，同时记录每个数据块训练单类别分类器之后的模型参数；

第一决策聚合模块，用于将训练好的若干个单分类器进行决策聚合，得到人脸识别模型；

第二决策聚合模块，用于将重训练之后的单类别分类器与未变化的单类别分类器重新进行决策聚合，得到重训练的人脸识别模型。

对于实施例公开的系统模块而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈艳姣;徐文渊;庞盛元;
专利申请人：浙江大学;

上一篇：一种磨削表面残余应力预测方法
下一篇：一种非侵入式负荷识别方法、系统、电子设备及存储介质