掌桥专利:专业的专利平台
掌桥专利
首页

基于迭代优化的抗图像增强数据脱敏方法及系统

文献发布时间:2024-04-18 19:58:21


基于迭代优化的抗图像增强数据脱敏方法及系统

技术领域

本发明属于人工智能安全领域,特别是涉及一种基于迭代优化噪声及图像增强策略、动态步长调整算法和非局部残差网络的抗图像增强的数据脱敏方法及系统。

背景技术

深度学习模型的成功主要归功于大规模的数据集,如ImageNet和MS-COCO。然而,而在这些常用的数据集中,一些图像样本在数据收集者和图像所有者之间并没有相互协议。这引起了未经授权使用个人数据进行商业训练的隐私担忧,因为即使是黑盒深度学习模型也会泄露其训练数据的敏感信息。例如,从GPT-2模型中可以推断出私人用户信息,包括姓名和电子邮箱地址。

为了保护个人数据不被滥用,研究人员提出了不可学习样本的概念以保护私有数据不被用于训练。主要的原理是在图像中添加难以察觉的噪声,以在不降低图像感知质量的情况下消除从这些图像中学习到知识的可能。

图像增强是一种常用的数据预处理技术,以提高模型训练性能。研究者发现不可学习的样本也容易受到图像增强的影响。例如使用传统Emin方法在CIFAR-10数据集上测试结果表明,在具有图像增强的不可学习示例上训练的模型的测试精度比在未进行图像增强的不可学习例子上训练的模型高44.76%。这就需要保护脱敏数据的稳定性免受图像增强技术的潜在破坏。

在已有的研究中,研究者通常采用产生错误最小化噪声来构造不可学习的样本,减少训练示例的错误接近于零,防止模型在训练过程中受到目标函数的惩罚,从而使模型产生了一种错觉,即这些训练示例“没有什么”可以学习。最近研究发现,对抗训练也会破坏不可学习性,研究者提出通过考虑对抗训练对损失函数的影响来生成鲁棒性更强的不可学习样本。

发明内容

本发明的目的在于针对传统数据脱敏方法在使用先进的图像增强场景下实施困难的缺陷,充分利用噪声生成和图像增强技术的特性,提供一种基于迭代优化噪声及图像增强策略、动态步长调整算法和非局部残差网络的抗图像增强的数据脱敏方法。

本发明的目的是通过以下技术方案来实现的:一种基于迭代优化的抗图像增强的数据脱敏方法,其核心方法包含以下步骤:

步骤1:模型初始化和预训练:为了兼顾噪声的可用性和在图像增强场景下的稳定性,本发明需要训练一个增强策略更新模型

步骤2:增强策略更新:相同考虑到图像增强可以被视为通过合成遵循底层分布的额外数据点来丰富数据集。因此,有效的图像增强应该保持底层数据的分布,确保增强图像的分布与原始数据的分布一致,同时在增强样本批上计算的梯度也应倾向于与基于原始样本批计算的梯度一致。为了优化增强策略以实现梯度对齐,对于一小批私有样本

步骤3:抗增强噪声生成,该步骤由以下子步骤实现:

3.1生成增强扰动图像:在扰动图像

3.2训练模型:本方案的目标是让源模型

3.3更新噪声:在每一轮训练后,利用图像梯度信息更新噪声。本方案的目标是在最小化噪声

3.4检查错误率:检查更新后的扰动样本

本发明的有益效果是,该方法基于迭代优化噪声及图像增强策略出发,将噪声生成表示为一个三层的min-min-max优化问题作为训练的基础,通过使用动态步长调整算法更新噪声,向源模型中加入非局部残差网络进行训练,实现了以合理的训练成本最小化扰动噪声与训练损失而保证生成噪声的可用性,提高数据脱敏效果,并减少图像质量损失。最终可以应用于实际工业生产现场,确保生产的安全可靠运行以及产品的高质量追求。

附图说明

图1是本发明实施例的总流程图。

图2是本发明中增强策略更新流程图。

图3是本发明中抗增强噪声生成流程图。

图4是非局部模块结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述:

实施例一

图1为本发明的基于迭代优化噪声及图像增强策略的深度学习数据脱敏方法框架的总流程,该方法包括以下步骤:

步骤1:模型初始化和预训练:为了兼顾噪声的可用性和在图像增强场景下的稳定性,本发明需要训练一个增强策略更新模型

其中,

通用非局部模块从集合

其中,

为了确定非局部模块,需要确定

其中,

高斯嵌入非局部模块中的

为了方便后续操作,首先初始化现有噪声为0,且噪声的尺寸与图片相同。

步骤2:增强策略更新:考虑到图像增强可以被视为通过合成遵循相同底层分布的额外数据点来丰富数据集。因此,有效的图像增强应该保持底层数据的分布,确保增强图像的分布与原始数据的分布一致,同时在增强样本批上计算的梯度也应倾向于与基于原始样本批计算的梯度一致。图2为该步骤流程图。为了优化增强策略以实现梯度对齐,对于一小批私有样本

其中

本方案假设来自同一类的图像通常具有相似的特征表示,因此可以采用类级增强策略,即在每一轮为每类样本选择一种特定的增强策略。具体而言,

其中

步骤3:抗增强噪声生成,该步骤由以下子步骤实现:

3.1、生成增强扰动图像:在扰动图像

3.2、训练模型:本方案的目标是让源模型

3.3、更新噪声:在每一轮训练后,需利用图像梯度信息更新噪声。本方案的目标是在最小化噪声

本方案使用一阶优化方法——投影梯度下降(PGD)算法对数据的迭代方向进行优化,并更新噪声:

其中,

步长

给定一个初始值,我们根据

其中,

3.4、检查错误率:检查更新后的扰动样本

注意,本发明噪声生成算法既可以生成样本级噪声也可以生成类级噪声。样本级噪声对于每个样本都是唯一的,其更新过程遵循公式(9);而对于类级噪声,本发明对给定类

经检测,本发明可以有效提高数据脱敏效果,防御各种先进的图像增强技术,在保护个人隐私的同时保证原始图像的质量。

最后,利用本发明的数据脱敏方法,本方案还进行了对比实验以进一步说明本发明设计的优越性。实验具体内容如下:

分别对干净样本、加入随机噪声、使用几种代表性的传统数据脱敏方法(EMAX、NTGA、EMIN、REM)和使用本发明数据脱敏方法的几种情况,在相同条件下(以CIFAR-10数据集、样本级噪声、DeepAA增强方法为例)训练模型,记录训练表现结果。

本次实验的实验指标为模型预测准确率,准确率越低则说明脱敏效果越好,即商业模型更难利用私人数据进行训练,反映数据脱敏效果与可用性。

最终得到的实验数据如表1和表2所示,分别表示未增强和使用图像增强技术的情况:

表1

表2

实验数据可以表明,在与现有的其他数据脱敏方法的对比中,本发明所提出的脱敏方法在抵抗图像增强技术和脱敏效果上均优于其他方法。

实施例二

基于同一发明构思,本发明还提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现实施例一中所述的方法。

由于本发明实施例二所介绍的设备为实施本发明实施例一基于迭代优化的抗图像增强的数据脱敏方法所采用的电子设备,故而基于本发明实施例一介绍的方法,本领域所属技术人员能够了解该电子设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。

实施例三

基于同一发明构思,本发明还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例一中所述的方法。

由于本发明实施例三所介绍的设备为实施本发明实施例一基于迭代优化的抗图像增强的数据脱敏方法所采用的计算机可读介质,故而基于本发明实施例一介绍的方法,本领域所属技术人员能够了解该电子设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。

本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形,但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。

相关技术
  • 一种基于数据库敏感发现的数据静态脱敏系统和方法
  • 一种基于大数据的文档脱敏系统及方法
  • 一种基于大数据的数据脱敏方法和Hbase脱敏处理系统
  • 一种基于大数据的数据脱敏方法和Hbase脱敏处理系统
技术分类

06120116482932