导航：首页> 计算；推算；计数>基于Transformer架构的伪造人脸检测方法及装置

基于Transformer架构的伪造人脸检测方法及装置

文献发布时间：2024-04-18 20:01:23

技术领域

本发明属于人工智能算法设计领域，涉及应用软件伪造人脸检测，具体为一种基于Transformer架构的伪造人脸检测方法及装置。

背景技术

目前，随着人工智能、深度学习技术的发展，图像生成与伪造的技术也得到了极大的提升，其中又以针对人脸部分的伪造对网络信息安全的影响最为突出。伪造人脸主要通过人脸替换和人脸表情重演这两种方式伪造海量的图片与视频，人脸替换是指通过替换原始图片和视频中的人脸部分，保持背景、服饰、动作等不变，人脸表情重演则可以操纵原始图片和视频中的人物做出相应的表情，结合语音伪造技术可以生成以假乱真的视频。

Transformer作为近两年来计算机视觉领域广泛使用的模型结构，对计算机视觉方面的主流任务都拥有较好的表现。在伪造人脸检测任务上，许多先进的模型都采用的transformer模型的架构。

尽管已有许多关于伪造人脸检测的相关研究，但现有的框架还存在各种各样的问题。

(1)现有模型在应对多质量的图片，即使用编码压缩的图片时，对低质量图片的分类精度不高，约为55％。

(2)现有模型的运行计算量较高，参数量较大，难以提升模型运行的速度，且对部署设备的显存需求较大。

(3)现有蒸馏框架少有针对伪造人脸任务，利用人脸任务的特点进行蒸馏操作。

(4)Transformer架构的变种，如针对Swin transformer模型的蒸馏框架目前依旧缺失。

针对以上内容，设计一种结合人脸伪造任务特点及Swin transformer模型特点的知识蒸馏框架，可以在保留原教师网络对于图片分类能力的同时减少模型所需的参数及计算量，减少模型使用场景的限制，更充分的使用基于Swin transformer模型架构的相关训练资源。

发明内容

针对现有人脸伪造检测模型的计算量大、模型参数多导致的运算速率低、难以部署的问题，以及现有模型的泛化能力较差，对不同压缩率的图片的预测结果差的问题，本发明提出了一种基于Transformer架构的伪造人脸检测方法及装置。该方法可以在保持对多图片质量的分类准确率的情况下，大幅度降低模型的参数需求与计算量。此外，在知识蒸馏的过程中，本发明还增加了图片增强的操作，使得学生网络可以在教师网络的指导下应对更加困难的分类样本，提升模型的鲁棒性。

本发明的技术方案包括：

一种基于Transformer架构的伪造人脸检测方法，所述方法包括：

构建人脸数据集，所述人脸数据集包含若干张原始图片；

对所述原始图片进行数据增强，得到增强图片；

将所述原始图片作为教师网络的输入，将该原始图片对应的增强图片作为学生网络的输入，并基于学生网络的预测结果与ground truth之间的差距，以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距，来训练学生网络，以得到预训练学生网络；

将所述原始图片分别作为教师网络和预训练学生网络的输入，并基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距，来训练预训练学生网络，以得到训练后的学生网络；

基于训练后的学生网络，获取待检测图片的人脸预测结果。

进一步地，所述教师网络的网络架构为GGViT。

进一步地，所述学生网络的网络架构为改进Swin transformer；所述改进Swintransformer是在Swin transformer架构的基础上，将特征图分割成若干个区域，并在每一子特征图后添加一层全连接层。

进一步地，所述基于学生网络的预测结果与ground truth之间的差距，以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距，来训练学生网络，以得到预训练学生网络，包括：

使用第一交叉熵损失计算学生网络和ground truth之间的差距；其中，所述第一交叉熵损失

使用第一蒸馏损失计算教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距；其中，所述第一蒸馏损失

计算第一整体损失Loss

基于所述第一整体损失Loss

进一步地，所述基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距，来训练预训练学生网络，以得到训练后的学生网络，包括：

使用第二交叉熵损失计算预训练学生网络和ground truth之间的差距；其中，所述第二交叉熵损失

使用第二蒸馏损失计算教师网络与学生网络对原始图片的预测结果之间的差距；其中，所述第二蒸馏损失L′

计算第二整体损失Loss

基于所述第二整体损失Loss

一种基于Transformer架构的伪造人脸检测装置，所述装置包括：

构建模块，用于构建人脸数据集，所述人脸数据集包含若干张原始图片；

增强模块，用于对所述原始图片进行数据增强，得到增强图片；

第一训练模块，用于将所述原始图片作为教师网络的输入，将该原始图片对应的增强图片作为学生网络的输入，并基于学生网络的预测结果与ground truth之间的差距，以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距，来训练学生网络，以得到预训练学生网络；

第二训练模块，用于将所述原始图片分别作为教师网络和预训练学生网络的输入，并基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距，来训练预训练学生网络，以得到训练后的学生网络；

预测模块，用于基于训练后的学生网络，获取待检测图片的人脸预测结果。

一种电子设备，其特征在于，包括：处理器，以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现上述任一所述方法。

一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现上述任一所述方法。

与现有技术相比，本发明至少具有以下有益效果：

1.本发明可以生成控制增强类型和增强等级的增强人脸图片，可用于大规模制造增强数据。

2.本发明可以缩减模型规模，通过知识蒸馏将原有的大计算量、多参数的模型蒸馏为小计算量、少参数的模型中。

3.对于不同图片质量的待检测数据，可以提升预测的准确率

附图说明

图1为基于Transformer架构的伪造人脸检测装置的框图。

图2为基于Transformer架构的伪造人脸检测方法的流程图。

图3为蒸馏过程第一阶段的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的伪造人脸检测装置，利用现有在多个图片质量下的优异成绩的transformer模型，作为教师网络，使用近年来表现较好的Swin transformer模型作为学生网络，使用本发明设计的知识蒸馏算法，良好的结合了人脸中分块特征提取和SwinTransformer模型的特点。

该伪造人脸检测装置，如图1所示，包括如下核心组件：

1)教师网络：教师网络作为一个包含多个参数及多运算量的模型，本身经历了大规模数据集的训练，可以在多场景的分类下取得较好的分类结果，所输出的分类预测判断具有借鉴意义。教师网络主要提供以下两个功能：

a)对于输入的待预测图片做出预测，预测包含将图片十字分割的四个局部的图片的预测，以及对于整体图片真伪的预测。

b)具有领先的伪造人脸图片分类的能力，能够处理多图像质量下的伪造人脸的预测，提供相应的预测知识，对学生网络进行指导。

2)学生网络：学生网络采用Swin transformer架构，选用Base版本，在保证最终分类效果的同时选取了最少参数和计算量的版本。学生网络主要提供以下两个功能：

a)教师网络知识的学习者，通过对输入的训练图片进行预测，并根据教师网络的预测结果和实际的标签信息进行伪造人脸图片鉴别的学习。

b)经过训练后的学生网络可以独立的对输入图片进行真伪预测。

3)增强模块：增强模块会对原本的训练图片进行随机的增强，从而扩大训练数据集的数量，主要提供以下两个功能：

a)能够对输入的图片进行随机的图片增强。

b)可以对增强的方式及强度进行选择，提供增强类型和增强强度的标签。

基于同一构思，本发明还公开了一种基于Transformer架构的伪造人脸检测方法，如图2所述，其主要流程包括：

1)学生网络的设置与部署：学生网络采用Swin transformer base模型，使用预训练的参数进行初始设置，将模型中stage1的feature map进行改写，分别按照十字分割成四个不同的区域，并且在每个feature map后添加一层全连接层用以进行分类的预测。

2)教师网络的设置与部署。教师网络选择GGViT，对于输入的待检测图片，该网络会输出五个预测结果，分别是整体图片的预测，与将图片分割成四个部分后，每一块区域的预测。

3)增强训练数据的准备。对于准备的人脸数据集，进行随机的数据增强。

4)第一阶段蒸馏训练过程。如图3所示，本发明将原始的待检测图片输入教师网络，得到五个预测结果，同时将上述原始的待检测图片进行增强之后的图片输入进学生网络，学生网络的stage1会输出四个部分的预测结果，并且在模型的最后输出对整张图片的预测结果。在此阶段，使用KL散度损失计算函数计算学生网络和教师网络之间预测的差值，具体计算包含四个部分的预测结果和整体图片预测结果的差值。使学生网络的预测向教师网络靠拢，整个训练第一阶段持续100个epoch。输入的待检测图片为x0,将其十字分割为四张人脸部分图片分别为x1,x2,x3,x4。教师网络的输入为这五张图片，x

Loss

5)第二阶段蒸馏训练过程。首先选取第一阶段中在测试集上表现较好的模型参数，进行第二阶段的微调。第二阶段教师网络和学生网络的输入都是原始的未经过增强的图片，即原始的待检测图片。在蒸馏时，也不对stage1中四个部分的预测进行蒸馏，而是只对学生网络和教师网络最终的预测结果进行KL散度的计算。在第二训练阶段，使用以下损失函数进行微调，在该阶段，学生网络的输入为未经过增强的图片，所需计算的也只有整张图片的预测结果和教师网络预测结果的KL散度，以及和ground truth的交叉熵损失。

通过以上步骤，基于Swin transformer的伪造人脸检测任务蒸馏框架可以以进行搭建，通过替换教师网络和学生网络，可实现多类型的小型Swin transformer架构模型的蒸馏，实现模型的小型化。

综上所述，本发明能够利用教师网络进行伪造人脸检测知识的学习，配合图片增强模块，对更具挑战性的伪造人脸图片进行学习，提升自己的泛化能力，在有效的减少了模型所需参数和计算量的同时，提升了模型在多个图片质量下的分类准确性，蒸馏方法结合了人脸伪造检测任务的特点和Swin transformer模型架构的特点，能够在更广的范围进行使用，有效的提升了该蒸馏方法的普适性。数据增强模块也具有很强的拓展性，可以进行其余的增强以提升模型的泛化能力。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开也并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国科学院信息工程研究所;

上一篇：一种基于选择性激活的脉冲神经网络连续学习目标识别系统
下一篇：动态DMRS模式切换