掌桥专利:专业的专利平台
掌桥专利
首页

一种基于区域感知的伪造图像检测与定位方法及系统

文献发布时间:2023-06-19 16:12:48



技术领域

本发明属于图像处理技术领域,具体涉及一种基于区域感知的伪造图像检测与定位方法及系统。

背景技术

深度伪造检测任务通常被视为是一种普通的二分类问题,即判断输入图像的真伪。在模型训练阶段,当前主流的深度伪造检测方法通常使用的是硬标签,即0/1标签,0表示图像是虚假的(伪造的),1表示图像是真实的。然而,伪造图像中只有一部分是虚假的,换句话说,伪造区域只出现在图像的局部,通常在人脸区域上,而其余背景区域是真实的,因此,使用硬标签并不是最佳的选择。

目前,深度卷积神经网络已广泛用于深度伪造检测领域中,并取得了不错的性能,然而很少有研究关注于伪造区域的定位问题。

对于不同的伪造方法来说,伪造区域其实是一个重要的已知条件。以换脸伪造为例,典型的换脸伪造方法由以下三个步骤构成:1)从输入的原始图像中检测人脸区域;2)合成期望的目标人脸;3)将目标人脸融合到原始图像中。因此,换脸伪造图像中的伪造区域实际上就是第一步检测到的人脸区域。对于其他的伪造方法,只要知道了伪造方法的具体类型,根据其生成原理,都可以明确伪造区域的位置。

发明内容

本发明为了解决上述问题,提出了一种基于区域感知的伪造图像检测与定位方法及系统,不仅可以判断一张人脸图像是伪造的还是真实的,而且还可以准确定位伪造区域。所述方法包括:

对输入视频进行数据预处理作为输入图像,并为每个输入图像生成软标签;

将所述输入图像输入编码器-解码器网络进行训练,所述编码器-解码器网络通过有监督的方式进行训练,编码器和解码器均由K个卷积模块串联组成,解码器的每个卷积模块的最后一层通过软标签进行监督学习;

将所述编码器的输出图像通过分类预测网络进行训练,所述分类预测网络由M个卷积模块串联组成,在每个卷积模块后,分别设置不同的分类器,每个分类器通过硬标签进行监督学习;

使用融合了二元交叉熵损失以及IoU损失的混合损失函数来训练编码器-解码器网络和分类预测网络;

将待检测图像输入至训练后的编码器-解码器网络和分类预测网络,检测输出所述待检测图像的伪造区域和真伪识别结果。

所述混合损失函数L

L

L

其中,L

分类预测网络中单个分类器的二元交叉熵损失为:

l=-[y·log(p)+(1-y)·log(1-p)]

解码器中单个卷积模块输出的二元交叉熵损失为:

解码器中单个卷积模块输出的IoU损失为

其中,y、p分别表示输入图像的真实硬标签和预测其为真实图像的概率值,G(m,n)∈{0,1}表示输入图像在像素点(m,n)处的软标签值,S(m,n)表示模型预测为像素点(m,n)为伪造区域的概率值。

进一步的,所述编码器和解码器均由4个卷积模块组成,所述分类预测网络由3个卷积模块组成。

进一步的,对于所述分类预测网络在训练过程中产生的M个预测结果,采用少数服从多数的原则来判断输入图像的真伪。

进一步的,所述对输入视频进行数据预处理,包括:

将输入视频转换为单帧图像;

用MTCNN网络检测人脸区域,并进行裁切;

将裁剪的人脸图像调整为统一大小,作为输入图像。

进一步的,所述用MTCNN网络检测人脸区域,并进行裁切,具体为:用MTCNN网络检测人脸区域,然后将检测到的人脸区域沿宽度和高度方向向外扩展1.2倍后进行裁切。

本发明还提供了一种基于区域感知的伪造图像检测与定位系统,所述系统采用上述任意一项所述方法检测出伪造图像及伪造区域。

本发明充分利用了伪造区域这一已知条件,并提出了一种预测优化结构的基于区域感知的伪造图像检测与定位方法和系统以及一种用于区域感知深度伪造检测的新的混合损失,具体由数据预处理模块、受监督的编码器-解码器网络以及分类预测网络组成,所述编码器-解码器网络将原始输入图像转变为一个灰度图像,与分类预测网络相结合,不仅可以判断一张人脸图像是伪造的还是真实的,而且还可以准确定位伪造区域。混合损失函数通过融合二元交叉熵(BCE)损失和IoU损失,指导网络在图像级(map-level)以及像素级(pixel-level)2个不同的层次上学习输入图像与标签之间的转换。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为基于区域感知的伪造图像检测与定位方法的流程图。

图2为基于区域感知的伪造图像检测与定位方法的框架示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。

在其中一个实施例中,基于区域感知的伪造图像检测与定位方法的流程图如图1所示,一种基于区域感知的伪造图像检测与定位方法框架流程如图2所示,其网络构造如表1所示。所述方法由数据预处理模块、受监督的编码器-解码器网络以及分类预测网络组成。所述编码器-解码器网络将原始输入图像转变为一个灰度图像,与分类预测网络相结合,不仅可以判断一张人脸图像是伪造的还是真实的,而且还可以准确定位伪造区域。混合损失函数通过融合二元交叉熵(BCE)损失和IoU损失,指导网络在图像级(map-level)以及像素级(pixel-level)2个不同的层次上学习输入图像与标签之间的转换。该编码器-解码器网络和分类预测网络由Resnet-50网络改进而来。每个卷积层(conv)后面跟批归一化层(BN)和ReLU激活函数。

表1网络层构造

所述方法具体包括:

第一步,对输入视频进行数据预处理作为输入图像,并为每个输入图像生成软标签。

数据预处理包括:将输入视频转换为单帧图像;用MTCNN网络检测人脸区域,并进行裁切,以缩小模型处理范围。为了尽可能将潜在的伪造痕迹都考虑在内,可将检测到的人脸区域沿宽度和高度方向向外进行一定的扩展,如扩展1.2倍;将裁剪的人脸图像统一调整为224×224大小,作为网络的输入;为所有输入图像生成软标签GTL,即为ground truthlabel(GTL)。

对于真实图像而言,GTL是每个点的像素值全为0的灰度图像,表示图像中没有伪造区域;对于伪造图像而言,根据伪造方法的差异,生成各自的GTL,GTL∈{0,1}是一个灰度图像,GTL中的白色区域(像素值为1)即表示被伪造区域。

第二步,将所述输入图像输入编码器-解码器网络进行训练,所述编码器-解码器网络通过有监督的方式进行训练,编码器和解码器均由K个卷积模块串联组成,解码器的每个卷积模块的最后一层通过软标签进行监督学习。

编码器-解码器网络主要用于从输入图像中预测伪造区域mask表示,即对伪造区域进行定位。编码器-解码器架构能够同时捕获低级的细节信息和高级的全局上下文信息。如图2所示,编码器由卷积模块1-卷积模块4组成,解码器由卷积模块8-卷积模块11组成。编码器通过堆叠卷积模块和最大池化层,引导网络学习高级的特征表示;解码器中的上采样操作逐步还原输入图像的尺寸,卷积模块的作用是为上采样后的图像丰富信息,使得在池化过程丢失的信息通过解码器网络学习得到。

所述编码器-解码器网络通过有监督的方式进行训练。为了避免过拟合,解码器的每个卷积模块的最后一层通过GTL进行监督学习。因此,对于一张输入图像,所构建的编码器-解码器网络在训练过程中产生了4个伪造区域mask图。

第三步,将所述编码器的输出图像通过分类预测网络进行训练,所述分类预测网络由M个卷积模块串联组成,在每个卷积模块后,分别设置不同的分类器,每个分类器通过硬标签进行监督学习。

所述分类预测网络用于预测输入图像的真伪。如图2所示,当图像经过编码器后,得到了高级的特征表达。接下来,经过卷积模块5-卷积模块7,进一步增大感受野并减小特征空间维度,以提取全局语义特征。

为了避免过拟合,在每个卷积模块后,分别设置不同的分类器,用于将前面学习到的分布式特征表示映射到样本标记空间,进而对图像的真伪进行预测。每个分类器由3个全连接层组成,分别有1024、500和2个神经元结点,最后一层后面接一个softmax层,其输出对应于输入图像预测为真/假样本的概率值。每个分类器通过硬标签进行监督学习。因此,对于一张输入图像,所构建的分类预测网络在训练过程中产生了3个预测结果,分别为S1、S2、S3,最终,采用少数服从多数的原则来判断输入图像的真伪。

第四步,使用融合了二元交叉熵损失以及IoU损失的混合损失函数来训练编码器-解码器网络和分类预测网络。

本发明定义了一个新的混合损失函数,同时融合了二元交叉熵(BCE)损失、以及IoU损失,指导网络在图像级(map-level)以及像素级(pixel-level)2个不同的层次上学习输入图像与标签之间的转换。混合损失函数表示为:

L

上式中,L

(1)BCE损失函数

BCE是二元分类和分割任务中使用最广泛的损失。在分类预测网络中,采用BCE损失引导网络在图像级上学习输入图像与硬标签之间的转换。由分类器C1、C2、C3分别得到了3个预测结果S1、S2、S3,BCE损失在图像级上的表达式为:

l=-[y·log(p)+(1-y)·log(1-p)]

上式中,l

在编码器-解码器网络中,BCE损失引导网络在像素级上学习输入图像与软标签之间的转换。具体来说,编码器-解码器网络在训练过程中由4个卷积模块产生了4个伪造区域mask图。BCE损失在像素级上的表达式为:

上式中,s

最终,总的BCE损失由两个部分组成:

L

(2)IoU损失函数

IoU损失最初是为了测量两个集合的相似性而提出的,后来作为目标检测和分割的标准评估度量。在编码器-解码器网络中,本发明采样IoU损失引导网络在图像级上学习输入图像与软标签之间的转换。具体来说,编码器-解码器网络在训练过程中由4个卷积模块产生了4个伪造区域mask图。IoU损失的表达式为:

上式中,t

第五步,将待检测图像输入至训练后的编码器-解码器网络和分类预测网络,检测输出所述待检测图像的伪造区域和真伪识别结果。

依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

相关技术
  • 一种基于区域感知的伪造图像检测与定位方法及系统
  • 一种区分伪造来源和目标区域的copy-move型伪造图像检测方法
技术分类

06120114740174