掌桥专利:专业的专利平台
掌桥专利
首页

一种文档图像翻拍检测方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 20:01:30


一种文档图像翻拍检测方法、装置、电子设备及存储介质

技术领域

本发明涉及文档图像翻拍检测技术领域,尤其涉及一种文档图像翻拍检测方法、装置、电子设备及存储介质。

背景技术

随着在线业务办理的普及,数字文档的使用频率迅速上升。在各大办事平台上,系统通常会要求用户拍摄并上传数字文档图像,如身份证、学生卡等来证明用户的身份和资格,这样可以极大提升办事效率。但是,在线核实文档的真实性具有很大的难度。非法用户可利用图像编辑软件或生成式网络篡改文档图像中的一些关键信息,同时,攻击者还会通过一种低成本且有效的反数字域取证手段,即翻拍攻击,以抹除文档的篡改痕迹。翻拍攻击,就是将经过数字域篡改的文档图像重新输出(打印或显示),并再次利用图像成像设备(相机或扫描仪)获取。文档图像经上述步骤引入了如颜色、噪声、形变等失真,使得篡改痕迹不易察觉。因此,在线对文档图像的真实性进行检测至关重要,多样且逼真的样本为取证系统的安全性带来了全新的挑战。

近年来,文档图像翻拍检测领域受到广泛关注。北京旷世科技有限公司设计了一组基于频谱的纹理和颜色直方图特征,认为频谱图像中包含了翻拍过程引入的更多信息,并利用支持向量机(Support Vector Machine,SVM)对翻拍文档进行判决器训练。深圳大学的研究人员发现证书文档中的烫金区域是由箔片压印文档生成,其纹理区别于使用碳粉和油墨的办公室打印机制成的文档,提出利用文档中的烫金区域来检测翻拍图像,可排除文档中无关内容的影响,进而训练出有效的翻拍证书文档检测方法。德国Nect公司的研究人员提出了一种基于DenseNet的像素级监督方法,利用真实文档图像和翻拍文档图像之间的细微纹理差异(如摩尔纹)进行翻拍检测。香港大学的研究人员通过研究特定打印设备下半色调单元的尺寸和位移误差,构建了翻拍过程中的失真统一模型。该方法结合了估计的失真参数和假设检验,能够在特定场景下实现比基于数据驱动算法更好的性能。香港城市大学的研究人员提出了一种双分支深度神经网络,利用设计的频率滤波器组和多尺度交叉注意力融合模块,从而提取更全面的翻拍痕迹,以此提高翻拍检测的性能。

现有的方法主要是基于文档图像中的一些低层特征,如纹理、边缘等展开,在一定的条件下能实现有效的文档图像翻拍检测。然而,这些方法在具有不同内容和质量的文档图像上的泛化性能并不令人满意。同时大多数方法没有考虑显示在屏幕上的翻拍图像,使其在实际场景下的普适性不高。

发明内容

本发明提供了一种文档图像翻拍检测方法、装置、电子设备及存储介质,能够解决在实际场景中当前工作泛化性能不足的问题,同时也可以有效检测在不同的翻拍攻击场景下产生的样本的真实性,更具鲁棒性和通用性。

根据本发明的一方面,提供了一种文档图像翻拍检测方法,该方法包括:

获取待检测文档的视频;

对所述待检测文档的视频进行裁剪分割,得到空域数据;以及对所述待检测文档的视频进行光流分割,得到光流数据;

将所述空域数据和光流数据输入到取证网络模型中,得到分类概率;其中,所述取证网络模型为基于光流特征融合的取证网络模型;

根据所述分类概率,确定所述待检测文档的翻拍检测结果。

根据本发明的另一方面,提供了一种文档图像翻拍检测装置,该装置包括:

视频获取单元,用于获取待检测文档的视频;

数据得到单元,用于对所述待检测文档的视频进行裁剪分割,得到空域数据;以及对所述待检测文档的视频进行光流分割,得到光流数据;

分类概率得到单元,用于将所述空域数据和光流数据输入到取证网络模型中,得到分类概率;其中,所述取证网络模型为基于光流特征融合的取证网络模型;

翻拍检测结果确定单元,用于根据所述分类概率,确定所述待检测文档的翻拍检测结果。

根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的一种文档图像翻拍检测方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的一种文档图像翻拍检测方法。

本发明实施例的技术方案,通过获取待检测文档的视频,对待检测文档的视频进行裁剪分割,得到空域数据,以及对待检测文档的视频进行光流分割,得到光流数据。将空域数据和光流数据输入到取证网络模型中,得到分类概率,然后根据分类概率,确定待检测文档的翻拍检测结果。本技术方案,能够解决在实际场景中当前工作泛化性能不足的问题,同时也可以有效检测在不同的翻拍攻击场景下产生的样本的真实性,更具鲁棒性和通用性。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种文档图像翻拍检测方法的流程图;

图2为本发明实施例二提供的取证网络模型确定过程的示意图;

图3是本申请实施例二提供的取证网络模型训练过程的示意图;

图4是本申请实施例二提供的测试过程流程图;

图5是本申请实施例二提供的文档图像的采集流程图;

图6为本发明实施例三提供的一种文档图像翻拍检测装置的结构示意图;

图7是实现本发明实施例的一种文档图像翻拍检测方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是根据本发明实施例一提供的一种文档图像翻拍检测方法的流程图,本实施例可适用于对不同的翻拍攻击场景下产生的文档图像进行检测的情况,该方法可以由一种文档图像翻拍检测装置来执行,该文档图像翻拍检测装置可以采用硬件和/或软件的形式实现,该文档图像翻拍检测装置可配置于设备中。例如,设备可以是后台服务器等具有通信和计算能力的设备。如图1所示,该方法包括:

S110、获取待检测文档的视频。

在本方案中,许多重要的身份证件为防止文档夹层磨损并保证内容清晰可见,其表面通常由光面材质构成,光面材质会反射环境中的光源并捕捉到来自环境中的倒影。例如,身份证件可以是身份证、驾驶证、护照等。当闪光灯的光照射在身份证件表面时,会产生一个光斑区域。在打开闪光灯对这类证件进行视频拍摄时,由于手的不稳定,成像设备与证件会发生相对运动,身份证件表面上的光斑区域在不同的视频帧中位置发生了变化。由于光斑区域对应于相机上闪光灯的虚拟图像,它的运动方向和证件本身是不一样的。因此,光斑区域与其他文档区域之间的光流方向存在显著差异。针对利用打印设备制作翻拍件时,由于纸面对光的漫反射,文档中并无明显的反光点。针对利用显示设备制作翻拍件时,由于显示器的最外层通常是由玻璃或塑料组成的透明保护层,这些材质具有发射性,在闪光灯下也会产生光斑。但是各证件使用的光面材质是由金属或类金属反射层组成的亮膜,具有高透明度,其反射性大于玻璃或塑料。因此,真实证件和翻拍证件之间的光斑形状和大小存在明显差异。同时也可利用图像中的摩尔纹和颜色失真等其它取证特征来检测此类证件的真实性。

进一步的,不同的反射特性可以作为文档图像翻拍检测的取证特征,具体而言,通过打开手机上的闪光灯对准要检测的文档进行视频的拍摄,将其中的两帧图像输入至光流算法中。光流算法可计算出两张图像间的每个像素的位移向量,通过流场的颜色编码进行可视化,得到估计的光流。如果文档是真实身份证件,估计的光流将显示出一个具有独特颜色的光斑区域,使其与其他区域区分开来。若是打印设备制作的翻拍证件,估计的光流无光斑区域,颜色较单一。若是显示设备制作的翻拍证件,估计的光流也会呈现一个光斑区域,但其形状和大小与真实证件产生的有很大不同。基于上述技术原理,可以对视频录制下的待检测证件进行翻拍检测。

其中,文档图像即图像格式的文档,它是通过某种方式将纸质文档等转化为图像格式的文档,以供用户电子阅读。

在本实施例中,可以通过打开闪光灯对待检测文档录制一个视频片段,得到待检测文档的视频。其中,待检测文档的视频V由一系列帧构成。

S120、对所述待检测文档的视频进行裁剪分割,得到空域数据;以及对所述待检测文档的视频进行光流分割,得到光流数据。

在本实施例中,可以通过对待检测文档的视频进行裁剪分割,得到包含文档图像基础信息的空域数据。

在本方案中,光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。可以通过对待检测文档的视频进行光流分割,得到包含文档图像光流信息的光流数据。

可选的,对所述待检测文档的视频进行裁剪分割,得到空域数据,包括步骤A1-A2:

步骤A1、利用尺度不变特征变换算法对所述待检测文档的视频进行处理,得到每帧文档区域;

其中,尺度不变特征变换算法(Scale-Invariant Feature Transform,SIFT)是用于图像处理领域的一种算法,可以在不同的尺度空间上查找关键点。

在本方案中,可以基于预先确定的尺度不变特征变换算法将待检测文档的视频V中样本的特征点与各自的原始模板进行匹配,裁剪出每帧文档区域。

步骤A2、将所述每帧文档区域进行裁剪分割,得到空域数据。

在本方案中,将裁剪后的每帧文档区域分割成若干个图像块,得到空域数据。例如,可以将每帧文档区域分割成224×224像素的图像块。

使用图像块作为取证网络模型的输入形式可以实现最佳预测性能,同时确保输入尺寸一致并减少计算资源的需求。

可选的,对所述待检测文档的视频进行光流分割,得到光流数据,包括步骤B1-B5:

步骤B1、从所述待检测文档的视频中确定第一秒视频帧和最后一秒视频帧;

在本方案中,可以从待检测文档的视频V中匹配出第一秒和最后一秒的第n帧视频帧,n∈[1,30]。

步骤B2、利用光流算法计算所述第一秒视频帧和最后一秒视频帧之间的光流,得到第一光流数据;

在本实施例中,可以利用ARFlow光流算法分别计算第一秒视频帧和最后一秒视频帧之间每对帧的双向光流,得到第一光流数据。其中,双向光流包括同时计算每对帧的前向光流和反向光流。

步骤B3、对所述第一秒视频帧和最后一秒视频帧中目标帧进行光流的计算,得到第一秒视频帧的第二光流数据和第三光流数据;以及,对所述最后一秒视频帧和第一秒视频帧中目标帧进行光流的计算,得到最后一秒视频帧的第二光流数据和第三光流数据;

在本实施例中,目标帧可以是指视频帧中的第1帧和第30帧。即第一秒视频帧中目标帧为第一秒视频帧中的第1帧和第30帧;最后一秒视频帧中目标帧为最后一秒视频帧中的第1帧和第30帧。

在本方案中,还包括估计特定帧的单向光流。其中,单向光流包括前向光流和反向光流。前向光流计算方式为:基于光流算法计算第一秒视频帧和最后一秒视频帧中第1帧之间的光流,得到第二光流数据,以及计算第一秒视频帧和最后一秒视频帧中第30帧之间的光流,得到第三光流数据。反向光流计算方式为:基于光流算法计算最后一秒视频帧和第一秒视频帧中第1帧之间的光流,得到第二光流数据,以及计算最后一秒视频帧和第一秒视频帧中第30帧之间的光流,得到第三光流数据。具体的,可以根据光流方向进行确定。

在本实施例中,可以估计第一秒视频帧和最后一秒视频帧中第1帧之间的光流,以及估计第一秒视频帧和最后一秒视频帧中第30帧之间的光流。

在本方案中,估计最后一秒视频帧和第一秒视频帧中第1帧之间的光流,以及估计最后一秒视频帧和第一秒视频帧中第30帧之间的光流。

步骤B4、从所述第一光流数据、第二光流数据和第三光流数据中确定最大光流数据;

在本方案中,可以通过计算在不同方向上的第一光流数据、第二光流数据和第三光流数据,并从第一光流数据、第二光流数据和第三光流数据中选出光流的熵值最大的光流数据。

步骤B5、对所述最大光流数据进行裁剪以及光流分割,得到光流数据;其中,所述光流数据与空域数据大小相同。

进一步的,在空域数据裁剪过程中保留了由SIFT算法生成的坐标信息,使用此信息裁剪相应帧的光流。将裁剪后的光流分割成若干个图像块,得到所需的光流数据。例如,可以将光流分割成224×224像素的图像块,即可以得到与空域数据相同大小的光流数据。

使用图像块作为取证网络模型的输入形式可以实现最佳预测性能,同时确保输入尺寸一致并减少计算资源的需求,相同大小的两种数据模态可以保证空间位置对应。

S130、将所述空域数据和光流数据输入到取证网络模型中,得到分类概率;其中,所述取证网络模型为基于光流特征融合的取证网络模型。

在本方案中,取证网络模型是更具通用性的基于光流特征融合的取证网络模型,能够实现文档图像翻拍检测,解决在实际场景中当前工作泛化性能不足的问题,同时也可以有效检测在不同的翻拍攻击场景下产生的样本的真实性。

其中,分类概率用于描述待检测文档接近于真实证件的程度。分类概率越大,说明待检测文档是真实证件的概率越大;分类概率越小,说明待检测文档是真实证件的概率越小,即待检测文档是翻拍件的概率越大。

在本实施例中,可以将空域数据和光流数据输入到取证网络模型中,输出分类概率。

S140、根据所述分类概率,确定所述待检测文档的翻拍检测结果。

其中,翻拍检测结果包括真实证件和翻拍件。

在本方案中,可以根据分类概率的大小,确定待检测文档的翻拍检测结果是真实证件还是翻拍件。

可选的,根据所述分类概率,确定所述待检测文档的翻拍检测结果,包括:

将所述分类概率与预先确定的阈值进行比较,得到所述待检测文档的翻拍检测结果。

其中,阈值可以根据文档图像翻拍检测要求进行设置。例如,可以设置阈值为0.8。

在本实施例中,当分类概率大于等于阈值时,确定待检测文档的翻拍检测结果为真实证件;当分类概率小于阈值时,确定待检测文档的翻拍检测结果为翻拍件。

本发明实施例的技术方案,通过获取待检测文档的视频,对待检测文档的视频进行裁剪分割,得到空域数据,以及对待检测文档的视频进行光流分割,得到光流数据。将空域数据和光流数据输入到取证网络模型中,得到分类概率,然后根据分类概率,确定待检测文档的翻拍检测结果。通过执行本技术方案,能够解决在实际场景中当前工作泛化性能不足的问题,同时也可以有效检测在不同的翻拍攻击场景下产生的样本的真实性,更具鲁棒性和通用性。

实施例二

图2为本发明实施例二提供的取证网络模型确定过程的示意图,本实施例与上述实施例之间的关系是对取证网络模型确定过程的详细描述。如图2所示,该方法包括:

S210、获取待训练空域数据和待训练光流数据。

在本方案中,可以获取待训练文档的视频,通过对待训练文档的视频进行裁剪分割和光流分割得到待训练空域数据和待训练光流数据。

S220、对所述待训练空域数据和待训练光流数据进行特征提取,得到低层特征和光流特征;其中,所述低层特征用于描述文档图像的失真情况;所述光流特征用于描述文档图像的文档内容和光源间的运动情况。

其中,低层特征关注于文档图像中的一些失真特征,如颜色、纹理和边缘等。光流特征用来建模文档内容和光源的运动特性,它可以捕捉不同材质下反射光的变化。这两种取证特征是互补的,低层特征可以在缺乏光流特征的样本中寻找图像中的翻拍失真,而光流特征则可以在低层特征提取困难的情况下(如图像模糊)准确判断文档的材质。通过联合考虑两种特征,即使文档图像具有不同的质量和内容,训练出的模型也能对这些样本进行有效地判决。

在本方案中,图3是本申请实施例二提供的取证网络模型训练过程的示意图,如图3所示,在训练过程中,可以将空间配对好的待训练空域数据和待训练光流数据输入到双流网络中,通过特征提取网络模块提取两种数据模态的特征,得到低层特征和光流特征。

S230、将所述低层特征和光流特征进行拼接,得到拼接特征。

在本方案中,如图3所示,可以将低层特征和光流特征进行拼接,得到拼接特征。例如,低层特征为1×256,光流特征为1×256,得到的拼接特征是1×512。

S240、将所述低层特征、光流特征和拼接特征输入到待训练取证网络模型的预测网络模块中,得到低层分类概率、光流分类概率和拼接分类概率。

在本方案中,如图3所示,预测网络模块包括空域支路预测网络模块、光流支路预测网络模块、联合支路预测网络模块。空域支路预测网络模块用于对低层特征进行处理,预测低层分类概率;光流支路预测网络模块用于对光流特征进行处理,预测光流分类概率;联合支路预测网络模块用于对拼接特征进行处理,预测拼接分类概率。可以将低层特征、光流特征和拼接特征输入到待训练取证网络模型的预测网络模块中,预测网络会对这三组特征进行分类,得到三组特征各自的分类概率,即得到空域支路的低层分类概率P

进一步的,当样本的真实类别标签为真实样本y=1时,它们的值为得到的分类概率。当样本的真实类别标签为翻拍样本y=0时,它们的值为1减去得到的分类概率。

S250、根据所述低层分类概率、光流分类概率和拼接分类概率,对待训练取证网络模型进行调整,得到训练更新后的取证网络模型。

在本方案中,可以基于低层分类概率、光流分类概率和拼接分类概率构建损失函数,实现对待训练取证网络模型进行调整,得到训练更新后的取证网络模型。

可选的,根据所述低层分类概率、光流分类概率和拼接分类概率,对待训练取证网络模型进行调整,得到训练更新后的取证网络模型,包括步骤C1-C4:

步骤C1、根据所述低层分类概率和光流分类概率,构建第一跨模态焦点损失函数和第二跨模态焦点损失函数;

在本方案中,在空域支路和光流支路中采用模态焦点损失函数进行监督。具体的,采用如下公式构建第一跨模态焦点损失函数;

L

其中,L

采用如下公式构建第二跨模态焦点损失函数;

L

其中,L

步骤C2、根据所述拼接分类概率,构建交叉熵损失函数;

在本实施例中,在联合支路中使用交叉熵损失函数进行监督。具体的,采用如下公式构建交叉熵损失函数;

L

其中,L

步骤C3、基于所述第一跨模态焦点损失函数、第二跨模态焦点损失函数和交叉熵损失函数,构建目标损失函数;

在本方案中,可以将第一跨模态焦点损失函数、第二跨模态焦点损失函数和交叉熵损失函数进行组合,构建目标损失函数。具体的,采用如下公式构建目标损失函数;

L=(1-β)·[λ

其中,L为目标损失函数,λ

步骤C4、依据所述目标损失函数,对待训练取证网络模型的网络参数进行调整,得到训练更新后的取证网络模型。

在本方案中,可以通过目标损失函数对待训练取证网络模型的网络参数进行调整,使得目标损失函数达到最优。

通过对取证网络模型进行构建,能够基于取证网络模型实现文档图像翻拍检测,能够解决在实际场景中当前工作泛化性能不足的问题,同时也可以有效检测在不同的翻拍攻击场景下产生的样本的真实性,更具鲁棒性和通用性。

在本方案中,图4是本申请实施例二提供的测试过程流程图,如图4所示,可以将待测的输入图像按照数据生成和处理步骤得到空域数据和光流数据,针对所有图像块进行检测。从联合支路中得到的概率被选择为最终的分类概率。将每一个图像块的检测结果进行融合,得到最终图像级别的翻拍检测结果。

本发明实施例的技术方案,通过获取待训练空域数据和待训练光流数据,对待训练空域数据和待训练光流数据进行特征提取,得到低层特征和光流特征,将低层特征和光流特征进行拼接,得到拼接特征,然后将低层特征、光流特征和拼接特征输入到待训练取证网络模型的预测网络模块中,得到低层分类概率、光流分类概率和拼接分类概率,并根据低层分类概率、光流分类概率和拼接分类概率,对待训练取证网络模型进行调整,得到训练更新后的取证网络模型。通过执行本技术方案,能够基于取证网络模型实现文档图像翻拍检测,能够解决在实际场景中当前工作泛化性能不足的问题,同时也可以有效检测在不同的翻拍攻击场景下产生的样本的真实性。

在本方案中,现有的文档图像数据库通常在不使用闪光灯的情况下采集,然而在没有闪光灯产生的光斑的情况下提取出具有区别性的光流特征是困难的。基于此,可以建立了适用于这种研究的多模板文档图像视频数据库。在不失一般性的情况下,可以选择各个大学的学生卡作为实验中的原始文档图像。这些图像是根据现实中的校园卡,使用AdobeIllustrator软件制作模板。然后,真实的证件由专业的第三方在聚氯乙烯塑料上制作,以保留图形内容中的细节。例如,可以根据10所大学的模板制作了40份学生卡,每份模板下有4张学生卡。

在本方案中,图5是本申请实施例二提供的文档图像的采集流程图,真实文档图像和翻拍文档图像的采集步骤如图5所示,所使用的采集设备如表1所示。在四台初始成像设备(两台扫描仪,两部手机)与四台打印设备(两台激光打印机,两台喷墨打印机)之间建立了四个一对一的对应关系(沿表1的每一行)。其中所用到的成像设备和打印设备有着不同的采集分辨率。同时,使用不同屏幕分辨率和尺寸的四台显示设备获得显示翻拍场景下的伪造文档。

表1

在本实施例中,通过打开智能设备上的闪光灯,使用四部手机在室内和室外进行视频的拍摄。具体来说,将这40张学生卡分为四组,每组包含来自不同学校的十张学生卡。然后,使用每部手机拍摄一组学生卡的视频。同样也将对应于学生卡的伪造文档分为四组进行拍摄。根据对手机一般设置的考虑,将帧分辨率设为1920×1080,帧速率设为30FPS,相机距离文档约10厘米,每段视频至少有5秒长。在此拍摄距离下,共拍摄了320段视频,包含三种视频类型,分别为真实、打印翻拍以及屏幕翻拍。其中真实和打印翻拍有80个视频片段,而屏幕翻拍包含160个视频片段。同时,还在距离学生卡约20厘米和30厘米的位置处采集样本,每个距离下拍摄了40个视频片段。之后,对这些视频片段进行相应的数据生成及处理,最终将其划分为五个数据集。训练数据包含三个子集,其中的样本均在拍摄距离为10cm的条件下采集的。数据集I(SCVD-I10)包含在室内拍摄的样本,数据集II(SCVD-O10)包含在室外拍摄的样本。这两个子集各包含6000个真实和6000个打印翻拍的视频帧。数据集III(SCVD-S10)在SCVD-I10的基础上增加了6000个屏幕翻拍的视频帧。测试数据包含两个子集,即SCVD-I20和SCVD-I30,它们分别包含1280个在室内以20厘米和30厘米的拍摄距离下拍摄的真实和打印翻拍的视频帧。

进一步的,对比一些在ImageNet上预训练好的基于CNN的模型(ResNet50、DenseNet121)和基于Transformer的模型(ViT-B16、Swin-B),对这些通用深度网络中最后的全连接层进行修改,再利用采集的数据库对网络的权重进行微调,以适应文档图像翻拍检测任务。在上述步骤中将这些通用深度网络作为光流支路和空域支路的特征提取网络模块。实验结果都是采用AUC(Area Under the receiver operating characteristicCurve)值和EER(Equal Error rate)值作为评价指标。

目前很多方法仅考虑打印翻拍攻击场景,而忽视了显示翻拍攻击场景。屏幕翻拍也是翻拍攻击的手段之一,若模型能正确对屏幕翻拍样本和真实样本进行分类,那么系统的安全将得以保障。在本实验中,选择SCVD-S10进行库内实验。该数据集中的样本按8:1:1的比例划分为训练集、验证集和测试集。实验结果如表2所示,可以发现,基于CNN的模型(ResNet50和DenseNet121)表现出明显的性能下降,经观察这主要由无明显莫尔纹图案的样本所导致的。在联合考虑空域数据和光流数据时,由于真实样本和屏幕翻拍样本的光流中光斑的形状和大小存在显著差异,使得模型能够正确分类这些样本。

表2

在本实施例中,考虑到在现实的场景中,用户可能从不同的距离拍摄文档以验证其真实性。在远距离拍摄条件下,由于抖动、模糊、分辨率低等因素,导致文档图像的质量较低,如果模型仅依赖此类带噪声样本区分真实文档图像和翻拍文档图像,那么它很难做出可靠的决策。因此,需评估在不同拍摄距离下模型的性能。在本实验中,选择SCVD-I10和SCVD-O10作为训练集,并在SCVD-I20和SCVD-I30上进行测试。实验结果如表3所示,通过对四个模型的AUC和EER进行平均,可以发现在较大的拍摄距离下,由于许多低层取证细节丢失,通用深度网络的性能显著下降,并且距离越远,性能越差。融入光流信息后,模型的性能明显提升。实验结果证明了在具有挑战性的场景中,融入光流特征可以提高模型的泛化性能。

表3

在本方案中,一个实用的文档身份验证系统应能检测多种文档图像,评估系统在跨文档类型场景中的性能是非常重要的。发现DLC-2021数据集中的一些视频片段也是在打开闪光灯的情况下录制的。其中包含的证件为身份证和护照,并且视频类型与我们的数据集一致。因此从中选择20个视频片段,对其进行数据处理和生成,得到了640个真实和640个打印翻拍的视频帧以及每帧对应的光流。在本实验中,选择SCVD-I10和SCVD-O10作为训练集,并在DLC-2021上进行测试。实验结果如表4所示,通过对四个模型的AUC和EER进行平均,可以发现翻拍检测方法更具鲁棒性,平均EER分别降低了1.35%和4.33%。实验结果证明了联合考虑低层特征和光流特征可以提高通用深度网络的泛化性能。

表4

实施例三

图6为本发明实施例三提供的一种文档图像翻拍检测装置的结构示意图。如图6所示,该装置包括:

视频获取单元610,用于获取待检测文档的视频;

数据得到单元620,用于对所述待检测文档的视频进行裁剪分割,得到空域数据;以及对所述待检测文档的视频进行光流分割,得到光流数据;

分类概率得到单元630,用于将所述空域数据和光流数据输入到取证网络模型中,得到分类概率;其中,所述取证网络模型为基于光流特征融合的取证网络模型;

翻拍检测结果确定单元640,用于根据所述分类概率,确定所述待检测文档的翻拍检测结果。

可选的,所述装置还包括:

待训练数据获取单元,用于获取待训练空域数据和待训练光流数据;

特征得到单元,用于对所述待训练空域数据和待训练光流数据进行特征提取,得到低层特征和光流特征;其中,所述低层特征用于描述文档图像的失真情况;所述光流特征用于描述文档图像的文档内容和光源间的运动情况;

拼接特征得到单元,用于将所述低层特征和光流特征进行拼接,得到拼接特征;

分类概率得到单元,用于将所述低层特征、光流特征和拼接特征输入到待训练取证网络模型的预测网络模块中,得到低层分类概率、光流分类概率和拼接分类概率;

取证网络模型得到单元,用于根据所述低层分类概率、光流分类概率和拼接分类概率,对待训练取证网络模型进行调整,得到训练更新后的取证网络模型。

可选的,取证网络模型得到单元,具体用于:

根据所述低层分类概率和光流分类概率,构建第一跨模态焦点损失函数和第二跨模态焦点损失函数;

根据所述拼接分类概率,构建交叉熵损失函数;

基于所述第一跨模态焦点损失函数、第二跨模态焦点损失函数和交叉熵损失函数,构建目标损失函数;

依据所述目标损失函数,对待训练取证网络模型的网络参数进行调整,得到训练更新后的取证网络模型。

可选的,取证网络模型得到单元,还用于:

采用如下公式构建第一跨模态焦点损失函数;

L

其中,L

采用如下公式构建第二跨模态焦点损失函数;

L

其中,L

采用如下公式构建交叉熵损失函数;

L

其中,L

采用如下公式构建目标损失函数;

L=(1-β)·[λ

其中,L为目标损失函数,λ

可选的,数据得到单元620,具体用于:

利用尺度不变特征变换算法对所述待检测文档的视频进行处理,得到每帧文档区域;

将所述每帧文档区域进行裁剪分割,得到空域数据。

可选的,数据得到单元620,还用于:

从所述待检测文档的视频中确定第一秒视频帧和最后一秒视频帧;

利用光流算法计算所述第一秒视频帧和最后一秒视频帧之间的光流,得到第一光流数据;

对所述第一秒视频帧和最后一秒视频帧中目标帧进行光流的计算,得到第一秒视频帧的第二光流数据和第三光流数据;以及,对所述最后一秒视频帧和第一秒视频帧中目标帧进行光流的计算,得到最后一秒视频帧第二光流数据和第三光流数据;

从所述第一光流数据、第二光流数据和第三光流数据中确定最大光流数据;

对所述最大光流数据进行裁剪以及光流分割,得到光流数据;其中,所述光流数据与空域数据大小相同。

可选的,翻拍检测结果确定单元640,具体用于:

将所述分类概率与预先确定的阈值进行比较,得到所述待检测文档的翻拍检测结果。

本发明实施例所提供的一种文档图像翻拍检测装置可执行本发明任意实施例所提供的一种文档图像翻拍检测方法,具备执行方法相应的功能模块和有益效果。

实施例四

图7示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图7所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如一种文档图像翻拍检测方法。

在一些实施例中,一种文档图像翻拍检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的一种文档图像翻拍检测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种文档图像翻拍检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种瓦楞箱板纸专用高稳定性AKD乳液制备工艺
  • 一种瓦楞箱板纸专用浆内施胶剂加工用AKD蜡熔融设备及方法
技术分类

06120116557853