掌桥专利:专业的专利平台
掌桥专利
首页

基于Transformer的软融合鲁棒图像水印方法

文献发布时间:2023-06-19 19:07:35


基于Transformer的软融合鲁棒图像水印方法

技术领域

本发明水印技术领域,尤其涉及基于Transformer的软融合鲁棒图像水印方法。

背景技术

水印技术是通过将秘密消息隐藏到多媒体中来保护版权或跟踪信息泄露的关键解决方案。图像鲁棒水印的目标是将水印不可见地嵌入到图像中,并希望能够从编码后的图像中完全提取水印,即使图像是失真的。因此,不可感知性和鲁棒性是鲁棒水印方法的两个必要要求。

在过去的几年里,许多传统的基于变换域的鲁棒水印方法被提出,这些方法尝试挖掘鲁棒图像特征进行水印嵌入。然而,这些图像特征是人工提取的,不能代表各种图像的主要能量,可能导致鲁棒性差。由于深度神经网络(DNN)可以从不同的图像数据集中学习鲁棒图像特征,因此提出了一些基于DNN的水印模型来提高水印性能。

现有的基于DNN的水印模型通常采用编码器-噪声层-解码器架构作为主骨干,如图1的(a)所示。编码器将水印嵌入到图像中,解码器尝试恢复水印。在最先进的方法中,如Hidden和TSDL,水印被复制并分布在整幅图像上,以增加鲁棒性,然后水印与原始图像的特征直接融合,如图1的(b)所示,得到编码后(带水印)的图像,称为硬融合。但是,有两个缺点限制了相应的性能。(1)水印的简单复制操作会产生过多的冗余,从而降低图像质量。(2)由于水印和原始图像来自不同的域,硬融合将两种具有远距离关系的不同模态连接在一起,而不调整水印特征向原始图像的结构或细节靠拢,从而导致图像失真和鲁棒性差。为了解决第一个缺点,如图1的(c)所示,提出的一个水印处理器模块,将水印扩展到图像上。然而,该处理器仍然不能解决两种不同模态之间的差距,因此水印的不可见性和鲁棒性仍然有限。

据所知,上述已有的水印模型都是采用硬融合作为水印嵌入,只有在融合后,通过学习卷积运算的映射函数,调整水印分布,使编码后的图像接近原始图像,抵御不同的图像攻击。然而,卷积运算只有一个有限的感受野,因此很难建模水印与原始图像之间的远程依赖关系。此外,卷积滤波器在推理时具有静态权重,因此不能灵活调节不同图像的水印融合。为了解决上述缺点,我们需要弥补原始图像与水印之间的模态差距,并捕获它们的跨模态特征依赖,进行水印融合。

近年来,由于其有效的表示学习,transformer已成功应用于计算机视觉和自然语言任务。由于transformer可以获得两种不同模态之间的远程相互作用,并建立自注意机制来指导模态融合,因此仍然可以在水印模型中使用transformer结构,以提高水印性能。然而,到目前为止,基于transformer的水印模型鲜有报道。

发明内容

为解决上述技术问题,本发明提出了基于Transformer的软融合鲁棒图像水印方法;本发明在获得高质量的编码图像的同时,能够抵抗大部分的图像攻击,与现有技术方法相比,性能更好。

为实现上述目的,本发明提供了基于Transformer的软融合鲁棒图像水印方法,包括:

构建基于Transformer的端到端水印模型;其中,所述端到端水印模型包括:编码器、解码器、噪声层和鉴别器;

将原始图像和原始水印输入所述编码器进行编码,获取编码图像,完成水印融合;

将所述编码图像输入所述噪声层进行噪声添加,获取噪声图像;

将所述噪声图像输入所述解码器进行水印提取,获取解码后的水印;

基于所述鉴别器,对所述编码图像进行鉴别。

可选地,所述编码器包括:水印预处理模块、第一卷积层、特征增强模块、软融合模块、Transformer块和第二卷积层;

所述原始水印输入所述水印预处理模块进行扩展,获取初始水印特征图,所述原始图像输入所述第一卷积层进行卷积处理,获取初始图像特征图;

将所述初始水印特征图和所述初始图像特征图输入所述特征增强模块,获取增强特征图;

将所述增强特征图和所述初始水印特征图输入所述软融合模块,获取带水印特征图;

将所述带水印特征图通过Transformer块后与所述原始图像进行连接,再通过所述第二卷积层进行卷积处理,获取含水印的所述编码图像。

可选地,所述编码器的编码过程表示为:

其中,

可选地,所述解码器进行水印提取的过程表示为:

其中,

可选地,所述鉴别器对所述编码图像进行鉴别包括:

所述鉴别器对所述编码图像进行识别;所述编码器阻止所述鉴别器对所述编码图像进行识别;

所述鉴别器对所述编码图像进行识别表示为:

其中,

所述编码器阻止所述鉴别器对所述编码图像进行识别表示为:

其中,

可选地,构建基于Transformer的所述端到端水印模型还包括:对所述端到端水印模型设置总损失函数;

所述总损失函数包括:编码损失,对抗损失和解码损失;

所述总损失函数为:

其中,

可选地,获取所述初始水印特征图包括:

将所述原始水印重塑为预设大小的矩阵;

使用pixel-shuffle操作进行对所述矩阵进行上采样,并利用Transformer块操作对所述矩阵自注意提取有效特征,获取所述初始水印特征图;

所述矩阵的预设大小为:

其中,

可选地,通过所述特征增强模块获取所述增强特征图的过程表示为:

其中,

可选地,通过所述软融合模块获取所述带水印特征图的过程表示为:

其中,

与现有技术相比,本发明具有如下优点和技术效果:

本发明为了避免水印的过度冗余,采用基于transformer的水印预处理模块,以自动学习的方式扩展水印,而不是简单的水印复制,提取有效的水印特征进行融合,增强编码图像。为了提取适合水印嵌入的原始图像特征,通过捕获水印与原始图像特征之间的交叉特征依赖关系,设计了特征增强模块,指导水印融合。更重要的是,为了克服硬融合的缺点,采用了软融合模块,计算混合注意提取有效特征并进行水印融合。具体来说,计算自注意,分别提取水印和原始图像的主要特征,同时计算交叉注意,使水印嵌入在鲁棒性和图像质量方面更好。实验结果表明,本发明在获得高质量的编码图像的同时,能够抵抗大部分的图像攻击。与现有技术方法相比,性能更好。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为现有的基于DNN的水印模型示意图;其中,(a)为现有基于DNN水印模型的通用框架示意图,(b)为硬融合框架示意图,(c)为增加水印处理器模块的硬融合框架示意图;

图2为本发明实施例的模型的整体框架示意图;

图3为本发明实施例的特征增强模块网络框架示意图;

图4为本发明实施例的软融合模块网络框架示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提供了基于Transformer的软融合鲁棒图像水印方法,包括:

构建基于Transformer的端到端水印模型;其中,所述端到端水印模型包括:编码器、解码器、噪声层和鉴别器;

将原始图像和原始水印输入所述编码器进行编码,获取编码图像,完成水印融合;

将所述编码图像输入所述噪声层进行噪声添加,获取噪声图像;

将所述噪声图像输入所述解码器进行水印提取,获取解码后的水印;

基于所述鉴别器,对所述编码图像进行鉴别。

进一步地,所述编码器包括:水印预处理模块、第一卷积层、特征增强模块、软融合模块、Transformer块和第二卷积层;

所述原始水印输入所述水印预处理模块进行扩展,获取初始水印特征图,所述原始图像输入所述第一卷积层进行卷积处理,获取初始图像特征图;

将所述初始水印特征图和所述初始图像特征图输入所述特征增强模块,获取增强特征图;

将所述增强特征图和所述初始水印特征图输入所述软融合模块,获取带水印特征图;

将所述带水印特征图通过Transformer块后与所述原始图像进行连接,再通过所述第二卷积层进行卷积处理,获取含水印的所述编码图像。

进一步地,所述鉴别器对所述编码图像进行鉴别包括:

所述鉴别器对所述编码图像进行识别;所述编码器阻止所述鉴别器对所述编码图像进行识别;

进一步地,构建基于Transformer的所述端到端水印模型还包括:对所述端到端水印模型设置总损失函数;

所述总损失函数包括:编码损失,对抗损失和解码损失。

进一步地,获取所述初始水印特征图包括:

将所述原始水印重塑为预设大小的矩阵;

使用pixel-shuffle操作进行对所述矩阵进行上采样,并利用Transformer块操作对所述矩阵自注意提取有效特征,获取所述初始水印特征图。

实施例

如图2所示,本实施例提供一种基于Transformer的端到端水印模型,即WFormer,该模型对不同的图像攻击具有鲁棒性,且图像失真较小。为了增加有效的水印冗余,采用了水印预处理模块。此外,为了进一步提高水印的性能,设计了更好的水印融合特征增强模块(FEM),设计了挖掘自注意和交叉注意嵌入水印的软融合模块(SFM)。WFormer包括:编码器、解码器、噪声层和鉴别器。

1.WFormer的整体描述

设原始水印为

编码器

编码器的训练目标是通过更新参数

其中

噪声层

解码器

解码器训练的目的是通过更新参数

其中,

鉴别器:鉴别器由4个卷积层和一个全局平均池化层组成。鉴别器作为编码器的对手,通过更新参数

另一方面,编码器通过更新参数

WFormer对于编码器和解码器的最终损失函数包括图像质量损失,对抗损失和解码损失,可以表示为:

其中,

2.1.水印处理模块

首先将水印重塑为大小为

其中

2.2.特征增强模块

如图3所示,首先通过层归一化、1×1卷积和3×3深度卷积对

其中

2.3交互融合模块

如图4所示,首先对

其中

其中

3.实验

3.1.特定失真比较

为了测试提出框架的图像视觉质量和鲁棒性,对下面8种不同类型的失真进行了实验:“JPEG”,“Crop”,“Cropout”,“Dropout”,“Gaussian Noise”,“Gaussian Filter”,“Salt&Pepper”和“Median Filter”。对于每一种失真,训练一个特定的模型,并与MBRS进行比较。

a)JPEG压缩:JPEG压缩总是出现在图像保存和格式转换中。在训练过程中,噪声层中使用失真方法,并设置质量因子QF=50。对于测试过程,设置JPEG压缩攻击的QF从40到90,以显示其鲁棒性,实验结果如表1不同方法在JPEG压缩上的PSNR,SSIM以及BER比较所示。

表1

如表1所示,提出的方法生成的含水印图像具有最高的PSNR值,比MBRS方法至少大2dB,且SSIM相似。在这样的PSNR和SSIM水平下,提出的方法在不同QF下仍然具有最小的误码率,这表明对JPEG压缩具有很好的鲁棒性。其中,MBRS为:利用真实的和模拟JPEG压缩的小批量增强DNN水印的鲁棒性。

b)Crop失真:Crop是指按一定ratio随机裁剪出图像块,并用黑色图像块替换裁剪区域以外区域的失真。在训练阶段,将随机裁剪的ratio固定为20%。对于测试过程,设置Crop失真的ratio从5%到30%,实验结果如表2不同方法在Crop失真上的PSNR,SSIM以及BER比较所示。

表2

如表2所示,提出的方法生成的含水印图像具有最高的PSNR和SSIM值,特别是PSNR值比MBRS方法至少大5dB。此外,对于所有的裁剪ratio,提出的方法保证了最小的误码率,这表明对Crop失真具有鲁棒性。并且随着裁剪ratio的降低,该方法的优势越来越明显。

c)Cropout失真:与Crop失真不同,Cropout是指按一定ratio随机裁剪出图像块,并将图像块以外区域替换为原始图像的操作。在训练阶段,将Cropout的ratio固定为40%。对于测试过程,设置Cropout的ratio从20%到70%,实验结果如表3不同方法在Cropout失真上的PSNR,SSIM以及BER比较所示。

表3

如表3所示,提出的方法生成的含水印图像具有最高的PSNR和SSIM值,特别是PSNR值比MBRS方法至少大3dB,并且SSIM也超过了0.996。此外,对于所有的裁剪ratio,提出的方法的误码率明显小于其它方法,这表明对Cropout失真具有很强的鲁棒性。

d)Dropout失真:与Crop和Cropout失真不同,Dropout表示按ratio随机选取图像像素,并将其余像素替换为原始图像的操作。在训练阶段,将Dropout的ratio固定为40%。对于测试过程,设置Dropout的ratio从20%到70%,实验结果如表4不同方法在Dropout失真上的PSNR,SSIM以及BER比较所示。

表4

如表4所示,与MBRS方法相比,提出的方法生成的含水印图像具有最高的PSNR和SSIM值。对于不同的ratio,提出的方法在低ratio下具有更低的误码率,这表明该方法对于高强度的Dropout失真具有更好的鲁棒性。

e)GaissianNoise:GaissianNoise是指它的概率密度函数服从高斯分布的一类噪声,通常出现在消息传输中。在训练阶段,将GaissianNoise的variance固定为0.04。对于测试过程,设置GaissianNoise的variance从0.01到0.06,实验结果如表5不同方法在GaissianNoise上的PSNR,SSIM以及BER比较所示。

表5

如表5所示,提出的方法在PSNR指标上与MBRS取得了相似的性能,在SSIM指标上略低于MBRS。对于不同的variance,提出的方法都表现出最低的误码率,这表明对GaissianNoise具有很好的鲁棒性。

f)GaissianBlur:对于GaissianBlur失真,在训练阶段,将variance固定为2。在测试过程中,设置GaissianBlur的variance从0.001到2.5,实验结果如表6不同方法在GaissianBlur上的PSNR,SSIM以及BER比较所示。

表6

如表6所示,与其它方法相比,提出的方法生成的含水印图像具有最高PSNR和SSIM值。对于不同的variance,提出方法的误码率也都低于其它方法,这表明对GaissianBlur具有很强的鲁棒性。

g)Salt&PepperNoise:Salt&PepperNoise是指将一定ratio的图像像素随机采样为噪声,与GaissianNoise类似,Salt&PepperNoise也通常出现在信息传输中。在训练阶段,将ratio固定为0.04。在测试过程中,设置Salt&PepperNoise的ratio从0.01到0.06,实验结果如表7不同方法在Salt&PepperNoise上的PSNR,SSIM以及BER比较所示。

表7

如表7所示,提出的方法生成的含水印图像具有最高的PSNR和SSIM值,特别是PSNR值比其他方法至少大2dB。对于不同的ratio,提出方法的误码率也明显低于其它方法,这表明对Salt&Pepper Noise具有很强的鲁棒性。

h)Median Blur:Median Blur是一种常用的图像处理操作。在训练阶段,将模糊windows大小固定为7×7。在测试过程中,设置Median Blur的windows从3×3到9×9,实验结果如表8不同方法在Median Blur上的PSNR,SSIM以及BER比较所示。

表8

如表8所示,与其它方法相比,提出的方法生成的含水印图像具有最高的PSNR和SSIM值。对于不同的windows,提出方法的误码率都低于其它方法,这表明对MedianBlur具有优异的鲁棒性。

以上实验结果表明,提出的模型对各种不同类型的失真具有较强的鲁棒性,并且生成的含水印编码图像具有较好的视觉质量。

3.2.组合失真比较

在现实图像传输场景中,通常会受到各种不同的噪声攻击,因此一个优秀的模型应该能抵抗不同噪声的攻击,而不是只对一种攻击具有鲁棒性。为此,训练了一个组合失真模型。具体来说,噪声层中包括JPEG-Mask(QF=50),real JPEG(QF=10),Identity,Crop(Ratio=0.0225),Cropout(Ratio=0.2),Gaussian Blur(Variance=2),其中Identity表示不对图像做任何处理,每个训练小批次随机选择其中的一种失真。提出的方法与HiDDen和MBRS进行比较,为了比较的公平性,在含水印图像PSNR=33.5dB的情况下进行以下6种失真测试:Identity,Crop(Ratio=0.035),Cropout(Ratio=0.3),Dropout(Ratio=0.3),Gaussian Blur(Variance=2)和JPEG(QF=50),实验结果如表9不同方法在6种失真下的EBR比较所示。

表9

如表9所示,除了在Identity失真上的误码率都为0.0%以外,本实施例所提出的模型在所有其它测试失真中都取得了最好的性能。特别地,在Cropout(Ratio=0.3),Dropout(Ratio=0.3)上的误码率为0.0%,能够完整提取水印信息,在Crop(Ratio=0.035)上的误码率为2.83%,比其它方法的误码率最少低了1.5%,在JPEG(QF=50)上的误码率比其它方法的误码率最少低了2%。此外,的模型能够嵌入64bit的水印信息,在水印容量方面都高于其它方法。以上结果表明,提出的模型能够在水印容量更大的情况下,获得更强的鲁棒性。其中,MBRS为:利用真实的和模拟JPEG压缩的小批量增强DNN水印的鲁棒性;HiDDen为:用深度网络隐藏数据。

本实施例提出了一种新的基于transformer的水印融合策略,即WFormer。为了避免水印的过度冗余,采用基于transformer的水印预处理模块,以自动学习的方式扩展水印,而不是简单的水印复制,提取有效的水印特征进行融合,增加编码图像。为了提取适合水印的原始图像特征,通过捕获水印与原始图像特征之间的交叉特征依赖关系,设计了特征增强模块,指导水印融合。更重要的是,为了克服硬融合的缺点,采用了软融合模块,计算混合注意提取有效特征并进行水印融合。具体来说,计算自注意,分别提取水印和原始图像的主要特征,同时计算交叉注意,使水印嵌入在鲁棒性和图像质量方面更好。实验结果表明,该算法在获得高质量的编码图像的同时,能够抵抗大部分的图像攻击。与最先进的现有技术方法相比,性能更好。

以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

相关技术
  • 基于Transformer和去噪扩散模型的鲁棒水印方法
  • 基于视觉感知的鲁棒图像的水印嵌入方法、水印嵌入网络构建方法、系统及存储介质
技术分类

06120115801575