掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Vision Transformer的图像压缩感知重构方法及系统

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及一种基于Vision Transformer的图像压缩感知重构方法及系统,属于图像处理技术领域。

背景技术

压缩感知也可以被叫做Compressed Sampling,即压缩采样。压缩感知是一种能够突破香农的奈奎斯特采样定理,通过利用信号的稀疏特征以远远小于原始信号的测量值,高精度的来重建原始信号的一种方法。压缩感知理论的提出,引起学术界和工业界的广泛关注。在图像处理、光学/微波成像、模式识别、无线通信等领域受到高度关注。

卷积神经网络在压缩图像感知方面取得了成功。然而,由于卷积神经网络感受野通常很小,不利于捕获全局特征,卷积运算在建模长期依赖关系时存在固有的局限性。

Transformer是一种基于自注意力机制的编码器-解码器结构,VisionTransformer将Transformer应用到计算机视觉领域。Vision Transformer可以捕获长距离依赖关系,因此在许多视觉任务中超越许多卷积神经网络结构。

现有的图像压缩感知重构方法利用卷积神经网络进行重构,卷积神经网络感受野小,不利于捕获全局特征。

随着深度学习的发展,将压缩感知与深度学习相结合,显著地提高了信号恢复的性能和速度。

发明内容:

针对现有技术的不足,本发明提供了一种基于Vision Transformer的图像压缩感知重构方法;

本发明还提供了一种基于Vision Transformer的图像压缩感知重构系统。

本发明将卷积神经网络和Vision Transformer结合用于图像的压缩重构,是一种端到端的压缩重构图像方法,由自适应采样和初始重构以及深度重构三部分组成,使得图像压缩感知的网络结构能够继承卷积神经网络和Transformer的优点,并且最大程度保留全局和局部特征,增大感受野,最大程度保留全局和局部特征,提高图像重构的精度。

术语解释:

1、Vision Transformer,是将transformer架构应用到计算机视觉领域的一种模型;

2、Transformer编码器,如图2所示,是重复堆叠编码器块L次,编码器主要由以下几部分组成:Layer norm归一化层,在通道方向上,对每个深度上的输入进行归一化;多头自注意力(Multi-Head Attention)是由多个自注意力机制组合的,自注意力机制是对输入中不同部分之间建立相关性;多层感知机(MLP block)由全连接层、GELU激活函数、dropout组成。是一个传统的神经网络,如图3所示,为了解决单层感知机无法解决的非线性问题。

本发明的技术方案为:

一种基于Vision Transformer的图像压缩感知重构方法,包括步骤如下:

(1)对图像依次进行预处理、分块压缩采样操作;

(2)对步骤(1)处理后的图像通过训练好的初始重构网络进行初始重构,并进行重构和拼接;

(3)对步骤(2)得到的图像通过训练好的深度重构网络进行深度重构,得到深度重构图像。

步骤(1)中,预处理,是指:调整图像的像素大小。

根据本发明优选的,步骤(1)中,分块压缩采样,是指:对预处理后的每张图像分成大小为B×B×l的不重叠的图像块,l表示通道数,设压缩率为s,则n

y=W

式(I)中,*表示卷积操作,x是输入图像,y是测量值,W

根据本发明优选的,步骤(2)中,初始重构,表示为式(II):

式(II)中,*表示卷积操作,y是测量值,

根据本发明优选的,步骤(2)中,重构和拼接,包括:

利用一个组合层对

a、将每个大小为1×l×lB

b、将所有图像块拼接得到初始重构图像,这个过程表示为式(III):

式(III)中,

根据本发明优选的,步骤(3)的具体实现步骤包括:

A、将步骤(2)得到的初始重构图像按照B×B×l的大小进行划分得到初始重构图像块,对初始重构图像块进行卷积操作,线性映射得到一维向量,如式(IV)所示:

式(IV)中,W是大小为B×B的lB

B、将z

C、利用组合层对经过Transformer编码器后的输出进行重构和拼接,得到深度重构图像。

根据本发明优选的,Transformer编码器中,执行如式(V)、式(VI)的操作:

z′

z

式(V)、式(VI)是将z

z

根据本发明优选的,初始重构网络和深度重构网络的训练过程如下:

初始重构网络、深度重构网络依次连接,使得初始重构网络的输出就是深度重构网络的输入,由此形成一个端到端的神经网络,进行联合优化;

使用均方误差作为损失函数,利用倒向传播算法来更新每个神经元的权重和偏置;

预处理后的图像x

式(VII)中,l为图像的个数;

利用倒向传播算法更新神经元的权重和偏置,重复迭代直至损失函数值小于阈值,训练完成。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于观测值聚类和深度学习的分块压缩感知重构方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于观测值聚类和深度学习的分块压缩感知重构方法的步骤。

一种基于Vision Transformer的图像压缩感知重构系统,包括:

采样模块,被配置为:对图像依次进行预处理、分块压缩采样操作;

初始重构模块,被配置为:对采样模块处理后的图像通过训练好的初始重构网络进行初始重构,并进行重构和拼接;

深度重构模块,被配置为:对初始重构模块处理后的图像通过训练好的深度重构网络进行深度重构,得到深度重构图像。

本发明的有益效果为:

1、本发明将卷积神经网络和Vision Transformer结合建立图像重构网络,使得图像压缩感知的网络结构能够继承卷积神经网络的详细空间信息和Vision Transformer提供的全局上下文的优势,最大程度保留全局和局部特征,提高图像重构的精度。

2、原来的采样矩阵例如随机高斯矩阵都是与原图像信号x无关,忽略了信号的特性。这种方法使测量值保留更多的图像结构信息,从而实现更好重构。

3、本发明总共执行两次重建,一次是先基于卷积神经网络的初始重建;另一种是基于Vision Transformer的深度图像重建,对初始重建图像进一步细化,使重建图像更加精确。

附图说明

图1是本发明提出的基于Vision Transformer的图像压缩感知重构方法的流程框图;

图2是Transformer编码器的结构示意图;

图3是Transformer编码器的MLP block的结构示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。

实施例1

一种基于Vision Transformer的图像压缩感知重构方法,如图1所示,包括步骤如下:

(1)对图像依次进行预处理、分块压缩采样操作;预处理,是指:调整图像的像素大小。将图像的像素大小调整为16的倍数。

(2)对步骤(1)处理后的图像通过训练好的初始重构网络进行初始重构,并进行重构和拼接;分块压缩采样,是指:对预处理后的每张图像分成大小为B×B×l的不重叠的图像块,l表示通道数,设压缩率为s,则n

y=W

式(I)中,*表示卷积操作,x是输入图像,y是测量值,W

(3)对步骤(2)得到的图像通过训练好的深度重构网络进行深度重构,得到深度重构图像。

实施例2

根据实施例1所述一种基于Vision Transformer的图像压缩感知重构方法,其区别在于:

步骤(2)中,初始重构,表示为式(II):

式(II)中,*表示卷积操作,y是测量值,

步骤(2)中,重构和拼接,包括:

利用一个组合层对

a、reshape函数:将每个大小为1×l×lB

b、将所有图像块拼接得到初始重构图像,这个过程表示为式(III):

式(III)中,

初始重构网络包括卷积部分、Reshape函数及Reshape函数。卷积部分用于:从测量值中得到图像块对应的初始重构向量;Reshape函数用于:变换一下初始重构向量的维度,将初始重构向量转换成初始重构图像块;Reshape函数用于:将初始重构图像块拼接成一个完整的初始重构图像。

步骤(3)的具体实现步骤包括:

A、将步骤(2)得到的初始重构图像按照B×B×l(1表示通道数)的大小进行划分得到初始重构图像块,对初始重构图像块进行卷积操作,线性映射得到一维向量,如式(IV)所示:

式(IV)中,W是大小为B×B的lB

B、将z

z′

z

式(V)、式(VI)是将z

z

C、利用组合层对经过Transformer编码器后的输出进行重构和拼接,得到深度重构图像。

初始重构网络和深度重构网络的训练过程如下:

初始重构网络、深度重构网络依次连接,使得初始重构网络的输出就是深度重构网络的输入,由此形成一个端到端的神经网络,进行联合优化;

使用均方误差作为损失函数,利用倒向传播算法来更新每个神经元的权重和偏置;

预处理后的图像x

式(VII)中,l为图像的个数;

利用倒向传播算法更新神经元的权重和偏置,重复迭代直至损失函数值小于阈值,训练完成。

实施例3

一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1或2所述的基于观测值聚类和深度学习的分块压缩感知重构方法的步骤。

实施例4

一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1或2所述的基于观测值聚类和深度学习的分块压缩感知重构方法的步骤。

实施例5

一种基于Vision Transformer的图像压缩感知重构系统,包括:

采样模块,被配置为:对图像依次进行预处理、分块压缩采样操作;

初始重构模块,被配置为:对采样模块处理后的图像通过训练好的初始重构网络进行初始重构,并进行重构和拼接;

深度重构模块,被配置为:对初始重构模块处理后的图像通过训练好的深度重构网络进行深度重构,得到深度重构图像。

技术分类

06120114727487