掌桥专利:专业的专利平台
掌桥专利
首页

可变码率图像压缩方法、系统、装置、终端及存储介质

文献发布时间:2023-06-19 19:30:30


可变码率图像压缩方法、系统、装置、终端及存储介质

技术领域

本发明属于图像处理领域,其涉及具备码率控制功能的端到端优化的可变码率图像压缩方案,具体是一种可变码率图像压缩方法、系统、装置、终端及存储介质。

背景技术

端到端优化是一种普遍应用于图像压缩的技术,它利用卷积神经网络将压缩建模为一个率失真优化问题,能够联合优化各个模块。可变码率方案能够通过单一模型,针对输入的图像或视频序列输出不同质量不同码率的输出图像或视频序列。经过对现有技术的文献检索发现,Dumas等人在2018年的《IEEE International Conference on Acoustics,Speech and Signal Processing》(ICASSP)会议上发表的“Autoencoder Based ImageCompression:Can the Learning be Quantization Independent?”提出了在均匀量化器方案上,通过同时优化变换网络、量化步长与熵模型参数的优化方案。该方法在固定变换的情况下,通过调整量化步长实现可变码率图像编码。Choi等人在2019年的《IEEE/CVFInternational Conference on Computer Vision》(ICCV)会议上发表的“Variable RateDeep Image Compression With aConditional Autoencoder”提出了条件自编码器,实现了针对不同目标码率的自适应变换,同时该方法采用可变量化步长的均匀量化器,实现了自适应变换与量化步长可变的可变码率编码。Zhou等人在2020年《IEEE/CVF Conferenceon Computer Vision and Pattern Recognition Workshops》(CVPRW)讨论会上发表的“Variable Rate Image Compression Method with Dead-zone Quantizer”提出了采用死区量化器的可变码率编码方法,但该方法中变换网络、量化步长并非同时优化的,而是通过先训练变换网络再手工调整量化步长的方式分阶段实现的。

此外,这些方法中量化步长与压缩码流的码率或重建图像的失真之间的关系缺少显式建模,无法通过目标码率或目标失真计算出量化步长。因此,给定目标码率或目标失真时,这些方法都需要在已有的预设码率点上进行二分搜索的方式得到合适的量化步长。此外,分阶段实现的死区量化器并未充分利用端到端优化中变换与量化联合优化的优势,率失真性能有待提升。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种可变码率图像压缩方法、系统、装置及存储介质。

根据本发明的一个方面,提供.一种可变码率图像压缩方法,包括:

正向映射:将待编码图像通过第一分解变换神经网络,得到图像的初始特征图;

量化:通过死区量化器对所述初始特征图进行量化,得到图像的量化特征图;

熵编码:利用熵模型对所述量化特征图及熵模型中所涉及的量化的超先验信息进行熵编码,得到压缩码流;

熵解码:对所述压缩码流进行熵解码,并利用熵模型依次恢复量化的超先验信息及量化特征图;

反量化:对所述恢复的量化特征图进行反量化,得到图像的重构特征图;

反向映射:将所述重构特征图通过第一合成变换神经网络,得到重构图像;

码率控制:根据目标码率或目标失真,对编码过程中的量化以及反量化的参数进行调整,使所述压缩码流的码率接近目标码率,或使所述重构图像的失真接近目标失真。

优选地,所述第一分解变换神经网络,包括:

下采样子网络,所述下采样子网络由卷积神经网络实现,将输入图像变换为隐表示;

可逆编码子网络,所述可逆编码子网络将所述隐表示变换为初始特征图;所述可逆编码子网络由可逆编码单元通过层级化排列得到,所述层级化排列中包含I层,而第i层(1≤i≤I)中包含有2

优选地,在所述可逆编码单元进行的过程,包括:

特征分解:对输入进行划分,得到两路子信号;

可逆编码:对于两路子信号x

其中,

优选地,所述量化为通过调整死区量化器的量化步长,输出满足目标码率或目标失真要求的量化特征图;对于所述初始特征图中任意位置的元素y,量化输出为

其中,当y为正数时,sign(y)为1,当y为负数时,sign(y)为-1,当y为零时,sign(y)为0;max(a,b)返回a,b中较大的那一个;

优选地,所述熵编码包括:采用熵模型估计所述量化特征图上元素的高斯分布,对所述量化特征图进行算术编码,采用构造分布对量化的超先验信息进行算术编码,得到压缩码流。

优选地,所述熵解码包括:采用构造分布对所述量化的超先验信息进行算术解码,并将其输入熵模型,得到量化特征图的码字分布,对所述压缩码流进行算术解码,恢复量化特征图。

优选地,所述熵模型,包括:

超先验信息提取模块:将所述图像的初始特征图通过第二分解变换网络,得到超先验信息;

超先验量化模块:对于所述超先验信息,通过均匀量化,生成量化的超先验信息;

超先验信息重构模块:将所述量化的超先验信息通过第二合成变换神经网络,得到重构的超先验信息;

上下文建模模块:使已编解码的量化特征图通过上下文提取神经网络,得到上下文信息;

分布估计模块:将所述上下文信息与所述重构的超先验信息合并,并通过信息融合神经网络,输出尺寸与所述初始特征图完全一致的两个输出,分别作为高斯分布的均值和标准差,由此得到量化特征图上每个元素的分布;

所述熵编码基于所述超先验信息提取模块、超先验量化模块、超先验信息重构模块、重构的超先验信息和分布估计模块施行;

所述熵解码基于所述超先验信息重构模块、上下文建模模块和分布估计模块施行。

优选地,所述反量化为所述量化的逆向过程,使用的量化步长、死区比率与所述量化一致,对于所述恢复的量化特征图中任意位置的元素

其中,q为量化步长,z为死区比率。

优选地,所述第一合成变换神经网络,包括:

可逆解码子网络:可逆解码子网络将所述重构特征图变换为重构隐表示;所述可逆解码子网络由可逆解码单元通过层级化排列得到,所述层级化排列中包含I层,而第i层(1≤i≤I)中包含有2

上采样子网络:由卷积神经网络实现,将重构隐表示变换为重构图像;

优选地,在所述可逆解码单元中进行的过程,包括:

可逆解码:对于两路输入信号

其中,

特征分解:合并

优选地,所述第一分解变换神经网络、第一合成变换神经网络和熵模型的参数基于训练图像集通过迭代学习获得,包括:

获得训练图像集:将训练图像集作为待编码图像;

正向映射:将待编码图像通过第一分解变换神经网络,得到图像的初始特征图;

量化代理:通过死区量化器对特征图进行量化,得到图像的带噪特征图,对于初始特征图中任意位置的元素y,量化代理输出为

其中,n为取值范围在

其中,q为量化步长,z为死区比率;

熵估计:将带噪特征图输入熵模型,输出带噪特征图上每个位置上元素的高斯分布,则任意位置元素

其中,μ与σ分别为预估高斯分布的均值和方差;此外,记熵模型中带噪超先验信息中的任意元素为

反量化:对带噪特征图进行反量化,得到图像的重构特征图,对于带噪特征图中任意位置的元素

其中,q为量化步长,z为死区比率;

反向映射:将重构特征图通过第一合成变换神经网络,得到重构图像;

失真估计:记待编码图像为X,尺寸为H×W,重构图像为

梯度更新:通过预先固定死区比率,并给定N个不同的量化步长,可以得到N组经验熵与重构失真,分别记为

优选地,所述码率控制,包括:

码率计算:输入待编码图像的尺寸H×W与压缩码流的比特数s,压缩码流的码率计算为

失真计算:记待编码图像为X,尺寸为H×W,重构图像为

量化步长-码率建模:通过对初始特征图实施三次不同量化步长的量化、熵编码与码率计算,得到三组量化步长与压缩码流的码率,拟合量化步长-码率模型

其中,q为量化步长,R为码率,α、β与γ为三个待拟合参数;

量化步长-失真建模:通过对初始特征图实施多次不同量化步长的量化、反量化、反向映射与失真计算,得到多组量化步长与重构图像的失真,拟合量化步长-失真模型

其中,q为量化步长,D为码率,ζ、η与ι为三个待拟合参数;

量化步长决策:给定目标码率

根据本发明的第二个方面,提供一种可变码率图像压缩系统,包括:

正向映射模块,所述正向映射模块将待编码图像通过第一分解变换神经网络,得到图像的初始特征图;

量化模块,所述量化模块通过死区量化器对特征图进行量化,得到图像的量化特征图;

熵编码模块,所述熵编码模块利用熵模型对量化特征图及熵模型中所涉及的量化的超先验信息进行熵编码,得到压缩码流;

熵解码模块,所述熵解码模块对压缩码流进行熵解码,并利用熵模型依次恢复量化的超先验信息及量化特征图;

反量化模块,所述反量化模块对量化特征图进行反量化,得到图像的重构特征图;

反向映射模块,所述反向映射模块将重构特征图通过第一合成变换神经网络,得到重构图像;

码率控制模块,所述码率控制模块根据目标码率或目标失真,对编码过程中的量化以及反量化的参数进行调整,使压缩码流的码率接近目标码率,或使重构图像的失真接近目标失真。

根据本发明的第三个方面,提供一种图像压缩装置,采用任一项所述的一种可变码率图像压缩方法进行图像压缩。

根据本发明的第四个方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行任一项所述的方法,或,运行所述的系统,或,运行所述的装置。

根据本发明的第五个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行任一项所述的方法,或,运行所述的系统,或,运行所述的装置。

与现有技术相比,本发明具有如下的有益效果:

本发明实施例中的可变码率图像编码方法和系统,其正向映射与反向映射可逼近局部空间上的正交变换,基于死区量化器的量化与反量化可以提高可变码率场景下的率失真性能,而码率控制可以提供准确的码率控制方案,使压缩码流码率可以更好地适配动态网络带宽变化,具有极强的实际应用价值。

本发明实施例中的可变码率图像编码方法和系统,其第一、分解合成变换神经网络以及可逆编码单元的排列方式新颖,为层级化排列且每个可逆编码单元均具有一个特征分解模块/过程。

本发明实施例中的可变码率图像编码方法和系统,在码率控制方面,通过本实施例的技术方案实现的神经网络可逼近局部空间上的正交变换,提高可变码率编码的平均性能;且所需的参数量更少,可以有效降低实现码率控制所需的模型的存储开销。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例中的可变码率图像压缩方法流程图;

图2为本发明另一实施例中的可变码率图像压缩系统流程图;

图3为本发明一优选实施例中的熵编码模块与熵解码模块流程图;

图4为本发明一优选实施例中的码率控制模块流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明提供一个实施例,参见图1,一种可变码率图像压缩方法,包括:

S100,正向映射:将待编码图像通过第一分解变换神经网络,得到图像的初始特征图;

S200,量化:通过死区量化器对S100中的初始特征图进行量化,得到图像的量化特征图;

S300,熵编码:利用熵模型对S200中的量化特征图及熵模型中所涉及的量化的超先验信息进行熵编码,得到压缩码流;

S400,熵解码:对S300的压缩码流进行熵解码,并利用熵模型依次恢复S300的量化的超先验信息及量化特征图;

S500,反量化:对S200的量化特征图进行反量化,得到图像的重构特征图;

S600,反向映射:将S500中的重构特征图通过第一合成变换神经网络,得到重构图像;

S700,码率控制:根据目标码率或目标失真,对编码过程中的量化以及反量化的参数进行调整,使S300的压缩码流的码率接近目标码率,或使S600的重构图像的失真接近目标失真。

本实施例提供了准确的码率控制方案,使压缩码流码率可以更好地适配动态网络带宽变化,具有极强的实际应用价值。

在本发明的实施例中,在Kodak数据集上实施给定目标码率的码率控制方案。

在一个优选实施例中,实施S100,具体实施步骤为:

正向映射:将大小为H×W的待编码图像通过第一分解变换神经网络,得到图像的初始特征图。第一分解变换神经网络由下采样子网络与可逆编码子网络顺序连接而成。其中,下采样子网络由四层卷积层和GDN(Generalized Divisive Normalization)层构成,每个卷积层的卷积核大小均为5×5,卷积步长为2,输出通道数分别为192,192,192,320,且每两层卷积层间均具有一个GDN层。尺寸为H×W的待编码图像通过下采样子网络后可得大小为

其中

本实施例中的正向映射可逼近局部空间上的正交变换,提高可变码率编码的平均性能。

在本发明的一个优选实施例中,实施S200,采用量化步长为

通过调整死区量化器的量化步长输出满足目标码率或目标失真要求的量化特征图,对于初始特征图中任意位置的元素y,量化输出为

其中,当y为正数时,sign(y)为1,当y为负数时,sign(y)为-1,当y为零时,sign(y)为0;max(a,b)返回a,b中较大的那一个;

本实施例的量化实现可变码率编码场景下的量化步长调整,并达到通过调整量化步长控制码率的目的,从而提高可变码率场景下的率失真性能。

在本发明的一个优选实施例中,实施S300进行熵编码,采用熵模型估计量化特征图上元素的分布,对量化特征图进行算术编码,采用构造分布对量化的超先验信息进行算术编码,得到压缩码流。具体包括以下六个步骤:

S31,超先验信息提取:将图像的初始特征图通过第二分解变换网络,得到超先验信息。其中,第二分解变换网络由三层卷积层和LeakyReLU层构成。第一层卷积层的卷积核大小为3×3,卷积步长为1,输出通道数分别为192。后两层卷积层的卷积核大小为5×5,卷积步长为2,输出通道数均为192。三层卷积层的每两层间均具有一个LeakyReLU层;

S32,超先验量化:对于超先验信息,通过均匀量化,生成量化的超先验信息;

S33,超先验信息重构:将量化的超先验信息通过第二合成变换神经网络,得到重构的超先验信息。其中,第二分解合成网络由三层反卷积层和LeakyReLU层构成。前两层反卷积层的卷积核大小为5×5,卷积步长为2,输出通道数分别为320与480。最后一层反卷积层的卷积核大小为3×3,卷积步长为1,输出通道数分别为640。三层反卷积层的每两层间均具有一个LeakyReLU层;

S34,上下文建模:使已编码的量化特征图通过上下文提取神经网络,得到上下文信息;

S35,分布估计:将上下文信息与重构的超先验信息合并,并通过信息融合神经网络,输出尺寸与初始特征图完全一致的两个输出项,分别作为高斯分布的均值和标准差,由此得到量化特征图上每个元素的分布。其中,信息融合神经网络由三层卷积层和LeakyReLU层构成,每层卷积层的卷积核大小均为1×1,卷积步长为1,输出通道数分别为1280、1067与640;

S36,算术编码:采用量化特征图上元素的估计分布,对量化特征图进行算术编码,采用构造分布对量化的超先验信息进行算术编码,得到压缩码流。

在本发明的一个优选实施例中,实施S400,进行熵解码,采用构造分布对量化的超先验信息进行算术解码,并将其输入熵模型,得到量化特征图的码字分布,对压缩码流进行算术解码,恢复量化特征图。具体包含以下步骤:

S40,超先验算术解码:采用构造分布对量化的超先验信息进行算术解码,得到量化的超先验信息;

S41,超先验信息重构:将量化的超先验信息通过第二合成变换神经网络,得到重构的超先验信息;

S42,上下文建模:使已编码的量化特征图通过上下文提取神经网络,得到上下文信息;

S43,分布估计:将上下文信息与重构的超先验信息合并,并通过信息融合神经网络,输出尺寸与初始特征图完全一致的两个输出项,分别作为高斯分布的均值和标准差,由此得到量化特征图上每个元素的分布;

S44,算术解码:采用量化特征图上元素的估计分布,对量化特征图进行算术解码。

在本发明的一个优选实例中,对熵模型进行了介绍。具体的,熵模型,包括:

超先验信息提取模块:将所述图像的初始特征图通过第二分解变换网络,得到超先验信息;

超先验量化模块:对于所述超先验信息,通过均匀量化,生成量化的超先验信息;

超先验信息重构模块:将所述量化的超先验信息通过第二合成变换神经网络,得到重构的超先验信息;

上下文建模模块:使已编解码的量化特征图通过上下文提取神经网络,得到上下文信息;

分布估计模块:将所述上下文信息与所述重构的超先验信息合并,并通过信息融合神经网络,输出尺寸与所述初始特征图完全一致的两个输出,分别作为高斯分布的均值和标准差,由此得到量化特征图上每个元素的分布;

熵编码基于所述超先验信息提取模块、超先验量化模块、超先验信息重构模块、重构的超先验信息和分布估计模块施行;

熵解码基于所述超先验信息重构模块、上下文建模模块和分布估计模块施行。

在本发明的一个优选实施例中,实施S500进行反量化。反量化为量化的逆向过程,使用的量化步长、死区比率与量化一致,对于量化特征图中任意位置的元素

其中,q为量化步长,z为死区比率。

本实施例中,经过反量化处理,得到大小为

在本发明的一个优选实施例中,实施S500,将重构特征图通过第一合成变换神经网络,得到重构图像。具体过程为:分解变换神经网络由可逆解码子网络与上采样子网络顺序连接而成。可逆解码子网络首先将重构特征图在通道维度上进行划分,得到8个大小为

其中

在本发明的优选实施例中,实施S700,进行码率控制:根据目标码率

S71,量化:采用量化步长为q

S72,z:分别对三幅特征图进行熵编码,可得编码后的压缩码流码字数分别为s

S73,码率计算:输入图像尺寸为H×W,压缩码流的大小为s,可得压缩码流码率

S74,量化步长-码率建模:通过q

S75,量化步长决策:将目标码率

在Kodak数据集上的测试表明,当目标码率设置为0.25、0.50、0.75、1.00、1.25bpp时,压缩码流的码率与目标码率间绝对误差的平均值为0.0118bpp。

本实施例,在码率控制方面,通过本实施例的技术方案实现的神经网络可逼近局部空间上的正交变换,提高可变码率编码的平均性能;且所需的参数量更少,可以有效降低实现码率控制所需的模型的存储开销。

基于相同的发明构思,本发明的实施例还提供了一种可变码率图像压缩系统,参见图2,正向映射模块、量化模块、熵编码模块、熵解码模块、反量化模块、反向映射模块和码率控制模块;其中,正向映射模块将待编码图像通过第一分解变换神经网络,得到图像的初始特征图;量化模块通过死区量化器对特征图进行量化,得到图像的量化特征图;熵编码模块利用熵模型对量化特征图及熵模型中所涉及的量化的超先验信息进行熵编码,得到压缩码流;熵解码模块对压缩码流进行熵解码,并利用熵模型依次恢复量化的超先验信息及量化特征图;反量化模块对量化特征图进行反量化,得到图像的重构特征图;反向映射模块将重构特征图通过第一合成变换神经网络,得到重构图像;码率控制模块根据目标码率或目标失真,对编码过程中的量化以及反量化的参数进行调整,使压缩码流的码率接近目标码率,或使重构图像的失真接近目标失真。

本发明上述实例中各模块/单元具体(参见图3和图4)可以参照上述实施例中一种可变码率图像压缩方法对应的步骤的实现技术,在此不再赘述。

基于相同的发明构思,本发明的实施例还提供了一种图像压缩装置,采用任一项所述的一种可变码率图像压缩方法进行图像压缩。

基于相同的发明构思,本发明的实施例还一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于任一项所述的方法,或,运行所述的系统,或,运行所述的装置。

基于相同的发明构思,本发明的实施例还一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行任一项所述的方法,或,运行所述的系统,或,运行所述的装置。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

相关技术
  • 终端遥控方法、装置及系统、终端及计算机可读存储介质
  • 一种物联网终端升级方法、装置、系统、终端及存储介质
  • 一种系统信息快速读取方法、装置、终端及存储介质
  • 系统升级方法、装置、终端设备及存储介质
  • 移动终端防盗方法、装置、系统及存储介质
  • 一种可变码率视频压缩方法、系统、装置及存储介质
  • 一种图像压缩方法、装置、终端设备和存储介质
技术分类

06120115930426