掌桥专利:专业的专利平台
掌桥专利
首页

分层编解码的方法及装置

文献发布时间:2023-06-19 16:20:42



技术领域

本发明实施例涉及基于人工智能(AI)的视频或图像压缩技术领域,尤其涉及一种分 层编解码的方法及装置。

背景技术

视频压缩编解码技术在多媒体服务,广播,视频通信和存储等领域都有广泛的应用, 例如广播数字电视、互联网和移动网络上的视频传输、视频聊天和视频会议等实时会话应 用、DVD和蓝光光盘、视频内容采集和编辑系统以及可携式摄像机的安全应用。

即使在影片较短的情况下也需要对大量的视频数据进行描述,当数据要在带宽容量受 限的网络中发送或以其它方式传输时,这样可能会造成困难。因此,视频数据通常要先压 缩然后在现代电信网络中传输。由于内存资源可能有限,当在存储设备上存储视频时,视 频的大小也可能成为问题。视频压缩设备通常在信源侧使用软件和/或硬件,以在传输或 存储之前对视频数据进行编码,从而减少用来表示数字视频图像所需的数据量。然后,压 缩的数据在目的地侧由视频解压缩设备接收。在有限的网络资源以及对更高视频质量的需 求不断增长的情况下,需要改进压缩和解压缩技术,这些改进的技术能够提高压缩率而几 乎不影响图像质量。

近年来,将深度学习应用于在端到端的图像编解码技术领域逐渐成为一种趋势。在采 用混合架构的视频编码器和视频解码器中,对特征图进行熵编码时,假定特征值满足零均 值的高斯分布,超先验结构估计高斯分布的方差,得到特征值的概率分布模型,算术编码 模块基于估计的概率分布对特征图进行熵编码。为了使解码端同样能准确地估计特征图的 概率分布,超先验结构中模块提取估计概率分布的隐变量,隐变量经由量化、算术编码作 为边信息传递到解码端。在这样的机制下,输入图像为YUV格式时,Y、U、V分量的码率 占比固定。但是由于图像内容色彩特性不同,YUV分量码率固定,会导致编码的图像失真较大。

发明内容

本申请提供一种分层编解码的方法及装置,能够适配不同色彩特性的图像内容。

在本申请中,分层编解码是指把视频信号分为第一信号分量和第二信号分量;或者把 视频信号分为第一信号分量,第二信号分量和第三信号分量。所述第一信号分量为Y分量, 所述第二信号分量为UV分量,U分量或V分量。当所述第二信号分量为U分量时,所述第三信号分量为V分量,或当所述第二信号分量为V分量,所述第三信号分量为U分量。

第一方面,本申请提供一种编码方法。所述编码方法包括:把所述视频信号的第一信 号分量的控制信号作用于所述第一信号分量的第一特征图,获得所述第一信号分量的第二 特征图,其中所述第一信号分量的控制信号通过学习获得;把所述视频信号的第二信号分 量的控制信号作用于所述第二信号分量的第一特征图,获得所述第二信号分量的第二特征 图,其中所述第二信号分量的控制信号通过学习获得;以及根据所述第一信号分量的第二 特征图和所述第二信号分量的第二特征图,获得所述视频信号的码流。

在一种可能的实现方式中,根据所述第一信号分量的第二特征图和所述第二信号分量 的第二特征图,获得所述视频信号的码流包括:对所述第一信号分量的第二特征图和所述 第二信号分量的第二特征图,或者,对所述第一信号分量的第二特征图和经神经网络处理 的所述第二信号分量的第二特征图,或者,对经神经网络处理的所述第一信号分量的第二 特征图和所述第二信号分量的第二特征图,或者,对经神经网络处理的所述第一信号分量 的第二特征图和经神经网络处理的所述第二信号分量的第二特征图,进行熵编码,以获得 所述视频信号的码流。

在一种可能的实现方式中,根据所述第一信号分量的第二特征图和所述第二信号分量 的第二特征图,获得所述视频信号的码流包括:对所述第一信号分量的第二特征图和所述 第二信号分量的第二特征图,进行联合处理,获得联合的特征图,对所述联合的特征图进 行熵编码,以获得所述视频信号的码流;或者,对所述第一信号分量的第二特征图和经神 经网络处理的所述第二信号分量的第二特征图,进行联合处理,获得联合的特征图,对所 述联合的特征图进行熵编码,以获得所述视频信号的码流;或者,对经神经网络处理的所 述第一信号分量的第二特征图和所述第二信号分量的第二特征图,进行联合处理,获得联 合的特征图,对所述联合的特征图进行熵编码,以获得所述视频信号的码流;或者,对经 神经网络处理的所述第一信号分量的第二特征图和经神经网络处理的所述第二信号分量 的第二特征图,进行联合处理,获得联合的特征图,对所述联合的特征图进行熵编码,以获得所述视频信号的码流。

在一种可能的实现方式中,根据所述第一信号分量的质量因子从N个候选第一控制信 号中,获得所述第一信号分量的控制信号,其中N为大于1的整数;以及根据所述第二信 号分量的质量因子从M个候选第二控制信号中,获得所述第二信号分量的控制信号,其中 M为大于1的整数。N和M可以相等或者不等,本申请对此不做限定。

在一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为UV分量时,通过学习生成所述Y分量的控制信号矩阵{q

在另一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为UV分量时,通过学习生成所述视频信号的控制信号矩阵{q

在再一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为UV分量时,通过全连接网络实现,则将所述Y分量的质量因子作为全连接网络的输入, 输出所述Y分量的控制信号;将所述UV分量的质量因子作为全连接网络的输入,输出所 述UV分量的控制信号。此时所述视频信号的码流中包括所述Y分量的质量因子和所述UV 分量的质量因子。

在一种可能的实现方式中,当所述第二信号分量为U分量或者V分量时,所述方法还 包括:把所述视频信号的第三信号分量的控制信号作用于所述第三信号分量的第一特征图, 获得所述第三信号分量的第二特征图,其中所述第三信号分量的控制信号通过学习获得, 其中当所述第二信号分量为U分量时,所述第三信号分量为V分量,或当所述第二信号分 量为V分量,所述第三信号分量为U分量。

在一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为U分 量时,所述第三信号分量为V分量,通过学习生成所述Y分量的控制信号矩阵 {q

在另一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为U 分量时,所述第三信号分量为V分量,通过学习生成所述视频信号的控制信号矩阵{q

在再一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为U 分量时,所述第三信号分量为V分量,通过全连接网络实现,则将所述Y分量的质量因子作为全连接网络的输入,输出Y分量的控制信号;将所述U分量的质量因子作为全连接网 络的输入,输出U分量的控制信号;以及将所述V分量的质量因子作为全连接网络的输入, 输出V分量的控制信号。此时所述视频信号的码流中包括所述Y分量的质量因子、所述U 分量的质量因子和所述V分量的质量因子。

第二方面,本申请提供一种解码方法。所述解码方法包括:获得所述视频信号的码流; 对所述码流进行熵解码以获得所述视频信号的第一信号分量的特征图和所述视频信号的 第二信号分量的特征图;根据所述第一信号分量的响应信号和所述第一信号分量的特征图, 获得所述第一信号分量的重建图,其中所述第一信号分量的响应信号通过学习获得;根据 所述第二信号分量的响应信号和所述第二信号分量的特征图,获得所述第二信号分量的重 建图,其中所述第二信号分量的响应信号通过学习获得;以及根据所述第一信号分量的重 建图和所述第二信号分量的重建图,重建所述视频信号。

需要说明的是,本申请中解码端的响应信号与编码端的控制信号类似,为了区分解码 端称为响应信号,编码端称为控制信号。解码端的响应信号包括响应向量,或者包括响应 向量和偏移向量。

在一种可能的实现方式中,所述码流中还包括所述第一信号分量的质量因子信息和所 述第二信号分量的质量因子信息,其中所述第一信号分量的质量因子信息为所述第一信号 分量的质量因子或者所述第一信号分量的质量因子的索引,所述第二信号分量的质量因子 信息为所述第二信号分量的质量因子或者所述第二信号分量的质量因子的索引;通过所述 第一信号分量的质量因子信息,获得所述第一信号分量的响应信号;通过所述第二信号分 量的质量因子信息,获得所述第二信号分量的响应信号。

其中,当所述第一信号分量的质量因子信息为所述第一信号分量的质量因子时,所述 第一信号分量的质量因子取值为N个中的一个;当所述第一信号分量的质量因子信息为所 述第一信号分量的质量因子的索引时,所述第一信号分量的质量因子的索引的取值范围为 0至N-1或者1至N,其中N为大于1的整数;

当所述第二信号分量的质量因子信息为所述第二信号分量的质量因子时,所述第二信 号分量的质量因子取值为M个中的一个;当所述第二信号分量的质量因子信息为所述第二 信号分量的质量因子的索引时,所述第二信号分量的质量因子的索引的取值范围为0至 M-1或者1至M,其中M为大于1的整数。

在一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为UV分量时,若所述码流中包括所述Y分量的质量因子的索引i和所述UV分量的质量因子的 索引j,通过学习生成所述第一信号分量的响应信号矩阵{g

在另一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为UV分量时,若所述码流中包括所述视频信号的质量因子的索引i,通过学习生成所述视频信号的响应信号矩阵{g

在再一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为UV分量时,若所述码流中包括所述第一信号分量的质量因子和第二信号分量的质量因子,通过全连接网络实现,则将所述Y分量的质量因子作为全连接网络的输入,输出所述Y分 量的响应信号;将所述UV分量的质量因子作为全连接网络的输入,输出所述UV分量的响 应信号。

在一种可能的实现方式中,当所述第二信号分量为U分量或者V分量时,所述方法还 包括:对所述码流进行熵解码以获得所述视频信号的第三信号分量的特征图;根据所述第 三信号分量的响应信号和所述第三信号分量的特征图,获得所述第三信号分量的重建图, 其中所述第三信号分量的响应信号通过学习获得,其中当所述第二信号分量为U分量时, 所述第三信号分量为V分量,或当所述第二信号分量为V分量,所述第三信号分量为U分量。则所述重建所述视频信号包括:根据所述第一信号分量的重建图、所述第二信号分量的重建图和和所述第三信号分量的重建图,重建所述视频信号。

在一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为U分 量时,所述第三信号分量为V分量,若所述码流中包括所述Y分量的质量因子的索引i、所述U分量的质量因子的索引j,和所述V分量的质量因子的索引k,通过学习生成所述 第一信号分量的响应信号矩阵{g

在另一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为U 分量时,所述第三信号分量为V分量,若所述码流中包括所述视频信号的质量因子的索引i,通过学习生成所述视频信号的响应信号矩阵{g

在再一种可能的实现方式中,当所述第一信号分量为Y分量,所述第二信号分量为U 分量时,所述第三信号分量为V分量,若所述码流中包括所述第一信号分量的质量因子、所述第二信号分量的质量因子和所述第三信号分量的质量因子,通过全连接网络实现,则将所述Y分量的质量因子作为全连接网络的输入,输出Y分量的响应信号;将所述U分量 的质量因子作为全连接网络的输入,输出U分量的响应信号;以及将所述V分量的质量因 子作为全连接网络的输入,输出V分量的响应信号。

第三方面,本申请提供一种编码器,包括处理电路,用于执行根据上述第一方面及第 一方面任一项所述的方法。

第四方面,本申请提供一种解码器,包括处理电路,用于执行上述第二方面及第二方 面任一项所述的方法。

第五方面,本申请提供一种计算机程序产品,包括程序代码,当其在计算机或处理器 上执行时,用于执行上述第一方面及第一方面任一项、上述第二方面及第二方面任一项所 述的方法。

第六方面,本申请提供一种编码器,包括:一个或多个处理器;非瞬时性计算机可读 存储介质,耦合到所述处理器并存储由所述处理器执行的程序,其中所述程序在由所述处 理器执行时,使得所述解码器执行上述第一方面及第一方面任一项所述的方法。

第七方面,本申请提供一种解码器,包括:一个或多个处理器;非瞬时性计算机可读 存储介质,耦合到所述处理器并存储由所述处理器执行的程序,其中所述程序在由所述处 理器执行时,使得所述编码器执行上述第二方面及第二方面任一项所述的方法所述的方法。

第八方面,本申请提供一种非瞬时性计算机可读存储介质,包括程序代码,当其由计 算机设备执行时,用于执行上述第一方面及第一方面任一项、上述第二方面及第二方面任 一项所述的方法。

第九方面,本发明涉及编码装置,具有实现上述第一方面或第一方面任一项的方法实 施例中行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。 所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述编 码装置包括:第一控制模块,用于把所述视频信号的第一信号分量的控制信号作用于所述 第一信号分量的第一特征图,获得所述第一信号分量的第二特征图,其中所述第一信号分 量的控制信号通过学习获得;第二控制模块,用于把所述视频信号的第二信号分量的控制 信号作用于所述第二信号分量的第一特征图,获得所述第二信号分量的第二特征图,其中 所述第二信号分量的控制信号通过学习获得;以及编码模块,用于根据所述第一信号分量 的第二特征图和所述第二信号分量的第二特征图,获得所述视频信号的码流。这些模块可 以执行上述第一方面或第一方面任一项方法示例中的相应功能,具体参见方法示例中的详 细描述,此处不做赘述。

第十方面,本发明涉及解码装置,具有实现上述第二方面或第二方面任一项的方法实 施例中行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。 所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述解 码装置包括:解码模块,用于获得所述视频信号的码流,对所述码流进行熵解码以获得所 述视频信号的第一信号分量的特征图和所述视频信号的第二信号分量的特征图;第一控制 模块,用于根据所述第一信号分量的响应信号和所述第一信号分量的特征图,获得所述第 一信号分量的重建图,其中所述第一信号分量的响应信号通过学习获得;第二控制模块, 用于根据所述第二信号分量的响应信号和所述第二信号分量的特征图,获得所述第二信号 分量的重建图,其中所述第二信号分量的响应信号通过学习获得;以及重建模块,用于根 据所述第一信号分量的重建图和所述第二信号分量的重建图,重建所述视频信号。这些模 块可以执行上述第二方面或第二方面任一项方法示例中的相应功能,具体参见方法示例中 的详细描述,此处不做赘述。

在现有端到端图像编码中,对于某一特定网络学习优化时,按固定Y、U、V分量权重值进行优化,因此,YUV分量的码率固定。由于不同图像色彩特性不同,固定码率分配会 导致部分视频图像内容上编码性能较差的现象。本申请上述各方面通过各信号分量的控制信号对相应的信号分量的特征图分别进行控制,从而可以支持YUV分量间的码率分配,达到适配不同色彩特性的图像内容。

附图及以下说明中将详细描述一个或多个实施例。其它特征、目的和优点在说明、附 图以及权利要求中是显而易见的。

附图说明

下面对本申请实施例用到的附图进行介绍。

图1A为用于实现本发明实施例的视频译码系统示例的框图,其中该系统基于深度学 习来编码或解码视频图像;

图1B为用于实现本发明实施例的视频译码系统示例另一示例的框图,其中该系统基 于深度学习来编码或解码视频图像;

图1C为用于实现本发明实施例的视频译码系统再一示例的框图,其中该视频编码器 和/或视频解码器基于深度学习来编码或解码视频图像;

图2为用于实现本发明实施例的视频编码器实例示例的框图,其中该视频编码器20 基于深度学习来编码视频图像;

图3为用于实现本发明实施例的视频解码器实例示例的框图,其中该视频解码器30 基于深度学习来解码视频图像;

图4为用于实现本发明实施例的视频译码装置的示意性框图;

图5为用于实现本发明实施例的视频译码装置的示意性框图;

图6为YUV格式示意图;

图7A是本申请实施例提供的分层编解码结构的示意图;

图7B是基于图7A的编码方法的一种实施例;

图7C是基于图7A的解码方法的一种实施例;

图7D是本申请实施例提供的分层编解码结构的另一示意图;

图8A是本申请实施例提供的分层编解码结构的示意图;

图8B是图8A的一种实施例;

图9A是本申请实施例提供的分层编解码结构的示意图;

图9B是图9A的一种实施例;

图10是示出根据本申请一种实施例的编码装置1000的结构示意图;

图11是示出根据本申请一种实施例的解码装置1100的结构示意图。

具体实施方式

本申请实施例提供一种基于AI的视频图像压缩技术,具体提供一种分层编解码中的 方法及装置,以改进传统的基于端到端的混合视频编解码系统。

视频编码通常是指处理形成视频或视频序列的图像序列。在视频编码领域,术语“图 像(picture)”、“帧(frame)”或“图片(image)”可以用作同义词。视频编码(或 通常称为编码)包括视频编码和视频解码两部分。视频编码在源侧执行,通常包括处理(例 如,压缩)原始视频图像以减少表示该视频图像所需的数据量(从而更高效存储和/或传 输)。视频解码在目的地侧执行,通常包括相对于编码器作逆处理,以重建视频图像。实 施例涉及的视频图像(或通常称为图像)的“编码”应理解为视频图像或视频序列的“编 码”或“解码”。编码部分和解码部分也合称为编解码(编码和解码,CODEC)。

在无损视频编码情况下,可以重建原始视频图像,即重建的视频图像与原始视频图像 具有相同的质量(假设存储或传输期间没有传输损耗或其它数据丢失)。在有损视频编码 情况下,通过量化等执行进一步压缩,来减少表示视频图像所需的数据量,而解码器侧无 法完全重建视频图像,即重建的视频图像的质量比原始视频图像的质量较低或较差。

几个视频编码标准属于“有损混合型视频编解码”(即,将像素域中的空间和时间预 测与变换域中用于应用量化的2D变换编码结合)。视频序列中的每个图像通常分割成不重叠的块集合,通常在块级上进行编码。换句话说,编码器通常在块(视频块)级处理及 编码视频,例如,通过空间(帧内)预测和时间(帧间)预测来产生预测块;从当前块(当 前处理/待处理的块)中减去预测块,得到残差块;在变换域中变换残差块并量化残差块, 以减少待传输(压缩)的数据量,而解码器侧将相对于编码器的逆处理部分应用于编码或 压缩的块,以重建用于表示的当前块。另外,编码器需要重复解码器的处理步骤,使得编 码器和解码器生成相同的预测(例如,帧内预测和帧间预测)和/或重建像素,用于处理, 即编码后续块。

在以下译码系统10的实施例中,编码器20和解码器30根据图1B至图3进行描述。

图1A为示例性译码系统的示意性框图,如图1A所示,使用视频采集设备将视频采集 以后,经过一系列的前处理,再对处理以后的视频进行压缩编码,得到编码码流。使用发送模块将码流经传输网络发送到接收模块,经解码器进行解码以后,便可渲染显示。除此之外,视频编码以后的码流也可以直接进行存储。

图1B为示例性译码系统10的示意性框图,例如可以利用本申请技术的视频译码系统 10(或简称为译码系统10)。视频译码系统10中的视频编码器20(或简称为编码器20) 和视频解码器30(或简称为解码器30)代表可用于根据本申请中描述的各种示例执行各 技术的设备等。

如图1B所示,译码系统10包括源设备12,源设备12用于将编码图像等编码图像数据21提供给用于对编码图像数据21进行解码的目的设备14。

源设备12包括编码器20,另外即可选地,可包括图像源16、图像预处理器等预处理器(或预处理单元)18、通信接口(或通信单元)22。

图像源16可包括或可以为任意类型的用于捕获现实世界图像等的图像捕获设备,和/ 或任意类型的图像生成设备,例如用于生成计算机动画图像的计算机图形处理器或任意类 型的用于获取和/或提供现实世界图像、计算机生成图像(例如,屏幕内容、虚拟现实(virtual reality,VR)图像和/或其任意组合(例如增强现实(augmented reality, AR)图像)的设备。所述图像源可以为存储上述图像中的任意图像的任意类型的内存或存 储器。

为了区分预处理器(或预处理单元)18执行的处理,图像(或图像数据)17也可称为原始图像(或原始图像数据)17。

预处理器18用于接收(原始)图像数据17,并对图像数据17进行预处理,得到预 处理图像(预处理图像数据)19。例如,预处理器18执行的预处理可包括修剪、颜色格 式转换(例如从RGB转换为YCbCr)、调色或去噪。可以理解的是,预处理单元18可以 为可选组件。

视频编码器(或编码器)20用于接收预处理图像数据19并提供编码图像数据21(下面将根据图2等进一步描述)。

源设备12中的通信接口22可用于:接收编码图像数据21并通过通信信道13向目的设备14等另一设备或任何其它设备发送编码图像数据21(或其它任意处理后的版本), 以便存储或直接重建。

目的设备14包括解码器30,另外即可选地,可包括通信接口(或通信单元)28、后处理器(或后处理单元)32和显示设备34。

目的设备14中的通信接口28用于直接从源设备12或从存储设备等任意其它源设备 接收编码图像数据21(或其它任意处理后的版本),例如,存储设备为编码图像数据存储设备,并将编码图像数据21提供给解码器30。

通信接口22和通信接口28可用于通过源设备12与目的设备14之间的直连通信链路, 例如直接有线或无线连接等,或者通过任意类型的网络,例如有线网络、无线网络或其任 意组合、任意类型的私网和公网或其任意类型的组合,发送或接收编码图像数据(或编码 数据)21。

例如,通信接口22可用于将编码图像数据21封装为报文等合适的格式,和/或使用任意类型的传输编码或处理来处理所述编码后的图像数据,以便在通信链路或通信网络上进行传输。

通信接口28与通信接口22对应,例如,可用于接收传输数据,并使用任意类型的对应传输解码或处理和/或解封装对传输数据进行处理,得到编码图像数据21。

通信接口22和通信接口28均可配置为如图1B中从源设备12指向目的设备14的对应通信信道13的箭头所指示的单向通信接口,或双向通信接口,并且可用于发送和接收 消息等,以建立连接,确认并交换与通信链路和/或例如编码后的图像数据传输等数据传 输相关的任何其它信息,等等。

视频解码器(或解码器)30用于接收编码图像数据21并提供解码图像(或解码图像数据)31(下面将根据图3等进一步描述)。

后处理器32用于对解码后的图像等解码图像数据31(也称为重建后的图像数据)进 行后处理,得到后处理后的图像等后处理图像数据33。后处理单元32执行的后处理可以包括例如颜色格式转换(例如从YCbCr转换为RGB)、调色、修剪或重采样,或者用于产 生供显示设备34等显示的解码图像数据31等任何其它处理。

显示设备34用于接收后处理图像数据33,以向用户或观看者等显示图像。显示设备 34可以为或包括任意类型的用于表示重建后图像的显示器,例如,集成或外部显示屏或显示器。例如,显示屏可包括液晶显示器(liquid crystal display,LCD)、有机发光 二极管(organic light emitting diode,OLED)显示器、等离子显示器、投影仪、微型 LED显示器、硅基液晶显示器(liquid crystal on silicon,LCoS)、数字光处理器(digital lightprocessor,DLP)或任意类型的其它显示屏。

译码系统10还包括训练引擎25,训练引擎25用于训练编码器20或解码器30以对重构图像进行分层编码码处理。

本申请实施例中训练数据包括:训练矩阵集合,该训练矩阵集合包括图像块的滤波前 亮度矩阵、量化步长矩阵和滤波后亮度矩阵,其中滤波前亮度矩阵中的对应位置的像素点 对应于对应图像块中的对应位置的像素的滤波前的亮度值,量化步长矩阵中的对应位置的 像素点对应于对应图像块中的对应位置的像素的亮度值对应的量化步长值,滤波后亮度矩 阵中的对应位置的像素点对应于对应图像块中的对应位置的像素的滤波后的亮度值。

训练矩阵集合中的多个矩阵例如可以以图6a至6c所示的方式输入训练引擎25。如图6a所示,将训练矩阵集合中的多个矩阵直接输入训练引擎25,该多个矩阵均是二维矩阵。如图6b所示,选取训练矩阵集合中的多个矩阵的部分或全部做合并处理得到多维矩阵,再将该多维矩阵输入训练引擎25。如图6c所示,选取训练矩阵集合中的多个矩阵的 部分或全部做相加(或相乘)处理得到二维矩阵,再将该二维矩阵输入训练引擎25。

上述训练数据可以存入数据库(未示意)中,训练引擎25基于训练数据训练得到目标模型(例如:可以是用于分层编解码的神经网络等)。需要说明的是,本申请实施例对 于训练数据的来源不做限定,例如可以是从云端或其他地方获取训练数据进行模型训练。

训练引擎25训练目标模型的过程使得滤波前像素逼近原始像素值。每个训练过程可 以使用64个图像的小批量大小和1e-4的初始学习率,遵循步长大小为10。在训练数据可以是通过编码器在不同QP量化参数设置下生成的数据。目标模型能够用于实现本申请实施例提供的分层编解码方法,即,将重构得到的图像或图像块通过相关预处理后输入 该目标模型,可以得到滤波后的图像或图像块。本申请实施例中的目标模型具体可以为 滤波网络,下文将结合图7A-7D详细说明目标模型。

训练引擎25训练得到的目标模型可以应用于译码系统10中,例如,应用于图1B所示的源设备12(例如编码器20)或目的设备14(例如解码器30)。训练引擎25可以在 云端训练得到目标模型,然后译码系统10从云端下载并使用该目标模型;或者,训练引 擎25可以在云端训练得到目标模型并使用该目标模型,译码系统10从云端直接获取处理 结果。

尽管图1B示出了源设备12和目的设备14作为独立的设备,但设备实施例也可以同时包括源设备12和目的设备14或同时包括源设备12和目的设备14的功能,即同时包括 源设备12或对应功能和目的设备14或对应功能。在这些实施例中,源设备12或对应功 能和目的设备14或对应功能可以使用相同硬件和/或软件或通过单独的硬件和/或软件或 其任意组合来实现。

根据描述,图1B所示的源设备12和/或目的设备14中的不同单元或功能的存在和(准 确)划分可能根据实际设备和应用而有所不同。

编码器20(例如视频编码器20)或解码器30(例如视频解码器30)或两者都可通过如图1C所示的处理电路实现,例如一个或多个微处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application-specific integrated circuit,ASIC)、 现场可编程门阵列(field-programmable gate array,FPGA)、离散逻辑、硬件、视频 编码专用处理器或其任意组合。编码器20可以通过处理电路46实现,以包含参照图2编 码器20论述的各种模块和/或本文描述的任何其它编码器系统或子系统。解码器30可以 通过处理电路46实现,以包含参照图3解码器30论述的各种模块和/或本文描述的任何 其它解码器系统或子系统。所述处理电路46可用于执行下文论述的各种操作。如图5所 示,如果部分技术在软件中实施,则设备可以将软件的指令存储在合适的非瞬时性计算机 可读存储介质中,并且使用一个或多个处理器在硬件中执行指令,从而执行本发明技术。 视频编码器20和视频解码器30中的其中一个可作为组合编解码器(encoder/decoder, CODEC)的一部分集成在单个设备中,如图1C所示。

源设备12和目的设备14可包括各种设备中的任一种,包括任意类型的手持设备或固 定设备,例如,笔记本电脑或膝上型电脑、手机、智能手机、平板或平板电脑、相机、台 式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备 (例如,内容业务服务器或内容分发服务器)、广播接收设备、广播发射设备,等等,并 可以不使用或使用任意类型的操作系统。在一些情况下,源设备12和目的设备14可配备 用于无线通信的组件。因此,源设备12和目的设备14可以是无线通信设备。

在一些情况下,图1B所示的视频译码系统10仅仅是示例性的,本申请提供的技术可 适用于视频编码设置(例如,视频编码或视频解码),这些设置不一定包括编码设备与解码设备之间的任何数据通信。在其它示例中,数据从本地存储器中检索,通过网络发送, 等等。视频编码设备可以对数据进行编码并将数据存储到存储器中,和/或视频解码设备 可以从存储器中检索数据并对数据进行解码。在一些示例中,编码和解码由相互不通信而 只是编码数据到存储器和/或从存储器中检索并解码数据的设备来执行。

图1C是根据一示例性实施例的包含图2的视频编码器20和/或图3的视频解码器30的视频译码系统40的实例的说明图。视频译码系统40可以包含成像设备41、视频编码 器20、视频解码器30(和/或藉由处理电路46实施的视频编/解码器)、天线42、一个 或多个处理器43、一个或多个内存存储器44和/或显示设备45。

如图1C所示,成像设备41、天线42、处理电路46、视频编码器20、视频解码器30、 处理器43、内存存储器44和/或显示设备45能够互相通信。在不同实例中,视频译码系 统40可以只包含视频编码器20或只包含视频解码器30。

在一些实例中,天线42可以用于传输或接收视频数据的经编码比特流。另外,在一些实例中,显示设备45可以用于呈现视频数据。处理电路46可以包含专用集成电路(application-specific integrated circuit,ASIC)逻辑、图形处理器、通用处理器 等。视频译码系统40也可以包含可选的处理器43,该可选处理器43类似地可以包含专 用集成电路(application-specific integrated circuit,ASIC)逻辑、图形处理器、 通用处理器等。另外,内存存储器44可以是任何类型的存储器,例如易失性存储器(例 如,静态随机存取存储器(static random access memory,SRAM)、动态随机存储器(dynamic randomaccess memory,DRAM)等)或非易失性存储器(例如,闪存等)等。在非限制性 实例中,内存存储器44可以由超速缓存内存实施。在其它实例中,处理电路46可以包含 存储器(例如,缓存等)用于实施图像缓冲器等。

在一些实例中,通过逻辑电路实施的视频编码器20可以包含(例如,通过处理电路46或内存存储器44实施的)图像缓冲器和(例如,通过处理电路46实施的)图形处理 单元。图形处理单元可以通信耦合至图像缓冲器。图形处理单元可以包含通过处理电路 46实施的视频编码器20,以实施参照图2和/或本文中所描述的任何其它编码器系统或子 系统所论述的各种模块。逻辑电路可以用于执行本文所论述的各种操作。

在一些实例中,视频解码器30可以以类似方式通过处理电路46实施,以实施参照图 3的视频解码器30和/或本文中所描述的任何其它解码器系统或子系统所论述的各种模块。 在一些实例中,逻辑电路实施的视频解码器30可以包含(通过处理电路46或内存存储器 44实施的)图像缓冲器和(例如,通过处理电路46实施的)图形处理单元。图形处理单 元可以通信耦合至图像缓冲器。图形处理单元可以包含通过处理电路46实施的视频解码 器30,以实施参照图3和/或本文中所描述的任何其它解码器系统或子系统所论述的各种 模块。

在一些实例中,天线42可以用于接收视频数据的经编码比特流。如所论述,经编码比特流可以包含本文所论述的与编码视频帧相关的数据、指示符、索引值、模式选择数据等,例如与编码分割相关的数据(例如,变换系数或经量化变换系数,(如所论述的)可 选指示符,和/或定义编码分割的数据)。视频译码系统40还可包含耦合至天线42并用 于解码经编码比特流的视频解码器30。显示设备45用于呈现视频帧。

应理解,本申请实施例中对于参考视频编码器20所描述的实例,视频解码器30可以 用于执行相反过程。关于信令语法元素,视频解码器30可以用于接收并解析这种语法元素,相应地解码相关视频数据。在一些例子中,视频编码器20可以将语法元素熵编码成 经编码视频比特流。在此类实例中,视频解码器30可以解析这种语法元素,并相应地解 码相关视频数据。

为便于描述,参考通用视频编码(Versatile video coding,VVC)参考软件或由ITU-T 视频编码专家组(Video Coding Experts Group,VCEG)和ISO/IEC运动图像专家组(Motion Picture Experts Group,MPEG)的视频编码联合工作组(Joint CollaborationTeam on Video Coding,JCT-VC)开发的高性能视频编码(High-Efficiency VideoCoding,HEVC) 描述本发明实施例。本领域普通技术人员理解本发明实施例不限于HEVC或VVC。

编码器和编码方法

图2为用于实现本申请技术的视频编码器20的示例的示意性框图。在图2的示例中, 视频编码器20包括输入端(或输入接口)201、残差计算单元204、变换处理单元206、 量化单元208、反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、 解码图像缓冲器(decoded picture buffer,DPB)230、模式选择单元260、熵编码单元 270和输出端(或输出接口)272。模式选择单元260可包括帧间预测单元244、帧内预测 单元254和分割单元262。帧间预测单元244可包括运动估计单元和运动补偿单元(未示 出)。图2所示的视频编码器20也可称为混合型视频编码器或基于混合型视频编解码器 的视频编码器。

残差计算单元204、变换处理单元206、量化单元208和模式选择单元260组成编码器20的前向信号路径,而反量化单元210、逆变换处理单元212、重建单元214、缓冲器 216、环路滤波器220、解码图像缓冲器(decoded picture buffer,DPB)230、帧间预 测单元244和帧内预测单元254组成编码器的后向信号路径,其中编码器20的后向信号 路径对应于解码器的信号路径(参见图3中的解码器30)。反量化单元210、逆变换处理 单元212、重建单元214、环路滤波器220、解码图像缓冲器230、帧间预测单元244和帧 内预测单元254还组成视频编码器20的“内置解码器”。

量化

量化单元208用于通过例如标量量化或矢量量化对变换系数207进行量化,得到量化 变换系数209。量化变换系数209也可称为量化残差系数209。

量化过程可减少与部分或全部变换系数207有关的位深度。例如,可在量化期间将n 位变换系数向下舍入到m位变换系数,其中n大于m。可通过调整量化参数(quantizationparameter,QP)修改量化程度。例如,对于标量量化,可以应用不同程度的比例来实现 较细或较粗的量化。较小量化步长对应较细量化,而较大量化步长对应较粗量化。可通过 量化参数(quantization parameter,QP)指示合适的量化步长。例如,量化参数可以为 合适的量化步长的预定义集合的索引。例如,较小的量化参数可对应精细量化(较小量化 步长),较大的量化参数可对应粗糙量化(较大量化步长),反之亦然。量化可包括除以 量化步长,而反量化单元210等执行的对应或逆解量化可包括乘以量化步长。根据例如 HEVC一些标准的实施例可用于使用量化参数来确定量化步长。一般而言,可以根据量化 参数使用包含除法的等式的定点近似来计算量化步长。可以引入其它比例缩放因子来进行 量化和解量化,以恢复可能由于在用于量化步长和量化参数的等式的定点近似中使用的比 例而修改的残差块的范数。在一种示例性实现方式中,可以合并逆变换和解量化的比例。 或者,可以使用自定义量化表并在比特流中等将其从编码器向解码器指示。量化是有损操 作,其中量化步长越大,损耗越大。

在一个实施例中,视频编码器20(对应地,量化单元208)可用于输出量化参数(quantization parameter,QP),例如,直接输出或由熵编码单元270进行编码或压缩 后输出,例如使得视频解码器30可接收并使用量化参数进行解码。

反量化

反量化单元210用于对量化系数执行量化单元208的反量化,得到解量化系数211,例如,根据或使用与量化单元208相同的量化步长执行与量化单元208所执行的量化方案的反量化方案。解量化系数211也可称为解量化残差系数211,对应于变换系数207,但 是由于量化造成损耗,反量化系数211通常与变换系数不完全相同。

重建

重建单元214(例如,求和器214)用于将变换块213(即重建残差块213)添加到预测块265,以在像素域中得到重建块215,例如,将重建残差块213的像素点值和预测块 265的像素点值相加。

滤波

环路滤波器单元220(或简称“环路滤波器”220)用于对重建块215进行滤波,得 到滤波块221,或通常用于对重建像素点进行滤波以得到滤波像素点值。例如,环路滤波 器单元用于顺利进行像素转变或提高视频质量。环路滤波器单元220可包括一个或多个环 路滤波器,例如去块滤波器、像素点自适应偏移(sample-adaptive offset,SAO)滤波 器或一个或多个其它滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、 噪声抑制滤波器(noise suppression filter,NSF)或任意组合。例如,环路滤波器单 元220可以包括去块滤波器、SAO滤波器和ALF滤波器。滤波过程的顺序可以是去块滤波 器、SAO滤波器和ALF滤波器。再例如,增加一个称为具有色度缩放的亮度映射(luma mapping with chromascaling,LMCS)(即自适应环内整形器)的过程。该过程在去块 之前执行。再例如,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP 子块边缘、子块变换(sub-block transform,SBT)边缘和内子部分(intra sub-partition, ISP)边缘。尽管环路滤波器单元220在图2中示为环路滤波器,但在其它配置中,环路 滤波器单元220可以实现为环后滤波器。滤波块221也可称为滤波重建块221。

在一个实施例中,视频编码器20(对应地,环路滤波器单元220)可用于输出环路滤波器参数(例如SAO滤波参数、ALF滤波参数或LMCS参数),例如,直接输出或由熵编 码单元270进行熵编码后输出,例如使得解码器30可接收并使用相同或不同的环路滤波 器参数进行解码。

解码器和解码方法

图3示出了用于实现本申请技术的示例性视频解码器30。视频解码器30用于接收例 如由编码器20编码的编码图像数据21(例如编码比特流21),得到解码图像331。编码 图像数据或比特流包括用于解码所述编码图像数据的信息,例如表示编码视频片(和/或 编码区块组或编码区块)的图像块的数据和相关的语法元素。

在图3的示例中,解码器30包括熵解码单元304、反量化单元310、逆变换处理单元312、重建单元314(例如求和器314)、环路滤波器320、解码图像缓冲器(DBP)330、 模式应用单元360、帧间预测单元344和帧内预测单元354。帧间预测单元344可以为或 包括运动补偿单元。在一些示例中,视频解码器30可执行大体上与参照图2的视频编码 器100描述的编码过程相反的解码过程。

如编码器20所述,反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器DPB230、帧间预测单元344和帧内预测单元354还组成视频编码 器20的“内置解码器”。相应地,反量化单元310在功能上可与反量化单元110相同, 逆变换处理单元312在功能上可与逆变换处理单元122相同,重建单元314在功能上可与 重建单元214相同,环路滤波器320在功能上可与环路滤波器220相同,解码图像缓冲器 330在功能上可与解码图像缓冲器230相同。因此,视频编码器20的相应单元和功能的 解释相应地适用于视频解码器30的相应单元和功能。

反量化

反量化单元310可用于从编码图像数据21(例如通过熵解码单元304解析和/或解码) 接收量化参数(quantization parameter,QP)(或一般为与反量化相关的信息)和量化系数,并基于所述量化参数对所述解码的量化系数309进行反量化以获得反量化系数311,所述反量化系数311也可以称为变换系数311。反量化过程可包括使用视频编码器20为 视频片中的每个视频块计算的量化参数来确定量化程度,同样也确定需要执行的反量化的程度。

重建

重建单元314(例如,求和器314)用于将重建残差块313添加到预测块365,以在 像素域中得到重建块315,例如,将重建残差块313的像素点值和预测块365的像素点值 相加。

滤波

环路滤波器单元320(在编码环路中或之后)用于对重建块315进行滤波,得到滤波块321,从而顺利进行像素转变或提高视频质量等。环路滤波器单元320可包括一个或多 个环路滤波器,例如去块滤波器、像素点自适应偏移(sample-adaptive offset,SAO) 滤波器或一个或多个其它滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、 噪声抑制滤波器(noi sesuppression filter,NSF)或任意组合。例如,环路滤波器单 元220可以包括去块滤波器、SAO滤波器和ALF滤波器。滤波过程的顺序可以是去块滤波 器、SAO滤波器和ALF滤波器。再例如,增加一个称为具有色度缩放的亮度映射(luma mapping withchroma scaling,LMCS)(即自适应环内整形器)的过程。该过程在去块 之前执行。再例如,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP 子块边缘、子块变换(sub-block transform,SBT)边缘和内子部分(intra sub-partition, ISP)边缘。尽管环路滤波器单元320在图3中示为环路滤波器,但在其它配置中,环路 滤波器单元320可以实现为环后滤波器。

解码器30用于通过输出端312等输出解码图像311,向用户显示或供用户查看。

尽管上述实施例主要描述了视频编解码,但应注意的是,译码系统10、编码器20和解码器30的实施例以及本文描述的其它实施例也可以用于静止图像处理或编解码,即视频编解码中独立于任何先前或连续图像的单个图像的处理或编解码。一般情况下,如果图像处理仅限于单个图像17,帧间预测单元244(编码器)和帧间预测单元344(解码器) 可能不可用。视频编码器20和视频解码器30的所有其它功能(也称为工具或技术)同样 可用于静态图像处理,例如残差计算204/304、变换206、量化208、反量化210/310、(逆) 变换212/312、分割262/362、帧内预测254/354和/或环路滤波220/320、熵编码270和 熵解码304。

图4为本发明实施例提供的视频译码设备400的示意图。视频译码设备400适用于实 现本文描述的公开实施例。在一个实施例中,视频译码设备400可以是解码器,例如图1B中的视频解码器30,也可以是编码器,例如图1B中的视频编码器20。

视频译码设备400包括:用于接收数据的入端口410(或输入端口410)和接收单元(receiver unit,Rx)420;用于处理数据的处理器、逻辑单元或中央处理器(centralprocessing un it,CPU)430;例如,这里的处理器430可以是神经网络处理器430;用 于传输数据的发送单元(transmitterunit,Tx)440和出端口450(或输出端口450); 用于存储数据的存储器460。视频译码设备400还可包括耦合到入端口410、接收单元420、 发送单元440和出端口450的光电(optical-to-electrical,OE)组件和电光 (electrical-to-optical,EO)组件,用于光信号或电信号的出口或入口。

处理器430通过硬件和软件实现。处理器430可实现为一个或多个处理器芯片、核(例 如,多核处理器)、FPGA、ASIC和DSP。处理器430与入端口410、接收单元420、发送 单元440、出端口450和存储器460通信。处理器430包括译码模块470(例如,基于神 经网络(neural networks,NN)的译码模块470)。译码模块470实施上文所公开的实 施例。例如,译码模块470执行、处理、准备或提供各种编码操作。因此,通过译码模块 470为视频译码设备400的功能提供了实质性的改进,并且影响了视频译码设备400到不 同状态的切换。或者,以存储在存储器460中并由处理器430执行的指令来实现译码模块 470。

存储器460包括一个或多个磁盘、磁带机和固态硬盘,可以用作溢出数据存储设备, 用于在选择执行程序时存储此类程序,并且存储在程序执行过程中读取的指令和数据。存 储器460可以是易失性和/或非易失性的,可以是只读存储器(read-only memory,ROM)、 随机存取存储器(random access memory,RAM)、三态内容寻址存储器(ternarycontent-addressable memory,TCAM)和/或静态随机存取存储器(static random-accessmemory,SRAM)。

图5为示例性实施例提供的装置500的简化框图,装置500可用作图1B中的源设备12和目的设备14中的任一个或两个。

装置500中的处理器502可以是中央处理器。或者,处理器502可以是现有的或今后将研发出的能够操控或处理信息的任何其它类型设备或多个设备。虽然可以使用如图所示的处理器502等单个处理器来实施已公开的实现方式,但使用一个以上的处理器速度更快和效率更高。

在一种实现方式中,装置500中的存储器504可以是只读存储器(ROM)设备或随机存取存储器(RAM)设备。任何其它合适类型的存储设备都可以用作存储器504。存储器 504可以包括处理器502通过总线512访问的代码和数据506。存储器504还可包括操作 系统508和应用程序510,应用程序510包括允许处理器502执行本文所述方法的至少一 个程序。例如,应用程序510可以包括应用1至N,还包括执行本文所述方法的视频译码 应用。

装置500还可以包括一个或多个输出设备,例如显示器518。在一个示例中,显示器518可以是将显示器与可用于感测触摸输入的触敏元件组合的触敏显示器。显示器518可以通过总线512耦合到处理器502。

虽然装置500中的总线512在本文中描述为单个总线,但是总线512可以包括多个总 线。此外,辅助储存器可以直接耦合到装置500的其它组件或通过网络访问,并且可以包括存储卡等单个集成单元或多个存储卡等多个单元。因此,装置500可以具有各种各样的配置。

本发明实施例涉及一种面向色彩分量码率分配的AI图像有损编码方案,可应用于图 1A至图5所描述的视频译码系统、编码器和解码器。

需要说明的是,本申请提供的方法主要用于YUV分量码率分配过程,此过程主要由编码端控制,为使得解码端更适配,也可在解码器中增加相应控制单元。

视频图像信号通常包括一个亮度分量与两个色度分量。亮度分量通常使用符号Y表示, 色度分量通常使用符号U、V表示。如图7(a)至(c)所示,常用的YUV格式包括如下格式, 图7中叉表示亮度分量采样点,圈表示每色度分量采样点:

4:4:4格式:表示色度分量没有下采样;

4:2:2格式:表示色度分量相对于亮度分量进行2:1的水平下采样,没有竖直下采样。 对于每两个U采样点或V采样点,每个扫描行都包含四个Y采样点;

4:2:0格式:表示色度分量相对于亮度分量进行2:1的水平下采样与2:1的竖直下采 样。

在视频图像采用YUV4:2:0格式的情况下,若图像块的亮度分量为2Nx2N大小的图像块, 则图像块的色度分量为NxN大小的图像块。本发明实施例将以4:2:0格式为例解释本发明方 案技术。但可以理解的,本发明技术方案除了用于YUV4:2:0格式外,还可以用于YUV其它 格式,或者其它视频图像格式中不同分量间的相互预测,如RGB格式等。另一方面,当前 块可以是方形块,也可以是非方形的矩形块或其它形状区域,本发明实施例提供的技术方 案同样适用。

为方便叙述,本发明实施例采用第一信号分量和第二信号分量的表述。若图像信号包 括亮度信号分量与色度信号分量,则第一信号分量可以是色度分量,第二信号分量可以是 亮度分量;若图像信号包括R、G、B三个信号分量,则第一信号分量可以是R、G、B三个信号分量中任意一个信号分量,第二信号分量可以是与第一信号分量不同的R、G、B三个信 号分量中的一个信号分量;若按照其它方式将图像信号分解为多个信号分量,则可采用类 似的方法规定第一信号分量与第二信号分量。

如下面具体描述,本申请实施例可以输入质量因子到码率控制模块(或称为码率分配 控制模块),该模块生成各分量特征图的控制信号;各分量的控制信号的控制向量与对应 的特征图相乘,得到量化后即待编码的特征值。

如图7A所示,为本发明实施例提供的面向YUV码率分配的AI图像译码系统700,可用于 视频图像编码器和解码器。如图7A所示,图像译码系统700包括编码端的第一信号分量处 理模块(如Y分量处理模块)、第二信号分量处理模块(如UV分量处理模块)、码率分配控制模块、熵编码模块;以及解码端的第一信号分量处理模块(Y分量处理模块2)、第二 信号分量处理模块(如UV分量处理模块2)、熵解码模块。图像译码系统700可选地包含联 合处理模块、联合处理模块2、以及质量响应模块(也可称为码率分配控制模块2、或者码 率控制模块2)。图像译码系统700中Y分量质量因子、UV分量质量因子输入码率分配控制 模块,该模块输出控制信号分别作用于Y分量处理模块的Y分量特征图、UV分量处理模块的 UV分量特征图(可以称为第一特征图),输出各信号分量的第二特征图,从而实现Y、UV 的码率分配。随后,根据各信号分量的第二特征图,获得视频信号的码流。比如,Y分量 处理模块、UV分量处理模块输出的特征图直接级联在一起,或Y分量处理模块、UV分量处 理模块输出的特征图直接相加,形成编码器最终输出的特征图,对该特征图进行熵编码。 可选的,Y分量处理模块、UV分量处理模块输出的特征图输入联合处理模块,得到编码器 最终输出的特征图,对该特征图进行熵编码。

在图7A所示的架构中,图7B为一种编码方法的实施例。步骤701,根据第一信号分量的质量因子,获得所述第一信号分量的控制信号。步骤702,根据第二信号分量的质量 因子,获得所述第二信号分量的控制信号。比如,图7B所示的实施例可以根据所述第一 信号分量的质量因子从N个候选第一控制信号中,获得所述第一信号分量的控制信号,其 中N为大于1的整数;以及根据所述第二信号分量的质量因子从M个候选第二控制信号中, 获得所述第二信号分量的控制信号,其中M为大于1的整数。N和M可以相等或者不等, 本申请对此不作限定。

步骤703,把所述第一信号分量的控制信号作用于所述第一信号分量的第一特征图, 获得所述第一信号分量的第二特征图。步骤704,把所述第二信号分量的控制信号作用于 所述第二信号分量的第一特征图,获得所述第二信号分量的第二特征图。

比如,在一种实施例中所述控制信号由网络学习产生,作用于Y分量处理模块、UV分量处理模块中各模块中至少一层网络的特征图(可以称为第一特征图),然后输出第二特征图。例如,作用于最后一层网络的输出。

步骤705,根据所述第一信号分量的第二特征图和所述第二信号分量的第二特征图, 获得所述视频信号的码流。

由于控制信号可以作用于Y分量处理模块、UV分量处理模块中各模块中任何一层网 络的第一特征图,因此输出第二特征图之后,可以对第二特征图继续进行神经网络的处理。 则相应地,根据Y分量的第二特征图和UV分量的第二特征图,获得所述视频信号的码流包括:

对所述第一信号分量的第二特征图和所述第二信号分量的第二特征图,进行熵编码, 以获得所述视频信号的码流;或者,

对所述第一信号分量的第二特征图和经神经网络处理的所述第二信号分量的第二特 征图,进行熵编码,以获得所述视频信号的码流;或者,

对经神经网络处理的所述第一信号分量的第二特征图和所述第二信号分量的第二特 征图,进行熵编码,以获得所述视频信号的码流;或者,

对经神经网络处理的所述第一信号分量的第二特征图和经神经网络处理的所述第二 信号分量的第二特征图,进行熵编码,以获得所述视频信号的码流。

当图像译码系统700包含联合处理模块,根据所述第一信号分量的第二特征图和所述 第二信号分量的第二特征图,获得所述视频信号的码流包括:

对所述第一信号分量的第二特征图和所述第二信号分量的第二特征图,进行联合处理, 获得联合的特征图,对所述联合的特征图进行熵编码,以获得所述视频信号的码流;或者,

对所述第一信号分量的第二特征图和经神经网络处理的所述第二信号分量的第二特 征图,进行联合处理,获得联合的特征图,对所述联合的特征图进行熵编码,以获得所述 视频信号的码流;或者,

对经神经网络处理的所述第一信号分量的第二特征图和所述第二信号分量的第二特 征图,进行联合处理,获得联合的特征图,对所述联合的特征图进行熵编码,以获得所述 视频信号的码流;或者,

对经神经网络处理的所述第一信号分量的第二特征图和经神经网络处理的所述第二 信号分量的第二特征图,进行联合处理,获得联合的特征图,对所述联合的特征图进行熵 编码,以获得所述视频信号的码流。

具体说明如下:

当控制信号包括Y、UV特征图的控制向量:码率分配控制模块学习生成所述第一信号 分量的N个候选第一控制信号(如控制向量矩阵{q

当控制信号包括Y、UV特征图的控制向量及偏移向量:如前述方法,根据所述Y分量的质量因子的索引i得到所述第一信号分量的控制向量q

在另一种实施例中,Y分量的控制信号和UV分量的控制信号作为二元组,码率分配控制模块学习生成视频信号的N个候选控制信号(如控制向量矩阵{q

在再一种实施例中,Y分量质量因子、UV分量质量因子作为全连接网络的输入,输出 控制向量q

解码端对接收到的码流进行熵解码得到特征图,特征图分解为Y分量特征图、UV分量 特征图。可选的,熵解码得到特征图先输入联合处理子模块2,得到Y分量特征图、UV分量特征图。

Y分量特征图、UV分量特征图分别输入Y分量处理模块2、UV分量处理模块2输出Y分量 重建图、UV分量重建图。可选的,Y分量质量因子、UV分量质量因子输入质量响应模块,该模块输出响应信号分别作用于Y分量处理模块的Y分量特征图、UV分量处理模块的UV分量特征图,从而实现Y、UV分量的自适应质量响应。质量响应也可以称为质量控制,只是为 了与编码端的质量控制进行区分,在解码端称为质量响应。

具体来说,以图7C为例,步骤711,解码端从编码端获得视频信号的码流,对所述码流进行熵解码以获得所述视频信号的第一信号分量(如Y分量)的特征图和所述视频信号的第二信号分量(如UV分量)的特征图。

解码端还会从码流中获得所述第一信号分量的质量因子信息和所述第二信号分量的 质量因子信息,其中所述第一信号分量的质量因子信息为所述第一信号分量的质量因子或 者所述第一信号分量的质量因子的索引,所述第二信号分量的质量因子信息为所述第二信 号分量的质量因子或者所述第二信号分量的质量因子的索引。然后通过所述第一信号分量 的质量因子信息,获得所述第一信号分量的响应信号;通过所述第二信号分量的质量因子 信息,获得所述第二信号分量的响应信号。当所述第一信号分量的质量因子信息为所述第 一信号分量的质量因子时,所述第一信号分量的质量因子取值为N个中的一个;当所述第 一信号分量的质量因子信息为所述第一信号分量的质量因子的索引时,所述第一信号分量 的质量因子的索引的取值范围为0至N-1或者1至N,其中N为大于1的整数。类似的, 当所述第二信号分量的质量因子信息为所述第二信号分量的质量因子时,所述第二信号分 量的质量因子取值为M个中的一个;当所述第二信号分量的质量因子信息为所述第二信号 分量的质量因子的索引时,所述第二信号分量的质量因子的索引的取值范围为0至M-1或 者1至M,其中M为大于1的整数。

当编码端传递过来的为联合的特征图时,解码端还需要对所述联合的特征图进行熵解 码,并经神经网络处理获得所述第一信号分量的特征图和所述第二信号分量的特征图。

步骤712,通过所述第一信号分量的质量因子信息,获得所述第一信号分量的响应信 号。步骤713,通过所述第二信号分量的质量因子信息,获得所述第二信号分量的响应信号。

在一种实施例中,若所述码流中包括所述Y分量的质量因子的索引i和所述UV分量的质量因子的索引j,则解码端需要通过学习生成所述第一信号分量的响应信号矩阵 {g

在另一种实施例中,若所述码流中包括所述视频信号的质量因子的索引i,则解码端 需要通过学习生成所述视频信号的响应信号矩阵{g

在再一种实施例中,若所述码流中包括所述第一信号分量的质量因子和第二信号分量 的质量因子,则所述解码端将所述Y分量的质量因子作为全连接网络的输入,输出所述Y 分量的响应信号;将所述UV分量的质量因子作为全连接网络的输入,输出所述UV分量的 响应信号。

步骤714,根据所述第一信号分量的响应信号和所述第一信号分量的特征图,获得所 述第一信号分量的重建图。步骤715,根据所述第二信号分量的响应信号和所述第二信号 分量的特征图,获得所述第二信号分量的重建图。

当所述响应信号包括响应向量,则根据所述第一信号分量的响应信号和所述第一信号 分量的特征图,获得所述第一信号分量的重建图包括:

将所述第一信号分量的响应向量和所述第一信号分量的特征图相乘,获得所述第一信 号分量的重建图;或将所述第一信号分量的响应向量和所述第一信号分量的特征图相乘后 并且再经神经网络处理,获得所述第一信号分量的重建图。

则根据所述第二信号分量的响应信号和所述第二信号分量的特征图,获得所述第二信 号分量的重建图包括:

将所述第二信号分量的响应向量和所述第二信号分量的特征图相乘,获得所述第二信 号分量的重建图;和将所述第二信号分量的响应向量和所述第二信号分量的特征图相乘后 并且再经神经网络处理,获得所述第二信号分量的重建图。

当所述响应信号包括响应向量和偏移向量,则根据所述第一信号分量的响应信号和所 述第一信号分量的特征图,获得所述第一信号分量的重建图包括:

将所述第一信号分量的响应向量与所述第一信号分量的特征图相乘,再与所述第一信 号分量的偏移向量相加,获得所述第一信号分量的重建图;或将所述第一信号分量的响应 向量与所述第一信号分量的特征图相乘,再与所述第一信号分量的偏移向量相加后并且再 经神经网络处理,获得所述第一信号分量的重建图。

则根据所述第二信号分量的响应信号和所述第二信号分量的特征图,获得所述第二信 号分量的重建图包括:

将所述第二信号分量的响应向量与所述第二信号分量的特征图相乘,再与所述第二信 号分量的偏移向量相加,获得所述第二信号分量的重建图;或将所述第二信号分量的响应 向量与所述第二信号分量的特征图相乘,再与所述第二信号分量的偏移向量相加,并且再 经神经网络处理,获得所述第二信号分量的重建图。

步骤716根据所述第一信号分量的重建图和所述第二信号分量的重建图,重建所述视 频信号。

如图7D所示,为本发明实施例提供的面向YUV码率分配的AI图像译码系统710,可用于 视频图像编码器和解码器。如图7D所示,图像译码系统710包括编码端的第一信号分量处 理模块(如Y分量处理模块)、第二信号分量处理模块(如U分量处理模块)、第三信号分量处理模块(如V分量处理模块)、码率分配控制模块、熵编码模块;以及解码端的第一 信号分量处理模块(Y分量处理模块2)、第二信号分量处理模块(如U分量处理模块2)、 第三信号分量处理模块(如V分量处理模块2)、熵解码模块。图像译码系统710可选地包 含联合处理模块、联合处理模块2、以及质量响应模块(也可称为码率分配控制模块2、或 者码率控制模块2)。图像译码系统710中Y分量质量因子、U分量质量因子以及V分量质量 因子输入码率分配控制模块,该模块输出控制信号分别作用于Y分量处理模块的Y分量特征 图、U分量处理模块的U分量特征图、以及V分量处理模块的V分量特征图(可以称为第一 特征图),输出各信号分量的第二特征图,从而实现Y、U、V的码率分配。随后,根据各 信号分量的第二特征图,获得视频信号的码流。比如,Y分量处理模块、U分量处理模块、 V分量处理模块输出的特征图直接级联在一起,或Y分量处理模块、U分量处理模块、V分量 处理模块输出的特征图直接相加,形成编码器最终输出的特征图,对该特征图进行熵编码。 可选的,Y分量处理模块、U分量处理模块和V分量处理模块输出的特征图输入联合处理模 块,得到编码器最终输出的特征图,对该特征图进行熵编码。

图7D所示实施例可以根据所述第一信号分量(Y分量)的质量因子从N个候选第一控制 信号中,获得所述第一信号分量的控制信号;根据所述第二信号分量(U分量)的质量因 子从M个候选第二控制信号中,获得所述第二信号分量的控制信号;根据所述第三信号分 量(V分量)的质量因子从L个候选第三控制信号中,获得所述第三信号分量的控制信号。N,M和L为大于1的整数,可以相等或者不等,本申请对此不作限定。

在图7D所示的架构中,编解码方法与图7B和7C类似,说明如下:

比如,在一种实施例中所述控制信号由网络学习产生,作用于Y分量处理模块、U分量处理模块、V分量处理模块中各模块中至少一层网络的特征图(可以称为第一特征图),然后输出第二特征图。例如,作用于最后一层网络的输出。由于控制信号可以作用于Y分 量处理模块、U分量处理模块中、V分量处理模块中各模块中任何一层网络的第一特征图, 因此输出第二特征图之后,可以对第二特征图继续进行神经网络的处理。则相应地,根据 Y分量的第二特征图、U分量的第二特征图和V分量的第二特征图,获得所述视频信号的 码流包括:

对所述第一信号分量的第二特征图、所述第二信号分量的第二特征图和所述第三信号 分量的第二特征图,进行熵编码,以获得所述视频信号的码流;或者,

对所述第一信号分量的第二特征图、经神经网络处理的所述第二信号分量的第二特征 图,和所述第三信号分量的第二特征图,进行熵编码,以获得所述视频信号的码流;或者,

对所述第一信号分量的第二特征图、经神经网络处理的所述第二信号分量的第二特征 图,和经神经网络处理的所述第三信号分量的第二特征图,进行熵编码,以获得所述视频 信号的码流;或者,

对所述第一信号分量的第二特征图、所述第二信号分量的第二特征图,和经神经网络 处理的所述第三信号分量的第二特征图,进行熵编码,以获得所述视频信号的码流;或者,

对经神经网络处理的所述第一信号分量的第二特征图、所述第二信号分量的第二特征 图和所述第三信号分量的第二特征图,进行熵编码,以获得所述视频信号的码流;或者,

对经神经网络处理的所述第一信号分量的第二特征图、经神经网络处理的所述第二信 号分量的第二特征图,和所述第三信号分量的第二特征图,进行熵编码,以获得所述视频 信号的码流;或者

对经神经网络处理的所述第一信号分量的第二特征图、经神经网络处理的所述第二信 号分量的第二特征图,和经神经网络处理的所述第三信号分量的第二特征图,进行熵编码, 以获得所述视频信号的码流;或者,

对经神经网络处理的所述第一信号分量的第二特征图、所述第二信号分量的第二特征 图,和经神经网络处理的所述第三信号分量的第二特征图,进行熵编码,以获得所述视频 信号的码流。

当图像译码系统710包含联合处理模块时,还可以对前述获得的第二特征图或者经过 经过处理的特征图以及组合,进行联合处理,获得联合的特征图,对所述联合的特征图进 行熵编码,以获得所述视频信号的码流。

具体说明如下:

当控制信号包括Y、U、V特征图的控制向量:码率分配控制模块学习生成所述第一信 号分量的N个候选第一控制信号(如控制向量矩阵{q

当控制信号包括Y、U、V特征图的控制向量及偏移向量:如前述方法,使用时使用时根据所述Y分量质量因子的索引i得到所述第一信号分量的控制向量q

在另一种实施例中,Y分量的控制信号、U分量、V分量的控制信号作为三元组,码率分配控制模块学习生成视频信号的N个候选控制信号(如控制向量矩阵 {q

在再一种实施例中,Y分量质量因子、U分量质量因子、V分量质量因子作为全连接网络的输入,输出控制向量q

解码端对接收到的码流进行熵解码得到特征图,特征图分解为Y分量特征图、U分量特 征图、和V分量特征图。可选的,熵解码得到特征图先输入联合处理子模块2,得到Y分量 特征图、U分量特征图、V分量特征图。

Y分量特征图、U分量特征图、V分量特征图分别输入Y分量处理模块2、U分量特征图2、 V分量处理模块2输出Y分量重建图、U分量重建图、V分量重建图。可选的,Y分量质量因子、 U分量质量因子、V分量质量因子输入质量响应模块,该模块输出控制信号分别作用于Y分 量处理模块的Y分量特征图、U分量处理模块的U分量特征图、V分量处理模块的V分量特征 图,从而实现Y、U、V分量的自适应质量响应。

所述响应信号产生方式与控制信号类似,只是便于区分,编码端称为控制信号,解码 端称为响应信号。

具体来说,解码端从编码端获得视频信号的码流;对所述码流进行熵解码以获得所述 视频信号的第一信号分量(如Y分量)的特征图、所述视频信号的第二信号分量(如U分量)的特征图、和所述视频信号的第二信号分量(如V分量)的特征图;根据所述第一信 号分量的响应信号和所述第一信号分量的特征图,获得所述第一信号分量的重建图,其中 所述第一信号分量的响应信号通过学习获得;根据所述第二信号分量的响应信号和所述第 二信号分量的特征图,获得所述第二信号分量的重建图,其中所述第二信号分量的响应信 号通过学习获得;根据所述第三信号分量的响应信号和所述第三信号分量的特征图,获得 所述第三信号分量的重建图,其中所述第三信号分量的响应信号通过学习获得,以及根据 所述第一信号分量的重建图、所述第二信号分量的重建图、和所述第三信号分量的重建图,重建所述视频信号。

解码端还会从码流中获得所述第一信号分量的质量因子信息、所述第二信号分量的质 量因子信息和所述第三信号分量的质量因子信息。其中所述第一信号分量和第二信号分量 的质量因子信息与图7A实施例类似。类似的,所述第三信号分量的质量因子信息也可以 为所述第三信号分量的质量因子或者所述第三信号分量的质量因子的索引。然后通过所述 第三信号分量的质量因子信息,获得所述第三信号分量的响应信号。当所述第三信号分量 的质量因子信息为所述第三信号分量的质量因子时,所述第三信号分量的质量因子取值为 L个中的一个;当所述第三信号分量的质量因子信息为所述第三信号分量的质量因子的索 引时,所述第一信号分量的质量因子的索引的取值范围为0至L-1或者1至L,其中L为 大于1的整数。L,M,N可以相等或者不等,本申请对此不作限定。

当编码端传递过来的为联合的特征图时,解码端还需要对所述联合的特征图进行熵解 码,并经神经网络处理获得所述第一信号分量的特征图、所述第二信号分量的特征图、和 所述第三信号分量的特征图。

在一种实施例中,若所述码流中包括所述Y分量的质量因子的索引i所述U分量的质 量因子的索引j,和所述V分量的质量因子的索引k,则解码端需要通过学习生成所述第一信号分量的响应信号矩阵{g

在另一种实施例中,若所述码流中包括所述视频信号的质量因子的索引i,则解码端 需要通过学习生成所述视频信号的响应信号矩阵{g

在再一种实施例中,若所述码流中包括所述第一信号分量的质量因子、所述第二信号 分量的质量因子和所述第三信号分量的质量因子,则所述解码端将所述Y分量的质量因子 作为全连接网络的输入,输出所述Y分量的响应信号;将所述U分量的质量因子作为全连 接网络的输入,输出所述U分量的响应信号;将所述V分量的质量因子作为全连接网络的输入,输出所述V分量的响应信号。

获得所述第一信号分量和第二信号分量的重建图如图7A类似,此处不再赘述。

在一种实施例中,当所述响应信号包括响应向量,则根据所述第三信号分量的响应信 号和所述第三信号分量的特征图,获得所述第三信号分量的重建图包括:

将所述第三信号分量的响应向量和所述第三信号分量的特征图相乘,获得所述第三信 号分量的重建图;或将所述第三信号分量的响应向量和所述第三信号分量的特征图相乘后 并且再经神经网络处理,获得所述第三信号分量的重建图。

在再一种实施例中,当所述响应信号包括响应向量和偏移向量,则根据所述第三信号 分量的响应信号和所述第三信号分量的特征图,获得所述第三信号分量的重建图包括:

将所述第三信号分量的响应向量与所述第三信号分量的特征图相乘,再与所述第三信 号分量的偏移向量相加,获得所述第三信号分量的重建图;或将所述第三信号分量的响应 向量与所述第三信号分量的特征图相乘,再与所述第三信号分量的偏移向量相加后并且再 经神经网络处理,获得所述第三信号分量的重建图。

实施例7A对UV分量组合合并处理,7D对Y、U、V三个分量单独进行处理,也可以 进行组合合并处理,例如组合成Y、UV两种分量,或Y、U、V的其他组合。

图8A和8B给出一种具体的实施例。本实施例的技术方案整体框图如图8A所示,其中,Y分量质量因子、UV分量质量因子输入码率分配控制模块,该模块输出控制向量q

解码端通过Y分量质量因子、UV分量质量因子输入质量响应模块,该模块输出控制向量g

本实施例不对Y分量处理模块、UV分量处理模块、联合处理模块、概率估计模块、 Y分量处理模块2、UV分量处理模块2、联合处理模块2的具体网络结构做约束,为便于 理解图8B给出一种具体示例。

第一步,获取Y、UV分量的特征图:

将Y、UV分量分别输入Y分量处理模块、UV分量处理模块,网络输出Y、UV分量的 特征图。以图8B为例,Y分量处理模块包含两层卷积层和两层非线性层,两个卷积层中 水平、垂直方向下采样因子均为2,Y分量处理模块输出Y分量特征图。UV分量处理模块 包含两层卷积层和两层非线性层,第一层卷积层水平和垂直方向下采样因子为1,即不进 行无下采样操作。UV分量处理模块第二层卷积层水平和垂直方向下采样因子为2。UV分 量处理模块输出UV分量特征图。经过上述网络处理后,对于YUV420的数据格式,Y分量 特征图与UV分量特征图宽、高相同。

类似YUV420数据格式的处理方式,对于YUV444、YUV422等数据格式,通过控制卷积层数目、水平和垂直方向的下采样因子使得Y分量特征图与UV分量特征图宽、高相同。

第二步,Y分量质量因子、UV分量质量因子输入码率分配模块获取控制向量q

码率分配模块由控制矩阵Q

以图8B为例,控制矩阵Q

第三步,待编码的特征图输入熵编码模块,输出码流。以图8B为例,待编码的特征图输入编码的特征图Hyper Entropy模块,输出待编码符号的概率分布。基于所述待编码符号的概率分布进行算术编码,输出码流。同时,Y分量质量因子、UV分量质量因子信 息写入码流。

Y分量质量因子、UV分量质量因子信息可采用如下三种方式进行表达写入码流:

方案一:预定义Y分量和UV分量质量因子候选值数目及候选值,将Y分量质量因子、UV分量质量因子在各自候选列表中的索引号传递至解码端。以N为4、M为3为例,Y分 量质量因子可选值为{0.5,0.7,0.8,1.0},UV分量质量因子可选值为{0.15,0.2,0.25}, 将Y分量索引号i,UV分量索引号j写入码流,i,j取值为0,1,2,3,当i为1时,表示 Y分量质量因子为0.7,当j为0时,表示UV分量质量因子为0.15。

方案二:预定义Y分量和UV分量质量因子组合后的候选值数目及候选值,例如,Y、UV分量质量因子组合值的候选数目为6,候选列表为{(0.5,0.25)、(0.7,0.15)、

(0.7,0.25)、(0.8,0.1)、(0.8,0.2)、(1.0,0.2)},将索引号i写入码流,i取值为0,1,2,3,4,5,当i为1时,表示Y、U、V分量质量因子为(0.7,0.15)。

方案三:直接将Y分量质量因子和UV分量质量因子写入码流传递至解码端,例如,将(1.0,0.2)写入码流。

第四步,码流输入熵解码模块,进行算术解码得到特征图及Y分量质量因子、UV 分量质量因子。以图8B为例,基于Hyper Entropy模块估计的概率分布进行算术解码。

第五步,解码得到特征图输入联合处理模块2,输出通道数为M的特征图,将通道数为M的特征图拆分为通道数为K的Y分量特征图、通道数为L的UV分量特征图。拆分 方案保证K≤M,L≤M即可。其中,当K=L=M时,表示将Y分类特征图与UV分量特征图 相同,均为通道数为M的特征图。以图8B为例,联合处理模块2包含二层卷积层,一层 非线性层。

第六步,Y分量质量因子、UV分量质量因子输入质量响应模块获取响应向量g

质量响应模块由响应矩阵G

其中,响应矩阵G

可选地,对控制矩阵Q

本实施例对上述步骤1至步骤7涉及的网络模块及控制矩阵参数进行训练学习。具体的,本申请使用自适应矩估计(Adaptive Moment Estimation,Adam)优化算法对神经 网络进行优化训练,ImgeNet数据集为训练数据集。由于本网络结构面向图像编码,训练 优化目标为最小化码率-失真联合损失函数,其函数表达式为:

其中,p(y)代表概率估计器估计的概率分布,x

以N为4为例,Y、U、V分量质量因子(w

本实施例中提及编解码器中去除联合处理模块或/和联合处理模块2或/和质量响应 模块时,本申请其他实施例中依然适用。

本实施例给出Y、U、V分量组合为Y、UV两种分量的情况下的技术方案,对Y、U、 V的其他组合例如{YU、V}、{YV、U},本申请的解决思路依然适用。

同样,将UV分量进一步拆分为U分量、V分量分别处理,本申请的解决思路依然适用。

在现有端到端图像编码中,对于某一特定网络学习优化时,按固定Y、U、V分量权重值进行优化,因此,YUV分量的码率固定。由于不同图像色彩特性不同,固定码率分配 会导致部分视频图像内容上编码性能较差的现象。可简单通过按照多组不同Y、U、V分量 权重值训练多个模型,以实现YUV分量不同码率分配,但这样会增加模型数目,且训练多 个模型花费大量计算资源及时间。相比于现有技术,本申请基于Y、U、V分量权重值导出 网络学习得到的控制向量,根据控制向量对Y、UV分量的特征图进行不同程度的失真控制, 实现Y、UV分量的码率分配。从而本申请具有以下优势:

1)支持YUV分量间的码率分配,达到适配不同色彩特性的图像内容。

2)减少训练多个模型的时间花费,同时也减少模型新增的网络参数量。

图9A和9B给出一种具体的实施例。在图9A和9B实施例的基础上,本实施例采用 U分量处理模块、V分量处理模块分别处理U分量、V分量数据。本实施例,将Y分量质 量因子、U分量质量因子、V分量质量因子作为码率分配控制模块的输入,输出控制信号 对Y分量处理模块、U分量处理模块、V分量处理模块中的任意层特征图进行处理,实现 Y、U、V分量间的码率分配。解码端,将Y分量质量因子、U分量质量因子、V分量质量 因子作为质量响应模块的输入,输出控制信号对Y分量处理模块、U分量处理模块、V分 量处理模块中的任意层特征图进行质量增益响应。本申请不对码率分配控制模块、质量响 应模块、Y分量处理模块、U分量处理模块、联合处理模块、Y分量处理模块2、U分量处 理模块2、V分量处理模块2、联合处理模块2、熵编码模块、熵解码模块的具体网络结构 做约束,为便于理解图9A给出一种具体示例。

以图9B为例,第一步,Y分量质量因子、U分量质量因子、V分量质量因子输入码 率分配控制模块,该模块由全连接网络组成,模块输出控制信号:控制向量、偏移向量。

第二步,待编码Y、U、V信号分别输入Y分量处理模块、U分量处理模块、V分量 处理模块。以Y分量处理模块为例,该模块中每个卷积层输出的特征图与其相对应的控制 向量逐通道相乘,然后与其相对应的偏移向量逐通道相加。模块中非线性层输出的特征图 与其相对应的控制向量逐通道相乘。Y分量处理模块中每层网络的输出均经码率控制模块 的控制信号进行处理。U、V分量的处理方式与Y分量类似。

图9B给出一种具体网络结构的示意图,Y分量处理模块、U分量处理模块、V分量 处理模块的网络结构除第一层卷积层外,其他网络层均相同。对于YUV422格式,Y分量 处理模块中第一层卷积层水平和垂直方向下采样因子为2。U分量处理模块、V分量处理 模块中第一层卷积层水平下采样因子为1即不进行下采样操作,垂直方向下采样因子为2。 对于YUV420格式,Y分量处理模块中第一层卷积层水平和垂直方向下采样因子为2。U分 量处理模块、V分量处理模块中第一层卷积层水平和垂直方向下采样因子为1,即均不进 行下采样操作。

第三步,将Y分量特征图、U分量特征图、V分量特征图级联拼接在一起形成待编码的特征图,输入熵编码模块,输出码流。以图9B为例,待编码的特征图输入编码的特征 图Hyper Entropy模块,输出待编码符号的概率分布。基于所述待编码符号的概率分布进 行算术编码,输出码流。同时,Y分量质量因子、U分量质量因子、U分量质量因子信息 写入码流。

第四步,码流输入熵解码模块,进行算术解码得到特征图及Y分量质量因子、U分量质量因子、V分量质量因子信息。以图9B为例,基于Hyper Entropy模块估计的概率 分布进行算术解码。

第六步,将解码得到的特征图输入联合处理模块2,输出的特征图。

第七步,Y分量质量因子、U分量质量因子、V分量质量因子输入质量响应模块获取响应向量g

Y分量质量因子、U分量质量因子、V分量质量因子输入质量响应模块,该模块由全连接网络组成,模块输出响应向量g

可选的,类似实施例一响应向量获取方式,质量响应模块由响应矩阵G

网络训练过程与图8A和8B实施例类似,不再赘述。

本实施例中控制信号作用于Y分量处理模块、U分量处理模块、V分量处理模块中每层网络的输出,可选的,控制信号只作用于Y分量处理模块、U分量处理模块、V分量处 理模块中部分网络的输出。

本实施例中响应信号只作用于Y分量处理模块、U分量处理模块、V分量处理模块中间一层网络的输出,可选的,控制信号作用于Y分量处理模块、U分量处理模块、V分量 处理模块中任意一层或多层网络的输出。

本实施例中提及编解码器去除联合处理模块2或/和质量响应模块时,本申请技术依 然适用。

本实施例中提及编解码器中增加联合处理模块时,本申请技术依然适用。

本实施例给出Y、U、V作为三种分量分别处理的情况下的技术方案,对Y、U、V的 其他组合例如{YU、V}、{YV、U}、{Y、UV},本申请技术的解决思路依然适用。

根据前面实施例的描述,本申请中本发明中YUV不同分量的质量因子输入码率分配 控制模块,该模块输出控制信号分别作用于不同分量的特征图,从而实现不同分量的码率 分配。所述不同分量可指Y、U、V三种分量,Y、UV两种分量,或Y、U、V的其他组合。

可选的,所述控制信号指控制向量q

可选的,所述控制信号指控制向量q、偏移向量b,不同分量的质量因子作为全连接网络的输入,输出不同分量相应的控制向量q、偏移向量b。

因此,本申请提供的实施例能够:

1)适配不同色彩特性的图像内容,通过控制向量支持YUV分量间的码率分配。

2)减少训练多个模型的时间花费,同时也减少模型新增的网络参数量。

图10是示出根据本申请一种实施例的编码装置1000的结构示意图。该编码装置可以对应于视频编码器20。该编码装置1000包括第一控制模块1001、第一控制模块1002 和编码模块1003。其中,第一控制模块1001,用于把所述视频信号的第一信号分量的控 制信号作用于所述第一信号分量的第一特征图,获得所述第一信号分量的第二特征图,其 中所述第一信号分量的控制信号通过学习获得;第二控制模块1002,用于把所述视频信 号的第二信号分量的控制信号作用于所述第二信号分量的第一特征图,获得所述第二信号 分量的第二特征图,其中所述第二信号分量的控制信号通过学习获得;以及编码模块1003, 用于根据所述第一信号分量的第二特征图和所述第二信号分量的第二特征图,获得所述视 频信号的码流。该编码装置1000还可以包括前面实施例介绍的码率分配控制模块。编码 装置1000用于实现前述实施例介绍的编码方法,详细的功能参见前面实施例的描述,此 处不再重复描述。

图11是示出根据本申请一种实施例的解码装置1100的结构示意图。该解码装置1100 可以对应于视频解码器30。该解码装置1100包括解码模块1101、第一控制模块1102、第一控制模块1103和重建模块1104。其中,解码模块1101,用于获得所述视频信号的码 流,对所述码流进行熵解码以获得所述视频信号的第一信号分量的特征图和所述视频信号 的第二信号分量的特征图;第一控制模块1102,用于根据所述第一信号分量的响应信号 和所述第一信号分量的特征图,获得所述第一信号分量的重建图,其中所述第一信号分量 的响应信号通过学习获得;第二控制模块1103,用于根据所述第二信号分量的响应信号 和所述第二信号分量的特征图,获得所述第二信号分量的重建图,其中所述第二信号分量 的响应信号通过学习获得;以及重建模块1104,用于根据所述第一信号分量的重建图和 所述第二信号分量的重建图,重建所述视频信号。该解码装置1100还可以包括前面实施 例介绍的质量响应模块。解码装置1100用于实现前述实施例介绍的解码方法,详细的功 能参见前面实施例的描述,此处不再重复描述。

本领域技术人员能够领会,结合本文公开描述的各种说明性逻辑框、模块和算法步 骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数 据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描 述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可 读媒体。

作为实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且,任何连接被恰当地称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订 户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指 令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包 含在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包括连 接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所 使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)和蓝 光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上 各项的组合也应包含在计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、 现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指 令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的 技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的各种说明性逻辑 框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软 件模块内,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻 辑元件中。

本申请的技术可在各种各样的装置或设备中实施,包含无线手持机、集成电路(IC) 或一组IC(例如,芯片组)。本申请中描述各种组件、模块或单元是为了强调用于执行所 揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述, 各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中,或者通过互操作硬 件单元(包含如上文所描述的一或多个处理器)来提供。

以上所述,仅为本申请示例性的具体实施方式,但本申请的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围 为准。

技术分类

06120114791851