掌桥专利:专业的专利平台
掌桥专利
首页

视频编码器、视频解码器及对应方法

文献发布时间:2023-06-19 10:32:14


视频编码器、视频解码器及对应方法

技术领域

本申请的实施例大体涉及视频译码领域,更具体地,涉及译码单元的划分和分割。

背景技术

视频译码(视频编码和解码)广泛用于数字视频应用,例如广播数字电视、基于互联网和移动网络的视频传输、视频聊天、视频会议等实时会话应用、DVD和蓝光光盘、视频内容采集和编辑系统以及安全应用的可携式摄像机。

自从1990年H.261标准中基于块的混合视频译码方法发展以来,新的视频译码技术和工具相继出现,为新的视频译码标准奠定了基础。其它视频译码标准包括MPEG-1视频、MPEG-2视频、ITU-T H.262/MPEG-2、ITU-T H.263、ITU-T H.264/MPEG-4,第10部分、高级视频译码(Advanced Video Coding,AVC)、ITU-T H.265/高效视频译码(High EfficiencyVideo Coding,HEVC)、ITU-T H.266/通用视频译码(Versatile Video Coding,VVC)以及扩展,例如这些标准的可扩展性和/或三维(three-dimensional,3D)扩展。随着视频创建和使用变得越来越广泛,视频流量成为通信网络和数据存储的最大负担。因此,与前代标准相比,大多数视频译码标准的目标之一是在保证图像质量的情况下,降低码率。即使最新的高效视频译码(High Efficiency Video Coding,HEVC)可以在保证图像质量的前提下比AVC大约多压缩视频一倍,仍然亟需新技术相对HEVC进一步压缩视频。

即使在视频较短的情况下也需要对大量的视频数据进行描述,当数据要在带宽容量受限的通信网络中发送或以其它方式发送时,这样可能会造成困难。因此,视频数据通常要先压缩然后在现代电信网络中发送。由于内存资源可能有限,当在存储设备中存储视频时,视频的大小也可能成为问题。视频压缩设备通常在信源侧使用软件和/或硬件,以在发送或存储之前对视频数据进行译码,从而减少用来表示数字视频图像所需的数据量。然后,压缩数据在目的地侧由用于对视频数据进行解码的视频解压缩设备接收。在有限的网络资源以及对更高视频质量的需求不断增长的情况下,需要改进压缩和解压缩技术,这些改进的技术在几乎不影响图像质量的情况下能够提高压缩比。

发明内容

本申请(或本发明)的实施例提供了独立权利要求所描述的编码和解码装置和方法。

上述和其它目的通过独立权利要求请求保护的主题来实现。其它实现方式在从属权利要求、说明书和附图中显而易见。

根据第一方面,本发明涉及一种视频解码方法。所述方法由解码设备执行。所述方法包括:确定当前块的大小是否大于最小允许四叉树叶节点大小;如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用多类型树划分;其中,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,或所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。

可以通过对图像或译码树单元(coding tree unit,CTU)进行划分来获得所述当前块。

所述方法可以包括两种情况:(1)树类型为SINGLE_TREE或DUAL_TREE_LUMA;(2)树类型为DUAL_TREE_CHROMA。对于情况(1),所述当前块为亮度块;对于情况(2),所述当前块为色度块。

所述最大允许二叉树根节点大小可以是可以使用二叉树划分来划分的亮度译码根块的以亮度采样点数量为单位的最大亮度块大小。

所述最大允许三叉树根节点大小可以是可以使用三叉树划分来划分的亮度译码根块的以亮度采样点数量为单位的最大亮度块大小。

所述最小允许四叉树叶节点大小可以是四叉树划分产生的亮度叶块的以亮度采样点数量为单位的最小亮度块大小。

这种方法有助于对图像/视频块的划分参数进行高效划分或指示。

此外,根据所述第一方面,在所述方法的一种可能的实现方式中,所述方法还包括确定图像的所述当前块是否为边界块的步骤。如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用多类型树划分包括:如果所述当前块为边界块且所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用二叉树划分。需要说明的是,在这种情况下,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小。因此,如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,所述当前块的所述大小不大于所述最大允许二叉树根节点大小,则上述对所述当前块应用多类型树划分包括:如果所述当前块为边界块且所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用二叉树划分。

所述方法还可以包括:获取通过对所述当前块应用二叉树直接或间接获得的块的重建块。

提供这种二叉树划分可以特别有利于图像/视频帧边界处的块,例如由边界切割的块。因此,在一些实现方式中,将该方法应用于边界块而不是应用于剩余块,这样做是有利的。然而,本发明并不限于此,如上所述,这种应用二叉树划分的方法也适用于非边界块并进行高效指示。

根据所述第一方面或上述实施例,在所述方法的一种可能的实现方式中,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,并且所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。

根据所述第一方面或上述实施例,在所述方法的一种可能的实现方式中,所述对所述当前块应用所述多类型树划分可以包括对所述当前块应用三叉树划分,或对所述当前块应用二叉树划分。然而,本发明并不限于此,通常,所述多类型树划分还可以包括其它不同种类的划分。

根据所述第一方面或上述实施例,在所述方法的一种可能的实现方式中,所述方法还可以包括:根据所述最小允许四叉树叶节点大小确定所述最大允许二叉树根节点大小。这有利于参数的高效指示/存储。例如,可以认为所述最大允许二叉树根节点大小等于所述最小允许四叉树叶节点大小。在另一示例中,可以认为所述最大允许二叉树根节点大小的下限值等于所述最小允许四叉树叶节点大小,所述最小允许四叉树叶节点大小可以用于确定所述最大允许二叉树根节点大小的有效性。然而,本发明并不限于此,可以假设其它关系来推导最大允许二叉树根节点大小。

根据一个示例性实施例,除了所述第一方面或上述实施例之外或替代所述第一方面或上述实施例,所述方法还包括将图像划分为块的步骤,其中,所述块包括所述当前块。所述对所述当前块应用二叉树划分包括:对具有最大边界多类型分割深度的所述边界块应用二叉树划分,其中,所述最大边界多类型分割深度至少为最大多类型树深度与最大多类型树深度偏移量之和,其中,所述最大多类型树深度大于0。此外,在一些实现方式中,当对所述边界块应用所述二叉树划分时,所述最大多类型树深度大于0。

根据所述第一方面或上述实施例,在所述方法的一种可能实现方式中,还可以包括将图像划分为块(所述块包括所述当前块)。所述对所述当前块应用多类型树划分包括:对具有最终最大多类型树深度的块的所述当前块应用多类型树划分,其中,所述最终最大多类型树深度至少为最大多类型树深度与最大多类型树深度偏移量之和,其中,所述最大多类型树深度大于或等于最小允许四叉树叶节点大小的Log2值减去最小允许变换块大小的Log2值,或所述最大多类型树深度大于或等于最小允许四叉树叶节点大小的Log2值减去最小允许译码块大小的Log2值。这对于更大的分割深度也有利于进一步划分。

所述当前块可以是非边界块。所述最大多类型树深度偏移量可以为0。或者或另外,所述当前块可以是边界块,所述多类型树划分为二叉树划分。所述多类型树划分可以是或包括三叉树划分。

根据第二方面,本发明涉及一种编码方法,所述方法由编码设备执行。所述方法包括以下步骤:确定当前块的大小是否大于最小允许四叉树叶节点大小;如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用多类型树划分;其中,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,或所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。

所述编码方法可以应用关于解码方法所述的任何上述规则和约束。因为编码端和解码端需要共享码流。具体地,编码端在对上述分割产生的分区进行译码之后生成码流,而解码端相应地解析码流并重建解码的分割。下文描述的与编码设备(编码器)和解码设备(解码器)相关的实施例也同样适用。

根据第三方面,本发明涉及一种解码设备,包括电路,所述电路用于:确定当前块的大小是否大于最小允许四叉树叶节点大小;如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用多类型树划分;其中,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,或所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。需要说明的是,可以根据解码端码流中的指示确定当前块的大小是否大于最小允许四叉树叶节点大小。

还根据第四方面,本发明涉及一种编码设备,包括电路,所述电路用于:确定当前块的大小是否大于最小允许四叉树叶节点大小;如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用多类型树划分;其中,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,或所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。

本发明第一方面所述的方法可由本发明第三方面所述的装置或设备执行。本发明第三方面所述的方法的其它特征和实现方式对应于本发明第一方面所述的装置的特征和实现方式。

本发明第二方面所述的方法可由本发明第四方面所述的装置或设备执行。本发明第四方面所述的方法的其它特征和实现方式对应于本发明第二方面所述的装置的特征和实现方式。

根据第五方面,本发明涉及一种用于对视频流进行解码的装置,包括处理器和存储器。所述存储器存储指令,所述指令使所述处理器执行根据所述第一方面所述的方法。

根据第六方面,本发明涉及一种用于对视频流进行编码的装置,包括处理器和存储器。所述存储器存储指令,所述指令使所述处理器执行根据所述第二方面所述的方法。

根据第七方面,提供一种储存有指令的计算机可读存储介质,所述指令在执行时使一个或多个处理器对视频数据进行译码。所述指令使所述一个或多个处理器执行根据所述第一方面或第一方面或所述第一方面或第二方面任意可能的实施例所述的方法。

根据第八方面,本发明涉及一种计算机程序,包括程序代码,所述程序代码用于在计算机中执行时执行所述第一方面或第二方面或所述第一方面或第二方面任意可能的实施例所述的方法。

根据第九方面,提供了一种非瞬时性计算机可读存储介质,存储由处理电路执行的程序,其中,所述处理电路执行所述程序时,所述处理电路执行上述任一种方法。

为了清楚起见,本文公开的任一实施例可以与其它实施例中的任意一个或多个实施例结合,在本发明的范围内产生新的实施例。

附图和以下描述对一个或多个实施例的细节进行了阐述。其它特征、目的和优点在说明、附图以及权利要求中是显而易见的。

附图说明

下文结合附图对本发明实施例进行详细描述。在附图中:

图1A为用于实现本发明实施例的视频译码系统的一个示例的框图;

图1B为用于实现本发明实施例的视频译码系统的另一示例的框图;

图2为用于实现本发明实施例的视频编码器示例的框图;

图3为用于实现本发明实施例的视频解码器的示例性结构的框图;

图4为示出编码装置或解码装置的一个示例的框图;

图5为示出编码装置或解码装置的另一示例的框图;

图6为使用四叉树-二叉树(quad-tree-binary-tree,QTBT)结构的块分割示例的说明性图;

图7为对应于图6的使用QTBT结构的块分割的树结构示例的说明性图;

图8为水平三叉树分割类型的示例的说明性图;

图9为垂直三叉树分割类型的示例的说明性图;

图10A-图10F示出了VVC中不同的CU划分模式;

图11A示出了HD(1920×1080)底边界CTU(128×128)强制QT分割;

图11B示出了本发明实施例提供的HD(1920×1080)底边界CTU(128×128)强制BT分割;

图12示出了示例性边界定义;

图13A示出了本发明实施例提供的角落情况强制QTBT分割的示例;

图13B示出了本发明实施例提供的位于角落处的块的强制QTBT分割的示例;

图14示出了边界定义的实施例;

图15为用于实现本发明实施例的视频编码器示例的框图;

图16为用于实现本发明实施例的视频解码器的示例性结构的框图;

图17为实现内容分发业务的内容供应系统3100的示例性结构的框图;

图18为示出终端设备示例结构的框图。

具体实施方式

以下描述中,参考附图,所述附图组成本发明一部分并以说明的方式示出本发明实施例的具体方面或可使用本发明实施例的具体方面。应理解,本发明实施例可在其它方面中使用,并可包括附图中未描述的结构变化或逻辑变化。因此,以下详细描述不应以限制性的意义来理解,本发明的范围由所附权利要求书界定。

例如,应理解,结合所描述方法的公开内容对用于执行所述方法的对应设备或系统也可以同样适用,反之亦然。例如,如果描述一个或多个具体方法步骤,则对应的设备可以包括一个或多个单元(例如,功能单元)来执行所描述的一个或多个方法步骤(例如,一个单元执行一个或多个步骤,或多个单元分别执行多个步骤中的一个或多个),即使附图中未明确描述或说明该一个或多个单元。另一方面,例如,如果根据一个或多个单元(例如,功能单元)来描述具体装置,则对应的方法可以包括一个步骤来实现一个或多个单元的功能(例如,一个步骤实现一个或多个单元的功能,或多个步骤分别实现多个单元中一个或多个单元的功能),即使附图中未明确描述或说明该一个或多个步骤。此外,应理解,除非另有说明,否则本文描述的各种示例性实施例和/或方面的特征可彼此组合。

视频译码通常指对构成视频或视频序列的图像序列进行处理。在视频译码领域中,术语“帧(frame)”或“图像(picture/image)”可以用作同义词。本申请(或本发明)中使用的视频译码表示视频编码或视频解码。视频编码在源侧执行,通常包括处理(例如,压缩)原始视频图像以减少表示视频图像所需的数据量(从而更高效存储和/或发送)。视频解码在目的地侧执行,通常包括相对于编码器作逆处理,以重建视频图像。实施例涉及的视频图像(或通常称为图像,将在下文解释)的“译码”应理解为视频序列的“编码”或“解码”。编码部分和解码部分也合称为编解码(编码和解码,CODEC)。

在无损视频译码情况下,可以重建原始视频图像,即重建的视频图像与原始视频图像具有相同的质量(假设存储或传输期间没有传输损耗或其它数据丢失)。在有损视频译码情况下,通过量化等进行进一步压缩来减少表示视频图像所需的数据量,而解码器侧无法完全重建视频图像,即重建的视频图像的质量比原始视频图像的质量更低或更差。

自H.261以来的几个视频译码标准属于“有损混合视频编解码器”组(即,将采样点域中的空间预测和时间预测与变换域中用于应用量化的2D变换译码结合)。视频序列中的每个图像通常分割成非重叠的块集合,通常基于块级进行译码。换句话说,编码器通常在块(视频块)级处对视频进行处理,即编码,例如,通过空间(帧内)预测和时间(帧间)预测来生成预测块;从当前块(当前处理/待处理的块)中减去预测块,获得残差块;在变换域中变换残差块并量化残差块,以减少待发送(压缩)的数据量,而解码器处将相对于编码器的逆处理部分应用于经编码或压缩的块,以重建用于表示的当前块。此外,编码器重复解码器的处理步骤,使得编码器和解码器生成相同的预测(例如,帧内预测和帧间预测)和/或重建,用于对后续块进行处理(即译码)。

如本文所使用的,术语“块”可以是图像或帧的一部分。为便于描述,本文参考由ITU-T视频译码专家组(Video Coding Experts Group,VCEG)和ISO/IEC运动图像专家组(Motion Picture Experts Group,MPEG)的视频译码联合工作组(Joint CollaborationTeam on Video Coding,JCT-VC)开发的高效视频译码(High-Efficiency Video Coding,HEVC)或通用视频译码(Versatile Video Coding,VVC)参考软件描述本发明实施例。本领域普通技术人员应理解本发明实施例不限于HEVC或VVC。可以指译码单元(coding unit,CU)、预测单元(prediction unit,PU)和变换单元(transform unit,TU)。在HEVC中,通过表示为译码树的四叉树结构将译码树单元(coding tree unit,CTU)划分成CU。在CU级决定是使用帧间(时间)预测还是帧内(空间)预测对图像区域进行译码。可以根据PU划分类型将每个CU进一步划分为一个、两个或四个PU。一个PU内应用相同的预测过程,并以PU为单位向解码器发送相关信息。在根据PU划分类型应用预测过程获得残差块之后,可以根据与用于CU的译码树类似的另一种四叉树结构将CU分割为变换单元(transform unit,TU)。在视频压缩技术的最新进展中,使用四叉树和二叉树(qual-tree and binary tree,QTBT)分割帧来分割译码块。在QTBT块结构中,CU可以为正方形或矩形。例如,首先通过四叉树结构分割译码树单元(coding tree unit,CTU)。通过二叉树结构进一步分割四叉树叶节点。二叉树叶节点称为译码单元(coding unit,CU),该分割用于预测和变换处理,而不进行任何进一步分割。这意味着在QTBT译码块结构中,CU、PU和TU的块大小相同。同时,还提出将三叉树(Ternary Tree,TT)分割等多重分割与QTBT块结构结合使用。术语“设备”也可以是“装置”、“解码器”或“编码器”。

在以下实施例中,根据图1至图3描述了编码器20、解码器30和译码系统10。

图1A为概念性或示意性框图,示出了可利用本申请(本发明)技术的示例性译码系统10,例如视频译码系统10。视频译码系统10的编码器20(例如,视频编码器20)和解码器30(例如,视频解码器30)代表可以用于根据本申请中描述的各种示例执行各技术的设备示例。如图1A所示,译码系统10包括源设备12,所述源设备12用于将编码数据13(例如编码图像13)提供到例如目的设备14以对编码数据13进行解码。

源设备12包括编码器20,并且可以另外(即可选地)包括图像源16、预处理单元18(例如,图像预处理单元18)和通信接口或通信单元22。

图像源16可以包括或可以是任何类型的图像捕获设备,例如用于捕获真实世界图像的设备,和/或任何类型的图像或评论(对于屏幕内容译码,屏幕上的一些文本也被认为是待编码的图像(picture/image)的一部分)生成设备,例如用于生成计算机动画图像的计算机图形处理器,或用于获取和/或提供真实世界图像、计算机动画图像(例如,屏幕内容、虚拟现实(virtual reality,VR)图像)和/或其任何组合(例如,增强现实(augmentedreality,AR)图像)的任何类型的设备。所述图像源可以为存储任一上述图像的任何类型的存储器(memory/storage)。

(数字)图像为或可以看作具有强度值的采样点的二维阵列或矩阵。阵列中的采样点也可以称为像素(pixel或pel)(图像元素的简称)。图像的大小和/或分辨率由阵列或图像在水平和垂直方向(或轴)上的采样点数量定义。通常采用三种颜色分量来表示颜色,即该图像可表示为三个采样点阵列或包括三个采样点阵列。在RGB格式或颜色空间中,图像包括对应的红色、绿色和蓝色采样点阵列。然而,在视频译码中,每个像素通常由亮度/色度格式或在颜色空间中表示,例如,YCbCr,包括Y指示的亮度分量(有时也用L指示)和Cb和Cr指示的两个色度分量。亮度(或简称luma)分量Y表示亮度或灰度级强度(例如,在灰度图像中),而两个色度(或简称chroma)分量Cb和Cr表示色度或颜色信息分量。因此,YCbCr格式的图像包括亮度采样点值(Y)的亮度采样点阵列和色度值(Cb和Cr)的两个色度采样点阵列。RGB格式的图像可转换或变换成YCbCr格式,反之亦然,该过程也称为颜色转换或颜色变换。如果图像是单色的,则该图像可以仅包括亮度采样点阵列。

图像源16(例如,视频源16)可以是用于捕获图像的摄像机、包括或存储先前捕获或生成的图像的存储器(例如,图像存储器),和/或用于获取或接收图像的任何类型的(内部或外部)接口等。例如,所述摄像机可以是集成在源设备中的本地或集成摄像机,所述存储器可以是(例如,集成在源设备中的)本地或集成存储器。例如,所述接口可以是从外部视频源接收图像的外部接口,其中,所述外部视频源如摄像机等外部图像捕获设备、外部存储器,或外部计算机图形处理器、计算机或服务器等外部图像生成设备。所述接口可以是根据任何专有或标准化接口协议的任何类型的接口,例如有线或无线接口、光接口。用于获取图像数据17的接口可以是与通信接口22相同的接口,或作为通信接口22的一部分。

区别于预处理单元18和预处理单元18执行的处理,图像或图像数据17(例如,视频数据16)也可以称为原始图像或原始图像数据17。

预处理单元18用于接收(原始)图像数据17,对图像数据17进行预处理,以获得经预处理的图像19或经预处理的图像数据19。预处理单元18执行的预处理可以包括修剪、颜色格式转换(例如,从RGB转换为YCbCr)、颜色校正或去噪等。可以理解的是,预处理单元18可以是可选组件。

编码器20(例如,视频编码器20)用于接收经预处理的图像数据19并提供经编码的图像数据21(下文将根据图2或图4等进一步详细描述)。

源设备12的通信接口22可用于接收经编码的图像数据21并通过通信信道13将经编码的图像数据21(或其任何其它经处理版本)发送到其它设备,例如目的设备14或用于存储或直接重建的任何其它设备。

源设备12的通信接口22可以用于接收经编码的图像数据21,并将其发送到其它设备(例如,目的设备14或用于存储或直接重建的任何其它设备);或分别在存储编码数据13和/或将编码数据13发送到其它设备(例如目的设备14,或用于解码或存储的任何其它设备)之前处理经编码的图像数据21。

目的设备14包括解码器30(例如,视频解码器30),并且可以另外(即,可选地)包括通信接口或通信单元28、后处理单元32和显示设备34。

目的设备14的通信接口28用于接收经编码的图像数据21(或其任何其它经处理版本),例如,直接从源设备12或任何其它源(例如,编码图像数据存储设备等存储设备)接收,并将经编码的图像数据21提供给解码器30。

目的设备14的通信接口28用于接收经编码的图像数据21或编码数据13,例如,直接从源设备12或任何其它源(例如,编码图像数据存储设备等存储设备)接收。

通信接口22和通信接口28可以用于经由源设备12与目的设备14之间的直接通信链路(例如,直接有线或无线连接),或经由任何类型的网络(例如,有线或无线网络或其任意组合,或任何类型的专用和公共网络),或其任意组合发送或接收经编码的图像数据21或编码数据13。

例如,通信接口22可用于将经编码的图像数据21封装为数据包等合适的格式,和/或采用任何类型的传输编码或处理来处理所述经编码的图像数据,以便通过通信链路或通信网络进行传输。

形成通信接口22的对应的通信接口28可以用于解封装编码数据13以获得经编码的图像数据21等。

例如,与通信接口22对应的通信接口28可用于接收传输数据,并采用任何类型的对应传输解码或处理和/或解封装对传输数据进行处理,以获得经编码的图像数据21。

通信接口22和通信接口28均可配置为单向通信接口(如图1A中从源设备12指向目的设备14的经编码的图像数据13的箭头所指示),或双向通信接口,并可用于发送和接收消息等,例如,建立连接,确认和交互与通信链路和/或数据传输(例如,经编码的图像数据传输)相关的任何其它信息。

解码器30用于接收经编码的图像数据21并提供经解码的图像数据31或解码图像31(下文将根据图3或图5等进一步详细描述)。

目的设备14的后处理器32用于对经解码的图像数据31(也称为经重建的图像数据)(例如,解码图像31)进行后处理,以获得经后处理的图像数据33(例如,后处理图像33)。例如,由后处理单元32执行的后处理可以包括颜色格式转换(例如从YCbCr转换为RGB)、颜色校正、修剪或重采样,或任何其它处理,例如,用于准备经解码的图像数据31以供显示设备34等显示。

目的设备14的显示设备34用于接收经后处理的图像数据33,以向用户或观看者等显示所述图像。显示设备34可以是或包括用于显示重建图像的任何类型的显示器,例如,集成或外部的显示器或监视器。例如,显示器可以包括液晶显示器(liquid crystaldisplay,LCD)、有机发光二极管(organic light emitting diode,OLED)显示器、等离子显示器、投影仪、微型LED显示器、硅基液晶显示器(liquid crystal on silicon,LCoS)、数字光处理器(digital light processor,DLP)或任意类型的其它显示器。

尽管图1A将源设备12和目的设备14作为单独的设备进行描述,但是设备实施例还可以包括两种设备或两种功能,即源设备12或对应功能以及目的设备14或对应功能。在这类实施例中,源设备12或对应功能以及目的设备14或对应功能可以使用相同的硬件和/或软件或通过单独的硬件和/或软件或其任意组合来实现。

根据描述,技术人员显而易见的是,图1A所示的源设备12和/或目的设备14中的不同单元或功能的存在和(精确)划分可以根据实际设备和应用而不同。

编码器20(例如视频编码器20)和解码器30(例如视频解码器30)可以各自实现为各种合适电路中的任一种,如一个或多个微处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、离散逻辑、硬件或其任何组合。如果所述技术部分地以软件形式实现,则设备可以将软件的指令存储在合适的非瞬时性计算机可读介质中,并且可以使用一个或多个处理器执行硬件中的指令,以执行本发明的技术。上述任一种(包括硬件、软件、硬件和软件的组合等)可以被认为是一个或多个处理器。视频编码器20和视频解码器30可以分别包括在一个或多个编码器或解码器中,其中任一者可以作为组合式编码器/解码器(编解码器)的一部分集成在对应设备中。

编码器20可以由处理电路46实现,以体现结合图2的编码器20所描述的各种模块和/或本文描述的任何其它编码器系统或子系统。解码器30可以由处理电路46实现,以体现结合图3的解码器30所描述的各种模块和/或本文描述的任何其它解码器系统或子系统。所述处理电路可用于执行下文描述的各种操作。如图5所示,如果所述技术部分地以软件形式实现,则设备可以将软件的指令存储在合适的非瞬时性计算机可读介质中,并且可以使用一个或多个处理器执行硬件中的指令,以执行本发明的技术。视频编码器20和视频解码器30中的任一个可作为组合编解码器(encoder/decoder,CODEC)的一部分集成在单个设备中,如图1B所示。

源设备12可以称为视频编码设备或视频编码装置。目的设备14可以称为视频解码设备或视频解码装置。源设备12和目的设备14可以是视频译码设备或视频译码装置的示例。

源设备12和目的设备14可以包括多种设备中的任一种,包括任何类型的手持或固定设备,例如,笔记本电脑或膝上型电脑、手机、智能手机、平板电脑(tablet/tabletcomputer)、摄像机、台式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏机、视频流设备(如内容服务服务器或内容分发服务器)、广播接收器设备、广播发射器设备等,并且可以不使用或使用任何类型的操作系统。

在某些情况下,可以配备源设备12和目的设备14以用于无线通信。因此,源设备12和目的设备14可以是无线通信设备。

在某些情况下,图1A所示的视频译码系统10仅仅是示例,本申请的技术可适用于在编码设备与解码设备之间不一定包括任何数据通信的视频译码设置(例如,视频编码或视频解码)。在其它示例中,数据从本地存储器中检索,通过网络流式传输,等等。视频编码设备可以对数据进行编码并将数据存储到存储器中,和/或视频解码设备可以从存储器中检索数据并对数据进行解码。在一些示例中,编码和解码由相互不通信而只是将数据编码到存储器和/或从存储器中检索数据并对数据进行解码的设备来执行。

为便于描述,本文参考由ITU-T视频译码专家组(Video Coding Experts Group,VCEG)和ISO/IEC运动图像专家组(Motion Picture Experts Group,MPEG)的视频译码联合工作组(Joint Collaboration Team on Video Coding,JCT-VC)开发的高效视频译码(High-Efficiency Video Coding,HEVC)或通用视频译码(Versatile Video Coding,VVC)(下一代视频译码标准)参考软件等描述本发明实施例。本领域普通技术人员应理解本发明实施例不限于HEVC或VVC。应理解,对于结合视频编码器20描述的上述每个示例,视频解码器30可用于执行逆过程。视频解码器30可用于接收和解析信令语法元素,并相应地对相关视频数据进行解码。在一些示例中,视频编码器20可以将一个或多个语法元素熵编码到经编码的视频码流中。在这类示例中,视频解码器30可以解析此类语法元素并相应地对相关视频数据进行解码。

图1B为示例性实施例提供的包括图2的编码器20和/或图3的解码器30的另一示例性视频译码系统40的说明图。系统40可以实现本申请中描述的各种示例提供的技术。在所示实现方式中,视频译码系统40可以包括一个或多个成像设备41、视频编码器100、视频解码器30(和/或由一个或多个处理单元46的逻辑电路47实现的视频译码器)、天线42、一个或多个处理器43、一个或多个存储器44和/或显示设备45。

如图所示,一个或多个成像设备41、天线42、一个或多个处理单元46、逻辑电路47、视频编码器20、视频解码器30、一个或多个处理器43、一个或多个存储器44和/或显示设备45能够彼此通信。如上所述,尽管示出具有视频编码器20和视频解码器30两者,但是在各种示例中,视频译码系统40可以仅包括视频编码器20或仅包括视频解码器30。

如图所示,在一些示例中,视频译码系统40可以包括天线42。例如,天线42可用于发送或接收视频数据的经编码码流。此外,在一些示例中,视频译码系统40可以包括显示设备45。显示设备45可用于呈现视频数据。如图所示,在一些示例中,可以由一个或多个处理单元46实现逻辑电路47。一个或多个处理单元46可以包括专用集成电路(application-specific integrated circuit,ASIC)逻辑、一个或多个图形处理器、或一个或多个通用处理器等。视频译码系统40还可以包括一个或多个可选的处理器43,所述一个或多个可选的处理器43可以类似地包括专用集成电路(application-specific integrated circuit,ASIC)逻辑、一个或多个图形处理器、一个或多个通用处理器等。在一些示例中,逻辑电路47可以由硬件、或视频译码专用硬件等实现,一个或多个处理器43可以实现通用软件、或操作系统等。此外,一个或多个存储器44可以是任何类型的存储器,如易失性存储器(例如,静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(DynamicRandom Access Memory,DRAM)等)或非易失性存储器(例如,闪存等)等等。在非限制性示例中,一个或多个存储器44可以由高速缓冲存储器实现。在一些示例中,逻辑电路47可以访问一个或多个存储器44(例如,用于实现图像缓冲器)。在其它示例中,逻辑电路47和/或一个或多个处理单元46可以包括用于实现图像缓冲器等的存储器(例如,高速缓存等)。

在一些示例中,由逻辑电路实现的视频编码器100可以包括图像缓冲器(例如,由一个或多个处理单元46或一个或多个存储器44实现)和图形处理单元(例如,由一个或多个处理单元46实现)。所述图形处理单元可以以通信方式耦合到所述图像缓冲器。所述图形处理单元可以包括由逻辑电路47实现的视频编码器100,以体现结合图2所描述的各种模块和/或本文描述的任何其它编码器系统或子系统。所述逻辑电路可用于执行本文描述的各种操作。

视频解码器30的实现方式可以与由逻辑电路47实现的方式类似,以体现结合图3的解码器30所描述的各种模块和/或本文描述的任何其它解码器系统或子系统。在一些示例中,可以由逻辑电路实现的视频解码器30可以包括图像缓冲器(例如,由一个或多个处理单元46或一个或多个存储器44实现)和图形处理单元(例如,由一个或多个处理单元46实现)。所述图形处理单元可以以通信方式耦合到所述图像缓冲器。所述图形处理单元可以包括由逻辑电路47实现的视频解码器30,以体现结合图3所描述的各种模块和/或本文描述的任何其它解码器系统或子系统。

在一些示例中,视频译码系统40的天线42可用于接收视频数据的经编码码流。如上所述,经编码码流可以包括与本文所描述的视频帧的编码相关联的数据、指示符、索引值、模式选择数据等,如与译码分割相关联的数据(例如,变换系数或经量化的变换系数、可选指示符(如上所述)和/或定义译码分割的数据)。视频译码系统40还可以包括与天线42耦合并用于对经编码码流进行解码的视频解码器30。显示设备45用于呈现视频帧。

图2为用于实现本申请技术的示例性视频编码器20的示意性/概念性框图。在图2的示例中,视频编码器20包括残差计算单元204、变换处理单元206、量化单元208、反量化单元210和逆变换处理单元212、重建单元214、缓冲器216、环路滤波单元220、解码图像缓冲器(decoded picture buffer,DPB)230、预测处理单元260和熵编码单元270。预测处理单元260可以包括帧间预测单元244、帧内预测单元254和模式选择单元262。帧间预测单元244可以包括运动估计单元和运动补偿单元(未示出)。图2所示的视频编码器20也可以称为混合视频编码器或基于混合视频编解码器的视频编码器。

例如,残差计算单元204、变换处理单元206、量化单元208、预测处理单元260和熵编码单元270形成编码器20的正向信号路径,而反量化单元210、逆变换处理单元212、重建单元214、缓冲器216、环路滤波器220、解码图像缓冲器(decoded picture buffer,DPB)230、预测处理单元260形成编码器的反向信号路径。编码器的反向信号路径与解码器(参见图3中的解码器30)的信号路径对应。

反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器(decoded picture buffer,DPB)230、帧间预测单元244和帧内预测单元254还组成视频编码器20的“内置解码器”。编码器20用于通过输入端202等接收图像201或图像201(例如,形成视频或视频序列的图像序列的图像)的块203。图像块203也可以称为当前图像块或待译码图像块,图像201也可以称为当前图像或待译码图像(特别是在视频译码中,以便将当前图像与其它图像(例如,同一视频序列(即,也包括当前图像的视频序列)的先前编码和/或解码的图像))区分开。

(数字)图像为或可以看作具有强度值的采样点的二维阵列或矩阵。阵列中的采样点也可以称为像素(pixel或pel)(图像元素的简称)。图像的大小和/或分辨率由阵列或图像在水平和垂直方向(或轴)上的采样点数量定义。通常采用三种颜色分量来表示颜色,即该图像可表示为三个采样点阵列或包括三个采样点阵列。在RGB格式或颜色空间中,图像包括对应的红色、绿色和蓝色采样点阵列。然而,在视频译码中,每个像素通常由亮度和色度格式或在颜色空间中表示,例如,YCbCr,包括Y指示的亮度分量(有时也用L指示)和Cb和Cr指示的两个色度分量。亮度(或简称luma)分量Y表示亮度或灰度级强度(例如,在灰度图像中),而两个色度(或简称chroma)分量Cb和Cr表示色度或颜色信息分量。因此,YCbCr格式的图像包括亮度采样点值(Y)的亮度采样点阵列和色度值(Cb和Cr)的两个色度采样点阵列。RGB格式的图像可转换或变换成YCbCr格式,反之亦然,该过程也称为颜色转换或颜色变换。如果图像是单色的,则该图像可以仅包括亮度采样点阵列。相应地,例如,图像可以为单色格式的亮度采样点阵列或4:2:0、4:2:2和4:4:4彩色格式的亮度采样点阵列和两个对应的色度采样点阵列。

分割

编码器20的实施例可包括分割单元(图2中未示出),所述分割单元用于将图像201分割成多个(通常不重叠)图像块203。这些块也可以称为根块、宏块(H.264/AVC)或译码树块(coding tree block,CTB),或译码树单元(coding tree unit,CTU)(H.265/HEVC和VVC)。分割单元可用于对视频序列的所有图像使用相同的块大小和定义块大小的对应网格,或者用于改变图像或图像子集或组之间的块大小,并将每个图像分割成对应块。

在其它实施例中,视频编码器可用于直接接收图像201的块203,例如,组成图像201的一个、几个或所有块。图像块203也可以称为当前图像块或待译码图像块。在一个示例中,视频编码器20的预测处理单元260可以用于执行上文描述的分割技术的任意组合。

与图像201类似,块203同样是或可以看作是具有强度值(采样点值)的采样点的二维阵列或矩阵,但是,块203的尺寸比图像201小。换句话说,例如,根据所应用的颜色格式,块203可以包括一个采样点阵列(例如,图像201是单色情况下的亮度阵列)或三个采样点阵列(例如,图像201是彩色情况下的一个亮度阵列和两个色度阵列)或任何其它数量和/或类型的阵列。块203的水平方向和垂直方向(或轴线)上的采样点数量决定了块203的大小。相应地,块可以为M×N(M列×N行)个采样点阵列,或M×N个变换系数阵列等。

图2所示的编码器20用于逐块对图像201进行编码,例如按块203进行编码和预测。

图2所示的视频编码器20的实施例还可以用于使用条带(也称为视频条带)对图像进行分割和/或编码,其中,可以使用一个或多个条带(通常为非重叠的)对图像进行分割或编码。每个条带可以包括一个或多个块(例如,CTU)或一个或多个块组(例如,编码区块(H.265/HEVC和VVC)或砖(VVC))。

图2所示的视频编码器20的实施例还可以用于使用条带/编码区块组(也称为视频编码区块组)和/或编码区块(也称为视频编码区块)对图像进行分割和/或编码,其中,可以使用一个或多个条带/编码区块组(通常为非重叠的)对图像进行分割或编码。每个条带/编码区块组可以包括一个或多个块(例如CTU)或一个或多个编码区块等,其中,每个编码区块可以为矩形等形状,可以包括一个或多个完整或部分块等块(例如CTU)。

残差计算

残差计算单元204用于通过如下等方式根据图像块203和预测块265(下文将详细描述预测块265)来计算残差块205:逐个采样点(逐个像素)从图像块203的采样点值中减去预测块265的采样点值,以获得采样点域中的残差块205。

变换

变换处理单元206用于对残差块205的采样点值应用离散余弦变换(discretecosine transform,DCT)或离散正弦变换(discrete sine transform,DST)等变换,以获得变换域中的变换系数207。变换系数207也可以称为变换残差系数,表示变换域中的残差块205。

变换处理单元206可用于应用DCT/DST的整数化近似法,如针对HEVC/H.265指定的变换。与正交DCT变换相比,该整数近似法通常通过某一因子按比例缩放。为了维持经过正变换和逆变换处理的残差块的范数,应用附加缩放因子作为变换过程的一部分。缩放因子通常是基于某些约束条件来选择的,例如缩放因子是用于移位运算的2的幂、变换系数的位深度、准确性与实施成本之间的权衡等。例如,在解码器30侧通过逆变换处理单元212等为逆变换(以及在编码器20侧通过逆变换处理单元212等为对应逆变换)指定具体的缩放因子,以及相应地,可以在编码器20侧通过变换处理单元206等为正变换指定对应的缩放因子。

视频编码器20(具体是变换处理单元206)的实施例可以用于直接或通过熵编码单元270编码或压缩等输出变换参数(例如,一种或多种变换的类型),使得例如视频解码器30可以接收并使用变换参数进行解码。

量化

量化单元208用于通过应用标量量化或矢量量化等对变换系数207进行量化,以获得经量化的变换系数209。经量化的变换系数209也可以称为经量化的残差系数209。量化过程可以降低与一些或全部变换系数207相关联的位深度。例如,可以在量化期间将n位变换系数向下舍入到m位变换系数,其中n大于m。可以通过调整量化参数(quantizationparameter,QP)修改量化程度。例如,对于标量量化,可以应用不同程度的缩放来实现较细或较粗的量化。较小量化步长对应较细量化,而较大量化步长对应较粗量化。可以通过量化参数(quantization parameter,QP)指示合适的量化步长。例如,量化参数可以是合适的量化步长的预定义集合的索引。例如,小的量化参数可对应精细量化(小的量化步长),大的量化参数可对应粗糙量化(大的量化步长),反之亦然。量化可以包括除以量化步长,而反量化单元210等执行的对应或反量化可包括乘以量化步长。根据HEVC等一些标准的实施例可用于使用量化参数来确定量化步长。通常,可以根据量化参数使用包括除法的方程的定点近似来计算量化步长。量化和解量化可以引入附加缩放因子以恢复残差块的范数,由于在量化步长和量化参数的方程的定点近似中使用了缩放,可能会修改残差块的范数。在一种示例性实现方式中,可以合并逆变换和解量化的缩放。或者,可以使用自定义量化表并在码流中等将自定义量化表从编码器信号发送到解码器。量化是有损操作,其中量化步长越大,损耗越大。

视频编码器20(具体是量化单元208)的实施例可以用于直接或通过熵编码单元270编码等输出量化参数(quantization parameter,QP),使得例如视频解码器30可以接收并使用量化参数进行解码。

反量化单元210用于通过根据或使用与量化单元208相同的量化步长应用量化单元208所应用的量化方案的逆过程等,对量化系数应用量化单元208的反量化,以获得解量化系数211。解量化系数211也可以称为解量化残差系数211,对应于变换系数207,但是由于量化造成的损耗,解量化系数211通常与变换系数不同。

逆变换处理单元212用于应用变换处理单元206所应用的变换的逆变换,例如逆离散余弦变换(discrete cosine transform,DCT)或逆离散正弦变换(discrete sinetransform,DST),以获得采样点域中的逆变换块213。逆变换块213也可以称为逆变换解量化块213或逆变换残差块213。

重建单元214(例如,求和器214)用于通过例如将重建残差块213的采样点值和预测块265的采样点值相加,将逆变换块213(即重建残差块213)添加到预测块265,以在采样点域中获得重建块215。

可选的,缓冲单元216(或简称“缓冲器”216)(例如线缓冲器216)用于缓冲或存储重建块215和相应的采样点值,以进行帧内预测等。在其它实施例中,编码器可用于使用存储在缓冲单元216中的未滤波的重建块和/或相应的采样点值进行任何类型的估计和/或预测(例如,帧内预测)。

编码器20的实施例可用于使得,例如缓冲单元216不仅用于存储用于帧内预测254的重建块215,还用于存储用于环路滤波单元220(图2中未示出)的重建块215,和/或用于使得,例如缓冲单元216和解码图像缓冲单元230形成一个缓冲器。其它实施例可用于使用滤波块221和/或解码图像缓冲器230中的块或采样点(两者都未在图2中示出)作为帧内预测254的输入或基础。

环路滤波单元220(或简称“环路滤波器”220)用于对重建块215进行滤波以获得滤波块221,从而平滑像素转变或提高视频质量等。环路滤波单元220用于表示一个或多个环路滤波器,如去块效应滤波器、采样点自适应偏移(sample-adaptive offset,SAO)滤波器或其它滤波器,例如双边滤波器或自适应环路滤波器(adaptive loop filter,ALF)或锐化或平滑滤波器或协作滤波器。虽然环路滤波单元220在图2中示为环内滤波器,但是在其它配置中,环路滤波单元220可以实现为后环路滤波器。滤波块221也可以称为滤波重建块221。解码图像缓冲器230可以在环路滤波单元220对重建译码块进行滤波操作之后存储重建译码块。

环路滤波单元220(或简称“环路滤波器”220)用于对重建块215进行滤波以获得滤波块221,或通常用于对重建采样点进行滤波以获得滤波采样点值。例如,环路滤波单元用于平滑像素转变或提高视频质量。环路滤波单元220可以包括一个或多个环路滤波器,如去块效应滤波器、采样点自适应偏移(sample-adaptive offset,SAO)滤波器或一个或多个其它滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、噪声抑制滤波器(noisesuppression filter,NSF)或其任意组合。在一个示例中,环路滤波单元220可以包括去块效应滤波器、SAO滤波器和ALF。滤波过程的顺序可以是去块效应滤波器、SAO滤波器和ALF。在另一示例中,增加称为具有色差缩放的亮度映射(luma mapping with chroma scaling,LMCS)(即,自适应环内整形器)的过程。该过程在去块之前执行。在另一示例中,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP子块边缘、子块变换(sub-blocktransform,SBT)边缘和内子分割(intra sub-partition,ISP)边缘。虽然环路滤波单元220在图2中示为环内滤波器,但是在其它配置中,环路滤波单元220可以实现为后环路滤波器。滤波块221也可以称为滤波重建块221。

视频编码器20(具体是环路滤波单元220)的实施例可用于直接或通过熵编码单元270编码等输出环路滤波器参数(如SAO滤波器参数或ALF滤波器参数或LMCS参数),使得例如解码器30可以接收和应用相同环路滤波器参数或相应的环路滤波器进行解码。

编码器20(具体是环路滤波单元220)的实施例可用于输出环路滤波器参数(如采样点自适应偏移信息),例如直接输出或通过熵编码单元270或任何其它熵编码单元所编码的熵输出,使得例如解码器30可以接收和应用相同环路滤波器参数进行解码。

解码图像缓冲器(decoded picture buffer,DPB)230可以是参考图像存储器,存储用于由视频编码器20对视频数据进行编码的参考图像数据。DPB 230可以由多种存储设备中的任一种组成,如动态随机存取存储器(dynamic random access memory,DRAM),包括同步DRAM(synchronous DRAM,SDRAM)、磁阻RAM(magnetoresistive RAM,MRAM)、电阻RAM(resistive RAM,RRAM)或其它类型的存储设备。DPB 230和缓冲器216可以由相同的存储设备或单独的存储设备提供。在一些示例中,解码图像缓冲器(decoded picture buffer,DPB)230用于存储滤波块221。解码图像缓冲器230还可用于存储同一当前图像或不同图像(例如,先前重建的图像)的其它先前滤波块(例如,先前重建和滤波块221),并且可提供完整的先前重建(即解码)的图像(和对应的参考块和采样点)和/或部分重建的当前图像(和对应的参考块和采样点),用于帧间预测等。在一些示例中,在对重建块215进行重建但不进行环内滤波时,例如,在重建块215未通过环路滤波单元220进行滤波时,解码图像缓冲器(decoded picture buffer,DPB)230用于存储一个或多个未滤波的重建块215,或通常存储未滤波的重建采样点,或重建块或重建采样点的任何其它进一步处理的版本。

预测处理单元260(也称为块预测处理单元260)用于:接收或获取块203(当前图像201的当前块203)和经重建的图像数据,例如,来自缓冲器216的相同(当前)图像的参考采样点和/或来自解码图像缓冲器230的一个或多个先前解码图像的参考图像数据231,并处理此类数据以进行预测,即提供预测块265,其中,所述预测块265可以是帧间预测块245或帧内预测块255。

模式选择单元262可用于选择预测模式(例如,帧内预测或帧间预测模式)和/或对应的预测块245或255,用作预测块265以用于计算残差块205和重建重建块215。

模式选择单元262的实施例可用于选择预测模式(例如,从预测处理单元260支持的预测模式中选择),所述预测模式提供最佳匹配或者说最小残差(最小残差意味着传输或存储中更好的压缩),或具有最小信令开销(最小信令开销意味着传输或存储中更好的压缩),或者同时考虑或平衡以上两者。模式选择单元262可用于根据率失真优化(ratedistortion optimization,RDO)确定预测模式,即选择提供最小率失真优化的预测模式,或者选择至少满足预测模式选择标准的关联率失真的预测模式。

下文更详细地解释由示例性编码器20执行的预测处理(例如,由预测处理单元260执行)和模式选择(例如,由模式选择单元262执行)。

除了上述实施例或替代上述实施例,在图15提供的其它实施例中,模式选择单元260包括分割单元262、帧间预测单元244和帧内预测单元254,用于从解码图像缓冲器230或其它缓冲器(例如,线缓冲器,未示出)等接收或获得原始图像数据(例如,原始块203(当前图像17的当前块203))和重建图像数据(例如,相同(当前)图像和/或一个或多个先前解码图像的滤波和/或未经滤波的重建采样点或重建块)。重建图像数据用作参考图像数据进行帧间预测或帧内预测等预测,以获得预测块265或预测值265。

模式选择单元260可用于为当前块预测模式(包括不分割)和预测模式(例如帧内或帧间预测模式)确定或选择分割类型,并生成对应的预测块265,以对残差块205进行计算和对重建块215进行重建。

模式选择单元260的实施例可用于选择分割和预测模式(例如,从模式选择单元260支持或可用于模式选择单元260的预测模式中选择),所述预测模式提供最佳匹配或者说最小残差(最小残差意味着传输或存储中更好的压缩),或提供最小信令开销(最小信令开销意味着传输或存储中更好的压缩),或者同时考虑或平衡以上两者。模式选择单元260可用于根据率失真优化(rate distortion optimization,RDO)确定分割和预测模式,即选择提供最小率失真的预测模式。本上下文中如“最佳”、“最小”、“最优”等术语不一定指总体上“最佳”、“最小”、“最优”等,也可以指满足终止或选择标准,例如,值超过或低于阈值或其它约束条件,可能会进行“次优选择”,但是降低了复杂度和处理时间。

换句话说,分割单元262可以用于将视频序列的图像分割成一系列译码树单元(coding tree unit,CTU),CTU 203还可以将其分割成更小的分割块或子块(再次形成块),例如,使用四叉树(quad-tree,QT)分割、二叉树(binary-tree,BT)分割或三叉树(triple-tree,TT)分割或其任何组合迭代地进行,并例如,对每个分割块或子块进行预测,其中,所述模式选择包括选择分割块203的树结构并将预测模式应用于每个分割块或子块。

下文更详细地解释由示例性视频编码器20执行的分割(例如,由分割单元260执行)和预测处理(由帧间预测单元244和帧内预测单元254执行)。

分割

分割单元262可以用于将视频序列的图像分割为一系列译码树单元(coding treeunit,CTU),分割单元262可以将译码树单元(coding tree unit,CTU)203分割(或划分)为较小的分割块,例如正方形或矩形小块。对于具有三个采样点阵列的图像,一个CTU由N×N个亮度采样点块和两个对应的色差采样点块组成。CTU中亮度块的最大允许大小在正在开发的通用视频译码(Versatile Video Coding,VVC)中被指定为128×128,但是将来可指定为不同于128×128的值,例如256×256。图像的CTU可以集中/分组为条带/编码区块组、编码区块或砖。一个编码区块覆盖一个图像的矩形区域,一个编码区块可以分成一个或多个砖。一个砖由一个编码区块内的多个CTU行组成。没有分割为多个砖的编码区块可以称为砖。然而,砖是编码区块的真正子集,不称为编码区块。VVC支持两种编码区块组模式,即光栅扫描条带/编码区块组模式和矩形条带模式。在光栅扫描编码区块组模式,条带/编码区块组包含图像的编码区块光栅扫描中的编码区块序列。在矩形条带模式中,条带包含图像的多个砖,这些砖共同组成图像的矩形区域。矩形条带内的砖按照条带的砖光栅扫描顺序排列。可以将这些较小块(也可以称为子块)进一步分割为甚至更小的分割块。这也称为树分割或层次树分割,其中,可以递归地分割例如根树层次0(层次级别0,深度0)的根块,例如分割为两个或两个以上下一较低树层次的块,例如树层次1(层次级别1,深度1)的节点。可以再次将这些块分割为两个或两个以上下一较低层次,例如树层次2(层次级别2、深度2)的块等,直到例如因为满足结束标准,例如达到最大树深度或最小块大小,分割结束。未进一步分割的块也称为树的叶块或叶节点。分割为两个部分的树称为二叉树(binary-tree,BT),分割为三个部分的树称为三叉树(ternary-tree,TT),分割为四个部分的树称为四叉树(quad-tree,QT)。

例如,译码树单元(coding tree unit,CTU)可以为或包括具有三个采样点阵列的图像的亮度采样点的一个CTB、色度采样点的两个对应CTB,或单色图像或使用用于对采样点进行译码的三个独立颜色平面和语法结构译码的图像的采样点的一个CTB。相应地,译码树块(coding tree block,CTB)可以为N×N个采样点块,其中N可以设为某个值从而将分量划分为多个CTB,这就是分割。译码单元(coding unit,CU)可以为或包括具有三个采样点阵列的图像的亮度采样点的一个译码块、色度采样点的两个对应译码块,或单色图像或使用用于对采样点进行译码的三个独立颜色平面和语法结构译码的图像的采样点的译码块。相应地,译码块(coding block,CB)可以为M×N个采样点块,其中M和N可以设为某个值从而将CTB划分为多个译码块,这就是分割。

在实施例中,例如根据HEVC,可以通过表示为译码树的四叉树结构将译码树单元(coding tree unit,CTU)划分为多个CU。在叶CU级决定是使用帧间(时间)预测还是帧内(空间)预测对图像区域进行译码。可以根据PU划分类型将每个叶CU进一步划分为一个、两个或四个PU。一个PU内应用相同的预测过程,并以PU为单位向解码器发送相关信息。在根据PU划分类型应用预测过程获得残差块之后,可以根据与用于叶CU的译码树类似的另一种四叉树结构将叶CU分割为变换单元(transform unit,TU)。

例如,在实施例中,根据当前正在开发的最新视频译码标准(称为通用视频译码(Versatile Video Coding,VVC)),例如,四叉树嵌套多类型树(使用二叉树和三叉树)的组合可以划分分割结构,例如用于分割译码树单元。在译码树单元内的译码树结构中,CU可以为正方形或矩形。例如,首先通过四叉树分割译码树单元(coding tree unit,CTU)。然后,可以通过多类型树结构进一步分割四叉树叶节点。多类型树结构有四种划分类型:垂直二叉树划分(SPLIT_BT_VER)、水平二叉树划分(SPLIT_BT_HOR)、垂直三叉树划分(SPLIT_TT_VER)和水平三叉树划分(SPLIT_TT_HOR)。多类型树叶节点称为译码单元(coding unit,CU),除非CU大于最大变换长度,否则在无需任何进一步分割的情况下将该分割用于预测和变换处理。这意味着,在大多数情况下,CU、PU和TU在四叉树嵌套多类型树的译码块结构中的块大小相同。当最大支持变换长度小于CU的颜色分量的宽度或高度时,发生异常。VVC开发了一种四叉树嵌套多类型树的译码树结构中的分割划分信息的独特信令机制。在该信令机制中,译码树单元(coding tree unit,CTU)作为四叉树的根进行处理,首先通过四叉树结构分割。然后,进一步通过多类型树结构分割每个四叉树叶节点(当大到足以进行分割时)。在多类型树结构中,指示第一标志(mtt_split_cu_flag)来表示是否进一步分割节点;当进一步分割节点时,指示第二标志(mtt_split_cu_vertical_flag)来表示划分方向,然后指示第三标志(mtt_split_cu_binary_flag)来表示划分为二叉树划分还是三叉树划分。根据mtt_split_cu_vertical_flag和mtt_split_cu_binary_flag的值,解码器可以根据预定义规则或表格推导出CU的多类型树划分模式(MttSplitMode)。需要说明的是,对于某种设计,例如VVC硬件解码器中的64×64亮度块和32×32色度块流水线设计(pipeliningdesign),当亮度译码块的宽度或高度大于64时,禁止进行TT划分,如图6所示。当色度译码块的宽度或高度大于32时,也禁止TT划分。流水线设计将图像分为多个虚拟流水数据单元(virtual pipeline data unit,VPDU),定义为图像中的非重叠单元。在硬件解码器中,多个流水线阶段同时处理连续的VPDU。在大多数流水线阶段,VPDU大小与缓冲器大小大致成正比,因此需要保持较小的VPDU。在大多数硬件解码器中,可以将VPDU大小设置为最大变换块(transform block,TB)大小。然而,在VVC中,三叉树(ternary tree,TT)和二叉树(binary tree,BT)分割可能会增加VPDU的大小。

另外,需要说明的是,当树节点块的一部分超出底部或右侧图像边界时,对该树节点块进行强制划分,直到每个译码CU的所有采样点都位于图像边界内。

例如,帧内子分割(Intra Sub-Partitions,ISP)工具可以根据块大小将亮度帧内预测块垂直或水平分为两个或四个子分割。

在一个示例中,视频编码器20的模式选择单元260可以用于执行本文描述的分割技术的任意组合。如上所述,编码器20用于从(预定的)预测模式集合中确定或选择最佳或最优的预测模式。预测模式集合可以包括帧内预测模式和/或帧间预测模式等。

帧内预测模式集合可以包括35种不同的帧内预测模式,例如,如DC(或均值)模式和平面模式等非方向性模式,或如H.265中定义的方向性模式,或者可以包括67种不同的帧内预测模式,例如,如DC(或均值)模式和平面模式等非方向性模式,或如针对VVC定义的方向性模式。在一个示例中,若干传统角度帧内预测模式自适应地替换为VVC中定义的非正方形块的广角帧内预测模式。在另一示例中,为了避免DC预测的除法运算,仅使用较长边来计算非正方形块的平均值。并且,还可以通过位置决定的帧内预测组合(position dependentintra prediction combination,PDPC)方法修改平面模式的帧内预测结果。

帧内预测单元254用于根据帧内预测模式集合中的帧内预测模式,使用同一当前图像的邻块的重建采样点来生成帧内预测块265。

帧内预测单元254(或通常为模式选择单元260)还用于将帧内预测参数(或通常为指示块的所选帧内预测模式的信息)以语法元素266的形式输出到熵编码单元270,以包括到经编码的图像数据21中,使得例如视频解码器30可以接收并使用用于解码的预测参数。

(或可能的)帧间预测模式的集合取决于可用参考图像(即,例如存储在DPB 230中的先前至少部分解码的图像)和其它帧间预测参数,例如取决于是否使用整个参考图像或只使用参考图像的一部分(例如当前块的区域附近的搜索窗口区域)来搜索最佳匹配参考块,和/或例如取决于是否应用像素插值(例如二分之一/半像素、四分之一像素和/或1/16像素插值)。

除上述预测模式外,还可以应用跳过模式、直接模式和/或其它帧间预测模式。

例如,扩展融合预测,这种模式的融合候选列表由以下五种候选类型按顺序组成:空间相邻CU的空间MVP、并置CU的时间MVP、FIFO表的基于历史的MVP、成对平均MVP和零MV。可以应用基于双边匹配的解码端运动矢量修正(decoder side motion vectorrefinement,DMVR)来提高融合模式的MV的准确度。带有MVD的融合模式(merge mode withMVD,MMVD)来自有运动矢量差值的融合模式。在发送跳过标志和融合标志之后立即指示MMVD标志,以表示是否对CU使用MMVD模式。可以应用CU级自适应运动矢量分辨率(adaptivemotion vector resolution,AMVR)方案。AMVR支持以不同的精度对CU的MVD进行译码。根据当前CU的预测模式,可以自适应地选择当前CU的MVD。当以融合模式对CU进行译码时,可以将合并的帧间/帧内预测(combined inter/intra prediction,CIIP)模式应用于当前CU。对帧间和帧内预测信号进行加权平均,得到CIIP预测。对于仿射运动补偿预测,通过2个控制点(4参数)或3个控制点(6参数)运动矢量的运动信息来描述块的仿射运动场。基于子块的时间运动矢量预测(subblock-based temporal motion vector prediction,SbTMVP)与HEVC中的时间运动矢量预测(temporal motion vector prediction,TMVP)类似,但预测的是当前CU内子CU的运动矢量。双向光流(bi-directional optical flow,BDOF)以前称为BIO,是一种所需计算减少的简化版本,特别是乘法次数和乘数大小的计算减少。在三角形分割模式中,使用对角线划分或反对角线划分将CU均匀划分为两个三角形分割。此外,双向预测模式在简单平均的基础上进行了扩展,以支持两个预测信号的加权平均。

除上述预测模式外,还可以应用跳过模式和/或直接模式。

预测处理单元260还可以用于将块203分割成更小的分割块或子块,例如,使用四叉树(quad-tree,QT)分割、二叉树(binary-tree,BT)分割或三叉树(triple-tree,TT)分割或其任何组合迭代地进行,并例如对每个分割块或子块进行预测,其中,所述模式选择包括选择分割块203的树形结构以及应用于每个分割块或子块的预测模式。

帧间预测单元244可以包括运动估计(motion estimation,ME)单元(图2中未示出)和运动补偿(motion compensation,MC)单元(图2中未示出)。运动估计单元用于接收或获取图像块203(当前图像201的当前图像块203)和解码图像231,或至少一个或多个先前重建块,例如,一个或多个其它/不同先前解码图像231的重建块,以进行运动估计。例如,视频序列可以包括当前图像和先前解码图像231,或换句话说,当前图像和先前解码图像231可以为形成视频序列的图像序列的一部分或形成该图像序列。

例如,编码器20可用于从多个其它图像中的相同或不同图像的多个参考块中选择参考块,并将参考图像(或参考图像索引)和/或参考块的位置(x坐标、y坐标)与当前块的位置之间的偏移(空间偏移)作为帧间预测参数提供给运动估计单元(图2中未示出)。该偏移也称为运动矢量(motion vector,MV)。

运动补偿单元用于获取例如接收帧间预测参数,并根据或使用帧间预测参数进行帧间预测,以获得帧间预测块265。由运动补偿单元执行的运动补偿可能涉及根据通过运动估计确定的运动/块矢量来提取或生成预测块,还可能涉及对子像素精度进行插值。插值滤波可以从已知像素的采样点中生成额外像素的采样点,从而可能增加可用于对图像块进行译码的候选预测块的数量。一旦接收到当前图像块的PU的运动矢量,运动补偿单元可以定位在其中一个参考图像列表中运动矢量指向的预测块。

帧内预测单元254用于获取例如接收图像块203(当前图像块)和相同图像的一个或多个先前重建块(例如,重建相邻块),以进行帧内估计。例如,编码器20可用于从多个(预定的)帧内预测模式中选择帧内预测模式。

编码器20的实施例可用于根据优化标准(例如,最小残差(例如,提供与当前图像块203最相似的预测块255的帧内预测模式)或最小率失真)选择帧内预测模式。

帧内预测单元254还用于根据帧内预测参数(例如,所选帧内预测模式)确定帧内预测块255。在任何情况下,在对块选择帧内预测模式之后,帧内预测单元254还用于向熵编码单元270提供帧内预测参数,即指示块的所选帧内预测模式的信息。在一个示例中,帧内预测单元254可用于执行下文描述的帧内预测技术的任何组合。

熵编码单元270用于单独或联合(或完全不联合)对经量化的残差系数209、帧间预测参数、帧内预测参数和/或环路滤波器参数应用熵编码算法或方案(例如,可变长度译码(variable length coding,VLC)方案、上下文自适应VLC(context adaptive VLC,CAVLC)方案、算术译码方案、上下文自适应二进制算术译码(context adaptive binaryarithmetic coding,CABAC)、基于语法的上下文自适应二进制算术译码(syntax-basedcontext-adaptive binary arithmetic coding,SBAC)、概率区间分割熵(probabilityinterval partitioning entropy,PIPE)译码或其它熵编码方法或技术),以获得可由输出端272输出的经编码的图像数据21,例如,以经编码码流21的形式输出。可以将经编码码流21发送到视频解码器30,或将其存档以供稍后发送或由视频解码器30检索。熵编码单元270还可以用于对正在译码的当前视频条带的其它语法元素进行熵编码。

视频编码器20的其它结构变体可用于对视频流进行编码。例如,基于非变换的编码器20可以在没有变换处理单元206的情况下直接量化某些块或帧的残差信号。在另一种实现方式中,编码器20中,量化单元208和反量化单元210可以组合成一个单元。

图3示出了用于实现本申请技术的示例性视频解码器30。视频解码器30用于接收例如由编码器100编码的经编码的图像数据(例如,经编码码流)21以获得解码图像131。在解码过程中,视频解码器30从视频编码器100接收视频数据,例如表示编码视频条带的图像块的经编码的视频码流以及相关联的语法元素。

在图3的示例中,解码器30包括熵解码单元304、反量化单元310、逆变换处理单元312、重建单元314(例如,求和器314)、缓冲器316、环路滤波器320、解码图像缓冲器330和预测处理单元360。预测处理单元360可以包括帧间预测单元344、帧内预测单元354和模式选择单元362。在一些示例中,视频解码器30可执行通常与针对图2的视频编码器100描述的编码过程相反的解码过程。

如针对编码器20的描述,反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲器(decoded picture buffer,DPB)230、帧间预测单元344和帧内预测单元354还组成视频编码器20的“内置解码器”。相应地,反量化单元310的功能可以与反量化单元110相同;逆变换处理单元312的功能可以与逆变换处理单元212相同;重建单元314的功能可以与重建单元214相同;环路滤波器320的功能可以与环路滤波器220相同;解码图像缓冲器330的功能可以与解码图像缓冲器230相同。因此,针对视频编码器20的相应单元和功能进行的描述对应地适用于视频解码器30的相应单元和功能。

熵解码单元304用于对经编码的图像数据21进行熵解码以获得量化系数309和/或经解码的译码参数(图3中未示出)等,例如帧间预测参数、帧内预测参数、环路滤波器参数和/或其它语法元素中的(解码的)任一者或全部。熵解码单元304还用于将帧间预测参数、帧内预测参数和/或其它语法元素转发给预测处理单元360。视频解码器30可以接收视频条带级和/或视频块级的语法元素。

熵解码单元304用于解析码流21(或通常为经编码的图像数据21)并例如对经编码的图像数据21进行熵解码,以获得量化系数309和/或经解码的译码参数(图3中未示出)等,例如帧间预测参数(例如参考图像索引和运动矢量)、帧内预测参数(例如帧内预测模式或索引)、变换参数、量化参数、环路滤波器参数和/或其它语法元素中的任一个或全部。熵解码单元304可用于应用与针对编码器20的熵编码单元270所描述的编码方案相对应的解码算法或方案。熵解码单元304还可以用于向模式应用单元360提供帧间预测参数、帧内预测参数和/或其它语法元素,并向解码器30的其它单元提供其它参数。视频解码器30可以接收视频条带级和/或视频块级的语法元素。除了条带和相应语法元素或作为条带和相应语法元素的替代,还可以接收和/或使用编码区块组和/或编码区块以及相应语法元素。

反量化单元310的功能可以与反量化单元110相同;逆变换处理单元312的功能可以与逆变换处理单元112相同;重建单元314的功能可以与重建单元114相同;缓冲器316的功能可以与缓冲器116相同;环路滤波器320的功能可以与环路滤波器120相同;解码图像缓冲器330的功能可以与解码图像缓冲器130相同。

解码器30的实施例可以包括分割单元(图3中未示出)。在一个示例中,视频解码器30的预测处理单元360可以用于执行上文描述的分割技术的任意组合。

预测处理单元360可以包括帧间预测单元344和帧内预测单元354,其中,帧间预测单元344的功能可以与帧间预测单元144类似,帧内预测单元354的功能可以与帧内预测单元154类似。预测处理单元360通常用于根据编码数据21进行块预测和/或获得预测块365,并用于从熵解码单元304等接收或获得(显式或隐式地)预测相关参数和/或关于所选预测模式的信息。

当将视频条带译码为帧内译码(I)条带时,预测处理单元360的帧内预测单元354用于根据指示的帧内预测模式和来自当前帧或图像的先前解码块的数据生成当前视频条带的图像块的预测块365。当将视频帧译码为帧间译码(即,B或P)条带时,预测处理单元360的帧间预测单元344(例如,运动补偿单元)用于根据运动矢量和从熵解码单元304接收的其它语法元素产生当前视频条带的视频块的预测块365。对于帧间预测,可从其中一个参考图像列表中的其中一个参考图像产生这些预测块。视频解码器30可以根据存储在DPB 330中的参考图像,使用默认构建技术来构建参考帧列表:列表0和列表1。

预测处理单元360用于通过解析运动矢量和其它语法元素来确定当前视频条带的视频块的预测信息,并使用所述预测信息针对所解码的当前视频块生成预测块。例如,预测处理单元360使用接收到的一些语法元素确定用于对视频条带的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测条带类型(例如B条带、P条带或GPB条带)、条带的一个或多个参考图像列表的构建信息、条带的每个帧间编码视频块的运动矢量、条带的每个帧间译码视频块的帧间预测状态、以及其它信息,以对当前视频条带内的视频块进行解码。

反量化单元310用于对码流中提供并由熵解码单元304解码的量化变换系数进行反量化,即解量化。反量化过程可以包括使用视频编码器100对视频条带中的每个视频块计算的量化参数来确定量化程度,同样确定需要应用的反量化的程度。

反量化单元310可用于从经编码的图像数据21(例如,通过熵解码单元304等解析和/或解码)接收量化参数(quantization parameter,QP)(或通常为与反量化相关的信息)和量化系数,并根据所述量化参数对经解码的量化系数309应用反量化以获得解量化系数311,所述解量化系数311也可以称为变换系数311。

逆变换处理单元312用于对变换系数应用逆变换,例如逆DCT、逆整数变换或概念上类似的逆变换过程,以在像素域中产生残差块。

逆变换处理单元312可用于接收解量化系数311,也称为变换系数311,并对解量化系数311应用变换以获得采样点域中的重建残差块213。重建残差块213也可以称为变换块313。变换可以为逆变换,例如逆DCT、逆DST、逆整数变换或概念上类似的逆变换过程。逆变换处理单元312还可以用于从经编码的图像数据21接收变换参数或对应信息(例如,通过熵解码单元304等解析和/或解码),以确定将应用于解量化系数311的变换。

重建单元314(例如,求和器314)用于通过例如将重建残差块313的采样点值和预测块365的采样点值相加,将逆变换块313(即重建残差块313)添加到预测块365,以在采样点域中获得重建块315。

环路滤波单元320(在译码环路中或译码环路之后)用于对重建块315进行滤波,以获得滤波块321,以平滑像素转变或提高视频质量等。环路滤波单元320可以包括一个或多个环路滤波器,如去块效应滤波器、采样点自适应偏移(sample-adaptive offset,SAO)滤波器或一个或多个其它滤波器,例如自适应环路滤波器(adaptive loop filter,ALF)、噪声抑制滤波器(noise suppression filter,NSF)或其任意组合。在一个示例中,环路滤波单元220可以包括去块效应滤波器、SAO滤波器和ALF。滤波过程的顺序可以是去块效应滤波器、SAO滤波器和ALF。在另一示例中,增加称为具有色差缩放的亮度映射(luma mappingwith chroma scaling,LMCS)(即,自适应环内整形器)的过程。该过程在去块之前执行。在另一示例中,去块滤波过程也可以应用于内部子块边缘,例如仿射子块边缘、ATMVP子块边缘、子块变换(sub-block transform,SBT)边缘和内子分割(intra sub-partition,ISP)边缘。虽然环路滤波单元320在图3中示为环内滤波器,但是在其它配置中,环路滤波单元320可以实现为后环路滤波器。

然后,将给定帧或图像中的解码视频块321存储在解码图像缓冲器330中,所述解码图像缓冲器330存储用于后续运动补偿的参考图像。

然后,将图像的解码视频块321存储在解码图像缓冲器330中,所述解码图像缓冲器330存储作为参考图像的解码图像331,这些参考图像用于其它图像的后续运动补偿和/或用于分别输出到显示器。

解码器30用于通过输出端332等输出解码图像331,向用户呈现或供用户观看。

可以使用视频解码器30的其它变体对压缩码流进行解码。例如,解码器30可以在没有环路滤波单元320的情况下产生输出视频流。例如,基于非变换的解码器30可以在没有逆变换处理单元312的情况下直接反量化某些块或帧的残差信号。在另一种实现方式中,视频解码器30中,反量化单元310和逆变换处理单元312可以组合成一个单元。

除了上述实施例或替代上述实施例,在图16提供的其它实施例中,帧间预测单元344的功能可以与帧间预测单元244(特别是运动补偿单元)相同,帧内预测单元354的功能可以与帧间预测单元254相同,并根据从经编码的图像数据21接收的分割和/或预测参数或相应信息(例如,通过熵解码单元304等解析和/或解码)决定划分或分割并执行预测。模式应用单元360可用于根据重建图像、块或相应采样点(经滤波或未经滤波)对每个块执行预测(帧内或帧间预测),以获得预测块365。

当将视频条带译码为帧内译码(I)条带时,模式应用单元360的帧内预测单元354用于根据指示的帧内预测模式和来自当前图像的先前解码块的数据生成当前视频条带的图像块的预测块365。当将视频图像译码为帧间译码(即,B或P)条带时,模式应用单元360的帧间预测单元344(例如,运动补偿单元)用于根据运动矢量和从熵解码单元304接收的其它语法元素产生当前视频条带的视频块的预测块365。对于帧间预测,可从其中一个参考图像列表中的其中一个参考图像产生这些预测块。视频解码器30可以根据存储在DPB 330中的参考图像,使用默认构建技术来构建参考帧列表:列表0和列表1。除了条带(例如视频条带)或作为条带的替代,相同或类似的过程可应用于使用编码区块组(例如视频编码区块组)和/或编码区块(例如视频编码区块)的实施例或由这些实施例应用,例如可以使用I、P或B编码区块组和/或编码区块对视频进行译码。

模式选择单元360用于通过解析运动矢量或相关信息和其它语法元素来确定当前视频条带的视频块的预测信息,并使用所述预测信息针对所解码的当前视频块生成预测块。例如,模式应用单元360使用接收到的一些语法元素确定用于对视频条带的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测条带类型(例如B条带、P条带或GPB条带)、条带的一个或多个参考图像列表的构建信息、条带的每个帧间编码视频块的运动矢量、条带的每个帧间译码视频块的帧间预测状态、以及其它信息,以对当前视频条带内的视频块进行解码。除了条带(例如视频条带)或作为条带的替代,相同或类似的过程可应用于使用编码区块组(例如视频编码区块组)和/或编码区块(例如视频编码区块)的实施例或由这些实施例应用,例如可以使用I、P或B编码区块组和/或编码区块对视频进行译码。

图3所示的视频解码器30的实施例可以用于使用条带(也称为视频条带)对图像进行分割和/或解码,其中,可以使用一个或多个条带(通常为非重叠的)对图像进行分割或解码。每个条带可以包括一个或多个块(例如,CTU)或一个或多个块组(例如,编码区块(H.265/HEVC和VVC)或砖(VVC))。

图3所示的视频解码器30的实施例可以用于使用条带/编码区块组(也称为视频编码区块组)和/或编码区块(也称为视频编码区块)对图像进行分割和/或解码,其中,可以使用一个或多个条带/编码区块组(通常为非重叠的)对图像进行分割或解码。每个条带/编码区块组可以包括一个或多个块(例如CTU)或一个或多个编码区块等,其中,每个编码区块可以为矩形等形状,可以包括一个或多个完整或部分块等块(例如CTU)。

可以使用视频解码器30的其它变体对经编码的图像数据21进行解码。例如,解码器30可以在没有环路滤波单元320的情况下产生输出视频流。例如,基于非变换的解码器30可以在没有逆变换处理单元312的情况下直接反量化某些块或帧的残差信号。在另一种实现方式中,视频解码器30中,反量化单元310和逆变换处理单元312可以组合成一个单元。

应理解,在编码器20和解码器30中,可以对当前步骤的处理结果进一步处理,然后输出到下一步骤。例如,在插值滤波、运动矢量推导或环路滤波之后,可以对插值滤波、运动矢量推导或环路滤波的处理结果进行进一步运算,如裁剪或移位运算。

图4为本发明实施例提供的视频译码设备400的示意图。视频译码设备400适用于实现本文描述的公开实施例。在一个实施例中,视频译码设备400可以是解码器(如图1A的视频解码器30)或编码器(如图1A的视频编码器20)。在一个实施例中,视频译码设备400可以是如上所述的图1A的视频解码器30或图1A的视频编码器20的一个或多个组件。

视频译码设备400包括:入端口410和接收单元(Rx)420,用于接收数据;处理器、逻辑单元或中央处理单元(central processing unit,CPU)430,用于处理数据;发送单元(Tx)440和出端口450,用于发送数据;存储器460,用于存储数据。视频译码设备400还可以包括与入端口410、接收单元420、发送单元440和出端口450耦合的光电(optical-to-electrical,OE)组件和电光(electrical-to-optical,EO)组件,用作光信号或电信号的出口或入口。

处理器430通过硬件和软件实现。处理器430可实现为一个或多个CPU芯片、核(例如,多核处理器)、FPGA、ASIC和DSP。处理器430与入端口410、接收单元420、发送单元440、出端口450和存储器460通信。处理器430包括译码模块470。译码模块470用于实施上述公开的实施例。例如,译码模块470用于实施、处理、准备或提供各种译码操作。因此,包括译码模块470使得视频译码设备400功能得到了显著改进,实现了视频译码设备400不同状态的转换。或者,以存储在存储器460中并由处理器430执行的指令来实现译码模块470。

存储器460包括一个或多个磁盘、磁带机和固态硬盘,可用作溢出数据存储设备,以在选择执行程序时存储这类程序,并存储在程序执行期间读取的指令和数据。存储器460可以是易失性和/或非易失性的,并且可以是只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、三态内容寻址存储器(ternary content-addressable memory,TCAM)和/或静态随机存取存储器(static random-access memory,SRAM)。

图5为示例性实施例提供的装置500的简化框图,其中,装置500可用作图1中的源设备310和目的设备320中的任一个或两个。装置500可以实现上述本申请的技术。装置500可以是包括多个计算设备的计算系统的形式,也可以是单个计算设备的形式,例如手机、平板电脑、膝上型电脑、笔记本电脑、台式计算机等。

装置500中的处理器502可以是中央处理单元。或者,处理器502可以是现有的或今后将开发出的能够操控或处理信息的任何其它类型的设备或多个设备。虽然可以使用如图所示的处理器502等单个处理器来实施所公开的实现方式,但使用多于一个处理器可以提高速度和效率。

在一种实现方式中,装置500中的存储器504可以是只读存储器(read onlymemory,ROM)设备或随机存取存储器(random access memory,RAM)设备。任何其它合适类型的存储设备都可以用作存储器504。存储器504可以包括处理器502通过总线512访问的代码和数据506。存储器504还可包括操作系统508和应用程序510,其中,应用程序510包括允许处理器502执行本文所述方法的至少一个程序。例如,应用程序510可以包括应用1至N,还可以包括执行本文所述方法的视频译码应用。装置500还可以包括辅助存储器514形式的附加存储器,辅助存储器514可以是与移动计算设备一起使用的存储卡等。由于视频通信会话可能包括大量信息,因此可以全部或部分地存储在辅助存储器514中,并根据需要加载到存储器504中进行处理。装置500还可以包括一个或多个输出设备,如显示器518。在一个示例中,显示器518可以是将显示器与可用于感测触摸输入的触敏元件组合的触敏显示器。显示器518可以通过总线512耦合到处理器502。

装置500还可以包括一个或多个输出设备,如显示器518。在一个示例中,显示器518可以是将显示器与可用于感测触摸输入的触敏元件组合的触敏显示器。显示器518可以通过总线512耦合到处理器502。除了显示器518或作为显示器518的替代,可以提供允许用户对装置500进行编程或以其它方式使用装置500的其它输出设备。当所述输出设备是显示器或包括显示器时,所述显示器可以通过各种方式实现,包括通过液晶显示器(liquidcrystal display,LCD)、阴极射线管(cathode-ray tube,CRT)显示器、等离子显示器或发光二极管(light emitting diode,LED)显示器,如有机LED(organic LED,OLED)显示器实现。

装置500还可以包括图像传感设备520或与图像传感设备520通信,所述图像传感设备520例如摄像机,或现有的或今后将开发出的能够感测图像(如操作装置500的用户的图像)的任何其它图像传感设备520。可以对图像传感设备520进行定位,使得其朝向操作装置500的用户。在一个示例中,可以配置图像传感设备520的位置和光轴,使得视野包括与显示器518直接相邻并且可以看到显示器518的区域。

装置500还可以包括声音传感设备522或与声音传感设备522通信,所述声音传感设备522例如麦克风,或现有的或今后将开发出的能够感测装置500附近声音的任何其它声音传感设备。可以对声音传感设备522进行定位,使得其朝向操作装置500的用户,并且可以用于接收用户在操作装置500时发出的语音或其它话语等声音。

虽然图5描述了装置500的处理器502和存储器504集成到一个单元中,但是还可以有其它配置。处理器502的操作可以分布在多个机器(每个机器具有一个或多个处理器)中,这些机器可以直接耦合或通过局域网或其它网络耦合。存储器504可以分布在多个机器中,如基于网络的存储器或执行装置500的操作的多个机器中的存储器。虽然装置500的总线512在本文中描述为单个总线,但是总线512可以包括多个总线。此外,辅助储存器514可以直接耦合到装置500的其它组件或可以通过网络访问,并且可以包括存储卡等单个集成单元或多个存储卡等多个单元。因此,装置500可以通过多种配置实现。

下一代视频译码(Next Generation Video Coding,NGVC)不区分CU、PU和TU的概念,使CU分割形状具有更多灵活性。CU的大小与译码节点的大小相对应,可以是正方形或非正方形(例如,矩形)。

在J.An等人于2015年9月发表的《下一代视频译码的块分割结构(Blockpartitioning structure for next generation video coding)》,国际电信联盟,COM16-C966(以下称为“VCEG建议书COM16-C966”中,提出将四叉树-二叉树(quad-tree-binary-tree,QTBT)分割技术用于HEVC之外的未来视频译码标准。模拟结果表明,提出的QTBT结构比在所使用的HEVC中的四叉树结构更高效。在HEVC中,限制了对小块的帧间预测,以减少运动补偿的内存访问,且不支持4×4块的帧间预测。在JEM的QTBT中,取消了这些限制。

在QTBT中,CU可以为正方形或矩形。如图6所示,首先通过四叉树结构分割译码树单元(coding tree unit,CTU)。可以通过二叉树结构进一步分割四叉树叶节点。有两种二叉树划分类型:对称水平划分和对称垂直划分。在每种情况下,都是沿中间水平或垂直地划分节点。二叉树叶节点称为译码单元(coding unit,CU),该分割用于预测和变换处理,而不进行任何进一步分割。这意味着在QTBT译码块结构中,CU、PU和TU的块大小相同。CU有时由不同颜色分量的译码块(coding block,CB)组成,例如,对于4:2:0色度格式的P条带和B条带,一个CU包含一个亮度CB和两个色度CB;有时由单一分量的CB组成,例如,对于I条带,一个CU仅包含一个亮度CB或仅包含两个色度CB。

QTBT分割方案的参数如下:

–CTU大小:四叉树的根节点大小,与HEVC中的概念相同

–MinQTSize:最小允许四叉树叶节点大小

–MaxBTSize:最大允许二叉树根节点大小

–MaxBTDepth:最大允许二叉树深度

–MinBTSize:最小允许二叉树叶节点大小

在QTBT分割结构的一个示例中,当四叉树节点的大小等于或小于MinQTSize时,不考虑进一步的四叉树。在大小(MinQTSize)超过MaxBTSize时不通过二叉树进一步划分。否则,可以通过二叉树进一步分割四叉树叶节点。因此,四叉树叶节点也是二叉树的根节点,其二叉树深度为0(零)。当二叉树深度达到MaxBTDepth(即4)时,不再考虑进一步划分。当二叉树节点的宽度等于MinBTSize(即4)时,不再考虑进一步水平划分。同理,当二叉树节点的高度等于MinBTSize时,不再考虑进一步垂直划分。通过预测和变换处理进一步处理二叉树的叶节点,而无需任何进一步分割。在JEM中,最大CTU大小为256×256个亮度采样点。可以对二叉树(binary-tree,CU)的叶节点进行进一步处理(例如,执行预测过程和变换过程),而无需任何进一步分割。

图6示出了使用QTBT分割技术分割的块30(例如,CTB)的示例。如图6所示,使用QTBT分割技术,经过每个块的中心对称划分每个块。图7示出了与图6的块分割对应的树结构。图7中的实线表示四叉树划分,虚线表示二叉树划分。在一个示例中,在二叉树的每个划分(即,非叶)节点中,指示语法元素(例如,标志)以表示所执行的划分类型(例如,水平或垂直),其中,0表示水平划分,1表示垂直划分。对于四叉树划分,不需要表示划分类型,因为四叉树划分总是将一个块水平并垂直划分为4个大小相等的子块。

如图7所示,在节点50处,使用QT分割将块30(对应于根50)划分为图6所示的四个块31、32、33和34。不再进一步划分块34,因此块34是叶节点。在节点52处,使用BT分割将块31进一步划分为两个块。如图7所示,节点52标记为1,表示垂直划分。因此,节点52处的划分得到块37和包括块35和36的块。块35和36是通过在节点54处进一步垂直划分而形成的。在节点56处,使用BT分割将块32进一步划分为两个块38和39。

在节点58处,使用QT分割将块33划分成4个大小相等的块。通过该QT分割产生块43和44,并且不再进一步划分块43和44。在节点60处,首先使用垂直二叉树划分来划分左上块,从而产生块40和右垂直块。然后使用水平二叉树划分将右垂直块划分成块41和42。在节点58处通过四叉树划分产生右下块,在节点62处,使用水平二叉树划分将该右下块划分为块45和46。如图7所示,节点62标记为0,表示水平划分。

除了QTBT之外,还提出了一种称为多类型树(multi-type-tree,MTT)的块分割结构来取代基于QTBT的CU结构中的BT,也就是说,可以首先通过QT分割对CTU进行划分以获得CTU的块,然后通过MTT分割对该块进行划分。

MTT分割结构仍为递归树结构。在MTT中,使用多种不同的分割结构(例如,两种或两种以上)。例如,根据MTT技术,在树结构的每个深度处,可以对树结构的每个相应的非叶节点使用两种或两种以上不同的分割结构。树结构中某一节点的深度可以指从该节点到树结构的根的路径长度(例如,划分次数)。

MTT中有两种分割类型:BT分割和三叉树(triary-tree,TT)分割。分割类型可以从BT分割和TT分割中选择。TT分割结构与QT或BT结构的不同之处在于TT分割结构不沿中心对块进行划分。该块的中心区域完全处于同一子块内。与产生四个块的QT或产生两个块的二叉树不同,根据TT分割结构进行划分产生三个块。根据TT分割结构的示例性分割类型包括对称分割类型(水平和垂直)和非对称分割类型(水平和垂直)。此外,根据TT分割结构的对称分割类型可以是非平均/非均匀的或平均/均匀的。根据TT分割结构的非对称分割类型是非平均/非均匀的。在一个示例中,TT分割结构可以包括以下分割类型中的至少一种:水平平均/均匀对称三叉树、垂直平均/均匀对称三叉树、水平非平均/非均匀对称三叉树、垂直非平均/非均匀对称三叉树、水平非平均/非均匀非对称三叉树、或垂直非平均/非均匀非对称三叉树分割类型。

通常,非平均/非均匀对称三叉树分割类型是围绕块的中心线对称的分割类型,但是得到的三个块中的至少一个块的大小与其它两个块的大小不相同。在一个优选的示例中,侧块为块大小的1/4,而中心块为块大小的1/2。平均/均匀对称三叉树分割类型是围绕块的中心线对称的分割类型,且得到的块大小都相同。如果根据垂直或水平划分,块高度或宽度为3的倍数,则可以使用这种分割。非平均/非均匀非对称三叉树分割类型是围绕块的中心线不对称的分割类型,且得到的块中的至少一个块的大小与其它两个块的大小不相同。

图8为可选的示例性水平三叉树分割类型的概念图。图9为可选的示例性垂直三叉树分割类型的概念图。在图8和图9中,h表示以亮度或色度采样点为单位的块高度,w表示以亮度或色度采样点为单位的块宽度。需要说明的是,块的相应中心线并不表示块边界(即,三叉树分割不经过中心线对块进行划分)。而是使用中心线来描述特定分割类型相对于原始块的中心线是对称还是非对称的。中心线也是沿着划分的方向。

如图8所示,采用水平平均/均匀对称分割类型对块71进行分割。水平平均/均匀对称分割类型产生相对于块71的中心线对称的上半部和下半部。水平平均/均匀对称分割类型产生三个大小相等的子块,每个子块的高度为h/3,宽度为w。当块71的高度可被3均匀整除时,可以使用水平平均/均匀对称分割类型。

采用水平非平均/非均匀对称分割类型对块73进行分割。水平非平均/非均匀对称分割类型产生相对于块73的中心线对称的上半部和下半部。水平非平均/非均匀对称分割类型产生大小相等的两个块(例如,高度为h/4的顶部块和底部块)和一个大小不同的中心块(例如,高度为h/2的中心块)。在一个示例中,根据水平非平均/非均匀对称分割类型,中心块的面积等于顶部块和底部块的组合面积。在一些示例中,高度为2的次幂(例如,2、4、8、16、32等)的块可以优选采用水平非平均/非均匀对称分割类型。

采用水平非平均/非均匀非对称分割类型对块75进行分割。水平非平均/非均匀非对称分割类型不会产生相对于块75的中心线对称的上半部和下半部(即,上半部和下半部不对称)。在图8的示例中,水平非平均/非均匀非对称分割类型产生高度为h/4的顶部块、高度为3h/8的中心块和高度为3h/8的底部块。当然,可以使用其它非对称布置。

如图9所示,采用垂直平均/均匀对称分割类型对块81进行分割。垂直平均/均匀对称分割类型产生相对于块81的中心线对称的左半部和右半部。垂直平均/均匀对称分割类型产生三个大小相等的子块,每个子块的宽度为w/3,高度为h。当块81的宽度可被3均匀整除时,可以使用垂直平均/均匀对称分割类型。

采用垂直非平均/非均匀对称分割类型对块83进行分割。垂直非平均/非均匀对称分割类型产生相对于块83的中心线对称的左半部和右半部。垂直非平均/非均匀对称分割类型产生相对于83的中心线对称的左半部和右半部。垂直非平均/非均匀对称分割类型产生大小相等的两个块(例如,宽度为h/4的左侧块和右侧块)和一个大小不同的中心块(例如,宽度为w/2的中心块)。在一个示例中,根据垂直非平均/非均匀对称分割类型,中心块的面积等于左侧块和右侧块的组合面积。在一些示例中,宽度为2的次幂(例如,2、4、8、16、32等)的块可以优选采用垂直非平均/非均匀对称分割类型。

采用垂直非平均/非均匀非对称分割类型对块85进行分割。垂直非平均/非均匀非对称分割类型不会产生相对于块85的中心线对称的左半部和右半部(即,左半部和右半部不对称)。在图9的示例中,垂直非平均/非均匀非对称分割类型产生宽度为w/4的左侧块、宽度为3w/8的中心块和宽度为3w/8的右侧块。当然,可以使用其它非对称布置。

除了上文定义的QTBT的参数之外(或替代这些参数),针对MTT分割方案定义了以下参数。

–MaxBTSize:最大允许二叉树根节点大小

–MinBtSize:最小允许二叉树根节点大小

–MaxMttDepth:最大多类型树深度

–MaxMttDepth offset:最大多类型树深度偏移

–MaxTtSize:最大允许三叉树根节点大小

–MinTtSize:最小允许三叉树根节点大小

–MinCbSize:最小允许译码块大小

根据本申请的实施例,本发明的实施例可以由视频编码器或视频解码器,如图2的视频编码器20或图3的视频解码器30实现。视频编码器20或视频解码器30的一个或多个结构元件(包括分割单元)可用于执行本发明实施例的技术。

在本发明的一个实施例中:

在JVET-K1001-v4中,在SPS中指示log2_ctu_size_minus2、log2_min_qt_size_intra_slices_minus2和log2_min_qt_size_inter_slices_minus2(作为语法元素)。

参数log2_ctu_size_minus2+2表示每个CTU的亮度译码树块大小。具体地:

CtbLog2SizeY=log2_ctu_size_minus2+2 (7-5)

CtbSizeY=1<

换句话说,CtbLog2SizeY表示CTU大小CtbSizeY的log2值,对应亮度(Y)的译码树块(coding tree block,CTB)大小。

其它设置如下:

MinCbLog2SizeY=2 (7-7)

MinCbSizeY=1<

MinTbSizeY=4 (7-9)

MaxTbSizeY=64 (7-10)

参数log2_min_qt_size_intra_slices_minus2+2表示在slice_type等于2(I)的条带(即帧内条带)中,对CTU进行四叉树划分所产生的叶块的最小亮度大小。log2_min_qt_size_intra_slices_minus2的取值范围应为0到CtbLog2SizeY–2(包括端值)。

MinQtLog2SizeIntraY=log2_min_qt_size_intra_slices_minus2+2(7-22)

参数log2_min_qt_size_inter_slices_minus2+2表示在slice_type等于0(B)或1(P)的条带(即帧间条带)中,对CTU进行四叉树划分所产生的叶块的最小亮度大小。log2_min_qt_size_inter_slices_minus2的取值范围应为0到CtbLog2SizeY–2(包括端值)。

MinQtLog2SizeInterY=log2_min_qt_size_inter_slices_minus2+2(7-23)

MinQtSizeY在(7-30)中进行了定义,表示以亮度采样点表示的最小允许四叉树划分大小。如果译码块大小小于或等于MinQtSizeY,则不允许进行四叉树划分。其它设置如下:

MinQtLog2SizeY=(slice_type==I)?MinQtLog2SizeIntraY:MinQtLog2SizeInterY (7-25)

MaxBtLog2SizeY=CtbLog2SizeY–log2_diff_ctu_max_bt_size (7-26)

MinBtLog2SizeY=MinCbLog2SizeY (7-27)

MaxTtLog2SizeY=(slice_type==I)?5:6 (7-28)

MinTtLog2SizeY=MinCbLog2SizeY (7-29)

MinQtSizeY=1<

MaxBtSizeY=1<

MinBtSizeY=1<

MaxTtSizeY=1<

MinTtSizeY=1<

MaxMttDepth=(slice_type==I)?max_mtt_hierarchy_depth_intra_slices:max_mtt_hierarchy_depth_inter_slices (7-35)

参数max_mtt_hierarchy_depth_intra_slices和max_mtt_hierarchy_depth_inter_slices分别表示帧内条带和帧间条带的MTT类型划分的最大层次深度。

根据log2_min_qt_size_intra_slices_minus2和log2_min_qt_size_inter_slices_minus2的语义,log2_min_qt_size_intra_slices_minus2和log2_min_qt_size_inter_slices_minus2的范围为0到CtbLog2SizeY–2。

这里,CtbLog2SizeY在log2_ctu_size_minus2的语义中进行了定义,表示每个CTU的亮度译码树块大小的log2值,其中VTM2.0中的CtbLog2SizeY等于7。

根据(7-22)和(7-23),MinQtLog2SizeIntraY和MinQtLog2SizeInterY的范围为2到CtbLog2SizeY。

根据(7-25),MinQtLog2SizeY的范围为2到CtbLog2SizeY。

根据(7-30),在JVET-K1001-v4中,MinQtSizeY的范围为(1<<2)到(1<

在JVET-K1001-v4中,在条带头中有条件地指示log2_diff_ctu_max_bt_size。

参数log2_diff_ctu_max_bt_size表示可以使用二叉树划分进行划分的译码块的亮度CTB大小与最大亮度大小(宽度或高度)之间的差值。log2_diff_ctu_max_bt_size的取值范围应为0到CtbLog2SizeY–MinCbLog2SizeY(包括端值)。

当log2_diff_ctu_max_bt_size不存在时,推断log2_diff_ctu_max_bt_size的值等于2。

MinCbLog2SizeY在(7-7)中进行了定义,表示最小允许译码块大小。

根据log2_diff_ctu_max_bt_size的语义,log2_diff_ctu_max_bt_size的范围为0到CtbLog2SizeY–MinCbLog2SizeY。

根据(7-26),MaxBtLog2SizeY的范围为CtbLog2SizeY到MinCbLog2SizeY。

根据(7-31),MaxBtSizeY的范围为(1<

根据(7-7),在JVET-K1001-v4中,MaxBtSizeY的范围为(1<

因此,MinQtSizeY的范围为4到(1<

因此,MinQtSizeY可能大于MaxBtSizeY。

另外,根据VVC 2.0中的当前边界处理,只允许对边界定位块进行QT和BT分割(不允许进行TT,却又必须进行划分)。

如果当前译码块位于边界,则当前译码块大小cbSizeY满足以下条件:

MinQtSizeY>cbSizeY>MaxBtSizeY,

不可能对当前译码块进行QT和BT划分。因此,当前块没有可用的分割模式。

实施例1

下文更详细地描述了上述问题的解决方案(本发明的实施例),包括边界情况问题。

根据一个实施例,为了解决上述问题,MaxBtSizeY的下限应限制为MinQtSizeY,以确保MaxBtSizeY不小于MinQtSizeY。具体地,MaxBtSizeY的下限可以等于MinQtSizeY,因此MaxBtSizeY的范围应为(1<

(视频标准)的初稿的对应变化在于如下log2_diff_ctu_max_bt_size的语义:

log2_diff_ctu_max_bt_size表示可以使用二叉树划分进行划分的译码块的亮度CTB大小与最大亮度大小(宽度或高度)之间的差值。log2_diff_ctu_max_bt_size的取值范围应为0到CtbLog2SizeY–MinQtLog2SizeY(包括端值)。

译码设备(解码器或编码器)实现的对应译码方法可以如下:

确定图像的所述当前块是否为边界块;

确定当前块的大小是否大于最小允许四叉树叶节点大小;

如果所述当前块为边界块且所述当前块的大小不大于最小允许四叉树叶节点大小,则对所述当前块应用二叉树划分,其中,所述最小允许四叉树叶节点大小(MinQtSizeY)不大于最大允许二叉树根节点大小(MaxBtSizeY)。

其中,对当前块应用二叉树划分可以包括对当前块应用强制二叉树划分。

这里,译码对应于图像、视频或运动图像译码。

边界块意味着图像/帧边界切割该块,或换句话说,该块位于图像/帧边界处。在上述实施例中,如果当前块是边界块(条件1)且其大小不大于最小允许四叉树叶节点大小(条件2),则对当前块应用二叉树划分。需要说明的是,在一些实施例中,可以使用三叉树或其它划分来代替二叉树划分。此外,在一些实施例中,无论条件1如何,都可以在条件2下应用二叉树划分。也就是说,不需要评估条件1。如果当前块的大小实际上大于最小允许四叉树叶节点大小(即,不满足条件2),则可以应用四叉树划分。

需要说明的是,在有些实施例中,仅对边界块使用二叉树划分(条件1)。对于非边界块,仅可以使用四叉树划分进行划分。在图像/帧的边界处应用二叉树(或三叉树)划分可能有利于更高效的划分,例如,在水平边界处的水平二叉树/三叉树分割和在垂直边界处的垂直二叉树/三叉树分割。

译码设备(解码器或编码器)实现的另一种对应译码方法可以如下:确定边界块的大小是否大于最小允许四叉树叶节点大小。如果边界块的大小不大于最小允许四叉树叶节点大小,则最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小(例如,根据标准规范),对边界块应用二叉树划分。

可选地,边界块可以不包括角块。换句话说,为了上述条件1,不将由垂直和水平图像/帧边界切割的角块视为边界块。

实施例2

下文描述本发明的其它实施例(可与上述实施例结合)。

在JVET-K1001-v4中,在SPS中指示max_mtt_hierarchy_depth_inter_slices和max_mtt_hierarchy_depth_intra_slices。换句话说,max_mtt_hierarchy_depth_inter_slices和max_mtt_hierarchy_depth_intra_slices为语法元素,意味着它们的值包含在码流中,所述码流还包括编码图像或视频。

具体地,max_mtt_hierarchy_depth_inter_slices表示在slice_type等于0(B)或1(P)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_inter_slices的取值范围应为0到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

max_mtt_hierarchy_depth_intra_slices表示在slice_type等于2(I)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_intra_slices的取值范围应为0到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

MinTbSizeY在(7-9)中进行了定义,固定为4,因此MinTbLog2SizeY=log2MinTbSizeY,固定为2。

定义了MaxMttDepth,表示多类型树分割的最大允许深度。如果当前多类型树分割深度大于或等于MaxMttDepth,则不允许进行(不应用)多类型树分割。

根据max_mtt_hierarchy_depth_inter_slices和max_mtt_hierarchy_depth_intra_slices的语义,max_mtt_hierarchy_depth_inter_slices和max_mtt_hierarchy_depth_intra_slices的范围为0到CtbLog2SizeY–MinTbLog2SizeY。

根据(7-35),MaxMttDepth的范围为0到CtbLog2SizeY–MinTbLog2SizeY。由于在VTM2.0中CtbLog2SizeY等于7,因此MaxMttDepth的范围为0到5。

因此,MaxMttDepth的范围为0到CtbLog2SizeY–MinTbLog2SizeY,在VTM2.0中为0到5。

根据VVC 2.0中的当前边界处理,只允许对边界定位块进行QT和BT分割(不允许进行TT,却又必须进行划分)。

如果上述第一个问题得到解决(MaxBtSizeY≥MinQtSizeY),则仍然满足以下条件:

cbSizeY≤MinQtSizeY

MaxMttDepth=0

边界处理没有足够的BT(通常为任何MTT,包括TT)分割层次。

例如,MinQtSizeY等于16,MinTbSizeY等于4,MaxMttDepth等于0。

如果边界块的cbSizeY=16,父分割为QT,且该块仍然位于边界上,则由于当前块的Mttdepth达到MaxMttDepth,因此可以不再进一步分割。

该边界情况问题的解决方案(本发明实施例):为了解决上述问题,MaxMttDepth的下限应限制为1(换句话说,值不能取为零),以确保在QT分割之后,边界情况有足够的多类型树分割层次。或者,甚至进一步地,MaxMttDepth的下限应限制为(MinQtLog2SizeY–MinTbLog2SizeY),以确保在QT分割之后,边界情况和非边界情况都有足够的多类型树分割层次。

(标准)初稿的对应变化在于如下max_mtt_hierarchy_depth_inter_slices和max_mtt_hierarchy_depth_intra_slices的语义:

max_mtt_hierarchy_depth_inter_slices表示在slice_type等于0(B)或1(P)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_inter_slices的取值范围应为1到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

max_mtt_hierarchy_depth_intra_slices表示在slice_type等于2(I)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_intra_slices的取值范围应为1到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

或者,

max_mtt_hierarchy_depth_inter_slices表示在slice_type等于0(B)或1(P)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_inter_slices的取值范围应为MinQtLog2SizeY–MinTbLog2SizeY到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

max_mtt_hierarchy_depth_intra_slices表示在slice_type等于2(I)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_intra_slices的取值范围应为MinQtLog2SizeY–MinTbLog2SizeY到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

译码设备(解码器或编码器)实现的对应译码方法可以如下:

将图像划分为块,其中,所述块包括边界块;对具有最大边界多类型分割深度的边界块应用二叉树划分,其中,所述最大边界多类型分割深度至少为最大多类型树深度与最大多类型树深度偏移量之和,其中,所述最大多类型树深度大于0。该实施例可以与实施例1结合,也可以不与实施例1一起应用。

可选地,当对边界块应用二叉树划分时,最大多类型树深度大于0。

可选地,边界块可以不包括角块。

实施例3

在本发明的另一个实施例中:

在JVET-K1001-v4中,如果MinQtSizeY>MaxBtSizeY且MinQtSizeY>MaxTtSizeY。

如果cbSize=MinQtsizeY,则由于没有可用的分割模式,分割无法达到MinCbSizeY(MinTbSizeY和MinCbsizeY是固定的,等于4)。

该非边界情况或边界情况的解决方案:为了解决上述问题,MaxBtSizeY的下限应限制为MinQtSizeY,以确保MaxBtSizeY不小于MinQtSizeY。或者,MaxTtSizeY的下限应限制为MinQtSizeY,以确保MaxTtSizeY不小于MinQtSizeY。

初稿的对应变化在于

log2_diff_ctu_max_bt_size的语义表示可以使用二叉树划分进行划分的译码块的亮度CTB大小与最大亮度大小(宽度或高度)之间的差值。log2_diff_ctu_max_bt_size的取值范围应为0到CtbLog2SizeY–MinQtLog2SizeY(包括端值)。

和/或,

log2_min_qt_size_intra_slices_minus2+2表示在slice_type等于2(I)的条带中,对CTU进行四叉树划分所产生的叶块的最小亮度大小。log2_min_qt_size_intra_slices_minus2的取值范围应为0到MaxTtLog2SizeY–2(包括端值)。

log2_min_qt_size_inter_slices_minus2+2表示在slice_type等于0(B)或1(P)的条带中,对CTU进行四叉树划分所产生的叶块的最小亮度大小。log2_min_qt_size_inter_slices_minus2的取值范围应为0到MaxTtLog2SizeY–2(包括端值)。

译码设备(解码器或编码器)实现的对应译码方法可以如下:

确定当前块的大小是否大于最小允许四叉树叶节点大小;

如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用多类型树划分;

其中,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,或所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。

可选地,所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,且所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。

可选地,对所述当前块应用多类型树划分包括对所述当前块应用三叉树划分,或对所述当前块应用二叉树划分。

可选地,边界块可以不包括角块。

实施例4

在本发明的另一个实施例中:

如果MaxBtSizeY≥MinQtSizeY,MinQtSizeY>MinTbLog2SizeY且MaxMttDepth<(MinQtLog2SizeY–MinTbLog2SizeY),

如果cbSize=MinQtsizeY,则由于没有足够的多类型树分割层次可用,分割无法达到MinCbSizeY。

该非边界情况或边界情况问题的解决方案:为了解决上述问题,MaxMttDepth的下限应限制为(MinQtLog2SizeY–MinTbLog2SizeY),以确保在QT分割之后,边界情况和非边界情况都有足够的多类型树分割层次。

初稿的对应变化在于如下max_mtt_hierarchy_depth_inter_slices和max_mtt_hierarchy_depth_intra_slices的语义:

max_mtt_hierarchy_depth_inter_slices表示在slice_type等于0(B)或1(P)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_inter_slices的取值范围应为MinQtLog2SizeY–MinTbLog2SizeY到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

max_mtt_hierarchy_depth_intra_slices表示在slice_type等于2(I)的条带中,对四叉树叶进行多类型树划分所产生的译码单元的最大层次深度。max_mtt_hierarchy_depth_intra_slices的取值范围应为MinQtLog2SizeY–MinTbLog2SizeY到CtbLog2SizeY–MinTbLog2SizeY(包括端值)。

译码设备(解码器或编码器)实现的对应译码方法可以如下:

将图像划分成块;

对具有最终最大多类型树深度的块的块应用多类型树划分,其中,所述最终最大多类型树深度至少为最大多类型树深度与最大多类型树深度偏移量之和,其中,所述最大多类型树深度大于或等于最小允许四叉树叶节点大小的Log2值减去最小允许变换块大小的Log2值,或所述最大多类型树深度大于或等于最小允许四叉树叶节点大小的Log2值减去最小允许译码块大小的Log2值。

可选地,所述块为非边界块。

可选地,所述最大多类型树深度偏移量为0。

可选地,所述块为边界块,所述多类型树划分为二叉树划分。

可选地,所述多类型树划分为(或包括)三叉树划分。

可选地,边界块可以不包括角块。

实施例1至4可以应用在编码端,用于将图像/帧分割成译码单元并对译码单元进行译码。实施例1至4可以应用在解码端,用于提供图像/帧的分割,即译码单元,并相应地对译码单元进行解码(例如,从流中正确解析出译码单元并对译码单元进行解码)。

根据一些实施例,提供了一种解码器,包括:一个或多个处理器;非瞬时性计算机可读存储介质,与所述处理器耦合并存储由所述处理器执行的程序,其中,当所述程序由所述处理器执行时,配置所述解码器以执行上文结合实施例1至4所述的任一种方法。

此外,提供了一种编码器,包括:一个或多个处理器;非瞬时性计算机可读存储介质,与所述处理器耦合并存储由所述处理器执行的程序,其中,当所述程序由所述处理器执行时,配置所述编码器以执行上文结合实施例1至4所述的任一种方法。

与边界分割有关的附加实施例

在VVC中,多类型(二叉/三叉/四叉)树(BT/TT/QT或二叉树/三叉树/四叉树)分割结构将取代,或可能取代多种分割单元类型的概念,即,不区分CU、PU和TU概念(视需要CU的大小大于最大变换长度的情况仍需要区分这些概念),并支持更灵活的CU分割形状。

[J]

图10A-图10F举例说明了VTM中当前使用的分割模式。图10A示出了未划分块(不划分);图10B示出了四叉树(quaternary/quadtree,QT)分割;图10C示出了水平二叉树(binary tree,BT)分割;图10D示出了垂直二叉树(binary tree,BT)分割;图10E示出了水平三叉树(ternary tree,TT)分割;图10F示出了如CU或CTU等块的垂直三叉树(ternarytree,TT)分割。实施例可以用于实现如图10A至图10F所示的分割模式。

在实施例中,可以通过BT/TT/QT译码树方案的序列参数集(sequence parameterset,SPS)语法元素来定义和指定以下参数:

CTU大小:四叉树的根节点大小

MinQTSize:最小允许四叉树叶节点大小

MaxBTTSize:最大允许二叉树和三叉树根节点大小

MaxBTTDepth:最大允许二叉树和三叉树深度

MinBTTSize:最小允许二叉树和三叉树叶节点大小

在其它实施例中,最小允许四叉树叶节点大小MinQTSize参数也可以包含在其它报头或集合中,例如,条带头(slice header,SH)或图像参数集(picture parameter set,PPS)。

在HEVC标准中,将使用四叉树(quadtree,QT)强制划分位于条带/图像边界上的译码树单元(coding tree unit,CTU)或译码单元(coding unit,CU),直到叶节点的右下侧采样点位于条带/图像边界内。不需要在码流中指示强制QT分割,因为编码器和解码器(例如视频编码器20和视频解码器30)都了解何时应用强制QT。强制分割是为了使视频编码器20/视频解码器30可以处理边界CTU/CU。

国际专利公开号WO 2016/090568公开了四叉树加二叉树(quadtree plus binarytree,QTBT)结构,并且在VTM 1.0中,从HEVC继承边界CTU/CU强制分割过程。这意味着通过四叉树(quadtree,QT)结构强制分割位于帧边界上的CTU/CU,而不考虑率失真(Rate-Distortion,RD)优化,直到整个当前CU位于图像边界内。不在码流中指示这些强制分割。

图11A示出了由强制QT分割的高清晰度(high definition,HD)(1920×1080个像素)底边界CTU(128×128)的强制分割示例。在图11中,HD图像具有或HD图像为1920×1080个像素,CTU具有或CTU为128×128个像素。

在2018年04月举办的圣地亚哥会议上CE1(分割)的SubCE2(图像边界处理)[JVET-J1021]中,针对使用BT、TT、或非对称BT(Asymmetric BT,ABT)的图像边界处理提出了15项测试。例如,在JVET-K0280和JVET-K0376中,边界如图12所示定义。图12用点散线示出图像的边界,用直线示出角落情况区域,即底边界情况、角边界情况和右边界情况。底边界可以通过水平强制BT或强制QT分割;右边界可以通过垂直强制BT或强制QT分割;角落情况只能通过强制QT划分,其中,根据率失真优化准则决策是否使用强制BT或强制QT分割中的任一种,并在码流中指示该决策。强制分割意味着必须分割块,例如,将强制分割应用于不能使用图10A所示的“未划分”进行译码的边界块。

如果在强制边界分割中使用强制QT划分,则忽略MinQTSize的分割约束。例如,在图13A中,如果在SPS中指示MinQTSize为32,为了使边界与强制QT方法匹配,需要QT划分成块大小8×8,从而忽略MinQTSize为32的约束。

根据本方法的实施例,如果将强制QT用于图像边界分割,则强制QT划分服从(例如不忽略)例如在SPS中指示的划分约束。如果需要进一步强制划分,则仅使用强制BT,与强制QT可以合称为强制QTBT。在本发明的实施例中,例如,针对图像边界处的强制QT分割考虑分割约束MinQTSize,并且不需要对强制BT分割进行附加指示。实施例还可以协调正常(非边界)块和边界块的分割。例如,在传统解决方案中,需要两个“MinQTSize”参数,一个对应正常块分割,另一个对应边界块分割。实施例仅需要一个公共“MinQTSize”参数用于正常块和边界块分割,可以通过指示一个“MinQTSize”参数等方式在编码器与解码器之间灵活设置该参数。此外,实施例所需要的分割少于强制QT等。

底边界情况和右边界情况的解决方案

在底边界情况和右边界情况中,如果块大小大于MinQTSize,则可以例如根据率失真优化(rate-distortion optimization,RDO)在强制BT分割与强制QT分割之间选择图像边界分割的分割模式。否则(即,如果块大小等于或小于MinQTSize),则仅使用强制BT分割用于图像边界分割,更具体地,对位于图像底边界上的边界块相应使用针对底边界的水平强制BT,对位于图像右边界上的边界块相应使用针对右边界的垂直强制BT。

所述强制BT分割可以包括通过水平强制边界分割递归分割当前块,直到当前块的子分割位于图像的底边界处,并通过垂直强制边界分割递归分割子分割,直到叶节点完全位于图像的右边界处。或者,所述强制BT分割可以包括通过垂直强制边界分割递归分割当前块,直到当前块的子分割位于底边界处,并通过水平强制边界分割递归分割子分割,直到叶节点完全位于右边界处。MinQTSize还可以用于控制非边界块的分割。

例如,在图11A所示的情况下,如果MinQTSize为32,或限制为32,而需要高度或宽度为8个采样点的矩形(非正方形)块的大小来匹配图像边界,将使用强制BT分割来分割32×32边界定位块。可以使用相同类型的强制BT分割进一步分割BT分割,例如,在已应用强制垂直BT分割的情况下,仅应用进一步强制垂直BT分割;在已应用强制水平BT分割的情况下,仅应用进一步强制水平BT分割。继续强制BT分割,直到叶节点完全处于图像内。

图11B示出了本发明实施例提供的大小为128×128个采样点的底边界CTU的示例性分割。将构成分割树的根块或根节点的底边界CTU分割成较小的分割,例如正方形或矩形大小的较小块。可以将这些较小的分割或块进一步分割成甚至更小的分割或块。在图11B中,首先将CTU四叉树分割成四个大小各自为64×64个采样点的正方形块710、720、730和740。在这些块中,块710和720再次为底边界块,而块730和740在图像外部(分别位于图像外部),不进行处理。

使用四叉树分割将块710进一步分割成四个大小各自为32×32个采样点的正方形块750、760、770和780。块750和760位于图像内部,而块770和780再次构成底边界块。在块770的大小不大于MinQTSize(例如为32)时,对块770应用递归的水平强制二叉树分割,直到叶节点完全处于或完全位于图像内,例如,直到叶节点块772(具有32×16个采样点的矩形非正方形块)(在一次水平二叉树分割之后)处于图像内,或叶节点块774(位于图像的底边界处且具有32×8个采样点的矩形非方形块)(在两次水平二叉树分割之后)位于图像内。块780也是如此。

本发明的实施例可以协调完全位于图像内的正常块的分割与边界块的分割。边界块是不完全处于图像内部,且不完全处于图像外部的块。换句话说,边界块是包括位于图像内的一部分和位于图像外的一部分的块。此外,本发明的实施例可以减少指示,因为不需要指示等于或低于MinQTSize的强制BT分割。

角落情况的解决方案

在角落情况下,有些方法只允许使用强制QT划分,这也忽略了MinQTSize的约束。本发明的实施例针对角落情况提供了两种解决方案。当当前处理块位于图像顶点时会出现角落情况。这种情况是当前块由两个图像边界交叉或与两个图像边界相邻(垂直和水平)。

解决方案1:

角落情况看作是底边界情况或右边界情况。图14示出了边界定义的实施例。图14用点散线示出图像的边界,用直线示出边界情况区域。如图所示,角落情况定义为底边界情况。因此,解决方案与上文针对底边界情况和右边界情况所述的解决方案相同。换句话说,首先应用水平分割(如针对底边界情况所述),直到块或分割完全位于图像内(沿垂直方向),然后应用垂直分割(如针对右边界情况所述),直到叶节点完全位于图像内(水平方向)。边界情况也可以是边界块。

解决方案2:

边界情况的定义仍然保持不变。如果强制QT受MinQTSize约束(当前块大小等于或小于MinQTSize),则使用水平强制BT来匹配底边界,当底边界匹配时,使用垂直强制BT来匹配右边界。

例如,在图13A中,示出了位于图像角落处的块的强制QTBT实施例,如果针对角落情况强制QT分割,MinQTSize为32,或限制为32,则在分割32×32块之后将使用进一步BT分割,直到强制分割终止。

图13B示出了本发明实施例提供的在图像角落处或角落中的边界CTU的示例性分割的进一步细节,其中,所述CTU的大小为128×128个采样点。首先将CTU四叉树分割成四个大小各自为64×64个采样点的正方形块。在这些块中,只有左上角块910是边界块,而其它三个块位于图像外部(完全位于外部),不进行进一步处理。使用四叉树分割将块910进一步分割成四个大小各自为32×32个采样点的正方形块920、930、940和950。块920位于图像内部,而块930、940和950再次构成边界块。由于这些块930、940和950的大小不大于MinQTSize(为32),因此对块930、940和950应用强制二叉树分割。

块930位于右边界上,并使用递归的垂直强制二叉树分割进行分割,直到叶节点位于图像内,例如位于图像右边界处的块932(这里是在两次垂直二叉树分割之后)。

块940位于底边界上,并使用递归的水平强制二叉树分割进行分割,直到叶节点位于图像内,例如位于图像右边界处的块942(这里是在两次水平二叉树分割之后)。

块950位于角边界处,并首先使用递归的水平强制二叉树分割进行分割,直到子分割或块(这里为块952)位于图像的底边界处(这里是在两次水平二叉树分割之后),然后通过垂直强制边界分割递归分割子分割,直到叶节点或块(例如块954)位于图像的右边界处(这里是在两次垂直二叉树分割之后),或者直到叶节点位于图像内部。

上述方法可以应用于解码和编码。对于解码,可以通过SPS接收MinQTSize。对于编码,可以通过SPS发送MinQTSize。实施例可以使用图12或图14所示的边界定义,也可以使用其它边界定义。

下文提供本发明的其它实施例。需要说明的是,以下部分使用的编号不一定需要与上述部分使用的编号保持一致。

实施例1:一种分割方法,包括:

确定图像的当前块是否为边界块;

如果所述当前块为边界块,则确定所述当前块的大小是否大于最小允许四叉树叶节点大小;

如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用强制二叉树分割。

实施例2:根据实施例1所述的分割方法,其特征在于,在所述当前块位于所述图像的底边界上的情况下,所述强制二叉树分割为递归的水平强制二叉树分割;或在所述当前块位于图像的右边界上的情况下,所述强制二叉树分割为递归的垂直强制边界分割。

实施例3:根据实施例1或2所述的分割方法,其特征在于,所述强制二叉树分割包括通过水平强制边界分割递归分割所述当前块,直到所述当前块的子分割直接位于图像的底边界处,并通过垂直强制边界分割递归分割所述子分割,直到叶节点直接完全位于图像的右边界处,或反之亦然。

实施例4:根据实施例1至3中任一项所述的分割方法,其特征在于,所述最小允许四叉树叶节点大小为也用于控制非边界块的分割的最小允许四叉树叶节点大小。

实施例5:一种解码方法,用于根据实施例1至4中任一项所述的分割方法,通过分割块对块进行解码。

实施例6:根据实施例5所述的解码方法,其特征在于,通过SPS接收所述最小允许四叉树叶节点大小。

实施例7:一种编码方法,用于根据实施例1至4中任一项所述的分割方法,通过分割块对块进行编码。

实施例8:根据实施例7所述的编码方法,其特征在于,通过SPS发送所述最小允许四叉树叶节点大小。

实施例9:一种解码设备,包括逻辑电路,所述逻辑电路用于执行根据实施例5或6所述的任一种方法。

实施例10:一种编码设备,包括逻辑电路,所述逻辑电路用于执行根据实施例7或8所述的任一种方法。

实施例11:一种用于存储指令的非瞬时性存储介质,其中,当处理器执行所述指令时,所述处理器执行根据实施例1至8所述的任一种方法。

一种装置,包括存储元件;处理器元件,与所述存储元件耦合,用于:确定图像的当前块是否为边界块;当所述当前块为边界块时,确定所述当前块的大小是否大于最小允许四叉树(quadtree,QT)叶节点大小(MinQTSize);当所述当前块的大小不大于MinQTSize时,对所述当前块应用强制二叉树(binary tree,BT)分割。

综上所述,本申请(或本发明)的实施例提供了编码和解码装置及方法。

第一方面涉及一种分割方法,包括:确定图像的当前块是否为边界块,所述当前块的大小是否大于最小允许四叉树叶节点大小;如果所述当前块是边界块,且所述当前块的大小不大于所述最小允许四叉树叶节点大小(MinQTSize),则对所述当前块应用强制二叉树(binary tree,BT)分割。

根据所述第一方面,在所述方法的第一种实现方式中,在所述当前块位于所述图像的底边界上的情况下,所述强制二叉树分割为递归的水平强制二叉树分割;或在所述当前块位于图像的右边界上的情况下,所述强制二叉树分割为递归的垂直强制边界分割。

根据所述第一方面或所述第一方面的任一上述实现方式,在所述方法的第二种实现方式中,继续所述强制二叉树分割,直到叶节点块位于所述图像内。

根据所述第一方面或所述第一方面的任一上述实现方式,在所述方法的第三种实现方式中,所述强制二叉树分割包括通过水平强制边界分割递归分割所述当前块,直到所述当前块的子分割位于图像的底边界处;通过垂直强制边界分割递归分割所述子分割,直到叶节点完全位于图像的右边界处。

根据所述第一方面或所述第一方面的任一上述实现方式,在所述方法的第四种实现方式中,所述强制BT分割包括通过垂直强制边界分割递归分割所述当前块,直到所述当前块的子分割位于底边界处;通过水平强制边界分割递归分割所述子分割,直到叶节点完全位于右边界处。

根据所述第一方面或所述第一方面的任一上述实现方式,在所述方法的第五种实现方式中,所述方法还包括应用所述最小允许四叉树叶节点大小来控制非边界块的分割。

根据所述第一方面或所述第一方面的任一上述实现方式,在所述方法的第六种实现方式中,所述边界块是不完全处于图像内部,且不完全处于图像外部的块。

第二方面涉及一种解码方法,用于根据所述第一方面或所述第一方面的任一上述实现方式,通过分割所述块对块进行解码。

根据所述第二方面,在所述方法的第一种实现方式中,所述方法还包括通过序列参数集(sequence parameter set,SPS)接收所述最小允许四叉树叶节点大小。

第三方面涉及一种编码方法,用于根据所述第一方面或所述第一方面的任一上述实现方式,通过分割所述块对块进行编码。

根据所述第三方面,在所述方法的第一种实现方式中,所述方法还包括通过序列参数集(sequence parameter set,SPS)发送所述最小允许四叉树叶节点大小。

第四方面涉及一种解码设备,包括逻辑电路,所述逻辑电路用于根据所述第一方面或所述第一方面的任一上述实现方式的分割方法,通过分割所述块对块进行解码。

根据所述第四方面,在所述解码设备的第一种实现方式中,所述逻辑电路还用于通过序列参数集(sequence parameter set,SPS)接收所述最小允许四叉树叶节点大小。

第五方面涉及一种编码设备,包括逻辑电路,所述逻辑电路用于根据所述第一方面或所述第一方面的任一上述实现方式的分割方法,通过分割所述块对块进行编码。

根据所述第五方面,在所述解码设备的第一种实现方式中,所述逻辑电路还用于通过序列参数集(sequence parameter set,SPS)发送所述最小允许四叉树叶节点大小。

第六方面涉及一种用于存储指令的非瞬时性存储介质,其中,处理器执行所述指令时,所述处理器执行所述第一方面、第二方面或第三方面或第一方面、第二方面或第三方面的任一上述实现方式中的任一种。

第七方面涉及一种方法,包括:确定图像的当前块为边界块,并且所述当前块的大小小于或等于最小允许四叉树(quadtree,QT)叶节点大小(MinQTSize);响应于所述确定,对所述当前块应用强制二叉树(binary tree,BT)分割。

根据所述第七方面,在所述方法的第一种实现方式中,所述当前块位于所述图像的底边界上,其中,所述强制BT分割为递归的水平强制BT分割。

根据所述第七方面或所述第七方面的任一上述实现方式,在所述方法的第二种实现方式中,所述当前块位于所述图像的右边界上,其中,所述强制BT分割为递归的垂直强制BT分割。

根据所述第七方面或所述第七方面的任一上述实现方式,在所述方法的第三种实现方式中,所述强制BT分割包括通过水平强制边界分割递归分割所述当前块,直到所述当前块的子分割位于底边界处;通过垂直强制边界分割递归分割所述子分割,直到叶节点完全位于右边界处。

根据所述第七方面或所述第七方面的任一上述实现方式,在所述方法的第四种实现方式中,所述强制BT分割包括通过垂直强制边界分割递归分割所述当前块,直到所述当前块的子分割位于底边界处;通过水平强制边界分割递归分割所述子分割,直到叶节点完全位于右边界处。

根据所述第七方面或所述第七方面的任一上述实现方式,在所述方法的第五种实现方式中,所述方法还包括应用MinQTSize来控制非边界块的分割。

根据所述第七方面或所述第七方面的任一上述实现方式,在所述方法的第六种实现方式中,所述方法还包括通过序列参数集(sequence parameter set,SPS)接收MinQTSize。

根据所述第七方面或所述第七方面的任一上述实现方式,在所述方法的第七种实现方式中,所述方法还包括通过序列参数集(sequence parameter set,SPS)发送MinQTSize。

第八方面涉及一种装置,包括存储器;处理器,与所述存储器耦合,用于:确定图像的当前块是否为边界块;当所述当前块为边界块时,确定所述当前块的大小是否大于最小允许四叉树(quadtree,QT)叶节点大小(MinQTSize);当所述当前块的大小不大于MinQTSize时,对所述当前块应用强制二叉树(binary tree,BT)分割。

根据所述第八方面,在所述装置的第一种实现方式中,当所述当前块位于所述图像的底边界上时,所述强制BT分割为递归的水平强制BT分割;或在所述当前块位于图像的右边界上时,所述强制BT分割为递归的垂直强制BT分割。

根据所述第八方面或所述第八方面的任一上述实现方式,在所述装置的第二种实现方式中,所述强制BT分割包括通过水平强制边界分割递归分割所述当前块,直到所述当前块的子分割位于底边界处;通过垂直强制边界分割递归分割所述子分割,直到叶节点完全位于右边界处。

根据所述第八方面或所述第八方面的任一上述实现方式,在所述装置的第三种实现方式中,所述强制BT分割包括通过垂直强制边界分割递归分割所述当前块,直到所述当前块的子分割位于底边界处;通过水平强制边界分割递归分割所述子分割,直到叶节点完全位于右边界处。

根据所述第八方面或所述第八方面的任一上述实现方式,在所述装置的第四种实现方式中,所述处理器还用于应用MinQTSize来控制非边界块的分割。

根据所述第八方面或所述第八方面的任一上述实现方式,在所述装置的第五种实现方式中,所述装置还包括与所述处理器耦合的接收器,所述接收器用于通过序列参数集(sequence parameter set,SPS)接收MinQTSize。

根据所述第八方面或所述第八方面的任一上述实现方式,在所述装置的第六种实现方式中,所述装置还包括与所述处理器耦合的发送器,所述发送器用于通过序列参数集(sequence parameter set,SPS)发送MinQTSize。

第九方面涉及一种计算机程序产品,包括存储在非瞬时性介质中的计算机可执行指令,其中,处理器执行所述计算机可执行指令时,使装置确定图像的当前块是否为边界块;当所述当前块为边界块时,确定所述当前块的大小是否大于最小允许四叉树(quadtree,QT)叶节点大小(MinQTSize);当所述当前块的大小不大于MinQTSize时,对所述当前块应用强制二叉树(binary tree,BT)分割。

根据所述第八方面,在所述装置的第一种实现方式中,当所述当前块位于所述图像的底边界上时,所述强制BT分割为递归的水平强制BT分割;或在所述当前块位于图像的右边界上时,所述强制BT分割为递归的垂直强制BT分割。

根据所述第九方面或所述第九方面的任一上述实现方式,在所述装置的第二种实现方式中,所述强制BT分割包括通过水平强制边界分割递归分割所述当前块,直到所述当前块的子分割位于底边界处;通过垂直强制边界分割递归分割所述子分割,直到叶节点完全位于右边界处。

根据所述第九方面或所述第九方面的任一上述实现方式,在所述装置的第三种实现方式中,所述强制BT分割包括通过垂直强制边界分割递归分割所述当前块,直到所述当前块的子分割位于底边界处;通过水平强制边界分割递归分割所述子分割,直到叶节点完全位于右边界处。

根据所述第九方面或所述第九方面的任一上述实现方式,在所述装置的第四种实现方式中,所述指令还使所述装置应用MinQTSize来控制非边界块的分割。

根据所述第九方面或所述第九方面的任一上述实现方式,在所述装置的第五种实现方式中,所述指令还使所述装置通过序列参数集(sequence parameter set,SPS)接收MinQTSize。

根据所述第九方面或所述第九方面的任一上述实现方式,在所述装置的第六种实现方式中,所述指令还使所述装置通过序列参数集(sequence parameter set,SPS)发送MinQTSize。

根据一些实施例,提供了一种解码器,包括:一个或多个处理器;非瞬时性计算机可读存储介质,与所述处理器耦合并存储由所述处理器执行的程序,其中,当所述程序由所述处理器执行时,配置所述解码器以执行上文结合实施例1至4所述的任一种方法。

此外,提供了一种编码器,包括:一个或多个处理器;非瞬时性计算机可读存储介质,与所述处理器耦合并存储由所述处理器执行的程序,其中,当所述程序由所述处理器执行时,配置所述编码器以执行上文结合实施例1至4所述的任一种方法。

下面描述上述实施例中所示的编码方法和解码方法以及使用这些方法的系统的应用。

图17为示出用于实现内容分发业务的内容供应系统3100的框图。该内容供应系统3100包括捕获设备3102、终端设备3106,并可选地包括显示器3126。捕获设备3102通过通信链路3104与终端设备3106通信。所述通信链路可以包括上述通信信道13。通信链路3104包括但不限于WIFI、以太网、有线、无线(3G/4G/5G)、USB或其任意类型组合等。

捕获设备3102用于生成数据,并可通过上文实施例中所示的编码方法对数据进行编码。或者,捕获设备3102可以将数据分发到流媒体服务器(图中未示出),该服务器对数据进行编码,并将编码数据发送到终端设备3106。捕获设备3102包括但不限于摄像机、智能手机或平板电脑、计算机或笔记本电脑、视频会议系统、PDA、车载设备或其任意组合等。例如,捕获设备3102可以包括上述源设备12。当数据包括视频时,捕获设备3102中包括的视频编码器20实际上可执行视频编码处理。当数据包括音频(即声音)时,捕获设备3102中包括的音频编码器实际上可执行音频编码处理。在一些实际场景中,捕获设备3102通过将编码视频数据和编码音频数据复用在一起来分发编码视频数据和编码音频数据。在其它实际场景中,例如在视频会议系统中,不复用编码音频数据和编码视频数据。捕获设备3102将编码音频数据和编码视频数据分别分发到终端设备3106。

在内容供应系统3100中,终端设备310接收并再现编码数据。终端设备3106可以为具有数据接收和恢复能力的设备,如智能手机或平板电脑3108、计算机或膝上型电脑3110、网络视频录像机(network video recorder,NVR)/数字视频录像机(digital videorecorder,DVR)3112、电视3114、机顶盒(set top box,STB)3116、视频会议系统3118、视频监控系统3120、个人数字助理(personal digital assistant,PDA)3122、车载设备3124或其任意组合,或能够对上述编码数据进行解码的此类设备。例如,终端设备3106可以包括上述目的设备14。当编码数据包括视频时,终端设备中的视频解码器30优先进行视频解码。当编码数据包括音频时,终端设备中包括的音频解码器优先进行音频解码处理。

对于带显示器的终端设备,如智能手机或平板电脑3108、计算机或膝上型电脑3110、网络视频录像机(network video recorder,NVR)/数字视频录像机(digital videorecorder,DVR)3112、电视3114、个人数字助理(personal digital assistant,PDA)3122、或车载设备3124,终端设备可以将解码数据发送到其显示器。对于不带显示器的终端设备,如STB 3116、视频会议系统3118或视频监控系统3120,将外接显示器3126与终端设备连接,以接收并显示解码数据。

本系统中的各个设备进行编码或解码时,可以使用上述实施例所示的图像编码设备或图像解码设备。

图18为示出终端设备3106的示例结构的图。在终端设备3106从捕获设备3102接收流后,协议处理单元3202对该流的传输协议进行分析。所述协议包括但不限于实时流传输协议(Real Time Streaming Protocol,RTSP)、超文本传输协议(Hyper Text TransferProtocol,HTTP)、HTTP直播流传输协议(HTTP Live Streaming protocol,HLS)、MPEG-DASH、实时传输协议(Real-time Transport Protocol,RTP)、实时消息传输协议(RealTime Messaging Protocol,RTMP)或其任意组合等。

在协议处理单元3202对流进行处理之后,生成流文件。将文件输出到解复用单元3204。解复用单元3204可以将复用数据分离为编码音频数据和编码视频数据。如上所述,在一些实际场景中,例如在视频会议系统中,不复用编码音频数据和编码视频数据。在这种情况下,不通过解复用单元3204,将编码数据发送到视频解码器3206和音频解码器3208。

通过解复用处理,生成视频基本码流(elementary stream,ES)、音频ES和可选的字幕。视频解码器3206,包括如上述实施例所解释的视频解码器30,通过如上述实施例所示的解码方法对视频ES进行解码以生成视频帧,并将该数据发送到同步单元3212。音频解码器3208对音频ES进行解码以生成音频帧,并将该数据发送至同步单元3212。或者,可以在将视频帧发送至同步单元3212之前存储在缓冲器(图18中未示出)中。类似地,可以在将音频帧发送至同步单元3212之前存储在缓冲器(图18中未示出)中。

同步单元3212同步视频帧和音频帧,并将视频/音频提供给视频/音频显示器3214。例如,同步单元3212同步视频和音频信息的呈现。信息可以使用与译码音频和可视数据呈现相关的时间戳和与数据流发送相关的时间戳,在语法中进行译码。

如果流中包括字幕,则字幕解码器3210对字幕进行解码,并使字幕与视频帧和音频帧同步,并将视频/音频/字幕提供给视频/音频/字幕显示器3216。

本发明并不限于上述系统,上述实施例中的图像编码设备或图像解码设备都可以包括在汽车系统等其它系统中。

尽管本发明实施例主要根据视频译码进行了描述,但需要说明的是,译码系统10、编码器20和解码器30(相应地,系统10)的实施例以及本文描述的其它实施例也可以用于静止图像处理或译码,即,对视频译码中独立于任何先前或连续图像的单个图像进行处理或译码。通常,如果图像处理译码限于单个图像17,仅帧间预测单元244(编码器)和344(解码器)不可用。视频编码器20和视频解码器30的所有其它功能(也称为工具或技术)同样可用于静止图像处理,例如残差计算204/304、变换206、量化208、反量化210/310、(逆)变换212/312、分割262/362、帧内预测254/354和/或环路滤波220/320、熵编码270和熵解码304。

编码器20和解码器30等的实施例,以及本文描述的与编码器20和解码器30等有关的功能可以以硬件、软件、固件或其任意组合来实现。如果以软件来实现,则各种功能可作为一个或多个指令或代码存储在计算机可读介质中或通过通信介质传输,且由基于硬件的处理单元执行。计算机可读介质可以包括与有形介质(如数据存储介质)对应的计算机可读存储介质,或包括任何便于将计算机程序从一处传送到另一处的介质(例如根据通信协议)的通信介质。以此方式,计算机可读介质通常可以对应(1)非瞬时性的有形计算机可读存储介质,或(2)如信号或载波等通信介质。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以检索用于实现本发明中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任意组合中实现。如果以软件实现,则这些功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输,并由基于硬件的处理单元执行。计算机可读介质可以包括与有形介质(如数据存储介质)对应的计算机可读存储介质,或包括任何便于将计算机程序从一处传送到另一处的介质(例如根据通信协议)的通信介质。以此方式,计算机可读介质通常可以对应(1)非瞬时性的有形计算机可读存储介质,或(2)如信号或载波等通信介质。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以检索用于实现本发明中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制,这类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储设备、闪存或可用于存储指令或数据结构形式的所需程序代码并且可由计算机访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴电缆、光缆、双绞线、数字用户线(digitalsubscriber line,DSL)或如红外线、无线电和微波等无线技术从网站、服务器或其它远程资源传输指令,则在介质定义中包括同轴电缆、光缆、双绞线、DSL或如红外线、无线电和微波等无线技术。然而,应理解,计算机可读存储介质和数据存储介质并不包括连接、载波、信号或其它瞬时性介质,而是针对非瞬时性有形存储介质。本文所使用的磁盘和光盘包括压缩光盘(compact disc,CD)、激光光盘、光学光盘、数字多功能光盘(digital versatiledisc,DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包括在计算机可读介质的范围内。

可通过如一个或多个数字信号处理器(digital signal processor,DSP)、通用微处理器、专用集成电路(application specific integrated circuit,ASIC)、现场可编程逻辑阵列(field programmable logic array,FPGA)或其它等效集成或离散逻辑电路等一个或多个处理器来执行指令。因此,如本文所使用的术语“处理器”可指前述结构或适合于实现本文描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文描述的各种功能可以提供在用于编码和解码的专用硬件和/或软件模块内,或者并入到组合编解码器中。而且,所述技术可以完全在一个或多个电路或逻辑元件中实现。

本发明的技术可以在多种设备或装置中实现,这些设备或装置包括无线手机、集成电路(integrated circuit,IC)或一组IC(例如芯片组)。本发明中描述各种组件、模块或单元是为了强调用于执行所公开技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上所述,各种单元可以结合合适的软件和/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元(包括如上所述的一个或多个处理器)的集合来提供。

以下逻辑运算符或数学运算符定义如下:

本申请中使用的数学运算符与C编程语言中使用的数学运算符类似。然而,对整数除法和算术移位运算的结果进行了更准确的定义,并且定义了其它运算,如幂运算和实值除法。编号和计数规范通常从零开始,例如,“第一个”相当于第0个,“第二个”相当于第1个,等等。

算术运算符

以下算术运算符定义如下:

+ 加法

– 减法(作为双参数运算符)或者非运算(作为一元前缀运算符)

* 乘法,包括矩阵乘法

x

/ 整数除法,结果截断趋向零。例如,7/4和–7/–4被截断成1,–7/4和7/–4被截断成–1。

÷ 用来表示数学等式中的除法,没有截断或四舍五入。

x%y 模数。x除以y的余数,仅对x≥0且y>0的整数x和y定义。

逻辑运算符

以下逻辑运算符定义如下:

x&&y x和y的布尔逻辑“与”

x||y x和y的布尔逻辑“或”

! 布尔逻辑“非”

x?y:z 如果x为TRUE或不等于0,则求y的值,否则,求z的值。

关系运算符

以下关系运算符定义如下:

> 大于

≥ 大于或等于

< 小于

≤ 小于或等于

== 等于

!= 不等于

当一个关系运算符应用于一个已被赋值“na”(不适用,not applicable)的语法元素或变量时,值“na”被视为该语法元素或变量的不同值。值“na”被视为不等于任何其它值。

逐位运算符

以下逐位运算符定义如下:

& 逐位“与”。当对整数参数运算时,运算的是整数值的二的补码表示。当对二进制参数运算时,如果它包含的位比另一个参数少,则通过添加更多等于0的有效位来扩展较短的参数。

| 逐位“或”。当对整数参数运算时,运算的是整数值的二的补码表示。当对二进制参数运算时,如果它包含的位比另一个参数少,则通过添加更多等于0的有效位来扩展较短的参数。

^ 逐位“异或”。当对整数参数运算时,运算的是整数值的二的补码表示。当对二进制参数运算时,如果它包含的位比另一个参数少,则通过添加更多等于0的有效位来扩展较短的参数。

x>>y x的二的补码整数表示算术右移y个二进制位。只有y为非负整数值时才定义该函数。由于右移而移进最高有效位(most significant bit,MSB)的比特的值等于移位运算之前的x的MSB。

x<

赋值运算符

以下算术运算符定义如下:

= 赋值运算符

++ 增,即,x++等于x=x+1;当在数组索引中使用时,等于增运算之前变量的值。

++ 减,即,x––等于x=x–1;当在数组索引中使用时,等于减运算之前变量的值。

+= 增加指定量,即,x+=3等于x=x+3,x+=(–3)等于x=x+(–3)。

–= 减少指定量,即,x–=3等于x=x–3,x–=(-3)等于x=x–(–3)。

范围符号

以下符号用来说明值的范围:

x=y..z x取从y到z(包括端值)的整数值,其中x、y和z是整数,z大于y。

数学函数

定义了以下数学函数:

Asin(x)三角反正弦函数,对参数x运算,x在–1.0至1.0(包括端值)范围之间,输出值在–π÷2至π÷2(包括端值)范围之间,单位为弧度。

Atan(x)三角反正切函数,对参数x运算,输出值在–π÷2至π÷2(包括端值)范围之间,单位为弧度。

Ceil(x)大于或等于x的最小整数。

Clip1

Clip1

Cos(x)三角余弦函数,对参数x运算,单位为弧度。

Floor(x)小于或等于x的最大整数。

Ln(x)x的自然对数(以e为底的对数,其中e是自然对数底数常数2.718 281828……)。

Log2(x)x以2为底的对数。

Log10(x)x以10为底的对数。

Round(x)=Sign(x)*Floor(Abs(x)+0.5)

Sin(x)三角正弦函数,对参数x运算,单位为弧度。

Swap(x,y)=(y,x)

Tan(x)三角正切函数,对参数x运算,单位为弧度。

运算顺序优先级

当没有使用括号来显式指示表达式中的优先顺序时,适应以下规则:

–高优先级的运算在低优先级的任何运算之前计算。

–相同优先级的运算从左到右依次计算。

下表从最高到最低说明运算的优先级,表中位置越高,优先级越高。

对于C编程语言中也使用的运算符,本规范中使用的优先级顺序与在C编程语言中使用的优先级顺序相同。

表:从最高(表格顶部)到最低(表格底部)的运算优先级

逻辑运算的文本说明

在文本中,逻辑运算的语句用数学形式描述如下:

if(condition 0)

statement 0

else if(condition 1)

statement 1

...

else/*informative remark on remaining condition*/

statement n

可以采用如下方式描述:

...as follows/...the following applies:

–If condition 0,statement 0

–Otherwise,if condition 1,statement 1

–…

–Otherwise(informative remark on remaining condition),statement n

文本中的每个“If...Otherwise,if...Otherwise,...”语句都以“...asfollows”或“...the following applies”引入,紧接“If...”。“If...Otherwise,if...Otherwise,...”的最后一个条件始终是“Otherwise,...”。间插的“If...Otherwise,if...Otherwise,...”语句可以通过使“...as follows”或“...the following applies”与结尾“Otherwise,...”匹配来标识。

在文本中,逻辑运算的语句用数学形式描述如下:

if(condition 0a&&condition 0b)

statement 0

else if(condition 1a||condition 1b)

statement 1

...

else

statement n

可以采用如下方式描述:

...as follows/...the following applies:

–If all of the following conditions are true,statement 0:

–condition 0a

–condition 0b

–Otherwise,if one or more of the following conditions are true,statement 1:

–condition 1a

–condition 1b

...

–Otherwise,statement n

在文本中,逻辑运算的语句用数学形式描述如下:

if(condition 0)

statement 0

if(condition 1)

statement 1

可以采用如下方式描述:

When condition 0,statement 0

When condition 1,statement 1

综上所述,本发明涉及用于对图像信号或视频信号进行编码和解码的方法和设备。所述方法和设备包括确定当前块的大小是否大于最小允许四叉树叶节点大小。如果所述当前块的所述大小不大于所述最小允许四叉树叶节点大小,则对所述当前块应用多类型树划分。所述最小允许四叉树叶节点大小不大于最大允许二叉树根节点大小,或所述最小允许四叉树叶节点大小不大于最大允许三叉树根节点大小。

相关技术
  • 视频编码器、视频解码器及对应方法
  • 视频编码器、视频解码器及对应方法
技术分类

06120112579050