一种基于AV1编码技术的视频编码方法

文献发布时间：2023-06-19 19:35:22

技术领域

本发明涉及视频编码技术领域，特别是涉及一种基于AV1编码技术的视频编码方法。

背景技术

数字视频已经是非常普遍用来传播信息的媒介，为了能更有效率地节省视频处理时间以及存储空间，往往就会使用视频压缩技术。而现有的视频压缩技术，在将各个图像分割为由亮度分量的矩形16×16像素区域和色度分量的矩形8×8像素区域组成的固定大小宏块之后，对各个图像进行编码得到编码块。各个编码块的所有亮度分量和色度分量是空间或时间预测的，并且结果预测残留在最终压缩之前经受变换、量化和熵编码等。

然而，随着视频分辨率不断提升，16x16编码块并不适于诸如4Kx2K视频的高分辨率视频的大小。此外，由于通常的视频压缩技术在进行视频编码时采用固定大小的编码块，如果仍然要用16x16编码块来实现对高分辨率视频的编码，会大大降低码率传输的效率。

发明内容

本发明要解决的技术问题是：现有技术无法在更高的分辨率上使用原始块时能有效提高码率传输效率的问题。

为了解决上述技术问题，本发明提供了一种基于AV1编码技术的视频编码方法，包括：

在编解码器的分区树中加入多种不同的分块模式，将最大编码块的尺寸增大，并加入4：1/1：4矩形编码分块；

将帧内和帧间的编码块进一步划分为多个变换单元；

通过帧内预测和帧间预测的方法去除编码块的空间冗余和时间冗余得到残差块；

通过变换编码的方法对编码块进行变换处理得到变换系数矩阵，而残差块变换得到残余系数；

通过量化的方法减少变换系数矩阵内残余系数的个数；

通过熵编码方法对编码块的变换系数矩阵进行处理得到视频的比特码流，即完成对视频的编码。

进一步的，所述在编解码器的分区树中加入多种不同的分块模式，将最大编码块的尺寸增大，并加入4：1/1：4矩形编码分块中：

在编解码器中，将分区树拓展到10种不同的分块结构，将最大宏块的尺寸增大到128×128，加入了4：1/1：4矩形编码分块，其中的一些编码分块还可以进行递归分区，而新加入的4：1/1：4矩形编码分块不可以再进行分区细分。

进一步的，所述将帧内和帧间的编码块进一步划分为多个变换单元中：

对于帧内的编码块，以所有变换块具有相同大小的方式对帧内的编码块进行变换分区得到变换单元，并且以光栅扫描顺序对变换块进行编码；

对于帧间的编码块，通过递归的方式对帧间的编码块进行变换分区得到变换单元。

进一步的，所述通过帧内预测和帧间预测的方法去除编码块的空间冗余和时间冗余得到残差块中：

通过利用编码块内的像素之间的关联性来去除编码块内的像素之间的关联，该过程通过在编码块内寻找最匹配的预测块，在帧内找到的最匹配的预测块称为帧内预测块，利用帧内预测块除去编码块的空间冗余，在帧外找到的最匹配的预测块称为帧间预测块，利用帧间预测块除去编码块的时间冗余，所剩下的为残差块。

进一步的，在所述通过变换编码的方法对编码块进行变换处理得到变换系数矩阵，而残差块变换得到残余系数：

通过DCT变换使编码块从空间域转换至变换域，得到变换系数矩阵，其中帧内预测和帧间预测得到的残差块进行DCT变换后得到残余系数。

进一步的，在所述通过量化的方法减少残余系数的个数中：

通过将变换系数矩阵内的残余系数进行多对一的映射，减少残余系数的个数。

进一步的，所述通过熵编码方法对编码块的变换系数矩阵进行处理得到视频的比特码流中：

通过之字型扫描方式按照扫描顺序依次对变换系数矩阵的每个变换系数进行扫描得到非零系数，统计非零系数的数量，并将非零系数的数量进行压缩输出得到视频的比特码流。

本发明实施例一种基于AV1编码技术的视频编码方法与现有技术相比，其有益效果在于：

本发明将最大的编码块尺寸，扩展分区树的结构种类，并添加当前其他编码器中不存在的矩形编码分块，再通过对编码块进行划分、预测、变换、量化、和熵编码后生成编码后视频数据，有效的提高了码率传输的效率。

附图说明

图1是本发明实施例中基于AV1编码技术的视频编码方法的总流程示意图；

图2是本发明实施例中基于AV1编码技术的视频编码方法的第一流程示意图；

图3是本发明实施例中基于AV1编码技术的视频编码方法的分块结构的示意图；

图4是本发明实施例中基于AV1编码技术的视频编码方法的帧内编码块的变换块分区的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本申请的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

术语“”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

如图1所示，在本申请的实施例中，提供了一种基于AV1编码技术的视频编码方法，包括：在编解码器的分区树中加入多种不同的分块模式，将最大编码块的尺寸增大，并加入4：1/1：4矩形编码分块；将帧内和帧间的编码块进一步划分为多个变换单元；通过帧内预测和帧间预测的方法去除编码块的空间冗余和时间冗余得到残差块；通过变换编码的方法对编码块进行变换处理得到变换系数矩阵，而残差块变换得到残余系数；通过量化的方法减少变换系数矩阵内残余系数的个数；通过熵编码方法对编码块的变换系数矩阵进行处理得到视频的比特码流，即完成对视频的编码。

进一步的，本发明将最大的编码块尺寸，扩展分区树的结构种类，并添加当前其他编码器中不存在的矩形编码分块，再通过对编码块进行划分、预测、变换、量化、和熵编码后生成编码后视频数据，有效的提高了码率传输的效率。

如图3所示，在本申请的实施例中，提供一种基于AV1编码技术的视频编码方法，所述在编解码器的分区树中加入多种不同的分块模式，将最大编码块的尺寸增大，并加入4：1/1：4矩形编码分块中：

具体的，在编解码器中，除无划分模式外，分区树还支持9种不同的分区模式，不同的分区模式具体如图3中所示；此外还增加了使用8×8级以下分区的灵活性，在某种意义上，2×2的色度帧间预测在某些情况下成为可能。

如图2和4所示，在本申请的实施例中，提供一种基于AV1编码技术的视频编码方法，所述将帧内和帧间的编码块进一步划分为多个变换单元中：对于帧内的编码块，以所有变换块具有相同大小的方式对帧内的编码块进行变换分区得到变换单元，并且以光栅扫描顺序对变换块进行编码；对于帧间的编码块，通过递归的方式对帧间的编码块进行变换分区得到变换单元。

具体的，通过递归的方式对帧间的编码块进行变换分区的划分深度最多为2级，变换分区支持1：1，1：2/2：1和1：4/4：1变换单位大小，范围从4×4到64×64。

在本申请的实施例中，提供一种基于AV1编码技术的视频编码方法，所述通过帧内预测和帧间预测的方法去除编码块的空间冗余和时间冗余得到残差块中：通过利用编码块内的像素之间的关联性来去除编码块内的像素之间的关联，该过程通过在编码块内寻找最匹配的预测块，在帧内找到的最匹配的预测块称为帧内预测块，利用帧内预测块除去编码块的空间冗余，在帧外找到的最匹配的预测块称为帧间预测块，利用帧间预测块除去编码块的时间冗余，所剩下的为残差块。

具体的，帧内预测和帧间预测是利用像素之间的相关性来去除空间冗余和时间冗余，通过为当前编码块构造尽可能准确的预测块，从而得到能量较小的残差块，因为能量较小的残差块可以减少传输比特，从而提高传输效率。

在本申请的实施例中，提供一种基于AV1编码技术的视频编码方法，在所述通过变换编码的方法对编码块进行变换处理得到变换系数矩阵，而残差块变换得到残余系数：通过DCT变换使编码块从空间域转换至变换域，得到变换系数矩阵，其中帧内预测和帧间预测得到的残差块进行DCT变换后得到残余系数。

进一步的，对每一个子编码块内的像素块进行单独的DCT变换，对于灰度值缓慢变化的像素块来说经过DCT后绝大部分能量都集中在左上角的低频系数中，如果像素块包含较多细节纹理信息，则较多能量分散在高频区域。由于大多数图像包含更多的低频分量，并且可以利用人眼对图像高频细节相对不敏感的特性，对高能量的低频系数进行较为精细的量化和处理，而对低能量的高频系数进行粗略的量化或掩盖，这样可以较好地压缩图像而不会造成明显的主观质量下降。

在本申请的实施例中，提供一种基于AV1编码技术的视频编码方法，在所述通过量化的方法减少残余系数的个数中：通过将变换系数矩阵内的残余系数进行多对一的映射，减少残余系数的个数。

具体的，把变换后的残余系数除以一个常量，经过量化后的结果是量化步长的整数倍或者为更多的零值，从而减少残余系数的个数，达到了压缩的目的。

在本申请的实施例中，提供一种基于AV1编码技术的视频编码方法，所述通过熵编码方法对编码块的变换系数矩阵进行处理得到视频的比特码流中：通过之字型扫描方式按照扫描顺序依次对变换系数矩阵的每个变换系数进行扫描得到非零系数，统计非零系数的数量，并将非零系数的数量进行压缩输出得到视频的比特码流。

具体的，由于经DCT变换后能量主要集中在直流和较低频率系数上，而大部分变换系数为0或接近0，再加上视觉加权处理和量化，有更多的0产生，这些0往往连在一起成串出现，连续0的个数叫做零游程，于是在编码时，不对单个的0编码，而对零游程编码，就会提高编码效率。为了制造更长的零游程，对变换系数矩阵采用Z字形扫描方式读取数时进行重新排列，很多像块经变换后，变换系数经过ZigZag排列，排在队尾的很长一串系数全是0，最后统计非零系数的数量，并将非零系数的数量进行压缩输出得到视频的比特码流。

综上，本发明实施例提供一种基于AV1编码技术的视频编码方法，其包括：在编解码器的分区树中加入多种不同的分块模式，将最大编码块的尺寸增大，并加入4：1/1：4矩形编码分块；将帧内和帧间的编码块进一步划分为多个变换单元；通过帧内预测和帧间预测的方法去除编码块的空间冗余和时间冗余得到残差块；通过变换编码的方法对编码块进行变换处理得到变换系数矩阵，而残差块变换得到残余系数；通过量化的方法减少变换系数矩阵内残余系数的个数；通过熵编码方法对编码块的变换系数矩阵进行处理得到视频的比特码流。本发明将最大的编码块尺寸，扩展分区树的结构种类，并添加当前其他编码器中不存在的矩形编码分块，再通过对编码块进行划分、预测、变换、量化、和熵编码后生成编码后视频数据，有效的提高了码率传输的效率。

最后应说明的是：显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述仅为本发明的一个实施例子，但不能以此限制本发明的范围，凡依据本发明所做的结构上的变化，只要不失本发明的要义所在，都应视为落入本发明保护范围之内受到制约。所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的进一步实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杜万波;孟子涵;王晓莉;邓澍;徐丛丛;邱娜;侯晓慧;林东煦;
专利申请人：华能信息技术有限公司;