视频前处理方法、系统、设备及存储介质

文献发布时间：2024-04-18 19:58:21

技术领域

本发明涉及视频编解码技术领域，尤其涉及一种视频前处理方法、系统、设备及存储介质。

背景技术

在当今的5G时代，图像和视频等文件载体在网络传输和存储的需求与日俱增。目前市面上最流行的编解码技术是H264、H265、AV1等。这些技术在每一代的迭代中，虽然可以保证有30-50％的码率节省，但是复杂度的代价往往是前一代的十倍乃至数十倍，也就意味着十倍乃至数十倍的部署成本。

因此，有必要研发新的技术方案来减少计算资源的消耗，降低部署成本。

发明内容

本发明的目的是提供一种视频前处理方法、系统、设备及存储介质，可以减少计算资源，降低部署成本。

本发明的目的是通过以下技术方案实现的：

一种视频前处理方法，包括：

构建网络训练框架，包括：前处理网络、代理模型、运动向量提取模块、锐化模块与码率估计网络；

将原始视频数据输入至网络训练框架，通过所述锐化模块对原始视频数据中的每一原始帧图像分别进行锐化操作，获得锐化图像；通过所述运动向量提取模块从原始视频数据中的每一原始帧图像与相关的参考帧图像中提取运动向量与参考关系；通过所述前处理网络对原始视频数据中的每一原始帧图像进行前处理后与提取出的运动向量及参考关系一并输入至代理模型中，获得重建帧图像，并且，通过码率估计网络对代理模型处理过程中获得的中间变量进行估计，获得码率估计结果；结合锐化图像、原始帧图像与重建帧图像计算图像失真损失，结合码率估计结果计算码率估计损失，综合所述图像失真损失与码率估计损失对前处理网络与码率估计网络进行训练；

利用训练后的前处理网络对原始视频数据进行前处理。

一种视频前处理系统，包括：

网络训练框架构建单元，用于构建网络训练框架，其包括：前处理网络、代理模型、运动向量提取模块与锐化模块；

训练单元，用于将原始视频数据输入至网络训练框架，通过所述锐化模块对原始视频数据中的每一原始帧图像分别进行锐化操作，获得锐化图像；通过所述运动向量提取模块从原始视频数据中的每一原始帧图像与相关的参考帧图像中提取运动向量与参考关系；通过所述前处理网络对原始视频数据中的每一原始帧图像进行前处理后与提取出的运动向量及参考关系一并输入至代理模型中，获得重建帧图像，并且，通过码率估计网络对代理模型处理过程中获得的中间变量进行估计，获得码率估计结果；结合锐化图像、原始帧图像与重建帧图像计算图像失真损失，结合码率估计结果计算码率估计损失，综合所述图像失真损失与码率估计损失对前处理网络与码率估计网络进行联合训练；

前处理单元，用于利用训练后的前处理网络对原始视频数据进行处理。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过训练前处理网络可以只消耗少量的GPU计算资源的前提下，达到节省码率目的，进而提升网络传输效率，并节省存储空间；并且，训练时，使用锐化图像作为训练目标，使得前处理网络可以更加锐利和降低噪声，从而保证前处理后的图像质量；同时，训练出的前处理网络可以轻松的部署到视频源和视频编码器之间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种视频前处理方法的流程图；

图2为本发明实施例提供的一种网络训练框架的示意图；

图3为本发明实施例提供的代理模型的处理过程示意图；

图4为本发明实施例提供的前处理网络的示意图；

图5为本发明实施例提供的一种视频前处理系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种视频前处理方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种视频前处理方法，如图1所示，其主要包括如下步骤：

步骤1、构建网络训练框架。

如图2所示，网络训练框架主要包括：前处理网络、代理模型、运动向量提取模块、锐化模块与码率估计网络。

本发明实施例中，所述前处理网络主要包括依次设置的多层空洞卷积层。

本发明实施例中，所述代理模型为抽象出的编解码器的内部模块，用于模拟编码器的处理行为。

步骤2、将原始视频数据输入至网络训练框架，对前处理网络与码率估计网络进行联合训练。

本发明实施例中，将原始视频数据输入至网络训练框架，通过所述锐化模块对原始视频数据中的每一原始帧图像分别进行锐化操作，获得锐化图像；通过所述运动向量提取模块从原始视频数据中的每一原始帧图像与相关的参考帧图像中提取运动向量与参考关系；通过所述前处理网络对原始视频数据中的每一原始帧图像进行前处理后与提取出的运动向量及参考关系一并输入至代理模型中，获得重建帧图像，并且，通过码率估计网络对代理模型处理过程中获得的中间变量进行估计，获得码率估计结果；结合锐化图像、原始帧图像与重建帧图像计算图像失真损失，结合码率估计结果计算码率估计损失，综合所述图像失真损失与码率估计损失对前处理网络与码率估计网络进行联合训练。

步骤3、利用训练后的前处理网络对原始视频数据进行前处理。

本发明实施例中，训练后的前处理网络可以部署在视频源和视频编码器之间，对视频进行前处理后，再传入视频编码器进行编码。

本发明实施例提供的上述方案，只需要消耗少量的GPU计算资源，即可实现主观指标下30％的码率节省，进而提升网络传输效率和节省存储空间。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、原理概述。

本发明实施例总，需要训练一个前处理网络，训练时需要一个代理模型作为编解码器的模拟。搭建代理模型的目的是模拟当前编解码器的行为，为前处理网络提供训练过程中的反馈。代理模型抽象出传统编码器的主要模块，可以准确的模拟传统编码器的行为，并为训练提供反向传播需要的梯度。为了进一步提升代理模型的准确度，本发明提出一个运动向量的提取方法：从编码码流中提取出真实的运动向量和参考关系。为了让前处理网络可以更加锐利和降低噪声，本发明提出用锐化图像作为训练目标，示例性的，锐化图像可以使用USM算法(一种图像锐化算法)制作的，采用大小为3、权重为0.5的高斯算子。

本发明实施例中，运动向量的提取方法流程为，先使用现有的H264编码器编码原始视频，然后保存编码过程中获得的运动向量这一中间信息。通过上述方法提取出来的运动向量，可以对模拟代理模型的准确度，进而对前处理网络的学习提供帮助。

图2展示了训练前处理网络时搭建的网络训练框架的主要组成部分。图3展示了代理模型的处理过程，主要包括：将给定的视频源转化为yuv文件(一种图片格式的文件)，然后提取出亮度分量获得原始亮度图像，再经过前处理后得到的亮度图像称作y

图3中的p

本领域技术人员可以理解，参考帧是相对于当前帧而言，当前帧就是即为当前处理的图像，参考帧即为之前或者之后的图像，参考是指把参考帧的信息用于当前帧的编码，参考关系指的是参照帧和当前帧的关系，例如参考帧是当前帧的前一帧或者前两帧。

本发明在此部分主要包括如下三点创新：

1)提取真实的运动向量作为帧间变换的依据，这样可以极大提升帧间预测的准确度。

2)Round算子无法传递梯度，本发明使用使用三阶泰勒多项式函数(图3中的公式)近似round函数，以解决round函数没有梯度的问题。

3)码率估计网络采用GMM模型(高斯混合模型)实现，用来估计量化后特征的码率。

二、总体训练流程。

1、输入原始视频数据(维度：H，W，3)，转成yuv格式并提取亮度分量(维度：H，W，1)，获得原始亮度图像，将其作为原始帧图像。

2、将原始帧图像像输入前处理网络，经过代理模型，得到重建帧图像。

本发明实施例中，前处理网络是一种卷积神经网络，输入是HxWx1的图像，输出也是HxWx1的图像，该卷积神经网络包含多层空洞卷积层，示例性的，通道数均可设为16。使用空洞卷积是为了提高卷积的感受野，作为举例，图4展示了使用6层空洞卷积层实现的前处理网络，左右两侧表示输入输出图像，中间为6层空洞卷积层，前三层主要负责提取细节特征，示例性的，扩张率都是1，后三层主要负责深层结构信息的整合，示例性的，扩张率分别是2/4/8；最终由前处理网络输出前处理后的帧图像。作为举例，图

本发明实施例中，代理模型的处理过程可描述为：1)结合前处理后的图像、运动向量及参考关系，获得预测帧图像与残差；2)基于预测帧图像与残差，通过变换(例如DCT变换)与量化(QM)处理，获得量化特征；3)基于量化特征，通过反变换与反量化处理，获得重建帧图像。上述过程中，采用高斯混合模型估计量化特征的码率，获得码率估计结果。

3、计算重建重建帧图像和原始帧图像以及锐化图像的差距，获得图像失真，结合码率估计结果，确定码率估计损失。

本发明实施例中，所述图像失真损失包括：利用重建帧图像和原始帧图像计算出的重建失真L

所述图像失真损失的计算方式包括：

其中，L

本发明实施例中，图像感知相似度(lpips)是一种人眼主观感知指标，主要是从结构相似度的角度来衡量重建图和原图的差距。

本发明实施例中，降噪损失是一个常用的降噪损失函数，输入是重建帧图像，效果是抑制重建帧的噪声。

本发明实施例中，将码率估计损失记为L

其中，λ为权重系数。

4、利用上述总损失进行反向传播，更新前处理网络与码率估计网络的参数。

三、部署方案。

训练完毕后，可以将上述训练得到的前处理网络部署于视频源与视频编码器之间，工作过程如下：

1、输入原始视频数据(维度：H，W，3)，转成yuv格式并提取亮度分量，获得获得原始亮度图像，作为原始帧图像。

2、通过训练后的前处理网络对原始亮度图像进行处理，获得前处理后的亮度图像。

3、将前处理后的亮度图像和原始色度分量结合，得到完整的yuv文件，再转化为原本的视频格式，之后输入至视频编码器中。

本领域技术人员可以理解，yuv文件由两部分组成，亮度分量和色度分量，本发明的前处理网络主要是处理亮度分量，色度分量保持不变，对亮度分量进行前处理后再与原始色度分量结合为yuv文件。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种视频前处理系统，其主要用于实现前述实施例提供的方法，如图5所示，该系统主要包括：

网络训练框架构建单元，用于构建网络训练框架，其包括：前处理网络、代理模型、运动向量提取模块、锐化模块与码率估计网络；

前处理单元，用于利用训练后的前处理网络对原始视频数据进行处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

完整全部详细技术资料下载