掌桥专利:专业的专利平台
掌桥专利
首页

视频质量提升模型的训练方法和装置

文献发布时间:2023-06-19 11:32:36


视频质量提升模型的训练方法和装置

技术领域

本公开涉及视频处理领域,尤其涉及一种视频质量提升模型的训练方法和装置以及视频质量提升方法和装置。

背景技术

在相关技术中,视频传输过程通常采用有损压缩算法,即,客户端的视频相比于原视频会出现一定的压缩失真,例如块效应、边缘模糊、细节丢失等等。为此,提出了一系列改善视频压缩带来的失真问题的算法,其中,部分鲁棒高效的传统算法已经被采纳进视频编码框架中而被广泛使用,然而,正在快速发展的基于深度学习的算法取得了更高质量的效果。

虽然现有的视频编码标准所采用的去视频压缩失真算法(诸如去块效应滤波器和样本自适应偏移滤波器等)能够在某些程度上改善压缩失真,但这些传统算法却存在共同的缺点,如通用性不强、无法处理多样性的视频压缩失真等等。

目前,随着深度卷积神经网络的快速发展,越来越多的工作采用深度学习方法处理压缩失真问题。

发明内容

本公开提供一种视频质量提升模型的训练方法和装置以及视频质量提升方法和装置,以至少解决上述相关技术中的通用性不强、无法处理多样性的视频压缩失真的问题,也可不解决任何上述问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种视频质量提升模型的训练方法,所述视频质量提升模型包括第一阶段生成器、第二阶段生成器和判别器,其中,所述训练方法包括:由第一阶段生成器对第一质量的视频帧进行处理来获得第一输出图像;由第二阶段生成器根据第一输出图像和随机变量来获得第二输出图像;根据第二质量的视频帧和第一输出图像计算第一损失函数;根据第二质量的视频帧、第二输出图像、以及判别器对第二输出图像和所述第二质量的视频帧判别的结果计算损失函数,其中,所述第一质量的视频帧是通过对所述第二质量的视频帧进行编码和解码后得到的,且第一质量低于第二质量;根据判别器对第二输出图像和所述第二质量的视频帧判别的结果计算第三损失函数;根据第一损失函数、第二损失函数和第三损失函数分别调整第一阶段生成器、第二阶段生成器和判别器的模型参数来对所述视频质量提升模型进行训练。

可选地,计算第二损失函数的步骤可包括:根据第二输出图像和所述第二质量的视频帧来计算L1损失函数;根据判别器针对第二输出图像的判别结果来计算对抗损失函数;根据第二输出图像和所述第二质量的视频帧来计算感知损失函数;并且计算L1损失函数、对抗损失函数和感知损失函数的加权和作为第二损失函数。

可选地,所述随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化。

可选地,获得第一输出图像的步骤可包括:由第一阶段生成器从所述第一质量的视频帧提取深度特征;由第一阶段生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由第一阶段生成器将所述处理后的深度特征转换到与所述第一质量的视频帧相同的彩色空间以获得第一残差图像;由第一阶段生成器将第一残差图像与所述第一质量的视频帧相加来获得第一输出图像。

可选地,计算第一损失函数的步骤可包括:根据所述第二质量的视频帧和第一输出图像来计算L1损失函数作为第一损失函数。

可选地,获得第二输出图像的步骤可包括:由第二阶段生成器从第一输出图像提取深度特征;由第二阶段生成器中的多个卷积模块对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征;由第二阶段生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像;由第二阶段生成器将第二残差图像与第一输出图像相加来获得第二输出图像。

可选地,所述多个卷积模块以串联形式彼此连接,其中,由第二阶段生成器中的多个卷积模块对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:将输入的深度特征与所述随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

可选地,计算第三损失函数的步骤可包括:根据判别器对第二输出图像和所述第二质量的视频帧进行判别的结果来计算对抗损失函数作为第三损失函数。

可选地,根据本公开实施例的第二方面,提供一种视频质量提升方法,所述视频质量提升方法包括:由视频质量提升模型中的第一阶段生成器对重建的视频帧进行处理减少重建的视频帧中的压缩失真来获得第一输出图像;由视频质量提升模型中的第二阶段生成器对第一输出图像和随机变量进行处理来获得第二输出图像。

可选地,所述随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化。

可选地,获得第一输出图像的步骤可包括:由第一阶段生成器从所述视频帧提取深度特征;由第一阶段生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由第一阶段生成器将所述处理后的深度特征转换到与所述视频帧相同的彩色空间以获得第一残差图像;由第一阶段生成器将第一残差图像与所述视频帧相加来获得第一输出图像。

可选地,获得第二输出图像的步骤可包括:由第二阶段生成器从第一输出图像提取深度特征;由第二阶段生成器中的多个卷积模块对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征;由第二阶段生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像;由第二阶段生成器将第二残差图像与第一输出图像相加来获得第二输出图像。

可选地,所述多个卷积模块以串联形式彼此连接,其中,由第二阶段生成器中的多个卷积模块对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:将输入的深度特征与所述随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

可选地,视频质量提升模型是使用如上所述的训练方法训练得到的。

根据本公开实施例的第三方面,提供一种视频质量提升模型的训练装置,所述视频质量提升模型可包括第一阶段生成器、第二阶段生成器和判别器,其中,所述训练装置可包括:第一获得单元,被配置为:通过第一阶段生成器对第一质量的视频帧进行处理来获得第一输出图像;第二获得单元,被配置为:通过第二阶段生成器根据第一输出图像和随机变量来获得第二输出图像;计算单元,被配置为:根据第二质量的视频帧和第一输出图像计算第一损失函数;根据第二质量的视频帧、第二输出图像、以及判别器对第二输出图像和所述第二质量的视频帧判别的结果计算第二损失函数,并根据判别器对第二输出图像和所述第二质量的视频帧判别的结果计算第三损失函数,其中,所述第一质量的视频帧是通过对所述第二质量的视频帧进行编码和解码后得到的,且第一质量低于第二质量;以及调参单元,被配置为:根据第一损失函数、第二损失函数和第三损失函数调整第一阶段生成器、第二阶段生成器和判别器的模型参数来对所述视频质量提升模型进行训练。

可选地,计算单元可被配置为通过以下操作来计算第二损失函数:根据第二输出图像和所述第二质量的视频帧来计算L1损失函数;根据判别器针对第二输出图像的判别结果来计算对抗损失函数;根据第二输出图像和所述第二质量的视频帧来计算感知损失函数;并且计算L1损失函数、对抗损失函数和感知损失函数的加权和作为第二损失函数。

可选地,所述随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化。

可选地,第一获得单元可被配置为通过以下操作来获得第一输出图像:通过第一阶段生成器从所述第一质量的视频帧提取深度特征;通过第一阶段生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过第一阶段生成器将所述处理后的深度特征转换到与所述第一质量的视频帧相同的彩色空间以获得第一残差图像;通过第一阶段生成器将第一残差图像与所述第一质量的视频帧相加来获得第一输出图像。

可选地,计算单元可被配置为根据所述第二质量的视频帧和第一输出图像来计算L1损失函数作为第一损失函数。

可选地,第二获得单元可被配置为通过以下操作来获得第二输出图像:通过第二阶段生成器从第一输出图像提取深度特征;通过第二阶段生成器中的多个卷积模块对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征;通过第二阶段生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像;通过第二阶段生成器将第二残差图像与第一输出图像相加来获得第二输出图像。

可选地,所述多个卷积模块以串联形式彼此连接,其中,第二获得单元可被配置为通过以下操作来获得处理后的深度特征的步骤包括:通过每一个卷积模块进行以下处理:将输入的深度特征与所述随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

可选地,计算单元可被配置为根据判别器对第二输出图像和所述第二质量的视频帧判别的结果来计算对抗损失函数作为第三损失函数。

根据本公开实施例的第四方面,提供一种视频质量提升装置,包括:第一获得单元,被配置为:通过视频质量提升模型中的第一阶段生成器对重建的视频帧进行处理减少重建的视频帧中的压缩失真来获得第一输出图像;第二获得单元,被配置为:通过视频质量提升模型中的第二阶段生成器对第一输出图像和随机变量进行处理来获得第二输出图像。

可选地,所述随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化。

可选地,第一获得单元可被配置为通过以下操作来获得第一输出图像:通过第一阶段生成器从所述视频帧提取深度特征;通过第一阶段生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过第一阶段生成器将所述处理后的深度特征转换到与所述视频帧相同的彩色空间以获得第一残差图像;通过第一阶段生成器将第一残差图像与所述视频帧相加来获得第一输出图像。

可选地,第二获得单元可被配置为通过以下操作来获得第二输出图像:通过第二阶段生成器从第一输出图像提取深度特征;通过第二阶段生成器中的多个卷积模块对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征;通过第二阶段生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像;通过第二阶段生成器将第二残差图像与第一输出图像相加来获得第二输出图像。

可选地,所述多个卷积模块以串联形式彼此连接,其中,第二获得单元可被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:将输入的深度特征与所述随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

可选地,视频质量提升模型是使用如上所述的训练方法训练得到的。

根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器,其中,所述处理器被配置为执行所述指令,以实现如上所述的视频质量提升模型的训练方法或如上所述的视频质量提升方法。

根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备/服务器的处理器执行时,使得电子设备/服务器能够执行如上所述的视频质量提升模型的训练方法或如上所述的视频质量提升方法。

本公开的实施例提供的技术方案至少带来以下有益效果:去除了压缩失真,避免GAN提取压缩失真的纹理特征,又减弱了平滑区域受到的GAN的影响,同时增加纹理丰富区域的细节信息,从而优化了用户体验。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是本公开的示例性实施例可以应用于其中的示例性系统架构图;

图2是示出根据本公开的示例性实施例的一种视频质量提升模型的训练方法的流程图;

图3是示出根据本公开的示例性实施例的视频质量提升模型的训练示意图;

图4是示出根据本公开的示例性实施例的一种视频质量提升模型的结构示意图;

图5是示出根据本公开的示例性实施例的第一阶段生成器和第二阶段生成器的结构示意图;

图6是示出根据本公开的示例性实施例的判别器的结构示意图;

图7是示出根据本公开的示例性实施例的一种视频质量提升方法的流程图;

图8是示出根据本公开的示例性实施例的一种视频质量提升模型的训练装置的框图。

图9是示出根据本公开的示例性实施例的一种视频质量提升装置的框图。

图10是示出根据本公开的示例性实施例的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

如本公开背景技术中所提及的,在相关技术中,视频为了进行传输和存储往往采用有损压缩算法,这将导致客户端的视频相对于原视频存在一定的压缩失真,而现有的传统算法存在通用性不强并且无法处理多样性的视频压缩失真的问题。因此,越来越多的工作采用了深度学习算法来处理压缩失真问题,但是现有的采用深度学习算法在处理压缩失真问题时可能会保留或者放大压缩失真,例如GAN模型方案在增加纹理细节的同时,会将压缩失真误判为图像自带的纹理,从而保留或放大这些瑕疵,主观质量较差,另外,GAN模型方案在训练时对整个图像空间采用相同权重的对抗损失函数,给全局增加相同程度的纹理,使得原本平滑的区域增加瑕疵,从而产生负面效果。针对此,本公开提出了采用两阶段的模型,先在第一阶段去除压缩失真,进而避免GAN提取压缩失真的纹理特征,然后在第二阶段采用动态随机的方式引用随机变量来减弱平滑区域受到的GAN的影响,同时增加纹理丰富区域的细节信息。

图1是本公开的示例性实施例的可以应用于其中的示例性系统架构图。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息(例如视频数据上传请求、视频数据获取请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频录制类应用、视频压缩类应用、视频和音频编辑类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且能够进行视频的播放、录制和编辑的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103可以安装有图像采集装置(例如摄像头)以采集视频数据,此外,终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音,并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如,麦克风)以采集声音。

终端设备101、102、103可以利用安装于其上的图像采集装置进行视频数据的采集,利用安装于其上的音频采集装置进行音频数据的采集,并且终端设备101、102、103可以对采集的视频数据和音频数据进行编码、存储和传输,并且可对从另一个终端设备或者从服务器105接收到的经编码的视频和音频进行解码和播放。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上所安装的视频录制类应用、视频压缩类应用、视频编辑类应用等提供支持的后台服务器,也可以是存储终端设备101、102、103上传的经编码的视频和音频,并且可响应于终端设备101、102、103的请求而将存储的经编码的视频和音频发送给终端设备101、102、103的存储服务器。

需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是,本申请实施例所提供的视频质量提升模型的训练方法和视频质量提升方法一般由终端设备101、102、103执行,相应地,视频质量提升模型的训练装置和视频质量提升装置一般设置于终端设备101、102、103中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本公开对此并无限制。

图2是示出根据本公开的示例性实施例的一种视频质量提升模型的训练方法的流程图。图3是示出根据本公开的示例性实施例的视频质量提升模型10的训练示意图,其中,视频质量提升模型10包括第一阶段生成器100、第二阶段生成器200和判别器300。

如图2中所示,在步骤S210,由第一阶段生成器100对第一质量的视频帧进行处理来获得第一输出图像。其中,第一质量的视频帧表示的是在根据某种视频编解码器对第二质量的视频帧进行编码后再经过解码而得到的视频帧,该视频帧相对于第二质量的视频帧是一种低质量视频帧,而第二质量的视频帧可以是从未经过任何编码和解码处理的视频帧,也可以是经过了某种视频编解码器进行编码和解码处理的视频帧,换句话说,第一质量的视频帧和第二质量的视频帧是具有不同视频质量的同一视频帧。下面将结合图4对此进行详细描述。

具体地讲,由第一阶段生成器100对第一质量的视频帧进行处理来获得第一输出图像的步骤可包括:由第一阶段生成器100从所述第一质量的视频帧提取深度特征,如图4中所示,第一阶段生成器100利用第一卷积层110对第一质量的视频帧进行卷积操作来提取深度特征。

由第一阶段生成器100对第一质量的视频帧进行处理来获得第一输出图像的步骤还可包括:由第一阶段生成器100中的多个卷积模块100-1至100-n对提取的深度特征进行处理来获得处理后的深度特征,其中,n是大于等于1的整数。如图4中所示,所述多个卷积模块100-1至100-n以串联形式彼此连接,并且每个卷积模块都具有相同的内部结构,即每个卷积模块都采用了“卷积-线性修正-卷积-残差连接”的结构。在多个卷积模块100-1至100-n对提取的深度特征进行处理来获得处理后的深度特征时,每一个卷积模块都进行相同的处理,即:对输入值进行变换并将变换的结果与所述输入值相加来获得输出值,具体地讲,每一个卷积模块先由对输入值进行卷积操作,然后由修正线性单元对卷积结果进行线性修正,然后对线性修正的结果进行卷积操作,最后将卷积的结果与输入值相加来获得输出值。由于多个卷积模块100-1至100-n是串联连接的,因此如图4中所示,第一个卷积模块的输入值是由所述第一卷积层所述提取的深度特征,并且第一个卷积模块的输出值是下一个卷积模块的输入值,依次类推,最后一个卷积模块的输入值是上一个卷积模块的输出值,并且最后一个卷积模块的输出值是所述处理后的深度特征。

由第一阶段生成器100对第一质量的视频帧进行处理来获得第一输出图像的步骤还可包括:由第一阶段生成器100将所述处理后的深度特征转换到与所述第一质量的视频帧相同的彩色空间以获得第一残差图像并由第一阶段生成器将第一残差图像与所述第一质量的视频帧相加来获得第一输出图像,其中,彩色空间可以是RGB空间、YUV空间等中的任意一个。具体地讲,如图4中所示,第一阶段生成器100可利用第二卷积层120对最后一个卷积模块输出的所述处理后的深度特征进行卷积操作来将所述处理后的深度特征转换到与所述第一质量的视频帧相同的彩色空间来获得第一残差图像,然后第一阶段生成器100可通过长跳转连接将第一残差图像与所述第一质量的视频帧相加来获得中间结果图像,即第一输出图像。

如图4中所述,每个卷积模块内的短跳转连接将当前卷积模块的输入值与输出值相加,而整个第一阶段生成器的长跳转连接将视频帧和所有卷积模块的输出值相加,这样可更好地让第一阶段生成器进行梯度反向传播,加速模型收敛。

返回参照图2,在步骤S220,由第二阶段生成器200根据第一输出图像和随机变量来获得第二输出图像。下面将结合图5对此进行详细描述。

具体地讲,由第二阶段生成器200根据第一输出图像和随机变量来获得第二输出图像的步骤可包括:由第二阶段生成器200从第一输出图像提取深度特征。如图5中所示,第二阶段生成器200利用第三卷积层210对第一输出图像进行卷积操作来提取深度特征。

由第二阶段生成器200根据第一输出图像和随机变量来获得第二输出图像的步骤还可包括:由第二阶段生成器200中的多个卷积模块200-1至200-m对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征,其中,m是大于等于1的整数。

如图5中所示,所述多个卷积模块200-1至200-m以串联形式彼此连接,并且每个卷积模块都具有相同的内部结构。在第二阶段生成器200中的多个卷积模块200-1至200-m对随机变量和提取的深度特征进行处理来获得处理后的深度特征时,每一个卷积模块都进行相同的处理,即:将输入的深度特征与随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征。具体地讲,如图5中所示,每一个卷积模块先对输入的深度特征与随机变量进行拼接,然后将拼接的结果进行卷积操作,然后由修正线性单元对卷积结果进行线性修正,再对线性修正的结果进行卷积操作,最后将卷积的结果与输入的深度特征相加,换句话说,每一个卷积模块在对输入的深度特征与随机变量进行拼接之后,将拼接结果通过“卷积-线性修正-卷积-残差连接”的结构来获得输出的深度特征。由于多个卷积模块200-1至200-m是串联连接的,因此如图5中所示,第一个卷积模块的输入的深度特征是由第三卷积层210提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,依次类推,最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

此外,在以上过程中所使用的随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化,具体地讲,本公开所采用的随机变量与第一输出图像中的每个像素对应并且服从一维高斯分布,其中,随机变量通过以下等式计算:

其中,Z

在以上过程中,如图5中所示,随机变量在每个卷积模块中首先被拼接到当前卷积模块的输入的深度特征上,然后由当前卷积模块对拼接结果进行一些列操作,这使得第二阶段生成器能够使浅层特征至深层特征都受到随机扰动的影响,可加强整个网络的随机性,使得结果更加具有细致的纹理。此外,由于随机变量的方差不是全局一致的,而是根据像素点所在区域的纹理而动态变化的,因此像素点所在区域的纹理越复杂,该像素点的邻域像素的方差一般也会越大,对应的随机变量的一维高斯分布方差也越大,因此,对应位置的深度特征的随机性也越强,而在比较平滑的区域(例如天空、墙面等),随机变量的方差几乎为0,也就是说,与当前像素对应的随机变量会随着当前像素所在区域的纹理而动态地变化,因此能够避免出现过多的人造瑕疵。

由第二阶段生成器200根据第一输出图像和随机变量来获得第二输出图像的步骤还可包括:由第二阶段生成器200将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像,并由第二阶段生成器200将第二残差图像与第一输出图像相加来获得第二输出图像。具体地讲,如图5中所示,第二阶段生成器200可利用第四卷积层220对最后一个卷积模块输出的所述处理后的深度特征进行卷积操作来将所述处理后的深度特征转换到与第一输出图像相同的彩色空间(例如RGB空间、YUV空间等)来获得第二残差图像,然后第二阶段生成器200可通过长跳转连接将第二残差图像与第一输出图像相加来获得第二输出图像。

返回参照图2,在步骤S230,根据第二质量的视频帧和第一输出图像计算第一损失函数。具体地讲,可根据所述第二质量的视频帧和第一输出图像计算L1损失函数作为第一损失函数,例如,可根据下面的等式1来计算L1损失函数,即第一损失函数:

其中,

在步骤S240,根据第二质量的视频帧、第二输出图像、以及判别器对第二输出图像和所述第二质量的视频帧判别的结果计算第二损失函数。下面将对步骤S240进行详细描述。

首先,参照图6中所示,判别器300在对第二质量的视频帧/第二输出图像进行判别时进行以下操作:首先利用卷积层对第二质量的视频帧/第二输出图像进行卷积操作,然后利用修正线性单元对卷积结果进行线性修正,然后对线性修正的结果进行一系列的“卷积-实例归一化-线性修正”的操作并进行卷积操作,从而获得对第二质量的视频帧/第二输出图像的判别结果。

计算第二损失函数的步骤可包括:根据第二输出图像和所述第二质量的视频帧来计算L1损失函数;根据判别器300针对第二输出图像的判别结果来计算对抗损失函数;根据第二输出图像和所述第二质量的视频帧来计算感知损失函数;计算L1损失函数、对抗损失函数和感知损失函数的加权和作为第二损失函数。例如,可根据下面的等式2至等式5来计算第二损失函数:

其中,

在步骤S250,根据判别器对第二输出图像和所述第二质量的视频帧判别的结果计算第三损失函数,例如,可按照如下的等式(6)来计算第三损失函数:

其中,

在步骤S260,根据第一损失函数、第二损失函数和第三损失函数分别调整第一阶段生成器、第二阶段生成器和判别器的模型参数来对所述视频质量提升模型进行训练。

具体地讲,对所述视频质量提升模型进行训练的步骤可包括:根据第一损失函数调整第一阶段生成器的模型参数来对第一阶段生成器进行训练,具体地讲,利用按照以上计算的第一损失函数可有效地去除压缩视频中的块状失真等。

此外,对所述视频质量提升模型进行训练的步骤还可包括:根据第二损失函数调整第二阶段生成器200的模型参数来对第二阶段生成器200进行训练。具体地讲,利用按照等式(3)计算的损失函数,可保证像素级别的准确性,而利用按照等式(4)计算的损失函数,可克服梯度弥散和训练不稳定的缺点,从而在效果和稳定性上获得一定的改善,利用按照等式(5)计算的损失函数,可保证语义特征的一致性,而以上的第二损失函数采用这三个损失函数的加权和形式,从而可同时获得以上效果。

另外,对所述视频质量提升模型进行训练的步骤还可包括根据第三损失函数调整判别器的模型参数来对判别器300进行训练。

图7是示出根据本公开的示例性实施例的一种视频质量提升方法的流程图。

参照图7,在步骤S710,由视频质量提升模型10中的第一阶段生成器100对重建的视频帧进行处理减少重建的视频帧中的压缩失真来获得第一输出图像。其中,重建的视频帧是根据某种视频编解码器对原视频进行编码后再经过解码而得到的视频帧。

具体地讲,获得第一输出图像的步骤可包括:由第一阶段生成器100从所述视频帧提取深度特征。如图4中所示,第一阶段生成器100利用第一卷积层110对所述视频帧进行卷积操作来提取深度特征。

获得第一输出图像的步骤还可包括:由第一阶段生成器100中的多个卷积模块100-1至100-n对提取的深度特征进行处理来获得处理后的深度特征,其中,n是大于等于1的整数。如图4中所示,所述多个卷积模块100-1至100-n以串联形式彼此连接,并且每个卷积模块都具有相同的内部结构,即每个卷积模块都采用了“卷积-修正线性单元-卷积-残差连接”的结构。在多个卷积模块100-1至100-n对提取的深度特征进行处理来获得处理后的深度特征时,每一个卷积模块都进行相同的处理,即:对输入值进行变换并将变换的结果与所述输入值相加来获得输出值,具体地讲,每一个卷积模块先对输入值进行卷积操作,然后由修正线性单元对卷积结果进行线性修正,然后对线性修正的结果进行卷积操作,最后将卷积的结果与输入值相加来获得输出值。由于多个卷积模块100-1至100-n是串联连接的,因此如图4中所示,第一个卷积模块的输入值是由所述第一卷积层所述提取的深度特征,并且第一个卷积模块的输出值是下一个卷积模块的输入值,依次类推,最后一个卷积模块的输入值是上一个卷积模块的输出值,并且最后一个卷积模块的输出值是所述处理后的深度特征。

获得第一输出图像的步骤还可包括:由第一阶段生成器100将所述处理后的深度特征转换到与所述视频帧相同的彩色空间以获得第一残差图像,其中,彩色空间可以是RGB空间、YUV空间等中的任意一个。具体地讲,如图4中所示,第一阶段生成器100可利用第二卷积层120对最后一个卷积模块输出的所述处理后的深度特征进行卷积操作来将所述处理后的深度特征转换到与视频帧相同的彩色空间(例如RGB空间)来获得第一残差图像,然后第一阶段生成器100可通过长跳转连接将第一残差图像与视频帧相加来获得中间结果图像,即第一输出图像。

获得第一输出图像的步骤还可包括:由第一阶段生成器100将第一残差图像与所述视频帧相加来获得第一输出图像。

在步骤S720,由视频质量提升模型10中的第二阶段生成器200对第一输出图像和随机变量进行处理来获得第二输出图像。

具体地讲,获得第二输出图像的步骤可包括:由第二阶段生成器200从第一输出图像提取深度特征。如图5中所示,第二阶段生成器200利用第三卷积层210对第一输出图像进行卷积操作来提取深度特征。

获得第二输出图像的步骤还可包括:由第二阶段生成器200中的多个卷积模块200-1至200-m对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征,其中,m是大于等于1的整数。

如图5中所示,所述多个卷积模块200-1至200-m以串联形式彼此连接,并且每个卷积模块都具有相同的内部结构。在第二阶段生成器200中的多个卷积模块200-1至200-m对随机变量和提取的深度特征进行处理来获得处理后的深度特征时,每一个卷积模块都进行相同的处理,即:将输入的深度特征与随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征。具体地讲,如图5中所示,每一个卷积模块先对输入的深度特征与随机变量进行拼接,然后将拼接的结果进行卷积操作,然后由修正线性单元对卷积结果进行线性修正,再对线性修正的结果进行卷积操作,最后将卷积的结果与输入的深度特征相加,换句话说,每一个卷积模块在对输入的深度特征与随机变量进行拼接之后,将拼接结果通过“卷积-修正线性单元-卷积-残差连接”的结构来获得输出的深度特征。由于多个卷积模块200-1至200-m是串联连接的,因此如图5中所示,第一个卷积模块的输入的深度特征是由第三卷积层210提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,依次类推,最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

此外,在以上过程中所使用的随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化,具体地讲,本公开所采用的随机变量与第一输出图像中的每个像素对应并且服从一维高斯分布,其中,随机变量通过以下等式计算:

其中,Z

获得第二输出图像的步骤还可包括:由第二阶段生成器200将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像,并由第二阶段生成器200将第二残差图像与第一输出图像相加来获得第二输出图像。具体地讲,如图5中所示,第二阶段生成器200可利用第四卷积层220对最后一个卷积模块输出的所述处理后的深度特征进行卷积操作来将所述处理后的深度特征转换到与第一输出图像相同的彩色空间(例如RGB空间、YUV空间等)来获得第二残差图像,然后第二阶段生成器200可通过长跳转连接将第二残差图像与第一输出图像相加来获得第二输出图像。

至此,可通过以上过程获得最终的输出图像,该输出图像既即去除了压缩失真,避免GAN提取压缩失真的纹理特征,又减弱了平滑区域受到的GAN的影响,同时增加纹理丰富区域的细节信息。

图8是示出根据本公开的示例性实施例的一种视频质量提升模型的训练装置800的框图,其中,所述视频质量提升模型包括第一阶段生成器100、第二阶段生成器200和判别器300。

如图8中所示,训练装置800可包括第一获得单元810、第二获得单元820、计算单元830和调参单元840。

第一获得单元810可被配置为通过第一阶段生成器100对第一质量的视频帧进行处理来获得第一输出图像。

具体地讲,第一获得单元810被配置为通过以下操作来获得第一输出图像:通过第一阶段生成器100从所述第一质量的视频帧提取深度特征;通过第一阶段生成器100中的多个卷积模块100-1至100-n对提取的深度特征进行处理来获得处理后的深度特征,其中,n是大于或等于1的整数;通过第一阶段生成器100将所述处理后的深度特征转换到与所述第一质量的视频帧相同的彩色空间以获得第一残差图像;通过第一阶段生成器100将第一残差图像与所述第一质量的视频帧相加来获得第一输出图像。

所述多个卷积模块100-1至100-n以串联形式彼此连接,其中,第一获得单元810被配置为通过以下操作来获得处理后的深度特征的步骤包括:通过每一个卷积模块进行以下处理:对输入值进行变换并将变换的结果与所述输入值相加来获得输出值,其中,第一个卷积模块的输入值是所述提取的深度特征,并且第一个卷积模块的输出值是下一个卷积模块的输入值,最后一个卷积模块的输入值是上一个卷积模块的输出值,并且最后一个卷积模块的输出值是所述处理后的深度特征。

第二获得单元820可被配置为通过第二阶段生成器根据第一输出图像和随机变量来获得第二输出图像。

具体地讲,第二获得单元820可被配置为通过以下操作来获得第二输出图像:通过第二阶段生成器200从第一输出图像提取深度特征;通过第二阶段生成器200中的多个卷积模块200-1至200-m对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征,其中,m是大于或等于1的整数;通过第二阶段生成器200将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像;通过第二阶段生成器200将第二残差图像与第一输出图像相加来获得第二输出图像。

所述多个卷积模块以串联形式彼此连接,其中,第二获得单元820被配置为通过以下操作来获得处理后的深度特征的步骤包括:通过每一个卷积模块进行以下处理:将输入的深度特征与所述随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

在以上过程中所使用的随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化,具体地讲,所述随机变量与第一输出图像中的每个像素对应并且服从一维高斯分布,其中,所述随机变量通过以下等式计算:

其中,Z

计算单元830可被配置为:根据第二质量的视频帧和第一输出图像计算第一损失函数,根据第二质量的视频帧、第二输出图像、以及判别器300对第二输出图像和所述第二质量的视频帧判别的结果计算第二损失函数,并根据判别器对第二输出图像和所述第二质量的视频帧判别的结果计算第三损失函数,所述第一质量的视频帧是通过对所述第二质量的视频帧进行编码和解码后得到的,且第一质量低于第二质量。

具体地讲,计算单元830可被配置为根据所述第二质量的视频帧和第一输出图像来计算L1损失函数作为第一损失函数,即可根据以上的等式(1)来计算第一损失函数。此外,计算单元830可被配置为通过以下操作来计算第二损失函数:根据第二输出图像和所述第二质量的视频帧来计算L1损失函数;根据判别器300针对第二输出图像的判别结果来计算对抗损失函数;根据第二输出图像和所述第二质量的视频帧来计算感知损失函数;并将L1损失函数、GAN损失函数和感知损失函数的加权和用作第二损失函数,即可以根据以上的等式(2)至等式(5)来计算第二损失函数。此外,计算单元830可被配置为根据判别器300对第二输出图像和所述第二质量的视频帧判别的结果来计算对抗损失函数作为第三损失函数,即可根据以上的等式(6)来计算第三损失函数。

调参单元840可被配置为根据第一损失函数、第二损失函数和第三损失函数分别调整第一阶段生成器、第二阶段生成器和判别器的模型参数来对所述视频质量提升模型进行训练。

具体地讲,调参单元840被配置为通过以下操作来对所述视频质量提升模型进行训练:根据第一损失函数调整第一阶段生成器100的模型参数来对第一阶段生成器100进行训练;根据第二损失函数调整第二阶段生成器200的模型参数来对第二阶段生成器200进行训练;根据第三损失函数调整判别器的模型参数来对判别器300进行训练。

由于图2所示的训练方法可由图8所示的训练装置800来执行,因此,关于图8中的单元所执行的操作中涉及的任何相关细节均可参见关于图2的相应描述,这里都不再赘述。

图9是示出根据本公开的示例性实施例的一种视频质量提升装置900的框图。

参照图9,视频质量提升装置900可包括第一获得单元910和第二获得单元920。

第一获得单元910可被配置为通过视频质量提升模型中的第一阶段生成器对重建的视频帧进行处理减少重建的视频帧中的压缩失真来获得第一输出图像。

具体地讲,第一获得单元910可被配置为通过以下操作来获得第一输出图像:通过第一阶段生成器100从所述视频帧提取深度特征;通过第一阶段生成器中的多个卷积模块100-1至100-n对提取的深度特征进行处理来获得处理后的深度特征,其中,n是大于或等于1的整数;通过第一阶段生成器100将所述处理后的深度特征转换到与所述视频帧相同的彩色空间以获得第一残差图像;通过第一阶段生成器100将第一残差图像与所述视频帧相加来获得第一输出图像。

所述多个卷积模块100-1至100-n以串联形式彼此连接,其中,第一获得单元910被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入值进行变换并将变换的结果与所述输入值相加来获得输出值,其中,第一个卷积模块的输入值是所述提取的深度特征,并且第一个卷积模块的输出值是下一个卷积模块的输入值,最后一个卷积模块的输入值是上一个卷积模块的输出值,并且最后一个卷积模块的输出值是所述处理后的深度特征。

第二获得单元920可被配置为通过视频质量提升模型中的第二阶段生成器对第一输出图像和随机变量进行处理来获得第二输出图像。

具体地讲,第二获得单元920可被配置为通过以下操作来获得第二输出图像:通过第二阶段生成器从第一输出图像提取深度特征;通过第二阶段生成器中的多个卷积模块200-1至200-m对所述随机变量和提取的深度特征进行处理来获得处理后的深度特征,其中,m是大于或等于1的整数;通过第二阶段生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间以获得第二残差图像;通过第二阶段生成器将第二残差图像与第一输出图像相加来获得第二输出图像。

所述多个卷积模块200-1至200-m以串联形式彼此连接,其中,第二获得单元920被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:将输入的深度特征与所述随机变量拼接,对拼接的结果进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。

在以上过程中所使用的随机变量与第一输出图像中的每个像素对应,并且随着每个像素所在区域的纹理而动态变化,具体地讲,所述随机变量与第一输出图像中的每个像素对应并且服从一维高斯分布,其中,所述随机变量通过以下等式计算:

其中,Zi,j表示与第一输出图像中的坐标为(i,j)的像素对应的随机变量,

由于图7所示的视频质量提升方法可由图9所示的视频质量提升装置900来执行,因此,关于图9中的单元所执行的操作中涉及的任何相关细节均可参见关于图7的相应描述,这里都不再赘述。

图10是示出根据本公开实施例的一种电子设备1000的框图,该电子设备1000可包括存储器1010和处理器1020,存储器1010中存储有计算机可执行指令集合,当计算机可执行指令集合被处理器执行时,执行根据本公开实施例的视频质量提升模型的训练方法或视频质量提升方法。

作为示例,电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在电子设备中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码,其中,存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储器中的文件。

此外,电子设备还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例,还可提供一种计算机可读存储介质,例如,包括指令的存储器1020,上述指令可由电子设备1000的处理器1010执行以完成上述的视频质量提升模型的训练方法或视频质量提升方法。可选地,计算机可读存储介质可以是:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

在本公开的示例性实施例中,还可提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现根据本公开示例性实施例的视频质量提升模型的训练方法或视频质量提升方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 视频质量提升模型的训练方法和装置
  • 视频去模糊方法及装置、视频去模糊模型训练方法及装置
技术分类

06120112964377