掌桥专利:专业的专利平台
掌桥专利
首页

一种客观评估水下视频质量的无参考评价方法

文献发布时间:2023-06-19 13:43:30


一种客观评估水下视频质量的无参考评价方法

技术领域

本发明涉及一种客观评估水下视频质量的无参考评价方法,属于视频分析技术领域。

背景技术

视频图像的质量评价指标准可以分为主观评价方法和客观评价方法。主观评价由观察者对视频或图像给出主观评分,符合人眼视觉特性,但工作量大、实时性差、无法自动化实现,在水下视频图像的质量评分上并不适用。客观评价方法是利用计算机算法进行打分,可以进行实时在线测评,根据评价时是否需要参考图像又可以分为全参考、半参考(部分参考)和无参考三类评价方法。视频质量指标,尤其是实用性更强的客观评价指标,在视频技术研究中处于关键地位。有效且准确的视频质量评价指标能直接衡量视频质量,也引导着高质量视频的获取,还是验证水下视频增强与复原算法性能的重要手段。

水下视频在水域尤其是海洋的探索开发中,有不可替代的作用。不同于通常大气环境下的视频,水下视频由于特殊的光学环境导致的色偏、模糊、光照不均、对比度低以及成像设备在水中晃动导致的失焦等问题,存在明显的质量退化。通用的自然视频评价指标并不能准确的衡量水下视频质量。因此,需要建立针对水下视频的质量评价指标。因为水下视频通常缺少高质量参考视频,所以需要采用无参考的方法进行水下视频质量评价。

而目前,我们没有针对水下视频质量评价的无参考评价指标。

发明内容

针对通用视频质量评价指标不能准确评估水下视频质量这一问题,本发明提出了一种客观评估水下视频质量的无参考评价方法。利用深度神经网络提取出视频帧的语义特征,结合水下彩色图像质量评价指标、图像模糊程度指标和自然图像质量评估指标。使用门循环单元网络融合视频帧之间的时序信息和多特征信息。

本发明为解决其技术问题采用如下技术方案:

一种客观评估水下视频质量的无参考评价方法,包括如下步骤:

第一步,将水下视频分解成帧,使用一组图像质量评价指标获得视频帧的退化特征,包括UCIQE、边缘图像块对比度指数和NIQE;

第二步,使用预训练的ResNet50深度神经网络结合特征注意力机制提取视频帧的语义特征向量,降维后得到视频帧的语义质量分数;

第三步,将各指标分数进行归一化处理,与语义质量分数融合,得到每一帧最终的质量特征;

第四步,使用门循环单元网络捕获视频帧之间的时序信息并进行特征融合,得到最终的视频质量分数。

第一步中使用UCIQE提取视频帧的色彩特征,该指标以色度、饱和度和对比度为测量分量,通过线性的方式将测量分量线性组合,量化了水下图像的色彩和对比度;

使用边缘图像块的对比度指数值和来表示水下彩色图像的模糊程度,提取出视频帧模糊程度特征;

使用NIQE衡量水下图像的雾化程度,测试图像的NIQE指标表示为从测试图像中提取的自然场景统计特征的多元高斯模型与从自然图像语料中提取的质量感知特征的多元高斯模型之间的距离。

第二步中所述特征注意力机制模块结合了通道注意力和空间注意力,对于输入的特征图F∈R

其中:F是输入的特征图,F′是经过通道注意力机制处理后的特征图;M

第四步中使用多层门控递归单元网络捕获视频帧之间的时间序列信息,所述多层门控递归单元包括重置门和更新门,最终输出状态计算下式所示:

其中:h

本发明的有益效果如下:

本发明提出了一种有效的水下视频质量评估方法。针对水下图像中的散射、模糊、雾化现象,融合了水下彩色图像质量评价指标、图像模糊程度指标、自然图像质量评估指标和高阶语义特征来进行测量评估,融合后的特征能更好的体现出水下图像退化过程并带有图像语义信息。此外,使用的门控递归单元网络能够有效的保留视频的时序信息。

附图说明

图1为模型整体框架图。

图2为特征提取流程图。

图3为特征提取中的特征注意力模块结构图。

图4为GRU单元结构图。

图5为时序注意力机制模块结构图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

我们将水下视频分解成帧,并按帧处理,每一帧即为一张水下图像。首先,针对水下视频特有的色偏、模糊、雾化等质量退化因素,我们使用一组图像质量评价指标获得视频帧的退化特征。使用水下彩色质量评价指标(UCIQE)提取视频帧的色彩特征,该指标以色度、饱和度和对比度为测量分量,通过线性的方式将测量分量线性组合,有效地量化了水下图像的色彩和对比度;使用边缘图像块的对比度指数值和来表示水下彩色图像的模糊程度,提取出视频帧模糊程度特征;使用自然图像质量指标(NIQE)衡量水下图像的雾化程度,测试图像的NIQE指标表示为从测试图像中提取的自然场景统计特征(NSS)的多元高斯模型(MVG)与从自然图像语料中提取的质量感知特征的多元高斯模型之间的距离。其次,人类对视觉图像/视频质量的判断受到内容的影响,针对视频内容的感知问题,我们使用预训练的ResNet50深度神经网络结合特征注意力机制提取视频帧的语义特征向量,降维后得到视频帧的语义质量分数。然后,将各指标分数进行归一化处理,与语义质量分数进行拼接,得到每一帧的特征向量。最后,使用门循环单元网络捕获视频帧之间的时序信息并进行特征融合,加上时序注意力机制,得到最终的视频质量分数。

本发明主要采用如下模块:

模块1:退化特征提取模块

模块2:语义特征提取模块

模块3:时序信息与特征融合模块

模块1:退化特征提取模块。水下视频的主要退化现象包括色偏、模糊和雾化,因此我们提取出这三种退化对应的分数作为视频退化特征。

使用视频帧色彩分数S

使用视频帧模糊分数S

使用视频帧雾化分数S

模块2:语义特征提取模块。众多的实验已证明,人类对视觉图像质量的判断受到图像内容的影响。因此,提取到准确的图像内容信息对于质量评价指标的建立十分重要。我们使用预先训练的ResNet50网络和注意力机制模块来提取视频帧内容感知的语义特征。ResNet网络采用恒等映射将前一层的输出直接传递到后面层,这种残差跳跃的结构解决了深层次的网络退化问题,可以搭建更深的网络提高特征提取能力。使用ResNet50网络模型提取语义特征,并在ImageNet数据集上进行预训练。特征注意力机制模块结合了通道注意力和空间注意力。对于输入的特征图F∈R

其中:F是输入的特征图,F′是经过通道注意力机制处理后的特征图。M

模块3:时序信息与特征融合模块。使用多层门控递归单元(GRU)网络捕获视频帧之间的时间序列信息,并进行多特征的融合。GRU能够保留长时间的特征信息,同时避免网络训练过程中出现的梯度消失的问题,是长短期记忆网络(LSTM)的变体,具有更简单的结构,并且更易于计算。GRU单元主要包括重置门和更新门,最终输出状态计算如式(2)所示:

h

在多层GRU结构中,不同的GRU层进行空间连接,数据由上层输出到下一层的神经元。同一GRU层具有时间依赖性,GRU层之前的输出将循环进入该层作为输入。每个GRU层包含大量的神经元,以捕获传感器数据的长期依赖关系。特征经过多层的GRU的融合,将最后一层GRU各单元的输出作为时序注意力机制的输入,利用时序注意力机制调整GRU的输出,之后使用全连接层进行降维处理,得到取值范围在[0,1]之间的视频质量分数数值。

下面用具体实施例进一步解释本发明内容。

步骤1:选取了一段5秒的水下视频,将其分解为120帧,每一帧大小为224*224。每一帧记为V

步骤2:计算V

S

其中,σ

步骤3:计算V

其中,H*W视频帧的尺寸,T边缘块的个数,V

步骤4:计算V

其中,v

步骤5:计算V

步骤5.1:使用ResNet50网络模型提取特征,并在ImageNet上进行预训练。使用了ResNet50网络的前四个模块。以第一个卷积模块为例,输入为3*224*224的彩色视频帧。首先经过一个7*7*64的卷积,卷积核大小为7*7,数量为64,输出为64*112*112的特征图。然后是一个最大池化层。之后通过第一个卷积块,由3个小的卷积块构成,每一个小的卷积块包含三个卷积层,分别为1*1*64,3*3*64,1*1*256,输出为256*56*56的特征图。第二个卷积块是4层的[1*1*128,3*3*128,1*1*512]卷积,输出的大小为512*28*28。第三个卷积块是6层的[1*1*256,3*3*256,1*1*1024]卷积,输出的大小为512*28*28。第四个卷积块是3层的[1*1*512,3*3*512,1*1*2048]卷积,输出的大小为512*28*28。

步骤5.2:特征注意力机制模块。图3所示为注意力机制模块的结构,该模块结合了通道注意力和空间注意力。将ResNet50网络第一个卷积块的输出当作特征注意力机制的输入的特征图。首先经过通道注意力机制处理,通道注意力关注什么样的特征是有意义的,使用平均池化和最大池化来聚合特征映射的空间信息,生成两个不同的空间上下文描述符F

整个过程的计算公式可以表示为

M

式中σ()是sigmoid激活函数。W

在通道注意力模块后,使用空间注意力机制来关注哪些特征是有意的。首先使用平均池化和最大池化操作聚合功能映射的通道信息,生产两个二维映射F

M

其中:f

步骤6:特征融合。图4所示为GRU单元的结构图,使用GRU模块进行多特征与时序信息的融合。首先将第V

重置门决定上一单元记忆信息的保留。该门的计算公式如(9)所示:

r

更新门的计算公式如式(10):

z

其中,h

重置门中元素值接近0,那么意味着重置对应隐藏状态元素为0,即丢弃上一时间步的隐藏状态。如果元素值接近1,那么表示保留上一时间步的隐藏状态。然后,将按元素乘法的结果与当前时间步的输入连结,再通过含激活函数tanh的全连接层计算出候选隐藏状态

其中tanh()表示正切函数,r

GRU模块的最终输出状态计算公式如前面的式(3)计算。我们将4*1的特征向量输入到GRU单元中。序列长度为120、GRU单元的隐藏层神经元数量设置为32。经过多层映射变换为长度为32的特征向量。式(3)所需的r

步骤7:时序注意力机制。对多层GRU输出的引入注意力机制,以强化关键帧对整个视频质量的影响。如图5所示,以最后一层GRU的各隐藏层状态作为输入,得到最终时刻的隐藏层状态值。首先计算评分函数score,计算公式如式(12)所示:

h

式中:T

中间向量c

经过注意力机制得到的最终状态值

c

步骤8:质量分数。最后一层GRU的最后一个单元输出的状态

w’

W

相关技术
  • 一种客观评估水下视频质量的无参考评价方法
  • 一种无参考视频质量客观评估方法
技术分类

06120113788472