掌桥专利:专业的专利平台
掌桥专利
首页

视频质量评估方法、装置、设备及存储介质

文献发布时间:2023-06-19 19:13:14


视频质量评估方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种视频质量评估方法、装置、设备及存储介质。

背景技术

当前直播、短视频和视频通讯产业日益繁荣,以视频为载体的内容充斥在各大应用软件中。在我们直播场景下,用户的观看体验是一个非常关键的问题。主播设备专业并且训练有素的,采集到的画质清晰稳定,相应地更容易受到用户的喜欢。在技术层面,画质比较清晰并且动作流畅没有什么抖动感的视频,用户观看体验也一定是更好的。视频质量评估就是对用户侧观看到的视频直接打分,通过预测分数的形式将用户体验量化,用户体验越好的视频,质量得分越高,用户体验差一些的视频质量得分也相对低一些。

在现有技术中,一种以图像作为评估单位的视频质量评估算法,一般通过均方误差MSE算法、峰值信噪比PSNR算法和结构相似性SSIM算法逐帧对视频中的图像进行质量评价,以及通过视频质量多方法评价融合vMAF算法对两帧图像进行打分,均没有考虑到视频的运动失真评估,逐帧打分的准确性差、效率低,且耗时长。另一种基于深度学习进行端到端训练,将整个视频输入至神经网络,并将输出作为视频质量得分,通过优化损失函数和持续迭代提升模型的准确度。目前已有的深度学习算法忽略了真实视频中时序信息和空间信息的交互,过于依赖模型自身能力整合图像失真和运动失真,在真实场景下,存在预测准确性差和泛化性差的问题。还有一种基于解码时间戳对待评估视频与参考视频进行视频对齐处理,并根据时域特征与视频对齐结果对经视频对齐处理后的待评估视频进行质量评估处理,虽然提高了对齐结果的准确性和视频质量评估的全面性,但是仍然存在预测算法泛化性差的问题。

发明内容

本发明提供了一种视频质量评估方法、装置、设备及存储介质,用于通过视频质量评估模型在时间维度和空间维度上对待评估视频数据分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分进行融合,提高视频质量评估模型的预测准确性和泛化性。

为实现上述目的,本发明第一方面提供了一种视频质量评估方法,包括:获取待评估视频数据和参考视频数据;将所述待评估视频数据和所述参考视频数据输入至预设视频质量评估模型,通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征;其中,所述时空融合特征融合了所述待评估视频数据在空间域中的静态特征,以及所述待评估视频数据在时间域中的动态特征;从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分;从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分;根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果。

本发明第二方面提供了一种视频质量评估装置,包括:获取模块,用于获取待评估视频数据和参考视频数据;输入模块,用于将所述待评估视频数据和所述参考视频数据输入至预设视频质量评估模型,通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征;其中,所述时空融合特征融合了所述待评估视频数据在空间域中的静态特征,以及所述待评估视频数据在时间域中的动态特征;提取模块,用于从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分;从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分;输出模块,用于根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果。

本发明第三方面提供了一种视频质量评估设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述视频质量评估设备执行上述的视频质量评估方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的视频质量评估方法。

本发明提供的技术方案中,获取待评估视频数据和参考视频数据;将所述待评估视频数据和所述参考视频数据输入至预设视频质量评估模型,通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征;其中,所述时空融合特征融合了所述待评估视频数据在空间域中的静态特征,以及所述待评估视频数据在时间域中的动态特征;从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分;从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分;根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果。本发明实施例中,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征,将待评估视频数据的静态特征和待评估视频数据的动态特征融合为时空融合特征,增强了空间域和时间域各自对应的语义信息,提高了视频质量评估模型的预测准确性,在时间维度和空间维度上分别从时空融合特征中提取动态特征和静态特征后,分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分预测质量评估结果,提高了视频质量评估模型的泛化性和稳定性。

附图说明

图1为本发明实施例中视频质量评估方法的一个实施例示意图;

图2为本发明实施例中视频动态指数的一个实施例示意图;

图3为本发明实施例中视频质量评估方法的另一个实施例示意图;

图4为本发明实施例中视频质量评估装置的一个实施例示意图;

图5为本发明实施例中视频质量评估装置的另一个实施例示意图;

图6为本发明实施例中视频质量评估设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种视频质量评估方法、装置、设备及存储介质,用于通过视频质量评估模型在时间维度和空间维度上对待评估视频数据分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分进行融合,提高视频质量评估模型的预测准确性和泛化性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中视频质量评估方法的一个实施例包括:

101、获取待评估视频数据和参考视频数据。

需要说明的是,待评估视频数据可以为直播场景下的视频数据,也可以为点播场景下的视频数据,具体此处不做限定,待评估视频数据与参考视频数据存在多对一的对应关系。例如,在直播场景下的视频采集传输链路,一段源视频在经过采集、编码、转码、传输等过程,最终呈现在用户的观看屏幕上。服务器通过参考视频数据对待评估视频数据进行视频质量评估,以实现对视频的编码优化、传输优化和画质改善的后处理等功能。一般将原画流视频作为源视频(也就是,参考视频数据),低清流视频作为损伤视频测评不同转码策略的目标视频(也就是,待评估视频数据)。服务器通过对不同的源视频和目标视频进行组合后,再进行视频质量评估与优化处理。一般清晰度越好的待评估视频数据,对应的质量评估结果越高。具体的,服务器接收视频质量评估请求;服务器根据视频质量评估请求获取待评估视频数据和参考视频数据。其中,待评估视频数据和参考视频数据各自对应的特征维度均为TxWxHxC,其中,T、W、H和C分别表示待评估视频数据或参数视频数据各自对应的图像时长、图像宽度、图像高度和输入通道数量。

可以理解的是,本发明的执行主体可以为视频质量评估装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、将待评估视频数据和参考视频数据输入至预设视频质量评估模型,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征;其中,时空融合特征融合了待评估视频数据在空间域中的静态特征,以及待评估视频数据在时间域中的动态特征。

可以理解的是,待评估视频数据在时间域中的动态特征可以为待评估视频数据在空间域中的静态特征提供细节的补充,同时待评估视频数据在空间域中的静态特征为待评估视频数据在时间域中的动态特征提供了更充分的视觉上下文信息。具体的,服务器将待评估视频数据和参考视频数据输入至预设视频质量评估模型,服务器通过视频质量评估模型中特征提取层,基于提取待评估视频数据在空间域中的静态特征,以及待评估视频数据在时间域中的动态特征,服务器在特征融合层对待评估视频数据在空间域中的静态特征,以及待评估视频数据在时间域中的动态特征进行时空特征融合,得到待评估视频数据对应的时空融合特征。例如,静态特征对应的特征维度为TxWxHxC,动态特征对应的特征维度为TxWxHxC,则时空融合特征对应的特征维度为TxWxHx1。

需要说明的是,预设视频质量评估模型(也就是,视频质量评估模型)为预先训练好的多层网络模型,例如,预设视频质量评估模型为9层的神经网络,包含串联连接的2个二维卷积层(也就是,特征提取层),5个三维卷积层和2个全连接层,并在网络第3层设置特征融合层,在网络第7层之后设置了空域池化层和时域池化层,服务器将池化后的特征作为第8层全连接层的输入,并在第9层分别得到空间域质量得分和时间域质量得分,服务器通过端到端的模型训练和预测,以实现视频质量评估目的。预设视频质量评估模型通过特征提取层和预测层的时空融合处理,大幅提升预设视频质量评估模型的评估算法准确性。预设视频质量评估模型中网络层数、各网络层输入输出通道数量以及具体网络结构均可以根据实际应用场景,在模型训练阶段根据视频时间域和视频空间域进行调整,同时可在测试阶段获取到偏向于图像失真或运动失真的质量评价。本实施例中的视频质量评估模型在ICME-UGC数据集上,与视频质量多方法评价融合vMaf算法和视频质量评估算法DVQA算法相比,在性能评价指标PLCC和SROCC上均已达到最优效果。

103、从时空融合特征中提取静态特征,对静态特征进行质量评估,得到空间域质量得分;从时空融合特征中提取动态特征,对动态特征进行质量评估,得到时间域质量得分。

其中,空间域质量得分和时间域质量得分均为正数。在一些实施例中,服务器将时空融合特征分别输入至时域池化层和空域池化层,服务器通过空域池化层从时空融合特征中提取静态特征,并在视频时间维度上对静态特征进行降采样处理,得到池化后的静态特征数据,服务器将池化后的静态特征数据作为全连接层输入数据,并对全连接层输出数据进行归一化处理,得到空间域维度像素级别的视频质量得分(也就是,归一化后的静态特征数据)。然后再次池化处理,得到时间域质量得分;服务器通过时域池化层从时空融合特征中提取动态特征,并在视频宽高维度上对动态特征进行降采样处理,得到池化后的动态特征数据,服务器将池化后的动态特征数据作为全连接层输入数据,并对全连接层输出数据进行归一化处理,得到时间序列级别的视频质量得分(也就是,归一化后的动态特征数据),然后再次池化处理,得到空间域质量得分。例如,空间域质量得分为0.4,时间域质量得分为0.8。

104、根据待评估视频数据对应的视频动态指数、时间域质量得分和空间域质量得分,输出待评估视频数据的质量评估结果。

需要说明的是,视频质量评估指的是对待评估视频数据的内容质量进行评估,待评估视频数据的质量评估结果可以采用多种形式表示,例如,质量评估结果可以分数值,也可以为质量等级,具体此处不做限定。在这一阶段,服务器设置超参数对时间域质量得分和空间域质量得分进行融合,以获取整体的视频质量得分(也就是,待评估视频数据的质量评估结果),其中,超参数根据对待评估视频数据对应的动态指数进行设置。待评估视频数据的视频动作变化越大,视频动态指数越高,如图2所示,随着视频时间的变化,视频动态指数分别为0.6、0.8、0.3和0.75。在一些实施例中,服务器将待评估视频数据对应的视频动态指数、时间域质量得分和空间域质量得分输入至视频质量评估模型的预测层中,通过预测层将视频动态指数作为时间域质量得分对应的第一加权系数,并将预设值与视频动态指数之间的差值设置为空间域质量得分对应的第二加权系数,服务器根据第一加权系数、时间域质量得分、第二加权系数和空间域质量得分进行加权计算后取平均值,得到视频质量分数值,并将视频质量分数值设置为待评估视频数据的质量评估结果,或者服务器根据预设等级划分策略对视频质量分数值进行等级划分,得到待评估视频数据的质量评估结果。本实施例通过预测层将待评估视频数据在空间域和时间域先分离再融合的策略,满足了对具体场景动态调整超参数配置的需求,以使得待评估视频数据的质量评估结果更为准确。

进一步地,服务器将视频质量评估模型应用于直播视频质量评估场景中,以便于对线上不同类型的实时直播视频(也就是,待评估视频数据)进行视频评估,其中,实时直播视频包括游戏直播视频、娱乐直播视频、户外直播视频等。需要说明的是,实时直播视频的视频内容不可控因素较大,服务器根据视频动态指数实现视频质量评估有利于提升视频质量评估模型的泛化性和稳定性,以减少真实场景下的视频质量误评估。具体的,服务器将原画视频作为源视频(也就是,参考视频数据),对不同码率的目标视频(也就是,待评估视频数据,可以为超清类型视频、高清类型视频或标清类型视频)进行视频质量评估与验证,验证结果为本实施例中待评估视频数据的质量评估结果与视频清晰度呈正相关。进一步地,服务器对超分辨率重建前后的视频进行视频质量评估与验证,验证结果为超分后的质量评估结果高于超分前的质量评估结果。以此证明了本实施例中视频质量评估模型的预测准确性和泛化性,本视频质量评估模型还可以应用于其他直播平台,以及其他在线或离线的视频平台中。

本发明实施例中,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征,将待评估视频数据的静态特征和待评估视频数据的动态特征融合为时空融合特征增强了空间域和时间域各自对应的语义信息,提高了视频质量评估模型的预测准确性,在时间维度和空间维度上分别从时空融合特征中提取动态特征和静态特征后,分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分预测质量评估结果,提高了视频质量评估模型的泛化性和稳定性。

请参阅图3,本发明实施例中视频质量评估方法的另一个实施例包括:

301、获取待评估视频数据和参考视频数据。

该步骤301的具体执行过程与步骤101的具体执行过程相似,具体此处不再赘述。

在步骤301之前,服务器获取待评估视频数据对应的视频动态指数,在一些实时例中,服务器通过预设视频动态检测系统对待评估视频数据进行动态检测,得到初始视频时序检测分数;服务器按照预设策略对初始视频时序检测分数进行数据预处理,得到待评估视频数据对应的视频动态指数,其中,预设视频动态检测系统用于指示对待评估视频数据的品类或实时动作进行检测。进一步地,当预设策略为空值时,服务器直接将初始视频时序检测分数设置为待评估视频数据对应的视频动态指数,也就是视频动态指数并未经过任何数据处理;当预设策略为平滑策略时,服务器通过平滑策略对初始视频时序检测分数进行平滑处理,得到待评估视频数据对应的视频动态指数,待评估视频数据对应的视频动态指数对应的取值范围在[0,1]之间,提高了视频动态指数的过渡平稳性,其中,平滑策略可以为拉普拉斯平滑算法,也可以为古德图灵估计平滑算法,还可以为差值平滑算法,具体此处不做限定;当预设策略为激进策略时,服务器通过激进策略(例如,sharp算法)对初始视频时序检测分数进行平滑处理,得到待评估视频数据对应的视频动态指数,以使得视频动态指数中大的数值更大,小的数值更小。服务器根据待评估视频数据对应的视频类型和实际应用场景确定预设策略,预设策略还可以为其他数据处理策略,具体此处不做限定。提高了在不同应用场景下视频动态指数的准确性。

302、将待评估视频数据和参考视频数据输入至预设视频质量评估模型,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征;其中,时空融合特征融合了待评估视频数据在空间域中的静态特征,以及待评估视频数据在时间域中的动态特征。

其中,预设视频质量评估模型为预先训练完成的模型,可以为深度学习类型的模型,也可以为其他类型的模型,具体此处不做限定。在一些实施例中,服务器通过视频质量评估模型对待评估视频数据和参考视频数据进行像素点差值处理,得到视频残差数据,也就是,服务器根据待评估视频数据中各视频帧的像素和参考视频中各视频帧的像素确定待评估视频数据中各视频帧的残差数据(也就是,视频残差数据);服务器基于视频残差数据对待评估视频数据进行时空特征提取,得到待评估视频数据在空间域中的静态特征和待评估视频数据在时间域中的动态特征;服务器对静态特征和动态特征进行时空特征融合处理,得到待评估视频数据对应的时空融合特征。也就是,时空融合特征融合了待评估视频数据在空间域中的静态特征,以及待评估视频数据在时间域中的动态特征。可以理解的是,空间域中的静态特征和时间域中的动态特征共同组成了待评估视频数据,其中,时间域中的动态特征包含动态信息,动态信息包括运动矢量和时域变化,空间域中的静态特征考虑图像特征,图像特征包括图像的轮廓和细节等信息。

进一步地,服务器在执行基于视频残差数据对待评估视频数据进行时空特征提取,得到待评估视频数据在空间域中的静态特征和待评估视频数据在时间域中的动态特征步骤时,在一些实施例中,服务器将视频残差数据和待评估视频数据分别输入至各自对应的二维卷积分支中,通过各自对应的二维卷积分支分别对待评估视频数据和残差数据进行空间特征提取,得到待评估视频数据在空间域中的静态特征;服务器对待评估视频数据和视频残差数据进行时序特征提取,得到待评估视频数据在时间域中的动态特征。其中,视频残差数据和待评估视频数据各自对应的二维卷积分支为并行的两个卷积分支,每个二维卷积分支对应的二维卷积层数至少为2层,同一卷积分支中的各卷积核所对应的输出通道相同,每个二维卷积层对应的卷积核可以为1x1,也可以为3x3,具体此处不做限定,例如,当二维卷积层数为2层时,每个二维卷积分支中第一层二维卷积层包含a个输入通道和b个输出通道,第二层二维卷积层包含c个输入通道和d个输出通道,a、b、c和d均为正整数,且b大于a,d大于c。

进一步地,服务器在执行对静态特征和动态特征进行时空特征融合处理,得到待评估视频数据对应的时空融合特征步骤时,在一些实施例中,服务器通过第一三维卷积层对静态特征和动态特征进行卷积融合,得到卷积融合后的特征数据;服务器通过第二三维卷积层对卷积融合后的特征数据进行降维处理,得到待评估视频数据对应的时空融合特征,第一三维卷积层和第二三维卷积层为串联连接的多个三维卷积层。其中,第一三维卷积层对应的卷积层数至少为2,第二三维卷积层对应的层数至少为3,例如,当第一三维卷积层对应的卷积层数为2,且第二三维卷积层对应的层数为3时,卷积层数一共为5层,前两层三维卷积层对应的卷积核大小可以为3x3x3,输入通道维度为64,输出通道维度为64,第三层三维卷积层开始逐渐降维且卷积核均为1x1x1,第三层三维卷积层对应的输出通道维度为32,第四层三维卷积层输出通道维度为16,第五层三维卷积层输出通道维度为1。相应的,待评估视频数据对应的时空融合特征对应的特征尺寸为TxWxHx1,其中,T、W、H分别表示待评估视频数据对应的图像时长、图像宽度和图像高度。需要说明的是,待评估视频数据在空间域中的静态特征,以及待评估视频数据在时间域中的动态特征是紧密相连的,静态特征为动态特征提供更多的图像内容信息,而运动特征体现在多帧连续图像的静态特征中,时空特征融合处理有利于增强空间域和时间域各自对应的语义信息,为步骤303中的质量评分提供更具判别能力的特征。

303、从时空融合特征中提取静态特征,对静态特征进行质量评估,得到空间域质量得分;从时空融合特征中提取动态特征,对动态特征进行质量评估,得到时间域质量得分。

也就是,服务器在空间维度和时间维度上分别对时空融合特征进行质量预测,空间维度对应待评估视频数据在空间域中的静态特征,时间维度对应待评估视频数据在时间域中的动态特征。可以理解的是,服务器从时空融合特征中提取得到的静态特征和动态特征的目的是为了分别进行质量评分处理,以便于根据待评估视频数据对应的视频动态指数实现视频质量评估,有利于提升视频质量评估的泛化性和稳定性。

当服务器在执行从时空融合特征中提取静态特征,对静态特征进行质量评估,得到空间域质量得分步骤时,在一些实施例中,服务器通过空域池化层在空间维度上对时空融合特征进行空域特征分离,得到静态特征,具体的,服务器通过reshape函数对时空融合特征进行空域特征分离,得到静态特征,静态特征对应的特征尺寸为Tx(WxHxC),其中,C为静态特征的输出通道数量;服务器对静态特征进行空域池化处理,得到池化后的静态特征数据,空域池化处理可以为最大池化,也可以为平均池化,具体此处不做限定,服务器在第一维度T(视频时间)上对一静态特征进行池化,得到池化后的静态特征数据对应的特征尺寸为WxHxCx1;服务器对池化后的静态特征数据进行全连接计算,得到全连接静态特征数据,进一步地,服务器通过第一预设全连接网络对对池化后的静态特征数据进行全连接计算,得到全连接静态特征数据,第一预设全连接网络包括串联连接的至少两层全连接层,最后一层全连接层对应的输出通道为1;服务器根据预设算法对全连接静态特征数据进行归一化处理,得到归一化后的静态特征数据,其中,归一化后的静态特征数据对应的特征尺寸为WxHx1;服务器对归一化后的静态特征数据进行卷积池化处理,得到空间域质量得分。例如,空间域质量得分为0.89分。

当服务器在执行从时空融合特征中提取动态特征,对动态特征进行质量评估,得到时间域质量得分时,在一些实施例中,服务器通过时域池化层在时间维度上对时空融合特征进行时域特征分离,得到动态特征,具体的,服务器通过reshape函数对时空融合特征进行时域特征分离,得到动态特征,动态特征对应的特征尺寸为TxCx(WxH),其中,C为动态特征的输出通道数量;服务器对动态特征进行时域池化处理,得到池化后的动态特征数据,时域池化处理可以为最大池化,也可以为平均池化,具体此处不做限定,也就是,服务器在第三纬度WxH(视频宽高)上对动态特征进行池化,池化后的动态特征数据对应的特征尺寸为TxCx1;服务器对池化后的动态特征数据进行全连接计算,得到全连接动态特征数据,进一步地,服务器通过第二预设全连接网络对对池化后的动态特征数据进行全连接计算,得到全连接动态特征数据,第二预设全连接网络包括串联连接的至少两层全连接层,最后一层全连接层对应的输出通道为1;服务器根据预设算法对全连接动态特征数据进行归一化处理,得到归一化后的动态特征数据,其中,归一化后的d动态特征数据对应的特征尺寸为Tx1;服务器对归一化后的动态特征数据进行卷积池化处理,得到时间域质量得分。例如,时间域质量得分为0.65分。

需要说明的是,时域池化层和空域池化层为并行的网络层级结构。预设算法可以为激活函数sigmoid,也可以为归一化算法,例如,归一化算法为离差标准化算法或者Z-score标准化算法等,还可以为其他算法,具体此处不做限定。

304、将待评估视频数据对应的视频动态指数设置为第一权重值,并将预设值与视频动态指数之间的差值设置为第二权重值。

其中,待评估视频数据对应的视频动态指数是指待评估视频数据的内容在时间上的变动程度,如图2所示。视频动态指数对应的取值范围为大于或等于0且小于或等于预设值,其中,预设值可以为1,视频动态指数对应的分数值越高代表该时间戳出现动作的可能性越大,例如,待评估视频数据为娱乐视频或游戏视频,娱乐视频中开始跳舞的视频帧或者游戏视频中开始打斗的视频帧各自对应的视频动态指数分别为0.8或0.9。相应的,服务器确定第一权重值为0.8或0.9,并确定第二权重值为0.2或0.1。

305、根据第一权重值、第二权重值、时间域质量得分和空间域质量得分进行加权计算,得到待评估视频数据的质量评估结果。

其中,待评估视频数据的质量评估结果对应的分数取值范围可以为(0,1](也就是,归一化后的分数值),也可以为(0,10](也就是,十分制的分数值),还以为(0,100](也就是,百分制的分数值),具体此处不做限定。在一些实施例中,服务器将第一权重值与时间域质量得分相乘,得到第一视频质量评估得分;服务器将第二权重值与空间域质量得分相乘,得到第二视频质量评估得分;服务器对第一视频质量评估得分和第二视频质量评估得分进行相加计算,得到视频加权质量得分;服务器根据视频加权质量得分得到待评估视频数据的质量评估结果。通过视频动态指数提高了视频质量评估的泛化性和稳定性。进一步地,服务器根据待评估视频数据的质量评估结果进行视频质量优化处理。

可以理解的是,待评估视频数据的质量评估结果为100*(第一权重值*时间域质量得分+第二权重值*空间域质量得分)。例如,待评估视频数据对应的视频动态指数为0.2,时间域质量得分为1,以及空间域质量得分为0.5,相应的,第一权重值为0.2,第二权重值为0.8,则待评估视频数据的质量评估结果为100*(0.2*1+0.8*0.5),也就是60分。需要说明的是,针对待评估视频数据中的高动态内容,需要对时域失真设置更高的权重值,而针对待评估视频数据中的低动态内容,则需重点关注空域失真(也就是画面本身的清晰度)。

本发明实施例中,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征,将待评估视频数据的静态特征和待评估视频数据的动态特征融合为时空融合特征增强了空间域和时间域各自对应的语义信息,提高了视频质量评估模型的预测准确性,在时间维度和空间维度上分别从时空融合特征中提取动态特征和静态特征后,分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分预测质量评估结果,提高了视频质量评估模型的泛化性和稳定性。

上面对本发明实施例中视频质量评估方法进行了描述,下面对本发明实施例中视频质量评估装置进行描述,请参阅图4,本发明实施例中视频质量评估装置一个实施例包括:

获取模块401,用于获取待评估视频数据和参考视频数据;

输入模块402,用于将所述待评估视频数据和所述参考视频数据输入至预设视频质量评估模型,通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征;其中,所述时空融合特征融合了所述待评估视频数据在空间域中的静态特征,以及所述待评估视频数据在时间域中的动态特征;

提取模块403,用于从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分;从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分;

输出模块404,用于根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果。

本发明实施例中,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征,将待评估视频数据的静态特征和待评估视频数据的动态特征融合为时空融合特征增强了空间域和时间域各自对应的语义信息,提高了视频质量评估模型的预测准确性,在时间维度和空间维度上分别从时空融合特征中提取动态特征和静态特征后,分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分预测质量评估结果,提高了视频质量评估模型的泛化性和稳定性。

请参阅图5,本发明实施例中视频质量评估装置另一个实施例包括:

获取模块401,用于获取待评估视频数据和参考视频数据;

输入模块402,用于将所述待评估视频数据和所述参考视频数据输入至预设视频质量评估模型,通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征;其中,所述时空融合特征融合了所述待评估视频数据在空间域中的静态特征,以及所述待评估视频数据在时间域中的动态特征;

提取模块403,用于从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分;从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分;

输出模块404,用于根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果。

一种可行的实施方式中,所述输入模块402还可以包括:

处理单元4021,用于通过所述视频质量评估模型对所述待评估视频数据和所述参考视频数据进行像素点差值处理,得到视频残差数据;

提取单元4022,用故意基于所述视频残差数据对所述待评估视频数据进行时空特征提取,得到所述待评估视频数据在空间域中的静态特征和所述待评估视频数据在时间域中的动态特征;

融合单元4023,用于对所述静态特征和所述动态特征进行时空特征融合处理,得到所述待评估视频数据对应的时空融合特征。

一种可行的实施方式中,所述提取单元4022还可以具体用于:

将所述视频残差数据和所述待评估视频数据分别输入至各自对应的二维卷积分支中,通过所述各自对应的二维卷积分支分别对所述待评估视频数据和所述残差数据进行空间特征提取,得到所述待评估视频数据在空间域中的静态特征;

对所述待评估视频数据和所述视频残差数据进行时序特征提取,得到所述待评估视频数据在时间域中的动态特征。

一种可行的实施方式中,所述融合单元4023还可以具体用于:

通过第一三维卷积层对所述静态特征和所述动态特征进行卷积融合,得到卷积融合后的特征数据;

通过第二三维卷积层对所述卷积融合后的特征数据进行降维处理,得到所述待评估视频数据对应的时空融合特征,所述第一三维卷积层和所述第二三维卷积层为串联连接的多个三维卷积层。

一种可行的实施方式中,所述提取模块403还可以具体用于:

通过空域池化层在空间维度上对所述时空融合特征进行空域特征分离,得到所述静态特征;

对所述静态特征进行空域池化处理,得到池化后的静态特征数据;

对所述池化后的静态特征数据进行全连接计算,得到全连接静态特征数据;

根据预设算法对所述全连接静态特征数据进行归一化处理,得到归一化后的静态特征数据;

对所述归一化后的静态特征数据进行卷积池化处理,得到空间域质量得分。

一种可行的实施方式中,所述提取模块403还可以具体用于:

通过时域池化层在时间维度上对所述时空融合特征进行时域特征分离,得到所述动态特征;

对所述动态特征进行时域池化处理,得到池化后的动态特征数据;

对所述池化后的动态特征数据进行全连接计算,得到全连接动态特征数据;

根据预设算法对所述全连接动态特征数据进行归一化处理,得到归一化后的动态特征数据;

对所述归一化后的动态特征数据进行卷积池化处理,得到时间域质量得分。

一种可行的实施方式中,所述输出模块404还可以包括:

设置单元4041,用于将所述待评估视频数据对应的视频动态指数设置为第一权重值,并将预设值与所述视频动态指数之间的差值设置为第二权重值;

计算单元4042,用于根据所述第一权重值、所述第二权重值、所述时间域质量得分和所述空间域质量得分进行加权计算,得到所述待评估视频数据的质量评估结果。

一种可行的实施方式中,所述视频动态指数对应的取值范围为大于或等于0且小于或等于所述预设值。

一种可行的实施方式中,所述计算单元4042还可以具体用于:

将所述第一权重值与所述时间域质量得分相乘,得到第一视频质量评估得分;

将所述第二权重值与所述空间域质量得分相乘,得到第二视频质量评估得分;

对所述第一视频质量评估得分和所述第二视频质量评估得分进行相加计算,得到视频加权质量得分;

根据所述视频加权质量得分得到所述待评估视频数据的质量评估结果。

一种可行的实施方式中,所述视频质量评估装置还包括:

检测模块405,用于通过预设视频动态检测系统对所述待评估视频数据进行动态检测,得到初始视频时序检测分数;

预处理模块406,用于按照预设策略对所述初始视频时序检测分数进行数据预处理,得到所述待评估视频数据对应的视频动态指数。

本发明实施例中,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征,将待评估视频数据的静态特征和待评估视频数据的动态特征融合为时空融合特征增强了空间域和时间域各自对应的语义信息,提高了视频质量评估模型的预测准确性,在时间维度和空间维度上分别从时空融合特征中提取动态特征和静态特征后,分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分预测质量评估结果,提高了视频质量评估模型的泛化性和稳定性。

上面图4和图5从模块化的角度对本发明实施例中的视频质量评估装置进行详细描述,下面从硬件处理的角度对本发明实施例中视频质量评估设备进行详细描述。

图6是本发明实施例提供的一种视频质量评估设备的结构示意图,该视频质量评估设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对视频质量评估设备600中的一系列计算机程序操作。更进一步地,处理器610可以设置为与存储介质630通信,在视频质量评估设备600上执行存储介质630中的一系列计算机程序操作,以使得所述库文件的生成设备600执行所述视频质量评估方法的步骤,例如:

获取待评估视频数据和参考视频数据;将所述待评估视频数据和所述参考视频数据输入至预设视频质量评估模型,通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征;其中,所述时空融合特征融合了所述待评估视频数据在空间域中的静态特征,以及所述待评估视频数据在时间域中的动态特征;从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分;从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分;根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果。

本发明实施例中,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征,将待评估视频数据的静态特征和待评估视频数据的动态特征融合为时空融合特征增强了空间域和时间域各自对应的语义信息,提高了视频质量评估模型的预测准确性,在时间维度和空间维度上分别从时空融合特征中提取动态特征和静态特征后,分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分预测质量评估结果,提高了视频质量评估模型的泛化性和稳定性。

一种可行的实施方式中,所述通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征,包括:通过所述视频质量评估模型对所述待评估视频数据和所述参考视频数据进行像素点差值处理,得到视频残差数据;基于所述视频残差数据对所述待评估视频数据进行时空特征提取,得到所述待评估视频数据在空间域中的静态特征和所述待评估视频数据在时间域中的动态特征;对所述静态特征和所述动态特征进行时空特征融合处理,得到所述待评估视频数据对应的时空融合特征。

一种可行的实施方式中,所述基于所述视频残差数据对所述待评估视频数据进行时空特征提取,得到所述待评估视频数据在空间域中的静态特征和所述待评估视频数据在时间域中的动态特征,包括:将所述视频残差数据和所述待评估视频数据分别输入至各自对应的二维卷积分支中,通过所述各自对应的二维卷积分支分别对所述待评估视频数据和所述残差数据进行空间特征提取,得到所述待评估视频数据在空间域中的静态特征;对所述待评估视频数据和所述视频残差数据进行时序特征提取,得到所述待评估视频数据在时间域中的动态特征。

一种可行的实施方式中,所述对所述静态特征和所述动态特征进行时空特征融合处理,得到所述待评估视频数据对应的时空融合特征,包括:通过第一三维卷积层对所述静态特征和所述动态特征进行卷积融合,得到卷积融合后的特征数据;通过第二三维卷积层对所述卷积融合后的特征数据进行降维处理,得到所述待评估视频数据对应的时空融合特征,所述第一三维卷积层和所述第二三维卷积层为串联连接的多个三维卷积层。

一种可行的实施方式中,所述从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分,包括:通过空域池化层在空间维度上对所述时空融合特征进行空域特征分离,得到所述静态特征;对所述静态特征进行空域池化处理,得到池化后的静态特征数据;对所述池化后的静态特征数据进行全连接计算,得到全连接静态特征数据;根据预设算法对所述全连接静态特征数据进行归一化处理,得到归一化后的静态特征数据;对所述归一化后的静态特征数据进行卷积池化处理,得到空间域质量得分。

一种可行的实施方式中,所述从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分,包括:通过时域池化层在时间维度上对所述时空融合特征进行时域特征分离,得到所述动态特征;对所述动态特征进行时域池化处理,得到池化后的动态特征数据;对所述池化后的动态特征数据进行全连接计算,得到全连接动态特征数据;根据预设算法对所述全连接动态特征数据进行归一化处理,得到归一化后的动态特征数据;对所述归一化后的动态特征数据进行卷积池化处理,得到时间域质量得分。

一种可行的实施方式中,所述根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果,包括:将所述待评估视频数据对应的视频动态指数设置为第一权重值,并将预设值与所述视频动态指数之间的差值设置为第二权重值;根据所述第一权重值、所述第二权重值、所述时间域质量得分和所述空间域质量得分进行加权计算,得到所述待评估视频数据的质量评估结果。

一种可行的实施方式中,所述根据所述第一权重值、所述第二权重值、所述时间域质量得分和所述空间域质量得分进行加权计算,得到所述待评估视频数据的质量评估结果,包括:将所述第一权重值与所述时间域质量得分相乘,得到第一视频质量评估得分;将所述第二权重值与所述空间域质量得分相乘,得到第二视频质量评估得分;对所述第一视频质量评估得分和所述第二视频质量评估得分进行相加计算,得到视频加权质量得分;根据所述视频加权质量得分得到所述待评估视频数据的质量评估结果。

一种可行的实施方式中,所述视频动态指数对应的取值范围为大于或等于0且小于或等于所述预设值。

一种可行的实施方式中,在所述获取待评估视频数据和参考视频数据之前,所述视频质量评估方法还包括:通过预设视频动态检测系统对所述待评估视频数据进行动态检测,得到初始视频时序检测分数;按照预设策略对所述初始视频时序检测分数进行数据预处理,得到所述待评估视频数据对应的视频动态指数。

视频质量评估设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的视频质量评估设备结构并不构成对视频质量评估设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述视频质量评估方法的步骤,例如:

获取待评估视频数据和参考视频数据;将所述待评估视频数据和所述参考视频数据输入至预设视频质量评估模型,通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征;其中,所述时空融合特征融合了所述待评估视频数据在空间域中的静态特征,以及所述待评估视频数据在时间域中的动态特征;从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分;从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分;根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果。

本发明实施例中,通过视频质量评估模型,基于参考视频数据提取待评估视频数据对应的时空融合特征,待评估视频数据的静态特征和待评估视频数据的动态特征融合为时空融合特征增强了空间域和时间域各自对应的语义信息,提高了视频质量评估模型的预测准确性,在时间维度和空间维度上分别从时空融合特征中提取动态特征和静态特征后,分别预测时间域质量得分和空间域质量得分,并结合视频动态指数对时间域质量得分和空间域质量得分预测质量评估结果,提高了视频质量评估模型的泛化性和稳定性。

一种可行的实施方式中,所述通过所述视频质量评估模型,基于所述参考视频数据提取所述待评估视频数据对应的时空融合特征,包括:通过所述视频质量评估模型对所述待评估视频数据和所述参考视频数据进行像素点差值处理,得到视频残差数据;基于所述视频残差数据对所述待评估视频数据进行时空特征提取,得到所述待评估视频数据在空间域中的静态特征和所述待评估视频数据在时间域中的动态特征;对所述静态特征和所述动态特征进行时空特征融合处理,得到所述待评估视频数据对应的时空融合特征。

一种可行的实施方式中,所述基于所述视频残差数据对所述待评估视频数据进行时空特征提取,得到所述待评估视频数据在空间域中的静态特征和所述待评估视频数据在时间域中的动态特征,包括:将所述视频残差数据和所述待评估视频数据分别输入至各自对应的二维卷积分支中,通过所述各自对应的二维卷积分支分别对所述待评估视频数据和所述残差数据进行空间特征提取,得到所述待评估视频数据在空间域中的静态特征;对所述待评估视频数据和所述视频残差数据进行时序特征提取,得到所述待评估视频数据在时间域中的动态特征。

一种可行的实施方式中,所述对所述静态特征和所述动态特征进行时空特征融合处理,得到所述待评估视频数据对应的时空融合特征,包括:通过第一三维卷积层对所述静态特征和所述动态特征进行卷积融合,得到卷积融合后的特征数据;通过第二三维卷积层对所述卷积融合后的特征数据进行降维处理,得到所述待评估视频数据对应的时空融合特征,所述第一三维卷积层和所述第二三维卷积层为串联连接的多个三维卷积层。

一种可行的实施方式中,所述从所述时空融合特征中提取所述静态特征,对所述静态特征进行质量评估,得到空间域质量得分,包括:通过空域池化层在空间维度上对所述时空融合特征进行空域特征分离,得到所述静态特征;对所述静态特征进行空域池化处理,得到池化后的静态特征数据;对所述池化后的静态特征数据进行全连接计算,得到全连接静态特征数据;根据预设算法对所述全连接静态特征数据进行归一化处理,得到归一化后的静态特征数据;对所述归一化后的静态特征数据进行卷积池化处理,得到空间域质量得分。

一种可行的实施方式中,所述从所述时空融合特征中提取所述动态特征,对所述动态特征进行质量评估,得到时间域质量得分,包括:通过时域池化层在时间维度上对所述时空融合特征进行时域特征分离,得到所述动态特征;对所述动态特征进行时域池化处理,得到池化后的动态特征数据;对所述池化后的动态特征数据进行全连接计算,得到全连接动态特征数据;根据预设算法对所述全连接动态特征数据进行归一化处理,得到归一化后的动态特征数据;对所述归一化后的动态特征数据进行卷积池化处理,得到时间域质量得分。

一种可行的实施方式中,所述根据所述待评估视频数据对应的视频动态指数、所述时间域质量得分和所述空间域质量得分,输出所述待评估视频数据的质量评估结果,包括:将所述待评估视频数据对应的视频动态指数设置为第一权重值,并将预设值与所述视频动态指数之间的差值设置为第二权重值;根据所述第一权重值、所述第二权重值、所述时间域质量得分和所述空间域质量得分进行加权计算,得到所述待评估视频数据的质量评估结果。

一种可行的实施方式中,所述根据所述第一权重值、所述第二权重值、所述时间域质量得分和所述空间域质量得分进行加权计算,得到所述待评估视频数据的质量评估结果,包括:将所述第一权重值与所述时间域质量得分相乘,得到第一视频质量评估得分;将所述第二权重值与所述空间域质量得分相乘,得到第二视频质量评估得分;对所述第一视频质量评估得分和所述第二视频质量评估得分进行相加计算,得到视频加权质量得分;根据所述视频加权质量得分得到所述待评估视频数据的质量评估结果。

一种可行的实施方式中,所述视频动态指数对应的取值范围为大于或等于0且小于或等于所述预设值。

一种可行的实施方式中,在所述获取待评估视频数据和参考视频数据之前,所述视频质量评估方法还包括:通过预设视频动态检测系统对所述待评估视频数据进行动态检测,得到初始视频时序检测分数;按照预设策略对所述初始视频时序检测分数进行数据预处理,得到所述待评估视频数据对应的视频动态指数。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 视频播放方法、视频传输方法、装置、设备及存储介质
  • 视频集合的视频消息推送方法、装置、设备及存储介质
  • 视频生成、视频播放方法、装置、电子设备及存储介质
  • 基于视频处理方法及装置、视频设备及存储介质
  • 文本要点检测方法、装置、设备、存储介质及评估方法
  • 视频质量评估方法、装置、电子设备及存储介质
  • 视频质量评估方法、装置、存储介质和计算机设备
技术分类

06120115834895