掌桥专利:专业的专利平台
掌桥专利
首页

基于多尺度空间-时间特征的会议视频插帧方法及系统

文献发布时间:2024-04-18 19:58:30


基于多尺度空间-时间特征的会议视频插帧方法及系统

技术领域

本发明涉及一种视频增强(提升视频帧率)技术领域,尤其涉及一种基于多尺度空间-时间特征的会议视频插帧技术。

背景技术

视频会议是一种通过网络连接远程参与者进行实时音视频通信的技术,其近年来得到广泛应用,成为人们远程办公、学习、医疗等领域的主要工具之一。视频会议通过降低参与者的时间和空间限制,提高了工作效率和沟通效果,成为现代社会中不可或缺的通讯方式之一。但是由于网络宽带不足、硬件设备性能不佳,视频编码解码效率低下等导致视频会议中的视频数据传输的延迟和丢失,从而影响视频帧率的稳定性和流畅度,造成视频卡顿,这严重影响到用户的视听体验和沟通效率。本次实验就是发明一种提升视频帧率的方法,利用神经网络实现会议视频插帧以提升会议视频帧率以及画面流畅度。

所述视频插帧,是指通过在两个视频帧之间插入新的帧来增加视频的帧率,这些新帧通常是根据相邻帧之间的运动进行估计和合成的,通过增加帧率使视频的流畅度提高,减少卡顿的现象。

由于现有的视频插帧技术存在插帧效果不稳定的情况,虽然可以提升视频的帧率,但是画面内容上存在异常,给用户带来突兀感,显然现有的视频插帧方法的性能有待提升。

发明内容

本发明的发明目的在于提供了一种视频增强(提升视频帧率)技术,可以根据输入视频的连续两帧插入中间帧,从而提升视频帧率,使视频画面更加流畅。

为了实现上述目的,本发明提出一种基于多尺度空间-时间特征的会议视频插帧方法,包括获取低帧率的视频,将视频分帧;将奇数帧作为输入帧,偶数帧作为中间帧,构建训练集和测试集;提取训练集输入帧的多尺度空间-时间特征;将提取的空间-时间特征,输入到合成器中,通过相应2D卷积神经网络估计卷积核、偏移以及权重,合成中间帧;计算网络的损失函数,设置参数,并训练神经网络;测试神经网络,将测试集输入帧输入到神经网络模型中进行测试,得到中间帧,实现基于神经网络模型获取视频插帧结果。

而且,所述的将视频分帧,是根据视频帧率将视频分帧。

而且,对输入帧提取多尺度空间-时间特征的实现方式如下,

1)使用3D卷积提取输入帧的浅层空间-时间特征;

2)将浅层空间-时间特征F按照时间维度进行切分(并送入多层感知机MLP处理,提取时间特征F

3)将时间特征F

4)将空间特征F

5)迭代进行2)-4),实现多个尺度的处理,在不同尺度设置不同的切分长度以提取局部和全局特征;

6)将得到的特征送入解码器进行解码,以将特征的大小恢复成与输入帧大小一致。

而且,所述合成器中,所述的卷积核和权重是通过使用2D卷积神经网络以及softmax激活函数得到的,偏移是通过2D卷积神经网络得到的,利用卷积核以及偏移使用可变形卷积对输入帧进行处理,通过与权重结合得到中间帧。

而且,使用测试集数据测试网络时,使用图像质量评价指标评价模型质量,将峰值信噪比PSNR、结构相似性SSIM以及学习感知图像块相似度LPIPS作为衡量中间帧质量的评价指标。

另一方面,本发明提供一种基于多尺度空间-时间特征的会议视频插帧系统,用于实现如上所述的一种基于多尺度空间-时间特征的会议视频插帧方法。

而且,包括以下模块,

第一模块,用于获取低帧率的视频,将视频分帧;

第二模块,用于将奇数帧作为输入帧,偶数帧作为中间帧,构建训练集和测试集;

第三模块,用于提取训练集输入帧的多尺度空间-时间特征;

第四模块,用于将提取的空间-时间特征,输入到合成器中,通过相应2D卷积神经网络估计卷积核、偏移以及权重,合成中间帧;

第五模块,用于计算网络的损失函数,设置参数,并训练神经网络;

第六模块,用于测试神经网络,将测试集输入帧输入到神经网络模型中进行测试,得到中间帧,实现基于神经网络模型获取视频插帧结果。

或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于多尺度空间-时间特征的会议视频插帧方法。

或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于多尺度空间-时间特征的会议视频插帧方法。

本发明提供了一种基于多尺度空间-时间特征的会议视频插帧方案:获取低帧率视频并将视频分帧;将视频中的奇数帧作为输入帧,偶数帧作为中间帧构建训练集和测试集;将训练集中的奇数帧送入神经网络训练中得到模型;将测试集奇数帧送入该神经网络中进行测试,得到中间帧,将中间帧与原始奇数帧组合提升视频帧率;将峰值信噪比、结构相似性以及学习感知图像块相似度作为衡量中间帧质量的评价指标。本发明利用多尺度空间-时间特征实现在视频的连续两帧中插入中间帧,达到提升视频帧率使视频更加流畅的效果。

本发明方案实施简单方便,实用性强,解决了相关技术存在的实用性低及实际应用不便的问题,能够提高用户体验,具有重要的市场价值。

附图说明

图1为本发明实施例的方法流程图;

图2为本发明实施例框架示意图。

图3为本发明实施例框架中合成器示意图。

图4为本发明实施例框架中时间维度切分示意图。

图5为本发明实施例框架中横纵向切分示意图。

图6为本发明实施例的在Voxceleb2测试数据集上不同视频帧插值方法的视觉比较图其中,(a)部分为输入的第一帧奇数帧,(b)部分为输入的第二帧奇数帧,(c)部分为2018年发表在CVPR的论文SuperSloMo

具体实施方式

以下结合附图和实施例具体说明本发明的技术方案。

本发明实施例中提出一种基于多尺度空间-时间特征的会议视频插帧方法,包括以下步骤:

步骤1,获取低帧率视频,将视频分帧;

提取的原视频是低帧率视频,目标是经过处理之后得到相对帧率较高的视频。实施例从说话人生成常用的数据集Voxceleb2中选取部分视频,根据视频帧率将视频分帧,其中视频帧率为25FPS,即1秒视频包含25张图片。

步骤2将奇数帧作为网络的输入帧,偶数帧作为中间帧,构建数据集,并将构建的数据集进一步划分,其中80%作为训练数据集用于神经网络的训练,20%作为测试数据集用于神经网络的测试,用于构建损失函数以及评价预测的中间帧的质量。

步骤3,对输入帧即图2中的I

1)使用3D卷积对输入帧进行处理,提取浅层空间-时间特征;

2)将浅层空间-时间特征F按照时间维度进行切分(如图4所示)并送入多层感知机(MLP)处理以进一步提取时间特征F

3)将上一步得到的时间特征F

4)将上一步得到的空间特征F

实施例优选将特征缩小为原来的一半,因此使用步长为2的卷积。

5)上述2)-4)的处理为一个尺度的处理过程,该过程需要处理迭代多次(优选建议处理4次),以得到多尺度空间-时间特征,其中在每一尺度设置将水平以及垂直方向切分的长度设置不同的值以获取包含局部细节信息和全局信息的空间-时间特征,从而使视频插帧模型可以更好地处理大运动,插入质量更好的中间帧;

6)由于在提取视频帧特征时,使用步长为2的3D卷积下采样,缩小了特征图的大小,为了使特征图大小与输入帧大小保持一致,使用解码器对特征图进一步处理。

步骤1.4,使用得到的空间-时间特征输入到合成器中估计卷积核、偏移以及权重,合成中间帧;

其中卷积核W和权重是分别通过两个不同的2D卷积神经网络以及softmax激活函数得到的,由于下面的公式的约束,使训练的过程中得到的参数不同,经过神经网络处理得到的结果就不同。偏移(α,β)是通过2D卷积神经网络得到的,其中α是水平方向的偏移,β是垂直方向的偏移。通过卷积核和偏移量使用可变形卷积对输入帧进行处理,结合权重合成中间帧I

其中(k,l)为目标像素点(x,y)周围的像素点,即卷积的范围,N为卷积核的大小,(α,β)为偏移,W

由于通过输入帧I

步骤1.5,训练神经网络。实施例中优选实现如下:

1)设置参数:预先设置特征每个尺度在水平、垂直方向切分的长度,训练网络的迭代次数以及学习率;

2)将训练集中的输入帧送入到神经网络中,进行网络的训练,得到模型,其中网络训练的损失函数由L1损失构建的,通过损失函数优化模型,进行反向传播,当经过多轮传播,满足训练要求迭代次数200次即可完成模型训练,损失函数使用以下公式计算:

其中I

步骤1.6,进行测试。将测试集的输入帧采用与训练集一致的方式提取特征后送入到训练好的模型中进行测试,得到中间帧。

最后使用峰值信噪比PSNR、结构相似性SSIM以及学习感知块相似度LPIPS来评价插入的中间帧的质量。具体实施时,通过测试质量要求的模型即可用于实际插帧,实现基于神经网络模型获取视频插帧结果。

1)峰值信噪比PSNR(Peak Signal to Noise Ration)是图像和视频质量评估的常用指标,该指标测试原始中间帧与网络输出的中间帧之间的失真程度,单位为dB,PSNR越高,表示失真越少即中间帧的质量越好,反之则表示中间帧的质量越差,其计算公式为:

其中MSE是真实中间帧与网络预测的中间帧的均方误差。

2)结构相似性SSIM(Structural Similarity)是一种衡量两幅图像相似度的指标,该指标分别从亮度、对比度、结构三方面度量图像相似性,其取值范围为0~1,值越大表示中间帧质量越好,反之则表示中间帧质量越差,其计算公式为:

其中,x和y分别为真实的中间帧与网络预测的中间帧的像素值,μ

3)学习感知块相似度LPIPS(Learned Perceptual Image Patch Similarity)是一种用于衡量图像质量差异的指标,该指标是通过深度学习算法来计算图像之间的相似性,可以更好地模拟人类对图像的感知,因此在实际应用中更能反映图像的质量差异。LPIPS指标的输出范围通常是0~1之间,值越接近0表示网络预测的中间帧的质量越好,反之则表示中间帧质量越差,其计算公式为:

其中,d为x0与x之间的距离,x0为真实图像块,x为预测图像块,

具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。

在一些可能的实施例中,提供一种基于多尺度空间-时间特征的会议视频插帧系统,包括以下模块,

第一模块,用于获取低帧率的视频,将视频分帧;

第二模块,用于将奇数帧作为输入帧,偶数帧作为中间帧,构建训练集和测试集;

第三模块,用于提取训练集输入帧的多尺度空间-时间特征;

第四模块,用于将提取的空间-时间特征,输入到合成器中,通过相应2D卷积神经网络估计卷积核、偏移以及权重,合成中间帧;

第五模块,用于计算网络的损失函数,设置参数,并训练神经网络;

第六模块,用于测试神经网络,将测试集输入帧输入到神经网络模型中进行测试,得到中间帧,实现基于神经网络模型获取视频插帧结果。

在一些可能的实施例中,提供一种基于多尺度空间-时间特征的会议视频插帧系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于多尺度空间-时间特征的会议视频插帧方法。

在一些可能的实施例中,提供一种基于多尺度空间-时间特征的会议视频插帧系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于多尺度空间-时间特征的会议视频插帧方法。

为证明本发明的技术效果,将本发明与近几年发表在国际顶级会议的论文算法进行对比,对比论文如下:

1Jiang,H.,Sun,D.,Jampani,V.,Yang,M.-H.,Learned-Miller,E.,Kautz,J.:Super slomo:Highquality estimation ofmultiple intermediate frames for videointerpolation.In:Proceedings of

the IEEE Conference on Computer Vision andPattern Recognition,pp.9000-9008(2018)【简

称SuperSloMo】

2Choi,M.,Kim,H.,Han,B.,Xu,N.,Lee,K.M.:Channel attention is all youneed for video

frame interpolation.In:Proceedings ofthe AAAI Conference onArtificial Intelligence,vol.34,

pp.10663-10671(2020)【简称CAIN】

3Lee,H.,Kim,T.,Chung,T.-y.,Pak,D.,Ban,Y.,Lee,S.:Adacof:Adaptivecollaboration of

flows for video frame interpolation.In:Proceedings ofthe IEEE/CVFConference on ComputerVision andPattern Recognition,pp.5316-5325(2020)【简称AdaCof】

4Sim,H.,Oh,J.,Kim,M.:Xvfi:Extreme video frame interpolation.In:Proceedings ofthe

IEEE/CVF International Conference on Computer Vision,pp.14489-14498(2021)【简称

XVFI】

5Shi,Z.,Xu,X.,Liu,X.,Chen,J.,Yang,M.-H.:Video frame interpolationtransformer.In:

Proceedings ofthe IEEE/CVF Conference on Computer Vision andPatternRecognition,pp.

17482-17491(2022)【简称VFIT】

6Kalluri,T.,Pathak,D.,Chandraker,M.,Tran,D.:Flavr:Flow-agnostic videorepresentations

for fast frame interpolation.In:Proceedings ofthe IEEE/CVF WinterConference on

Applications ofComputer Vision,pp.2071-2082(2023)【简称FLAVR】

效果对比图如图6:其中,(a)部分为输入的第一帧奇数帧,(b)部分为输入的第二帧奇数帧,(c)部分为2018年发表在CVPR的论文SuperSloMo

从图4可以看出,对于眨眼和嘴巴的运动变化,本发明的效果最佳

测试集数据对比如下:

上表为在Voxceleb2

7

8

high-resolution audio-visual dataset.In:Proceedings ofthe IEEE/CVFConference on

Computer Vision and Pattern Recognition,pp.3661-3670(2021)【HDTF】

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

相关技术
  • 基于多特征和帧置信分数的低延迟视频动作检测方法
  • 将高分辨率视频流自动实时帧分割成组成特征并修改各个帧中的特征以同时创建来自相同的视频源的多个不同线性视图的方法和系统
  • 基于帧内帧间特征差异化的深度伪造视频检测方法及系统
技术分类

06120116498573