掌桥专利:专业的专利平台
掌桥专利
首页

一种基于时空编码的低延时视频插帧方法及设备

文献发布时间:2023-06-19 19:30:30


一种基于时空编码的低延时视频插帧方法及设备

技术领域

本发明涉及图像处理技术领域,尤其涉及一种基于时空编码的低延时视频插帧方法及设备。

背景技术

目前,视频插帧任务经过业界多年的改进,提升了在视频插帧任务的表现。然而,这些插帧方法中最快的对640P视频进行4x插帧所花时长也是原视频时长的2.6倍,可见相关插帧方法的实时性很弱、延时很高,难以满足对游戏、在线视频、直播等领域的落地应用。因此,开发一种低延时视频插帧方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。

发明内容

针对现有技术存在的上述问题,本发明实施例提供了一种基于时空编码的低延时视频插帧方法及设备。

第一方面,本发明的实施例提供了一种基于时空编码的低延时视频插帧方法,包括:从视频待插帧的时序段中选取前帧图像和后帧图像,从前帧图像和后帧图像中提取对应的前帧特征图和后帧特征图;将前帧特征图和后帧特征图激活,将激活后的前帧特征图和激活后的后帧特征图进行叠加,得到特征编码特征图;对特征编码特征图进行解码,得到待插入的帧图像,构建出插帧模型;采用预先获取的训练集和测试集输入插帧模型进行训练和测试,若所述插帧模型的输出满足预设阈值,则确定所述插帧模型为最终插帧模型。

在上述方法实施例内容的基础上,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述从前帧图像和后帧图像中提取对应的前帧特征图和后帧特征图,包括:前帧图像和后帧图像同步输入到特征提取模块得到前帧特征图和后帧特征图。

在上述方法实施例内容的基础上,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述将前帧特征图和后帧特征图激活,包括:将前帧特征图和后帧特征图分别与待插帧时刻的时序编码矩阵相乘,得到编码前帧特征图和编码后帧特征图,采用非线性激活函数分别对所述编码前帧特征图和编码后帧特征图进行非线性激活,得到激活后的前帧特征图和激活后的后帧特征图。

在上述方法实施例内容的基础上,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述将激活后的前帧特征图和激活后的后帧特征图进行叠加,得到特征编码特征图,包括:将激活后的前帧特征图的图像矩阵的一元素和激活后的后帧特征图的图像矩阵对应位置的另一元素进行比较,将所述一元素和另一元素中的较小值确定为所述对应位置的叠加后元素,按照此方式将激活后的前帧特征图的图像矩阵与激活后的后帧特征图的图像矩阵中的所有剩余元素进行叠加,得到特征编码特征图。

在上述方法实施例内容的基础上,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述对特征编码特征图进行解码,得到待插入的帧图像,构建出插帧模型,包括:将特征编码特征图输入到特征重建模块,重建得到需要插入的帧图像,完成插帧模型的构建。

在上述方法实施例内容的基础上,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述特征提取模块,包括:时空编码层,在输入帧的通道维度上拼接每个像素在时长、横向、纵向三个方向的编码,时空编码仅在前后帧输入时进行一次;金字塔卷积层,采用不同尺度的卷积核对输入特征图提取特征并拼接,在不同感受野拾取特征;第一残差结构层,将当前节点之前所有节点的输出引入,防止梯度消失;第一批归一化层,在每个卷积层后进行批归一化,提高插帧模型的鲁棒性。

在上述方法实施例内容的基础上,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述特征重建模块,包括:卷积层、第二残差结构层和第二批归一化层,使用第二残差结构层的多层卷积并采用第二批归一化层进行批归一化,对特征编码特征图进行计算重建。

在上述方法实施例内容的基础上,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述训练集和测试集的获取,包括:根据预设步长从视频中获取第一帧率图像集,从第一帧率图像集中抽取若干帧图像构成第二帧率图像集,将第二帧率图像集划分为训练集和测试集。

第二方面,本发明的实施例提供了一种基于时空编码的低延时视频插帧装置,包括:第一主模块,用于实现从视频待插帧的时序段中选取前帧图像和后帧图像,从前帧图像和后帧图像中提取对应的前帧特征图和后帧特征图;第二主模块,用于实现将前帧特征图和后帧特征图激活,将激活后的前帧特征图和激活后的后帧特征图进行叠加,得到特征编码特征图;第三主模块,用于实现对特征编码特征图进行解码,得到待插入的帧图像,构建出插帧模型;第四主模块,用于实现采用预先获取的训练集和测试集输入插帧模型进行训练和测试,若所述插帧模型的输出满足预设阈值,则确定所述插帧模型为最终插帧模型。

第三方面,本发明的实施例提供了一种电子设备,包括:

至少一个处理器;以及

与处理器通信连接的至少一个存储器,其中:

存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种实现方式中任一种实现方式所提供的基于时空编码的低延时视频插帧方法。

第四方面,本发明的实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种实现方式中任一种实现方式所提供的基于时空编码的低延时视频插帧方法。

本发明实施例提供的基于时空编码的低延时视频插帧方法及设备,通过对输入进行时空编码,提取其特征后分别乘以待重建帧的时序编码矩阵,得到前后帧特征图对待重建帧有用的特征信息,摒弃了传统运动估计并位移补偿的思路,提升了计算速度并降低了延时,对于多输入共用特征提取块,节省了内存开销,提高了内存空间的利用效率。

附图说明

图1为本发明实施例提供的基于时空编码的低延时视频插帧方法流程图;

图2为本发明实施例提供的基于时空编码的低延时视频插帧装置结构示意图;

图3为本发明实施例提供的电子设备的实体结构示意图;

图4为本发明实施例提供的插帧模型结构示意图;

图5为本发明实施例提供的视频插帧后延时降低效果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明实施例提供了一种基于时空编码的低延时视频插帧方法,参见图1,该方法包括:从视频待插帧的时序段中选取前帧图像和后帧图像,从前帧图像和后帧图像中提取对应的前帧特征图和后帧特征图;将前帧特征图和后帧特征图激活,将激活后的前帧特征图和激活后的后帧特征图进行叠加,得到特征编码特征图;对特征编码特征图进行解码,得到待插入的帧图像,构建出插帧模型;采用预先获取的训练集和测试集输入插帧模型进行训练和测试,若所述插帧模型的输出满足预设阈值,则确定所述插帧模型为最终插帧模型。

在另一实施例中,对任务场景视频(即待插帧的视频)进行逐帧保存为高帧率数据集,使用帧抽取方式、每n帧抽取1帧获得低帧率数据集,并按照惯例使用7:3比例(也可以是其他任意比例)分割为训练集和测试集。从高帧率数据集使用帧抽取方式获取低帧率数据集属于数据集的建立流程,从低帧率数据集逆推出高帧率数据集则是插帧模型计算结果,常用于模型测试。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述从前帧图像和后帧图像中提取对应的前帧特征图和后帧特征图,包括:前帧图像和后帧图像同步输入到特征提取模块得到前帧特征图和后帧特征图。

在另一实施例中,选用待插帧时序上的前后帧作为网络输入,定义前帧图像为F

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述将前帧特征图和后帧特征图激活,包括:将前帧特征图和后帧特征图分别与待插帧时刻的时序编码矩阵相乘,得到编码前帧特征图和编码后帧特征图,采用非线性激活函数分别对所述编码前帧特征图和编码后帧特征图进行非线性激活,得到激活后的前帧特征图和激活后的后帧特征图。

在另一实施例中,插帧模型的构建分为编码和解码两部分。编码部分,前帧图像F

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述将激活后的前帧特征图和激活后的后帧特征图进行叠加,得到特征编码特征图,包括:将激活后的前帧特征图的图像矩阵的一元素和激活后的后帧特征图的图像矩阵对应位置的另一元素进行比较,将所述一元素和另一元素中的较小值确定为所述对应位置的叠加后元素,按照此方式将激活后的前帧特征图的图像矩阵与激活后的后帧特征图的图像矩阵中的所有剩余元素进行叠加,得到特征编码特征图。

在另一实施例中,激活后的前帧特征图的图像矩阵为

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述对特征编码特征图进行解码,得到待插入的帧图像,构建出插帧模型,包括:将特征编码特征图输入到特征重建模块,重建得到需要插入的帧图像,完成插帧模型的构建。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述特征提取模块,包括:时空编码层,在输入帧的通道维度上拼接每个像素在时长、横向、纵向三个方向的编码,时空编码仅在前后帧输入时进行一次;金字塔卷积层,采用不同尺度的卷积核对输入特征图提取特征并拼接,在不同感受野拾取特征;第一残差结构层,将当前节点之前所有节点的输出引入,防止梯度消失;第一批归一化层,在每个卷积层后进行批归一化,提高插帧模型的鲁棒性。

在另一实施例中,特征提取模块包括:时空编码层、金字塔卷积层、残差结构层和批归一化层。时空编码层是在输入帧的通道维度上拼接每个像素在时长、横向、纵向三个方向的独特编码,假设输入帧的宽、高分别为H、W,某像素坐标为(i,j),则其时长、横向、纵向编码可以写为:

其中,x表示待插帧距离前帧的延时,n表示低帧率视频中每两帧之间的间隔。时空编码只在前后帧输入时进行一次。如取前后帧的正中间帧,则x=1/2,帧的宽高均为300像素,则时空编码可以写为:

金字塔卷积层中,采用不同尺度的卷积核对输入特征图提取特征并拼接,从而在不同感受野拾取特征。在另一实施例中可以选用9、7、5、3、1尺寸的卷积核为一组金字塔卷积,特征图边缘分别填充4、3、2、1、0个像素以保证卷积结果的宽高一致。使用残差结构将当前节点之前所有节点的输出引入,防止梯度消失。在每个卷积层后应用批归一化,提高模型鲁棒性。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述特征重建模块,包括:卷积层、第二残差结构层和第二批归一化层,使用第二残差结构层的多层卷积并采用第二批归一化层进行批归一化,对特征编码特征图进行计算重建。

在另一实施例中,特征重建模块包括卷积层、残差结构层和批归一化层。使用残差结构层的多层卷积并应用批归一化,对特征编码预测特征图进行计算重建。使用3×3卷积,最后一层卷积层卷积核数量设置为3,保证输出通道数为RGB三通道。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧方法,所述训练集和测试集的获取,包括:根据预设步长从视频中获取第一帧率图像集,从第一帧率图像集中抽取若干帧图像构成第二帧率图像集,将第二帧率图像集划分为训练集和测试集。

具体的,插帧模型构建完成后,采用训练集对插帧模型进行训练,具体可以采用训练集对插帧模型使用反向传播算法进行训练,迭代直到均方差MSE损失值L≤10

本发明实施例提供的基于时空编码的低延时视频插帧方法,通过对输入进行时空编码,提取其特征后分别乘待重建帧的时序编码矩阵,得到前后帧特征图对待重建帧有用的特征信息,摒弃了传统运动估计并位移补偿的思路,提升了计算速度并降低了延时,对于多输入共用特征提取块,节省了内存开销,提高了内存空间的利用效率。

构建好的插帧模型结构可以参见图4,前帧图像F

本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种基于时空编码的低延时视频插帧装置,该装置用于执行上述方法实施例中的基于时空编码的低延时视频插帧方法。参见图2,该装置包括:第一主模块,用于实现从视频待插帧的时序段中选取前帧图像和后帧图像,从前帧图像和后帧图像中提取对应的前帧特征图和后帧特征图;第二主模块,用于实现将前帧特征图和后帧特征图激活,将激活后的前帧特征图和激活后的后帧特征图进行叠加,得到特征编码特征图;第三主模块,用于实现对特征编码特征图进行解码,得到待插入的帧图像,构建出插帧模型;第四主模块,用于实现采用预先获取的训练集和测试集输入插帧模型进行训练和测试,若所述插帧模型的输出满足预设阈值,则确定所述插帧模型为最终插帧模型。

本发明实施例提供的基于时空编码的低延时视频插帧装置,采用图2中的若干模块,通过对输入进行时空编码,提取其特征后分别乘待重建帧的时序编码矩阵,得到前后帧特征图对待重建帧有用的特征信息,摒弃了传统运动估计并位移补偿的思路,提升了计算速度并降低了延时,对于多输入共用特征提取块,节省了内存开销,提高了内存空间的利用效率。

需要说明的是,本发明提供的装置实施例中的装置,除了可以用于实现上述方法实施例中的方法外,还可以用于实现本发明提供的其他方法实施例中的方法,区别仅仅在于设置相应的功能模块,其原理与本发明提供的上述装置实施例的原理基本相同,只要本领域技术人员在上述装置实施例的基础上,参考其他方法实施例中的具体技术方案,通过组合技术特征获得相应的技术手段,以及由这些技术手段构成的技术方案,在保证技术方案具备实用性的前提下,就可以对上述装置实施例中的装置进行改进,从而得到相应的装置类实施例,用于实现其他方法类实施例中的方法。例如:

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧装置,还包括:第一子模块,用于实现所述从前帧图像和后帧图像中提取对应的前帧特征图和后帧特征图,包括:前帧图像和后帧图像同步输入到特征提取模块得到前帧特征图和后帧特征图。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧装置,还包括:第二子模块,用于实现所述将前帧特征图和后帧特征图激活,包括:将前帧特征图和后帧特征图分别与待插帧时刻的时序编码矩阵相乘,得到编码前帧特征图和编码后帧特征图,采用非线性激活函数分别对所述编码前帧特征图和编码后帧特征图进行非线性激活,得到激活后的前帧特征图和激活后的后帧特征图。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧装置,还包括:第三子模块,用于实现所述将激活后的前帧特征图和激活后的后帧特征图进行叠加,得到特征编码特征图,包括:将激活后的前帧特征图的图像矩阵的一元素和激活后的后帧特征图的图像矩阵对应位置的另一元素进行比较,将所述一元素和另一元素中的较小值确定为所述对应位置的叠加后元素,按照此方式将激活后的前帧特征图的图像矩阵与激活后的后帧特征图的图像矩阵中的所有剩余元素进行叠加,得到特征编码特征图。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧装置,还包括:第四子模块,用于实现所述对特征编码特征图进行解码,得到待插入的帧图像,构建出插帧模型,包括:将特征编码特征图输入到特征重建模块,重建得到需要插入的帧图像,完成插帧模型的构建。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧装置,还包括:第五子模块,用于实现所述特征提取模块,包括:时空编码层,在输入帧的通道维度上拼接每个像素在时长、横向、纵向三个方向的编码,时空编码仅在前后帧输入时进行一次;金字塔卷积层,采用不同尺度的卷积核对输入特征图提取特征并拼接,在不同感受野拾取特征;第一残差结构层,将当前节点之前所有节点的输出引入,防止梯度消失;第一批归一化层,在每个卷积层后进行批归一化,提高插帧模型的鲁棒性。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧装置,还包括:第六子模块,用于实现所述特征重建模块,包括:卷积层、第二残差结构层和第二批归一化层,使用第二残差结构层的多层卷积并采用第二批归一化层进行批归一化,对特征编码特征图进行计算重建。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于时空编码的低延时视频插帧装置,还包括:第七子模块,用于实现所述训练集和测试集的获取,包括:根据预设步长从视频中获取第一帧率图像集,从第一帧率图像集中抽取若干帧图像构成第二帧率图像集,将第二帧率图像集划分为训练集和测试集。

本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,如图3所示,该电子设备包括:至少一个处理器(processor)、通信接口(Communications Interface)、至少一个存储器(memory)和通信总线,其中,至少一个处理器,通信接口,至少一个存储器通过通信总线完成相互间的通信。至少一个处理器可以调用至少一个存储器中的逻辑指令,以执行前述各个方法实施例提供的方法的全部或部分步骤。

此外,上述的至少一个存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个方法实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的一些部分所述的方法。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

需要说明的是,术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种视频帧内帧间编码的通用信息隐藏检测方法
  • 一种基于深度学习的双向编码视频插帧方法、系统及设备
  • 基于时空联合注意力的视频插帧方法
技术分类

06120115931058