掌桥专利:专业的专利平台
掌桥专利
首页

模型训练方法、视频去雨方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:30


模型训练方法、视频去雨方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术领域,尤其涉及一种模型训练方法、视频去雨方法、装置、设备及存储介质。

背景技术

视频去雨技术是计算机视觉领域的一个重要研究方向,旨在从视频中去除雨滴,以改善在雨天场景下拍摄的视频的视觉质量。雨滴在视频中会引入视觉噪声和失真,降低了视频内容的质量,特别是对于需要高质量视觉信息的应用,如自动驾驶、物体检测、语义分割等,雨天的影响尤为显著。因此,视频去雨技术具有广泛的应用前景,对提高视觉系统性能至关重要。

但是现有的视频去雨技术,在处理包含大量物体运动的视频时,存在去雨效果差,且生成的视频有模糊伪影等问题。

发明内容

本发明提供了一种模型训练方法、视频去雨方法、装置、设备及存储介质,以解决现有的视频去雨技术,在处理包含大量物体运动的视频时,存在去雨效果差,且生成的视频有模糊伪影等问题。

根据本发明的一方面,提供了一种视频去雨模型的训练方法,包括:

获取训练数据集,训练数据集包括多组样本视频,单组样本视频包括雨天视频以及对应的无雨视频;

对于单组样本视频中的单个像素点,确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重;

基于损失函数训练视频去雨模型,其中,损失函数根据各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重确定。

根据本发明的另一方面,提供了一种视频去雨方法,包括:

获取视频去雨模型,视频去雨模型基于如本发明任一实施例的视频去雨模型的训练方法训练后得到;

将待处理视频输入至视频去雨模型,得到去雨后的视频。

根据本发明的另一方面,提供了一种视频去雨模型的训练装置,包括:

数据集获取模块,用于获取训练数据集,训练数据集包括多组样本视频,单组样本视频包括雨天视频以及对应的无雨视频;

权重确定模块,用于对于单组样本视频中的单个像素点,确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重;

模型训练模块,用于基于损失函数训练视频去雨模型,其中,损失函数根据各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重确定。

根据本发明的另一方面,提供了一种视频去雨装置,包括:

模型获取模块,用于获取视频去雨模型,视频去雨模型基于如本发明任一实施例的视频去雨模型的训练方法训练后得到;

视频处理模块,用于将待处理视频输入至视频去雨模型,得到去雨后的视频。

根据本发明的另一方面,提供了一种电子设备,电子设备包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的视频去雨模型的训练方法,或者,执行本发明任一实施例的视频去雨方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的视频去雨模型的训练方法,或者,实现本发明任一实施例的视频去雨方法。

本发明实施例提供的技术方案,通过获取训练数据集,训练数据集包括多组样本视频,单组样本视频包括雨天视频以及对应的无雨视频;对于单组样本视频中的单个像素点,确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重;基于损失函数训练视频去雨模型,其中,损失函数根据各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重确定。通过上述技术方案,获取包括多组样本视频的训练数据集,其中,单组样本视频包括雨天视频以及对应的无雨视频;考虑到,在处理涉及大量物体运动的视频时,连续帧之间的背景层变化程度较大,时间一致性通常较弱,可能导致时间信息不够可靠,从而引发模糊伪影等问题,因此对于单组样本视频中的单个像素点,通过确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重,再根据第一时间一致性权重和第二时间一致性权重确定损失函数,进而利用该损失函数训练视频去雨模型。通过引入时间一致性权重构造损失函数,对不同像素点分配不同的权重,在时间一致性和视频去雨之间取得平衡,能够更好的调节帧之间的时间关系。解决了现有的视频去雨技术,在处理包含大量物体运动的视频时,存在去雨效果差,且生成的视频有模糊伪影等问题,有效的提升了视频去雨效果,提升了生成视频的质量。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种视频去雨模型的训练方法的流程图;

图2是本发明实施例提供的一种InceptionNext块的结构示意图;

图3是本发明实施例提供的一种视频去雨模型的结构示意图;

图4是本发明实施例二提供的一种视频去雨模型的训练方法的流程图;

图5是本发明实施例三提供的一种视频去雨方法的流程图;

图6是本发明实施例四提供的一种视频去雨模型的训练装置的结构示意图;

图7是本发明实施例五提供的一种视频去雨装置的结构示意图;

图8是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一提供的一种视频去雨模型的训练方法的流程图,本实施例可适用于对视频去雨模型进行训练的情况,该方法可以由视频去雨模型的训练装置来执行,该视频去雨模型的训练装置可以采用硬件和/或软件的形式实现,该视频去雨模型的训练装置可配置于具有数据处理功能的终端或者服务器中。如图1所示,该方法包括:

S110、获取训练数据集,训练数据集包括多组样本视频,单组样本视频包括雨天视频以及对应的无雨视频。

在本实施例中,训练数据集用于训练机器学习模型的参数。雨天视频可以是由静态图像采集设备采集的真实雨天静态视频,也可以是通过在无雨视频上添加合成雨滴生成的雨天视频。多组样本视频包括不同的单组样本视频,单组样本视频中包括雨天视频和对应的无雨视频。

具体的,获取训练数据集,该数据集可以是从网上下载或通过图像采集设备采集到的多组样本视频,其中,每组样本视频中均包括雨天视频和对应的无雨视频。

S120、对于单组样本视频中的单个像素点,确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重。

在本实施例中,第一时间一致性权重用于表征像素点在雨天视频中时间一致性强度。第二时间一致性权重用于表征像素点在相应的无雨视频中时间一致性强度。

具体的,视频去雨技术的目标是从视频中去除雨滴,并提高在雨天场景下的视频恢复质量。目前的视频去雨方法通常依赖额外的视频帧来提高恢复性能。然而,在处理涉及大量物体运动的视频剪辑时,对齐帧或聚合信息变得具有挑战性。这是因为在具有大物体运动的区域,时间一致性往往减弱,导致产生模糊伪影等问题。相比之下,当连续帧之间的背景变化最小时,时空关系更加可靠和稳定。因此,通过为不同的像素点分配自适应权重,即对于单组样本视频中的单个像素点,确定该像素点在对应的第一时间一致性权重以及在相应的无雨视频中对应的第二时间一致性权重,来更好地感知时空信息。

S130、基于损失函数训练视频去雨模型,其中,损失函数根据各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重确定。

在本实施例中,损失函数在机器学习和深度学习中起到了衡量模型性能、指导参数优化和模型选择的作用。视频去雨模型用于实现捕捉雨天场景中复杂的时空依赖关系,以实现视频去雨的功能。

具体的,利用各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重之间的差异程度来确定损失函数,确保同一帧图像中的像素在去雨前后的稳定性,进而,通过上述的损失函数对视频去雨模型进行训练,能够克服大量物体运动造成的误差以及模糊伪影等问题,有效提升视频去雨模型的性能,增强视频去雨效果。

本发明实施例一提供的技术方案,通过获取训练数据集,训练数据集包括多组样本视频,单组样本视频包括雨天视频以及对应的无雨视频;对于单组样本视频中的单个像素点,确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重;基于损失函数训练视频去雨模型,其中,损失函数根据各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重确定。通过上述技术方案,获取包括多组样本视频的训练数据集,其中,单组样本视频包括雨天视频以及对应的无雨视频;考虑到,在处理涉及大量物体运动的视频时,连续帧之间的背景层变化程度较大,时间一致性通常较弱,可能导致时间信息不够可靠,从而引发模糊伪影等问题,因此对于单组样本视频中的单个像素点,通过确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重,再根据第一时间一致性权重和第二时间一致性权重确定损失函数,进而利用该损失函数训练视频去雨模型。在构造损失函数时,通过引入时间一致性权重,对不同像素点分配不同的权重,能够更好的调节帧之间的时间关系。解决了现有的视频去雨技术,在处理包含大量物体运动的视频时,存在去雨效果差,且生成的视频有模糊伪影等问题,有效的提升了视频去雨效果,提升了生成视频的质量。

在一些实施例中,样本视频包括真实雨天静态视频和半真实雨天动态视频;获取训练数据集,包括:通过静态摄像机获取真实雨天静态视频;通过将真实雨滴转移至动态视频中得到的半真实雨天动态视频。

在本实施例中,真实雨天静态视频用于模拟在没有视频采集装置运动的情况下捕获的雨天场景。其中,视频采集装置可以是相机。半真实雨天动态视频用于模拟视频采集装置和拍摄场景之间存在相对运动的情况下的雨天场景。

具体的,考虑到现有的大多数视频去雨模型往往通过合成数据集进行训练,而这些数据集一般是通过在原始的无雨视频上添加合成雨滴生成,无法准确地模拟真实世界雨天场景的复杂性,且无法精确建模真实雨滴的视觉特性,如速度、密度、形状、透明度等,因此,通过该数据集训练的模型在实际应用中的表现不够稳健,难以适应真实世界的多样性。此外,这些合成数据集的分辨率通常低于实际应用需求,不足以满足高分辨率视频去雨的要求,这在需要高质量视频的应用领域,如高清自动驾驶系统,是一个明显的制约因素。因此,本实施例通过构建一个大规模高质量的真实世界雨天场景的训练数据集,以协助视频去雨模型更好地适应真实世界雨天条件。该训练数据集包括多组样本视频,该样本视频包括真实雨天静态视频和半真实雨天动态视频。其中,真实雨天静态视频是由静态相机捕获的,这类数据用于模拟在没有相机运动的情况下捕获的雨天场景。半真实雨天动态视频是通过将真实雨滴转移到相机运动的视频中而创建的,这类数据用于模拟相机和拍摄场景之间存在相对运动的情况。除此以外,样本视频还包括真实雨天静态视频和其对应的无雨视频,以及半真实雨天动态视频和其对应的无雨视频。通过这两组样本视频的构建,提供了对各种真实雨天环境的更全面的表示,通过该训练数据集训练的视频去雨模型能够更好地适应真实世界雨天条件,从而提高其在实际应用中的可靠性和效果。

在一些实施例中,获取训练数据集,还包括:根据目标裁剪尺寸和设定比例范围对获取的真实雨天静态视频和半真实雨天动态视频进行随机裁剪,得到多个样本视频块;从多个样本视频块中选择时间残差满足要求的设定数量的样本视频块构成训练数据集。

在本实施例中,目标裁剪尺寸、设定比例范围和设定数量可以根据实际情况进行设置。时间残差用于表征样本视频中相邻帧的差异。

示例性的,为了能够增加训练数据的多样性,在数据预处理方面,对数据样本视频进行随机裁剪。将目标裁剪尺寸设置为256×256,设定比例范围设置为[0.45,1.15],根据设置的目标裁剪尺寸和设定比例范围对获取的真实雨天静态视频和半真实雨天动态视频进行随机裁剪,得到多个样本视频块,考虑到在真实世界雨滴视频中,雨滴可能很稀疏,因此采用随机裁剪10次,并从得到的多个样本视频块中选择三个时间残差满足最大要求的样本视频块构成训练数据集,以此来训练视频去雨模型。经过预处理的训练数据集,增强了训练数据的多样性,从而能够进一步提高视频去雨模型的泛化能力。本实施例中不对数据增强和预处理的具体方法进行限定,也可以通过不同的数据增强和预处理方法进行数据处理,以进一步提高模型的鲁棒性和性能。

在一些实施例中,视频去雨模型包括编码器、中间块和解码器,编码器、中间块和解码器中均包括NAFInNeXt块,NAFInNeXt块包括NAF块和InceptionNeXt块,NAF块用于提取输入视频帧内的空间信息,InceptionNeXt块用于提取输入视频的时间信息和时空依赖关系。其中,NAF块的输出可作为InceptionNeXt块的输入。

在本实施例中,NAFInNeXt块用于捕获雨天场景中复杂的时空依赖关系。神经自回归流(Neural Autoregressive Flow,NAF)是一种基于神经网络自回归模型和Flow模型的结合,它利用自回归模型的顺序生成特性来定义可逆变换。NAF块用于提取帧内的空间信息,它通过引入简单门SimpleGate和简化的通道注意模块来替代复杂的激活函数和通道注意机制。其中,SimpleGate的作用是对两个相同大小的特征图X和Y进行逐元素相乘,表达为SimpleGate(X,Y)=X⊙Y。简化的通道注意模块表示为SCA(X)=X*W pool(X),其中W表示全连接层参数,pool表示全局平均池化。通过NAF块将视频序列的特征图重新排列为图像特征,以便更好地处理空间信息。

图2是本发明实施例提供的一种InceptionNext块的结构示意图,如图2所示,InceptionNeXt块将视频特征图分成四个切片,并应用于不同类型的3D卷积操作,该3D卷积操作包括3×3×3卷积核、1×1×11卷积核和1×11×1卷积核,以及身份映射。然后,将四个切片分别对应的特征图串联起来,输入到层归一化中进行归一化处理,将归一化后的特征图输入到多层感知器中以合并不同尺度的信息。通过InceptionNeXt块能够提取输入视频的时间信息和时空依赖关系。本实施例不对卷积核大小进行限定,即InceptionNeXt块涉及到的卷积核的大小可以根据图像分辨率与场景范围进行调整,卷积操作页可以由Transformer或者多层感知器等结构替代。

图3是本发明实施例提供的一种视频去雨模型的结构示意图。具体的,为了能够更好地捕获样本视频中复杂的时空依赖关系,实现高效的视频去雨效果,以U-Net网络结构作为基础网络框架,构建了视频去雨模型,如图3所示,该模型包括编码器、中间块和解码器。其中,编码器包括四个阶段,每个阶段包含不同数量的NAFInNeXt块,用于处理不同的特征。在每个阶段之后,都有一个2×2卷积层用于降采样操作。中间块包括六个NAFInNeXt块,用于进一步处理特征。在解码器中,每个阶段包含两个NAFInNeXt块,后跟卷积和像素重组(Sub-Pixel Convolutional Neural Network,PixelShuffle)层。通过上述技术方案构建的视频去雨模型能有效的捕获样本视频中的时空依赖关系,进一步提升是视频去雨的效果。本实施例不对构建视频去雨模型的基础网络架构进行限定。

在一些实施例中,视频去雨模型采用AdamW优化器进行训练;训练过程采用的初始学习率–基于余弦退火算法确定。

在本实施例中,AdamW(Adaptive Moment Estimation)优化器是一种基于梯度下降的优化算法,用于更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优化值。初始化学习率用于控制模型学习的速率。余弦退火算法是一种用于寻找最优解的迭代搜索算法,负责控制学习率的变化,通过在训练期间自动调整学习率,以最大限度的提高模型的性能。

具体的,本实施例中采用AdamW优化器对视频去雨模型进行训练,其训练过程采用的初始学习率–基于余弦退火算法确定。示例性的,将初始学习率设置为1e-3,并使用余弦退火方案对初始学习率进行调整,同时为了实现更大的批次大小应用梯度累积,并将步骤设置为2,以此对视频去雨模型进行训练。通过上述技术方案能够有效提升视频去雨模型的训练效率。

实施例二

图4是本发明实施例二提供的一种视频去雨模型的训练方法的流程图,本实施例在上述各可选实施例基础上进行优化和扩展,本实施例展开介绍了如何对雨天视频中像素点对应的第一时间一致性权重进行确定和如何对雨天视频对应的无雨视频中像素点对应的第二时间一致性权重进行确定。如图4所示,该方法包括:

S210、获取训练数据集,训练数据集包括多组样本视频,单组样本视频包括雨天视频以及对应的无雨视频。

S220、对于相应雨天视频中的单组相邻帧,确定像素点周围设定尺寸的局部窗口内的各像素点的第一时间一致性。

在本实施例中,设定尺寸为根据实际需要设定的尺寸,可以用n表示。第一时间一致性用于表示像素点在雨天视频中沿空间维度的时间一致性强度。

具体的,由于视频中的运动通常是局部的,因此对于相应雨天视频中的单组相邻帧,例如,第第t帧和第t+1帧,可以通过计算尺寸为n的局部窗口内的各像素点的第一时间一致性确定各像素点在雨天视频中沿空间维度的时间一致性强度。

S230、根据设定的超参数以及第一时间一致性确定像素点对应的第一时间一致性权重。

在本实施例中,超参数可以根据实际需要进行设定。

具体的,通过设置第一时间一致性权重来实现来处理雨天视频的时间一致性变化,即对于时间一致性更可靠的像素点分配更高的权重,反之则分配较低的权重。该第一时间一致性权重根据设定的超参数以及第一时间一致性进行确定,其计算公式如下:

其中,

S240、对于相应无雨视频中的单组相邻帧,确定像素点周围设定尺寸的局部窗口内的各像素点的第二时间一致性。

在本实施例中,设定尺寸为根据实际需要设定的尺寸,一般与雨天视频中设置的局部窗口大小保持一致。第二时间一致性用于表示像素点在无雨视频中沿空间维度的时间一致性强度。

具体的,为了能够度量时间上的一致性,需要确定在无雨视频中各像素点的时间一致性强度,即计算与雨天视频相同的局部窗口内的各像素点的第二时间一致性。

S250、根据设定的超参数以及第二时间一致性确定像素点对应的第二时间一致性权重。

在本实施例中,超参数可以根据实际需要进行设定。

具体的,第二时间一致性权重根据设定的超参数以及第二时间一致性进行确定,其计算公式如下:

其中,

S260、基于损失函数训练视频去雨模型,其中,损失函数根据各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重确定。

本发明实施例二提供的技术方案,获取训练数据集后,对于相应雨天视频中的单组相邻帧,确定像素点周围设定尺寸的局部窗口内的各像素点的第一时间一致性,进而根据设定的超参数以及第一时间一致性确定像素点对应的第一时间一致性权重;对于相应无雨视频中的单组相邻帧,确定像素点周围设定尺寸的局部窗口内的各像素点的第二时间一致性,进而根据设定的超参数以及第二时间一致性确定像素点对应的第二时间一致性权重,再通过第一时间一致性权重和第二时间权重来构建损失函数,并利用该损失函数训练视频去雨模型。通过上述技术方案,对不同像素点分配权重,能够有效的表征像素点在雨天视频和无雨视频中的时间一致性,这解决了不同视频剪辑之间时间一致性可靠性变化的挑战,减少由时间信息引起的模糊伪影。

在一些实施例中,确定像素点周围设定尺寸的局部窗口内的各像素点的第一时间一致性,包括:计算像素点周围设定尺寸的局部窗口内的各像素点在相邻帧之间的第一时间残差的方差,得到第一时间一致性;确定像素点周围设定尺寸的局部窗口内的各像素点的第二时间一致性,包括:计算像素点周围设定尺寸的局部窗口内的各像素点在相邻帧之间的第二时间残差的方差,得到第二时间一致性。

在本实施例中,第一时间残差用于表示雨天视频中各像素点在相邻帧之间的差异。第二时间一致性用于表示无雨视频中各像素点在相邻帧之间的差异。

具体的,通过计算像素点周围设定尺寸的局部窗口内的各像素点在相邻帧之间的第一时间残差的方差,得到第一时间一致性。其具体的计算公式如下:

其中,Variance表示尺寸为n的局部窗口内的方差,利用该方差来表示第一时间一致性。R

类似的,通过计算像素点周围设定尺寸的局部窗口内的各像素点在相邻帧之间的第二时间残差的方差,得到第二时间一致性。其具体的计算公式如下:

其中,

本实施例不限定第一时间一致性和第二时间一致性的具体计算方式。例如,还可以通过标准差进行计算,能够反映不同像素点在相邻帧之间的时间残差的一致程度(或稳定程度、波动程度)即可。

在一些实施例中,确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重,还包括:将像素点在相应雨天视频中的指定帧对应的第一时间一致性权重统一设置为指定帧对应的各第一时间一致性权重的最小值;将像素点在相应无雨视频中的指定帧对应的第二时间一致性权重统一设置为指定帧对应的各第二时间一致性权重的最小值。通过上述技术方案,有利于提高视频去雨模型的训练效率。

在本实施例中,指定帧可以是根据实际情况进行设定的。

具体的,为了能够便于对模型进行训练,建立跨N帧的通用时间关系,即可以将像素点在相应雨天视频中的指定帧对应的第一时间一致性权重统一设置为指定帧对应的各第一时间一致性权重的最小值,其计算公式如下:

其中,

类似的,将像素点在相应无雨视频中的指定帧对应的第二时间一致性权重统一设置为指定帧对应的各第二时间一致性权重的最小值,其计算公式如下:

其中,

在一些实施例中,损失函数由以下两部分组成:相应无雨视频和相应有雨视频的指定帧中每个像素点对应的时间残差;相应无雨视频和相应有雨视频的指定帧中每个像素点对应的权重差,权重差为第一时间一致性权重和第二时间一致性权重之差。通过上述技术方案确定的损失函数,能够有效的解决由于背景内容变化引起的时间一致性变化,进而提高模型的训练效果。

在本实施例中,时间残差表示像素点在相邻帧中的差异。相应无雨视频和相应有雨视频的指定帧中每个像素点对应的权重差,其对应的计算公式如下:

其中,L

具体的,引入平衡权重λ以完善损失函数的计算,并结合相应无雨视频和相应有雨视频的指定帧中每个像素点对应的时间残差和相应无雨视频和相应有雨视频的指定帧中每个像素点对应的权重差来确定损失函数,其具体计算公式如下:

其中,L

可选的,

实施例三

图5是本发明实施例三提供的一种视频去雨方法的流程图,本实施例可适用于对视频进行去雨的情况,该方法可以由视频去雨装置来执行,该视频去雨装置可以采用硬件和/或软件的形式实现,该视频去雨装置可配置于具有视频去雨功能的计算机或者服务器中。如图5所示,该方法包括:

S310、获取视频去雨模型,视频去雨模型基于本发明任一实施例的视频去雨模型的训练方法训练后得到。

具体的,获取由经过上述任一实施例的训练方法训练过的视频去雨模型。

S320、将待处理视频输入至视频去雨模型,得到去雨后的视频。

在本实施例中,待处理视频可以是未经过去雨处理的视频。

具体的,将待处理视频输入到视频去雨模型中,经过视频去雨模型的处理后,得到去雨后的视频。

本发明实施例三提供的技术方案,利用获取的视频去雨模型处理待处理视频,得到去雨后的视频,有效的减少了的模糊伪影,并提高了去雨后视频的质量。

实施例四

图6是本发明实施例四提供的一种视频去雨模型的训练装置的结构示意图。如图6所示,该装置包括:

数据集获取模块41,用于获取训练数据集,训练数据集包括多组样本视频,单组样本视频包括雨天视频以及对应的无雨视频;

权重确定模块42,用于对于单组样本视频中的单个像素点,确定像素点在相应雨天视频中对应的第一时间一致性权重以及在相应无雨视频中对应的第二时间一致性权重;

模型训练模块43,用于基于损失函数训练视频去雨模型,其中,损失函数根据各样本视频中的每个像素点的第一时间一致性权重和第二时间一致性权重确定。

本发明实施例四提供的技术方案,解决了现有的视频去雨技术,在处理包含大量物体运动的视频时,存在去雨效果差,且生成的视频有模糊伪影等问题,有效的提升了视频去雨效果,提升了生成视频的质量。

可选的,权重确定模块42模块包括:

第一时间确定单元,用于对于相应雨天视频中的单组相邻帧,确定像素点周围设定尺寸的局部窗口内的各像素点的第一时间一致性;

第一权重确定单元,用于根据设定的超参数以及第一时间一致性确定像素点对应的第一时间一致性权重;

第二时间确定单元,用于对于相应无雨视频中的单组相邻帧,确定像素点周围设定尺寸的局部窗口内的各像素点的第二时间一致性;

第二权重确定单元,用于根据设定的超参数以及第二时间一致性确定像素点对应的第二时间一致性权重。

可选的,第一时间确定单元,具体用于计算像素点周围设定尺寸的局部窗口内的各像素点在相邻帧之间的第一时间残差的方差,得到第一时间一致性;

可选的,第二时间确定单元,具体用于计算像素点周围设定尺寸的局部窗口内的各像素点在相邻帧之间的第二时间残差的方差,得到第二时间一致性。

可选的,权重确定模块42模块,还包括:

第一权重设置单元,用于将像素点在相应雨天视频中的指定帧对应的第一时间一致性权重统一设置为指定帧对应的各第一时间一致性权重的最小值;

第二权重设置单元,用于将像素点在相应无雨视频中的指定帧对应的第二时间一致性权重统一设置为指定帧对应的各第二时间一致性权重的最小值。

可选的,损失函数由以下两部分组成:

相应无雨视频和相应有雨视频的指定帧中每个像素点对应的时间残差;

相应无雨视频和相应有雨视频的指定帧中每个像素点对应的权重差,权重差为第一时间一致性权重和第二时间一致性权重之差。

可选的,样本视频包括真实雨天静态视频和半真实雨天动态视频;

可选的,数据集获取模块41包括:

静态视频获取单元,用于通过静态摄像机获取真实雨天静态视频;

动态视频获取单元,用于通过将真实雨滴转移至动态视频中得到的半真实雨天动态视频。

可选的,数据集获取模块41,还包括:

视频裁剪单元,用于根据目标裁剪尺寸和设定比例范围对获取的真实雨天静态视频和半真实雨天动态视频进行随机裁剪,得到多个样本视频块;

数据集构成单元,用于从多个样本视频块中选择时间残差满足要求的设定数量的样本视频块构成训练数据集。

可选的,视频去雨模型采用AdamW优化器进行训练;训练过程采用的初始学习率–基于余弦退火算法确定。

可选的,视频去雨模型包括编码器、中间块和解码器,编码器、中间块和解码器中均包括NAFInNeXt块,NAFInNeXt块包括NAF块和InceptionNeXt块,NAF块用于提取输入视频帧内的空间信息,InceptionNeXt块用于提取输入视频的时间信息和时空依赖关系。

本发明实施例所提供的视频去雨模型的训练装置可执行本发明任意实施例所提供的视频去雨模型的训练方法,具备执行方法相应的功能模块和有益效果。

实施例五

图7是本发明实施例五提供的一种视频去雨装置的结构示意图。如图7所示,该装置包括:

模型获取模块51,用于获取视频去雨模型,视频去雨模型基于如本发明任一实施例的视频去雨模型的训练方法训练后得到;

视频处理模块52,用于将待处理视频输入至视频去雨模型,得到去雨后的视频。

本发明实施例所提供的视频去雨装置可执行本发明任意实施例所提供的视频去雨方法,具备执行方法相应的功能模块和有益效果。

实施例六

图8是本发明实施例六提供的一种电子设备的结构示意图。该电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如视频去雨模型的训练方法,或者,视频去雨方法。

在一些实施例中,视频去雨模型的训练方法以及视频去雨方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的视频去雨模型的训练方法,或者,视频去雨方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行视频去雨模型的训练方法以及视频去雨方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 无功补偿控制方法、用户设备、存储介质及装置
  • 一种用户信息共享方法、装置、电子设备及存储介质
  • 一种用户留存分析方法、装置、电子设备及存储介质
  • 一种用户距离估算方法、装置、设备及存储介质
  • 一种获取用户画像的方法、装置、电子设备及存储介质
  • 一种银行对用户补偿的方法、装置、设备及存储介质
  • 无功补偿控制方法、用户设备、存储介质及装置
技术分类

06120116563470