掌桥专利:专业的专利平台
掌桥专利
首页

视频处理方法、装置、电子设备及计算机存储介质

文献发布时间:2024-04-18 19:52:40


视频处理方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及计算机技术领域,具体涉及视频处理方法、视频处理装置、电子设备以及计算机存储介质。

背景技术

随着视频在人们日常生活以及工作中的普及,视频处理技术也变得越来越重要。在视频处理过程中,视频中的发声对象的定位及分割构建起了音频和视频之间的关联,在现实场景中有着广泛的应用。例如,在视频直播场景,通过发声对象的识别与分割,可以突出视频中正在讲话的主播,从而给观众更好的观看体验;在视频会议中,如果涉及多人会议的场景中,通过发声对象的识别与分割,可以将发言者的身体在视频窗口中放大,从而吸引其他听众的注意力;在短视频编辑领域,发声对象的识别分割可以快速实现前背景区分以及内容编辑

然而,现有的视频处理方法仅能对视频中的发声对象进行粗略识别与分割,进而导致对发声对象的分割结果不准确。因此,如何对视频中的发声对象进行精准分割成为当前急需解决的技术问题。

发明内容

本申请提供视频处理方法,以实现对视频中的发声对象进行精准分割,本申请还提供视频处理装置、电子设备以及计算机存储介质。

本申请提供一种视频处理方法,包括:

对待处理视频进行分帧处理,获得所述待处理视频对应的多个视频帧;

针对多个视频帧中的任意一个目标视频帧,提取所述目标视频帧在多个尺寸下的视频特征,获得所述目标视频帧的多尺寸视频特征;

根据与所述待处理视频对应的音频,获得与所述目标视频帧对应的音频特征;

根据所述多尺寸视频特征与所述音频特征,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征;

基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与所述音频查询信息对应的发声对象在所述多个视频帧中的目标特征;所述处理视频特征是对所述多尺寸视频特征与所述音频特征进行特征融合和时序交互后的视频特征;

根据所述目标特征与所述视频掩码特征,获得针对所述目标视频帧的目标发声对象的分割掩码;所述分割掩码用于表示所述目标视频帧的目标发声对象。

可选的,所述根据所述多尺寸视频特征与所述音频特征,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征,包括:

对所述多尺寸视频特征与所述音频特征进行特征融合和时序交互,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征。

可选的,所述对所述多尺寸视频特征与所述音频特征进行特征融合和时序交互,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征,包括:

采用第一注意机制对所述多尺寸视频特征与所述音频特征进行特征融合,获得融合所述音频特征的融合视频特征;

采用第二注意机制对所述多尺寸视频特征与所述融合视频特征进行处理,获得所述多尺寸视频特征在同一像素的不同尺寸下的聚合视频特征;

采用第三注意机制对音频特征与所述聚合视频特征进行时序交互处理,获得经时序交互处理后的处理视频特征;

根据所述处理视频特征,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征。

可选的,所述采用第三注意机制对音频特征与所述聚合视频特征进行时序交互处理,获得经时序交互处理后的处理视频特征,包括:

针对所述音频特征,在所述聚合视频特征中确定与所述音频特征在所述多个视频帧中的初始特征;

采用自注意力对所述初始特征进行特征增强,确定在不同目标视频帧之间时序交互后的特征;

将所述时序交互后的特征进行映射处理,获得经时序交互处理后的处理视频特征。

可选的,所述基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与所述音频查询信息对应的发声对象在所述多个视频帧中的目标特征,包括:

基于预先设置的针对每个视频帧的音频查询信息,确定与所述音频查询信息对应的发声对象;

根据所述处理视频特征,获得所述处理视频特征在指定尺寸下的视频特征;

针对每个音频查询信息,将所述指定尺寸下的视频特征与所述音频查询信息作为音频查询编码器的输入信息,获得所述发声对象在所述多个视频帧中的目标特征。

可选的,所述音频查询编码器包括:多头交叉注意力模块、多头自注意力模块与前向网络模块;

所述针对每个音频查询信息,将所述指定尺寸下的视频特征与所述音频查询信息作为音频查询编码器的输入信息,获得所述发声对象在所述多个视频帧中的目标特征,包括:

针对每个音频查询信息,将所述指定尺寸下的视频特征与所述音频查询信息作为所述多头交叉注意力模块的输入信息,获得所述多头交叉注意力模块的输出结果信息;

将所述多头交叉注意力模块的输出结果信息作为所述多头自注意力模块的输入信息,获得所述多头自注意力模块的输出结果信息;

将所述多头自注意力模块的输出结果信息作为所述前向网络模块的输入信息,获得所述前向网络模块的输出结果信息;

根据所述前向网络模块的输出结果信息,获得所述发声对象在所述多个视频帧中的目标特征。

可选的,所述音频查询编码器包括多层注意力机制,每层注意力机制设置一个多头交叉注意力模块、一个多头自注意力模块与一个前向网络模块;

其中,输入第一层注意力机制的音频查询信息为所述音频对应各个视频帧的音频特征;输入第二层注意力机制或者第二层以上的注意力机制的音频查询信息为前一层注意力机制的输出结果信息;所述最后一层注意力机制的输出结果为所述发声对象在所述多个视频帧中的目标特征。

可选的,所述根据所述目标特征与所述视频掩码特征,获得针对所述目标视频帧的目标发声对象的分割掩码,包括:

将所述目标特征与所述视频掩码特征进行矩阵乘法运算与预设函数运算,获得针对所述目标视频帧的目标发声对象的分割掩码。

本申请提供一种视频处理装置,包括:

分帧处理单元,用于对待处理视频进行分帧处理,获得所述待处理视频对应的多个视频帧;

视频特征提取单元,用于针对多个视频帧中的任意一个目标视频帧,提取所述目标视频帧在多个尺寸下的视频特征,获得所述目标视频帧的多尺寸视频特征;

音频特征获得单元,用于根据与所述待处理视频对应的音频,获得与所述目标视频帧对应的音频特征;

视频掩码特征获得单元,用于根据所述多尺寸视频特征与所述音频特征,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征;

目标特征确定单元,用于基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与所述音频查询信息对应的发声对象在所述多个视频帧中的目标特征;所述处理视频特征是对所述多尺寸视频特征与所述音频特征进行特征融合和时序交互后的视频特征;

分割掩码获得单元,用于根据所述目标特征与所述视频掩码特征,获得针对所述目标视频帧的目标发声对象的分割掩码;所述分割掩码用于表示所述目标视频帧的目标发声对象。

本申请提供一种电子设备,包括:

处理器;

存储器,用于存储计算机程序,该计算机程序被处理器运行,执行上述视频处理方法。

本申请提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行上述视频处理方法。

与现有技术相比,本申请实施例具有以下优点:

本申请提供一种视频处理方法,包括:对待处理视频进行分帧处理,获得待处理视频对应的多个视频帧;针对多个视频帧中的任意一个目标视频帧,提取目标视频帧在多个尺寸下的视频特征,获得目标视频帧的多尺寸视频特征;根据与待处理视频对应的音频,获得与目标视频帧对应的音频特征;根据多尺寸视频特征与音频特征,获得针对目标视频帧的、与音频相关的视频掩码特征;基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与音频查询信息对应的发声对象在多个视频帧中的目标特征;处理视频特征是对多尺寸视频特征与音频特征进行特征融合和时序交互后的视频特征;根据目标特征与视频掩码特征,获得针对目标视频帧的目标发声对象的分割掩码;分割掩码用于表示目标视频帧的目标发声对象。由于在该视频处理方法中,先获取视频帧的多尺寸视频特征,同时获得与目标视频帧对应的音频特征,进而能够根据多尺寸视频特征与音频特征获取针对目标视频帧的、与音频相关的视频掩码特征;与此同时,基于预先设置的针对每个视频帧的音频查询信息,能够确定与音频查询信息对应的发声对象在多个视频帧中的目标特征,最终基于目标特征与视频掩码特征,获得针对目标视频帧的目标发声对象的分割掩码能够对视频中的发声对象进行精准分割,同时该方法能够适用于视频中同时存在多个发声对象的复杂场景。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本申请第一实施例提供的视频处理方法的流程图;

图2为本申请第一实施例提供的视频处理方法的详细过程示意图;

图3为本申请第二实施例提供的视频处理装置的示意图;

图4为本申请第三实施例提供的电子设备的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此,本申请不受下面公开的具体实施的限制。

本申请提供视频处理方法、视频处理装置、电子设备及计算机存储介质。以下通过具体的实施例分别介绍视频处理方法、视频处理装置、电子设备及计算机存储介质。为了更清楚地展示本申请实施例提供的视频处理方法,首先介绍一下本申请实施例提供的视频处理方法的应用场景。

本申请的视频处理方法,可以运用在自动对视频中的发声对象进行分割的场景中。例如,当一段视频对应的时长为二分钟时,假设该视频中第一分钟是用户A在讲话,第二分钟是用户B在讲话,通过使用该视频处理方法,能够将视频中的用户A对应的形状轮廓与用户B对应的形状轮廓识别进行分割出来;当然,在第一分钟内,将用户A对应的形状轮廓在视频中分割出来,主要是在第一分钟内,是用户A在讲话;在第二分钟内,将用户B对应的形状轮廓在视频中分割出来,主要是在第二分钟内,是用户B在讲话。当然,可以理解的是,如果该视频中是用户A与用户B同时讲话,则可以同时将用户A以及用户B对应的形状轮廓在视频中分割出来。

上述介绍的即为针对本申请的视频处理方法的一种应用场景的图示,本申请的实施例中不对视频处理方法的应用场景做具体的限定,上述视频处理方法的应用场景,仅仅是本申请提供的视频处理方法的应用场景的一个实施例,提供该应用场景实施例的目的是便于理解本申请提供的视频处理方法,而并非用于限定本申请提供的视频处理方法。本申请实施例对视频处理方法的其它应用场景,不再一一赘述。

第一实施例

本申请第一实施例提供一种视频处理方法,具体请参照图1,其为本申请第一实施例提供的视频处理方法的流程图。

本申请实施例的视频处理方法,包括如下步骤:

步骤S101:对待处理视频进行分帧处理,获得待处理视频对应的多个视频帧。

在本申请的视频处理方法中,为了便于对视频中的发声对象进行分割,可以对待处理视频进行分帧处理,进而将待处理视频的发声对象的分割转换为视频帧中发声对象的分割。

发声对象即为在待处理视频中发出声音的对象,发声对象在待处理视频中可以是一个,也可以是多个;当然,在对待处理视频进行分帧处理后,每个视频帧中的发声对象可以是一个,也可以是多个。

步骤S102:针对多个视频帧中的任意一个目标视频帧,提取目标视频帧在多个尺寸下的视频特征,获得目标视频帧的多尺寸视频特征。

在对待处理视频进行分帧处理之后,可以将分帧处理后的每个视频帧作为目标视频帧。针对每个目标视频帧,可以将目标视频帧输入视频编码器(如ResNet、ViT网络),提取目标视频帧的多尺寸视频特征,视频编码器可以对目标视频帧的特征进行下采样进而获得不同大小尺寸的视频特征,即:多尺寸视频特征。例如可以提取目标视频帧(原始图像)的视频特征,可以提取目标视频帧的一半图像的视频特征,可以提取目标视频帧的四分之一图像的视频特征,也可以提取目标视频帧的八分之一图像的视频特征。本实施例的视频特征可以是指视觉特征。

为了便于理解多尺寸视频特征,请参照图2,其为本申请第一实施例提供的视频处理方法的详细过程示意图,在图2中,对待处理视频进行分帧处理后,存在三个视频帧,第一视频帧的多尺寸视频特征为V

步骤S103:根据与待处理视频对应的音频,获得与目标视频帧对应的音频特征。

在本申请的视频处理方法中,还需要提取待处理视频的音频特征。具体地,可以提取待处理视频的音频;之后,将音频输入音频编码器,提取各个目标视频帧的音频特征。具体地,请参照图2,通过音频编码器(如VGGish)获得的音频特征为A(第一视频帧的音频特征为A

步骤S104:根据多尺寸视频特征与音频特征,获得针对目标视频帧的、与音频相关的视频掩码特征。

在获得多尺寸视频特征与音频特征之后,将多个视频帧的多尺寸视频特征与音频特征通过像素编码器进行跨模态特征融合和时序特征的交互,获取针对目标视频帧的、与音频相关且经过ABTI进行时序增强的视频掩码特征。由于音频特征与视频特征属于不同模态的特征,因此需要以跨模态特征融合的方式进行不同模态特征的融合。时序特征对应的是多个视频帧的多尺寸视频特征对应的时序特征,是一个序列特征,多帧的时间序列数据就是时序。

在本实施例中,作为根据多尺寸视频特征与音频特征,获得针对目标视频帧的、与音频相关的视频掩码特征的一种方式,可以是指:对多尺寸视频特征与音频特征进行特征融合和时序交互,获得针对目标视频帧的、与音频相关的视频掩码特征。

具体地,对多尺寸视频特征与音频特征进行特征融合和时序交互,获得针对目标视频帧的、与音频相关的视频掩码特征,可以是指:

首先,采用第一注意机制对多尺寸视频特征与音频特征进行特征融合,获得融合音频特征的融合视频特征;之后,采用第二注意机制对多尺寸视频特征与融合视频特征进行处理,获得多尺寸视频特征在同一像素的不同尺寸下的聚合视频特征;再之后,采用第三注意机制对音频特征与聚合视频特征进行时序交互处理,获得经时序交互处理后的处理视频特征;最终,根据处理视频特征,获得针对目标视频帧的、与音频相关的视频掩码特征。

上述采用第三注意机制对音频特征与聚合视频特征进行时序交互处理,获得经时序交互处理后的处理视频特征,可以是指:首先,针对音频特征,在聚合视频特征中确定与音频特征在多个视频帧中的初始特征;之后,采用自注意力对初始特征进行特征增强,确定在不同目标视频帧之间时序交互后的特征;再之后,将时序交互后的特征进行映射处理,获得经时序交互处理后的处理视频特征。

具体地,请参照图2,像素编码器由三部分构成,分别为跨模态注意力(第一注意机制的示例)、多尺度可形变注意力(图2中的MA模块,第二注意机制的示例)和ABTI模块(ABTI,即:Audio-Bridged Temporal Interaction,音频桥接的时序交互模块,第三注意机制的示例)。其中,跨模态注意力用于对多个视频帧第t帧的多尺寸视频特征V

其中,f

多尺度可形变注意力以多尺寸视频特征V

ABTI模块是为音频桥接的时序交互模块,在使用ABTI模块的过程中,执行如下操作:

首先,以音频作为跨模态注意力中的查询,在多个视频帧的音频特征A

其中,f

在该步骤S104涉及的过程中,存在多个音频特征,音频特征的数量与视频帧的数量相同,音频特征可以基于每个视频帧对应的音频信息确定,如:第一个视频帧中的发声对象为用户A,则第一视频帧的音频特征对应的发声对象为用户A,实际上获取的是多个视频帧的用户A的视频特征。

之后,将每个音频特征在多个视频帧中的初始特征对应的特征(初始特征对应的特征可以是卷积神经网络输出的一组向量)以自注意力的方式进行特征增强,进而实现音频特征对应的声对象在不同视频帧之间的时序交互,交互后的特征为

其中,f

最终,经过时序增强后的视频特征的前三个尺度(如图2中的

步骤S105:基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与音频查询信息对应的发声对象在多个视频帧中的目标特征。

在本实施例中,处理视频特征是对多尺寸视频特征与音频特征进行特征融合和时序交互后的视频特征。

在本实施例中,作为基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与音频查询信息对应的发声对象在多个视频帧中的目标特征的一种实施方式:首先,基于预先设置的针对每个视频帧的音频查询信息,确定与音频查询信息对应的发声对象;之后,根据处理视频特征,获得处理视频特征在指定尺寸下的视频特征;再之后,针对每个音频查询信息,将指定尺寸下的视频特征与音频查询信息作为音频查询编码器的输入信息,获得发声对象在多个视频帧中的目标特征。在步骤S105过程中,预先设置的针对每个视频帧的音频查询信息实际上是不断更新的,即在初始音频查询信息的基础上不断更新音频查询信息,而音频查询信息是通过音频查询编码器不断更新的。

上述音频查询编码器包括:多头交叉注意力模块、多头自注意力模块与前向网络模块。

作为针对每个音频查询信息,将指定尺寸下的视频特征与音频查询信息作为音频查询编码器的输入信息,获得发声对象在多个视频帧中的目标特征可以是指:首先,针对每个音频查询信息,将指定尺寸下的视频特征与音频查询信息作为多头交叉注意力模块的输入信息,获得多头交叉注意力模块的输出结果信息;之后,将多头交叉注意力模块的输出结果信息作为多头自注意力模块的输入信息,获得多头自注意力模块的输出结果信息;再之后,将多头自注意力模块的输出结果信息作为前向网络模块的输入信息,获得前向网络模块的输出结果信息;最后,根据前向网络模块的输出结果信息,获得发声对象在多个视频帧中的目标特征。

通过图2可以看出:音频查询编码器包括多层注意力机制,每层注意力机制设置一个多头交叉注意力模块、一个多头自注意力模块与一个前向网络模块。

其中,输入第一层注意力机制的音频查询信息(初始音频查询信息)为音频对应各个视频帧的音频特征;输入第二层注意力机制或者第二层以上的注意力机制的音频查询信息为前一层注意力机制的输出结果信息;最后一层注意力机制的输出结果为发声对象在多个视频帧中的目标特征。

具体地,请继续参照图2,在音频查询编码器中,首先预先设置与视频帧数相同数目的音频查询,其中每个音频查询代表了所对应的视频帧中的发声对象(发声对象可以为一个或多个),并在音频查询编码器中通过多层注意力机制逐渐聚合这些发声对象在所有视频帧中的目标特征,该目标特征实际上可以是属于同一个发声对象的所有像素(即视频帧)的视频特征聚合起来的。图2中的×N表示三层MHCA、MHSA以及FFN再重复N次。

以多层注意力机制的第l层为例,输入第l-1层输出的音频查询特征A

例如,在获得第二层的音频查询特征A

步骤S106:根据目标特征与视频掩码特征,获得针对目标视频帧的目标发声对象的分割掩码;分割掩码用于表示目标视频帧的目标发声对象。

在获得多个视频帧的目标特征与视频掩码特征之后,根据目标特征与视频掩码特征,获得针对目标视频帧的目标发声对象的分割掩码,可以是指:

将目标特征与视频掩码特征进行矩阵乘法运算与预设函数运算,获得针对目标视频帧的目标发声对象的分割掩码。

将上述过程重复L次之后,获得每个音频查询对应的目标特征A

其中,σ为sigmoid函数,

分割掩码可以是指在图像的前景(即发声对象所在区域)将像素值设为1,背景区域的像素值设为0。

通过获取每个目标特征对应的目标发声对象的分割掩码之后,即可对图2中的每个视频帧中的发声对象的形状轮廓进行识别,通过图2可以看出第一帧视频帧的发声对象为左侧用户,第二帧视频帧的发声对象为右侧用户,第三帧视频帧的发声对象为吉他。

该方法采用音频查询信息来表示每一视频帧中的发声对象,利用音频查询信息来提取发声对象对应的视频特征,因而构建了音频特征和视频特征在发声对象之间的关联,相比现有的仅在像素级交互音频特征与视频特征,本申请的方法在整体上更有助于快速且准确地识别视频中的发声对象;同时,采用音频桥接的时序交互模块来完成时序交互,采用音频进行桥接可以过滤掉视频帧中与音频无关的视频特征,使得后续处理数据过程更高效。

本申请提供一种视频处理方法,包括:对待处理视频进行分帧处理,获得待处理视频对应的多个视频帧;针对多个视频帧中的任意一个目标视频帧,提取目标视频帧在多个尺寸下的视频特征,获得目标视频帧的多尺寸视频特征;根据与待处理视频对应的音频,获得与目标视频帧对应的音频特征;根据多尺寸视频特征与音频特征,获得针对目标视频帧的、与音频相关的视频掩码特征;基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与音频查询信息对应的发声对象在多个视频帧中的目标特征;处理视频特征是对多尺寸视频特征与音频特征进行特征融合和时序交互后的视频特征;根据目标特征与视频掩码特征,获得针对目标视频帧的目标发声对象的分割掩码;分割掩码用于表示目标视频帧的目标发声对象。由于在该视频处理方法中,先获取视频帧的多尺寸视频特征,同时获得与目标视频帧对应的音频特征,进而能够根据多尺寸视频特征与音频特征获取针对目标视频帧的、与音频相关的视频掩码特征;与此同时,基于预先设置的针对每个视频帧的音频查询信息,能够确定与音频查询信息对应的发声对象在多个视频帧中的目标特征,最终基于目标特征与视频掩码特征,获得针对目标视频帧的目标发声对象的分割掩码能够对视频中的发声对象进行精准分割,同时该方法能够适用于视频中同时存在多个发声对象的复杂场景。

第二实施例

与本申请第一实施例提供的视频处理方法相对应的,本申请第二实施例还提供一种视频处理装置。由于装置实施例基本相似于第一实施例,所以描述得比较简单,相关之处参见第一实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

请参照图3,其为本申请第二实施例提供的视频处理装置的示意图。

该视频处理装置300,所述装置包括:

分帧处理单元301,用于对待处理视频进行分帧处理,获得所述待处理视频对应的多个视频帧;

视频特征提取单元302,用于针对多个视频帧中的任意一个目标视频帧,提取所述目标视频帧在多个尺寸下的视频特征,获得所述目标视频帧的多尺寸视频特征;

音频特征获得单元303,用于根据与所述待处理视频对应的音频,获得与所述目标视频帧对应的音频特征;

视频掩码特征获得单元304,用于根据所述多尺寸视频特征与所述音频特征,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征;

目标特征确定单元305,用于基于预先设置的针对每个视频帧的音频查询信息,在处理视频特征中确定与所述音频查询信息对应的发声对象在所述多个视频帧中的目标特征;所述处理视频特征是对所述多尺寸视频特征与所述音频特征进行特征融合和时序交互后的视频特征;

分割掩码获得单元306,用于根据所述目标特征与所述视频掩码特征,获得针对所述目标视频帧的目标发声对象的分割掩码;所述分割掩码用于表示所述目标视频帧的目标发声对象。

可选的,所述视频掩码特征获得单元,具体用于:

对所述多尺寸视频特征与所述音频特征进行特征融合和时序交互,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征。

可选的,所述视频掩码特征获得单元,具体用于:

采用第一注意机制对所述多尺寸视频特征与所述音频特征进行特征融合,获得融合所述音频特征的融合视频特征;

采用第二注意机制对所述多尺寸视频特征与所述融合视频特征进行处理,获得所述多尺寸视频特征在同一像素的不同尺寸下的聚合视频特征;

采用第三注意机制对音频特征与所述聚合视频特征进行时序交互处理,获得经时序交互处理后的处理视频特征;

根据所述处理视频特征,获得针对所述目标视频帧的、与所述音频相关的视频掩码特征。

可选的,所述视频掩码特征获得单元,具体用于:

针对所述音频特征,在所述聚合视频特征中确定与所述音频特征在所述多个视频帧中的初始特征;

采用自注意力对所述初始特征进行特征增强,确定在不同目标视频帧之间时序交互后的特征;

将所述时序交互后的特征进行映射处理,获得经时序交互处理后的处理视频特征。

可选的,所述目标特征确定单元,具体用于:

基于预先设置的针对每个视频帧的音频查询信息,确定与所述音频查询信息对应的发声对象;

根据所述处理视频特征,获得所述处理视频特征在指定尺寸下的视频特征;

针对每个音频查询信息,将所述指定尺寸下的视频特征与所述音频查询信息作为音频查询编码器的输入信息,获得所述发声对象在所述多个视频帧中的目标特征。

可选的,所述音频查询编码器包括:多头交叉注意力模块、多头自注意力模块与前向网络模块;

所述目标特征确定单元,具体用于:

针对每个音频查询信息,将所述指定尺寸下的视频特征与所述音频查询信息作为所述多头交叉注意力模块的输入信息,获得所述多头交叉注意力模块的输出结果信息;

将所述多头交叉注意力模块的输出结果信息作为所述多头自注意力模块的输入信息,获得所述多头自注意力模块的输出结果信息;

将所述多头自注意力模块的输出结果信息作为所述前向网络模块的输入信息,获得所述前向网络模块的输出结果信息;

根据所述前向网络模块的输出结果信息,获得所述发声对象在所述多个视频帧中的目标特征。

可选的,所述音频查询编码器包括多层注意力机制,每层注意力机制设置一个多头交叉注意力模块、一个多头自注意力模块与一个前向网络模块;

其中,输入第一层注意力机制的音频查询信息为所述音频对应各个视频帧的音频特征;输入第二层注意力机制或者第二层以上的注意力机制的音频查询信息为前一层注意力机制的输出结果信息;所述最后一层注意力机制的输出结果为所述发声对象在所述多个视频帧中的目标特征。

可选的,所述分割掩码获得单元,具体用于:

将所述目标特征与所述视频掩码特征进行矩阵乘法运算与预设函数运算,获得针对所述目标视频帧的目标发声对象的分割掩码。

第三实施例

与本申请第一实施例的方法相对应的,本申请第三实施例还提供一种电子设备。

如图4所示,图4为本申请第三实施例提供的电子设备的示意图。

在本实施例中,该电子设备400的一种可选硬件结构可如图4所示,包括:至少一个处理器401,至少一个存储器402和至少一个通信总线405;存储器402中包含有程序403与数据404。

总线405可以是在电子设备400内部的组件之间传输数据的通信设备,诸如内部总线(例如,CPU-存储器总线,处理器即为central processing unit,简称CPU)、外部总线(例如,通用串行总线端口、外围组件互连快速端口)等。

另外,电子设备中还包括:至少一个网络接口406,至少一个外设接口407。网络接口406以提供与外部网络408(例如,因特网、内联网、局域网、移动通信网络等)相关的有线或无线通信;在一些实施例中,网络接口806可以包括任意数量的网络接口控制器(英文:network interface controller,简称NIC)、射频(英文:Radio Frequency,简称RF)模块、转发器、收发器、调制解调器、路由器、网关、有线网络适配器的任意组合、无线网络适配器、蓝牙适配器、红外适配器、近场通信(英文:Near Field Communication,简称NFC)适配器、蜂窝网络芯片等。

外设接口407用于与外设连接,外设可以如图中的外设1(图4中的409)、外设2(图4中的410)以及外设3(图4中的411)。外设即外围设备,外围设备可以包括但不限于光标控制设备(例如鼠标、触摸板或触摸屏)、键盘、显示器(例如阴极射线管显示器、液晶显示器)。显示器或发光二极管显示器、视频输入设备(例如,摄像机或通信耦合到视频档案的输入接口)等。

处理器401可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器402可能包含高速RAM(全称:Random Access Memory,即随机存取存储器)存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

其中,处理器401调用存储器402所存储的程序与数据,以执行本申请第一实施例的方法。

第四实施例

与本申请第一实施例的方法相对应的,本申请第四实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,以执行本申请第一实施例的方法。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(英文:Read-Only Memory,简称ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(英文:phase change memory;简称PRAM)、静态随机存取存储器(英文:Static Random Access Memory;简称SRAM)、动态随机存取存储器(英文:Dynamic Random Access Memory;简称DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(英文:Electrically-ErasableProgrammable Read-Only Memory;简称EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(英文:Compact Disc Read-Only Memory;简称CD-ROM)、数字多功能光盘(英文:Digital versatiledisc;简称DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读存储媒体(non-transitory computerreadable storage media),如调制的数据信号和载波。

2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

技术分类

06120116329686