掌桥专利:专业的专利平台
掌桥专利
首页

音频提取方法、装置、计算机设备和存储介质

文献发布时间:2024-04-18 19:58:26


音频提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种音频提取方法、装置、计算机设备和存储介质。

背景技术

人类大脑在多个说话者和背景噪声存在时,可以通过屏蔽声学背景来集中听觉注意力于特定的声音,这种情况被称为鸡尾酒会效应。随着深度学习的发展,出现了越来越多解决鸡尾酒会效应问题的技术,比如通过预先录制参考者语音等类型的辅助线索,引导深度学习神经网络的注意力指向目标说话者。然而,现有技术并不能较好地解决说话者头部姿态变化对特定说话者声音提取的影响,从而导致对特定说话者声音提取的准确性较低。

发明内容

基于此,有必要针对上述技术问题,提供一种能够更准确地提取特定说话者的声音的音频提取方法、装置、计算机设备和存储介质,提高了提取特定说话者声音的准确性。

一种音频提取方法,所述方法包括:

获取训练好的目标音频提取网络模型,获取待处理音频和目标对象对应的待处理视频;

基于所述目标音频提取网络模型,对所述待处理视频进行姿态标准化操作,得到姿态标准视频,分别对所述姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征,将所述第一视觉特征和第二视觉特征进行融合,得到目标视觉特征;

基于所述目标音频提取网络模型对所述待处理音频进行音频特征提取,得到初始音频特征,基于所述目标视觉特征和初始音频特征融合得到所述目标对象对应的目标掩蔽特征;

基于所述目标音频提取网络模型将所述初始音频特征和所述目标掩蔽特征进行融合,得到目标融合特征,将所述目标融合特征输入所述目标音频提取网络模型中的音频解码器,得到所述目标对象对应的目标音频。

在其中一个实施例中,所述目标音频提取网络模型包括预设数量个视觉编码器和姿态标准化模型,所述基于所述目标音频提取网络模型,对所述待处理视频进行姿态标准化操作,得到姿态标准视频,分别对所述姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征包括:

将所述待处理视频输入所述姿态标准化模型中,得到所述姿态标准视频,将所述姿态标准视频输入对应的视觉编码器中,得到所述第一视觉特征;

将所述待处理视频输入另一个视觉编码器中,得到所述第二视觉特征。

在其中一个实施例中,所述将所述待处理视频输入所述姿态标准化模型中,得到所述姿态标准视频包括:

基于所述姿态标准化模型中的面部几何编码器,对所述待处理视频中的每一帧图像进行面部形变操作,得到每一帧图像对应的面部形变图像;

获取面部模板,基于所述姿态标准化模型中的面部关联特征融合器,将每一帧图像对应的面部形变图像分别与所述面部模板进行融合,得到所述姿态标准视频。

在其中一个实施例中,所述目标音频提取网络模型包括视觉特征适配器,所述视觉特征适配器用于调整视觉特征之间的时间依赖关系,所述对所述第一视觉特征和第二视觉特征进行融合,得到目标视觉特征包括:

将所述第一视觉特征和所述第二视觉特征进行融合,得到初始融合视觉特征,将所述初始融合视觉特征输入所述视觉特征适配器,得到适配融合视觉特征;

基于预设插值算法,对所述适配融合视觉特征对应的特征维度进行上采样操作,得到所述目标视觉特征。

在其中一个实施例中,所述目标音频提取网络模型包括音频编码器和特征融合器;所述基于所述目标音频提取网络模型对所述待处理音频进行音频特征提取,得到初始音频特征,基于所述目标视觉特征和初始音频特征进行融合得到所述目标对象对应的目标掩蔽特征包括:

将所述待处理音频输入所述音频编码器,得到所述初始音频特征;

基于所述特征融合器中的音频处理网络层对所述初始音频特征进行特征优化,得到待融合音频特征;

基于所述特征融合器中的特征融合网络层,将所述待融合音频特征和目标视觉特征进行融合,得到所述目标对象对应的目标掩蔽特征。

在其中一个实施例中,所述获取训练好的目标音频提取网络模型之前,还包括:

获取待训练的图像重构模型,获取待训练图像集和面部模板;

将所述待训练图像集和所述面部模板输入所述图像重构模型中,基于所述图像重构模型中的面部几何编码器,对所述待训练图像进行形变操作,得到姿态形变图像和面部形变图像;

基于所述图像重构模型中的面部关联特征融合器,将所述面部形变图像和面部模板进行融合,得到姿态标准化图像;

将所述姿态形变图像和姿态标准化图像输入所述图像重构模型的图像重构器中,得到重构图像和更新的图像重构模型,重复将所述待训练图像集和所述面部模板输入所述图像重构模型中的操作,直至所述更新的图像重构模型满足训练终止条件;

将满足所述训练终止条件的图像重构模型中的面部几何编码器和面部关联特征融合器构成初始姿态标准化模型。

在其中一个实施例中,所述获取训练好的目标音频提取网络模型之前,还包括:

获取待训练音频提取网络模型,所述待训练音频提取网络模型中包括所述初始姿态标准化模型;

获取待训练音频集和所述待训练音频集中对应的音频对象对应的待训练视频集;

基于所述待训练音频集和待训练视频集对所述待训练音频提取网络模型进行训练,得到所述目标音频提取网络模型。

一种音频提取装置,所述装置包括:

获取模块,用于获取训练好的目标音频提取网络模型,获取待处理音频和目标对象对应的待处理视频;

提取模块,用于基于所述目标音频提取网络模型,对所述待处理视频进行姿态标准化操作,得到姿态标准视频,分别对所述姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征,将所述第一视觉特征和第二视觉特征进行融合,得到目标视觉特征;

融合模块,用于基于所述目标音频提取网络模型对所述待处理音频进行音频特征提取,得到初始音频特征,基于所述目标视觉特征和初始音频特征融合得到所述目标对象对应的目标掩蔽特征;

解码模块,用于基于所述目标音频提取网络模型将所述初始音频特征和所述目标掩蔽特征进行融合,得到目标融合特征,将所述目标融合特征输入所述目标音频提取网络模型中的音频解码器,得到所述目标对象对应的目标音频。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述音频提取方法中的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述音频提取方法中的步骤。

上述音频提取方法、装置、计算机设备和存储介质,通过获取训练好的目标音频提取网络模型,获取待处理音频和目标对象对应的待处理视频;基于目标音频提取网络模型,对待处理视频进行姿态标准化操作,得到姿态标准视频,分别对姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征,将第一视觉特征和第二视觉特征进行融合,得到目标视觉特征;基于目标音频提取网络模型对待处理音频进行音频特征提取,得到初始音频特征,基于目标视觉特征和初始音频特征融合得到目标对象对应的目标掩蔽特征;基于目标音频提取网络模型将初始音频特征和目标掩蔽特征进行融合,得到目标融合特征,将目标融合特征输入目标音频提取网络模型中的音频解码器,得到目标对象对应的目标音频。将目标对象在说话时对应的待处理视频中的头部姿势进行标准化,使得目标对象在说话时不管头部姿势位置如何,都可以获得一致的正面图像,完成从原始姿态视角到姿态不变视角的转变,从而能够更加有效的提取出目标对象在头部姿态变化时的视觉特征,又将标准化后的头部姿势与原始姿势时对应的特征进行融合,以得到对目标对象对应的音频提取更为有效的信息;将视觉特征和音频特征进行融合得到的特征中非目标对象对应的干扰特征进行掩蔽,考虑了目标对象说话时头部姿态对说话信息有效提取的影响,得到更能表征目标对象对应的音频信息的融合特征,再进一步将掩蔽了干扰噪声特征的融合特征与原始的音频特征进行融合,以获取有效性更高更能表征目标对象对应的语音信息的特征,从而使得最终提取得到的目标对象对应的目标音频准确性更高,提高了在混合音频中提取特定说话者声音的准确性。

附图说明

图1为一个实施例中音频提取方法的应用环境图;

图2为一个实施例中音频提取方法的流程示意图;

图3为一个实施例中目标音频提取的流程示意图;

图4为一个实施例中图像重构的流程示意图;

图5为一个实施例中音频提取装置的结构框图;

图6为一个实施例中计算机设备的内部结构图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的音频提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104用于获取训练好的目标音频提取网络模型,获取待处理音频和目标对象对应的待处理视频;基于目标音频提取网络模型,对待处理视频进行姿态标准化操作,得到姿态标准视频,分别对姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征,将第一视觉特征和第二视觉特征进行融合,得到目标视觉特征;基于目标音频提取网络模型对待处理音频进行音频特征提取,得到初始音频特征,基于目标视觉特征和初始音频特征融合得到目标对象对应的目标掩蔽特征;基于目标音频提取网络模型将初始音频特征和目标掩蔽特征进行融合,得到目标融合特征,将目标融合特征输入目标音频提取网络模型中的音频解码器,得到目标对象对应的目标音频。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种音频提取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤S200,获取训练好的目标音频提取网络模型,获取待处理音频和目标对象对应的待处理视频。

其中,目标音频提取网络模型指用于提取特定说话对象对应的音频的模型。待处理音频指从某一说话场景中收录的音频,可以是从某一视频中提取出的音频。目标对象指特定的说话人。待处理视频指目标对象说话时对应的视频。

具体地,从混合音频中提取特定人的说话声音,可以直接用训练好的目标音频提取网络模型,目标音频提取网络模型训练学习到了无论说话对象说话时头部姿态如何变化,都能获得对应的正面视图,从而将正面视图对应的视觉特征也作为特定说话对象声音提取的辅助线索,以从混合音频中提取出准确性更高的特定说话对象对应的音频。此外,在进行目标对象对应的音频提取时,先获取要提取的待处理音频和目标对象对应的待处理视频,待处理视频可以是目标对象在说待处理音频时对应的视频。

步骤S202,基于目标音频提取网络模型,对待处理视频进行姿态标准化操作,得到姿态标准视频,分别对姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征,将第一视觉特征和第二视觉特征进行融合,得到目标视觉特征。

其中,姿态标准视频指将待处理视频中的每一帧图像中目标对象对应的头部姿势进行规范化后的图像帧的集合,也就是将各种不同的头部姿态方向的视图生成对应的正面视图。第一视觉特征指对姿态标准视频中的每一帧图像进行视觉特征提取后的得到的视觉特征,是以特征向量的形式表示的;可以是通过由一个3D卷积层和一个18层的ResNet(Residual Network)串联构成的视觉编码器进行视觉特征的提取;视觉编码器中的卷积层和ResNet的数量可由具体情况进行改变,不限于上述的构成情况。第二视觉特征指对待处理视频中的每一帧图像进行视觉特征提取后得到的视觉特征,是以特征向量的形式表示的;其可以根据视觉编码器进行视觉特征的提取,该视觉编码器也可由一个3D卷积层和一个18层的ResNet构成;视觉编码器中的卷积层和ResNet的数量可由具体情况进行改变,不限于上述的构成情况。目标视觉特征指融合姿态标准视频中各图像帧对应的特征和待处理图像中各图像帧对应的特征的视觉特征,是以特征向量的形式表示的。

具体地,从日常交流中可知,当人在交流时,注视说话者转动的头部和面部表情的变化,可以使得倾听者听得更加清晰,从而获得更为明晰的语音信息。为了更好地获取目标对象在说话时对应的头部姿态变化情况,可以基于目标音频提取网络模型中的姿态标准化模型对目标对象对应的待处理视频中的每一帧图像进行姿态标准化操作,从而得到各帧图像对应的姿态标准化图像,此时得到的姿态标准化图像均已相对各图像中目标对象对应的头部姿态方向的正面视图,可以较好地反映目标对象在说话时面部的变化情况。此外可以分别在不同的视觉编码器中对姿态标准视频中的各帧图像和待处理视频中的各帧图像进行视觉特征的提取,从而获得姿态标准化后头部姿势相对不变时对应的面部特征情况和待处理视频中面部对象说话时拍摄到的头部姿态不断变化时对应的面部特征情况,也就是第一视觉特征和第二视觉特征,为获取更多影响目标对象说话声音提取的影响因素,可将第一视觉特征和第二视觉特征进行相加融合,从而得到更多维度考虑的视觉特征,为后续目标对象在待处理音频中对应音频的提取提供数据基础。

步骤S204,基于目标音频提取网络模型对待处理音频进行音频特征提取,得到初始音频特征,基于目标视觉特征和初始音频特征融合得到目标对象对应的目标掩蔽特征。

其中,初始音频特征指对待处理音频进行初次音频提取时对应的特征,是以特征向量的形式表示的;其可以是根据音频编码器进行音频特征的提取,该音频编码器可以是根据预设数量层的一维卷积层构成。目标掩蔽特征指掩蔽了干扰信号特征,且能够表征出目标对象对应的语音特征的视觉与音频融合特征,是以特征向量的形式表示的。

具体地,可以基于目标音频提取网络模型中的音频编码器对待处理音频进行音频特征的提取,音频编码器可以将混合音频的待处理音频转换为时域中类似频谱的表示,从而得到初始提取时得到的初始音频特征。在训练得到目标音频提取网络模型的过程中,目标音频提取网络模型已学习到将音频特征和对应的视觉特征进行融合并掩蔽干扰声音特征的规律。因此,可以根据目标音频提取网络模型中的特征融合器对目标视觉特征和初始音频特征进行融合,并在高维网络空间中更深度的分析融合音频-视觉后的特征,以及将待处理音频中的干扰声音给掩蔽掉,以获取能够较好表征目标对象在待处理音频中的声音特性的目标掩蔽特征,为最终提取出准确性、纯度更高的目标对象的目标音频提供重要的数据基础。

步骤S206,基于目标音频提取网络模型将初始音频特征和目标掩蔽特征进行融合,得到目标融合特征,将目标融合特征输入目标音频提取网络模型中的音频解码器,得到目标对象对应的目标音频。

其中,目标融合特征指最终用于解码得到目标对象对应的目标音频的特征,是以特征向量的形式表示的;其融合了更多目标对象对应的视觉特征和音频特征,可以很好的表征出目标对象在混合音频中的特定音频特性。音频解码器指用于解码音频特征以得到对应的音频的解码器。目标音频指待处理音频中由目标对象所说的声音。

具体地,为了更高精度地获取待处理音频中目标对象对应的音频特征,可以进一步地将初始音频特征和目标掩蔽特征进行克罗内克积运算,从而得到维度符合音频解码器输入以及目标对象对应的音频特征更全面的目标融合特征,比如初始音频特征为A、目标掩蔽特征为B,则目标融合特征为

上述音频提取方法中,通过获取训练好的目标音频提取网络模型,获取待处理音频和目标对象对应的待处理视频;基于目标音频提取网络模型,对待处理视频进行姿态标准化操作,得到姿态标准视频,分别对姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征,将第一视觉特征和第二视觉特征进行融合,得到目标视觉特征;基于目标音频提取网络模型对待处理音频进行音频特征提取,得到初始音频特征,基于目标视觉特征和初始音频特征融合得到目标对象对应的目标掩蔽特征;基于目标音频提取网络模型将初始音频特征和目标掩蔽特征进行融合,得到目标融合特征,将目标融合特征输入目标音频提取网络模型中的音频解码器,得到目标对象对应的目标音频。将目标对象在说话时对应的待处理视频中的头部姿势进行标准化,使得目标对象在说话时不管头部姿势位置如何,都可以获得一致的正面图像,完成从原始姿态视角到姿态不变视角的转变,从而能够更加有效的提取出目标对象在头部姿态变化时的视觉特征,又将标准化后的头部姿势与原始姿势时对应的特征进行融合,以得到对目标对象对应的音频提取更为有效的信息;将视觉特征和音频特征进行融合得到的特征中非目标对象对应的干扰特征进行掩蔽,考虑了目标对象说话时头部姿态对说话信息有效提取的影响,得到更能表征目标对象对应的音频信息的融合特征,再进一步将掩蔽了干扰噪声特征的融合特征与原始的音频特征进行融合,以获取有效性更高更能表征目标对象对应的语音信息的特征,从而使得最终提取得到的目标对象对应的目标音频准确性更高,提高了在混合音频中提取特定说话者声音的准确性。

在一个实施例中,目标音频提取网络模型包括预设数量个视觉编码器和姿态标准化模型,步骤S202中基于目标音频提取网络模型,对待处理视频进行姿态标准化操作,得到姿态标准视频包括:

步骤S300,将待处理视频输入姿态标准化模型中,得到姿态标准视频,将姿态标准视频输入对应的视觉编码器中,得到第一视觉特征。

步骤S302,将待处理视频输入另一个视觉编码器中,得到第二视觉特征。

其中,视觉编码器指用于提取图像视觉特征的编码器,其可以是由1个3D卷积层和一个10层的ResNet构成,还可以是基于实际情况改变3D卷积层和ResNet对应的层数。姿态标准化模型指用于标准化视频的各帧图像中说话人头部姿态的模型,也就是将说话人在说话时头部姿态的方向转变成一个正面不变的姿态,且这个正面是相对性的,比如原本说话人的头部姿态是侧面的,姿态标准化即是相对说话人侧面的正面方向获得的视图,其可以更加明晰的获取说话人头部是侧向说话时对应的面部表情变化。

具体地,在进行视觉特征提取时,并不单单只是提取待处理视频中各帧图像对应的视觉特征,为了更精准地获取目标对象在说话时头部姿态变化对音频特征提取的辅助影响因素,可以加入姿态标准化模型对待处理视频中的各帧图像进行姿态标准化操作,从而获取各帧图像中对应的头部姿态方向相对的正面视图,该正面视图反映着面部对象在说话时的面部变化情况,比如唇形变化等,这些面部变化的特征对目标对象所说声音的判断与提取起到较好的辅助效果,可以将对各帧图像进行姿态标准化操纵后得到的姿态标准视频输入视觉编码器中,以使视觉编码器对姿态标准视频中的各帧图像进行视觉特征的提取,为后续从待处理音频中提取出目标对象对应的更精准的音频提供较重要的辅助数据。此外,姿态标准视频中的各帧图像反映了头部姿态不变的面部特性,为了进一步提高目标对象音频的提取,可以将待处理视频中的各帧图像输入另外一个视觉编码器中,以获取目标对象在说话时的原始头部姿态各种变化下对应的面部特性,将两种情况综合考虑,使得最终用于从待处理音频中提纯出目标对象的音频的目标视觉特征,与实际交流场景下观看目标对象说话时面部变化的特性更加接近。

本实施例中,通过基于姿态标准化模型对待处理视频中各帧图像进行姿态标准化操作得到姿态标准化视频后,分别将姿态标准化视频和待处理视频输入不同的视觉编码器中,以提取姿态标准化视频中各帧图像和待处理视频中各帧图像对应的视觉特征,将姿态标准化后对应的姿态不变时的面部情况和原始待处理视频中录制得到的目标对象对应的原始面部情况综合考虑,使得提取的视觉特征可以更真实的反映目标对象在说话时的头部姿势与面部变化的情况,从而使得用于辅助从待处理音频中提取出目标对象对应的音频的目标视觉特征的精确度较高,有利于提高最终提取目标对象对应的目标音频的准确性。

在一个实施例中,步骤S300包括:

步骤S400,基于姿态标准化模型中的面部几何编码器,对待处理视频中的每一帧图像进行面部形变操作,得到每一帧图像对应的面部形变图像。

步骤S402,获取面部模板,基于姿态标准化模型中的面部关联特征融合器,将每一帧图像对应的面部形变图像分别与面部模板进行融合,得到姿态标准视频。

其中,面部几何编码器指用于将图像中人为的面部进行多类型几何转变,以编码得到多类型情况的图像的编码器,比如将输入的图像编码成面部五官形变的图像或者头部姿态转变的图像等。面部形变图像指对面部五官进行形变后的图像。面部模板指用于构建姿态不变时的面部图像的模板。面部关联特征融合器指用于融合面部形变图像和面部模板的融合器;其中可以是将面部形变图像和面部模板进行直和的融合操作,比如面部形变图像为A,面部模板为B,直和操作即A⊕B。

具体地,在对待处理视频中各帧图像中的目标对象进行姿态标准化操作时,姿态标准化模型中的面部几何编码器会基于不同的限制规则,将各帧图像中的目标对象进行面部五官的形变和头部姿态相关的形变处理,从而得到不同形变下对应的图像,从而将由表情引起的面部变化和由头部姿态引起的面部变化分离开,并根据表情面部的变化用于姿态标准化图像的构建中,也就是将各帧图像对应的面部形变图像和同一个固定的面部模板分别进行直和融合计算,从而得到姿态不变时对应的姿态标准视频。对于姿态标准化的过程具体可见图4中的姿态标准化器,图4中的形变D即为面部形变图像,姿势不变的面部S即为姿态标准视频中的各帧姿态标准化图像,图4中的整个流程是图像重构模型(可以是SADRNet,Self-Aligned Dual Face Regression Networks)进行图像重构的处理流程,由于图像重构模型可以将头部姿势和面部表情解耦分析,能够将机器学习时对头部姿势和面部表情分析的注意力相对均衡,避免了头部姿势变化引起面部表情变化与表情引起面部变化之间的关联影响,进而将重构模型中构建姿态不变时对应的姿态标准化操纵模块,应用于本案头部姿态不变时对应的视觉特征对特定说话对象对应的音频的提取中,使得获取的头部姿态不变时对应的视觉特征更加准确。

本实施例中,通过姿态标准化模型中的面部几何编码器对待处理视频中的各帧图像进行面部形变操作,得到各帧图像对应的面部形变图像,再将各面部形变图像分别与面部模板进行融合,得到目标对象说话时头部姿态不变时对应的姿态标准视频,较好地应用了姿态标准化模型的特性,以提高提取目标对象说话时对应的头部姿势不变时对应的视觉特征的有效性。

在一个实施例中,步骤S202中目标音频提取网络模型包括视觉特征适配器,视觉特征适配器用于调整视觉特征之间的时间依赖关系,对第一视觉特征和第二视觉特征进行融合,得到目标视觉特征包括:

步骤S500,将第一视觉特征和第二视觉特征进行融合,得到初始融合视觉特征,将初始融合视觉特征输入视觉特征适配器,得到适配融合视觉特征。

步骤S502,基于预设插值算法,对适配融合视觉特征对应的特征维度进行上采样操作,得到目标视觉特征。

其中,初始融合视觉特征指将第一视觉特征和第二视觉特征进行串联融合得到的特征。视觉特征适配器指用于调整每个图像帧之间对应的视觉特征的时间依赖关系的网络模型;其可以是一个包括5个TCN模块的TCN网络(Temporal Convolutional Network,时间卷积网络),一个TCN模块中包括一个深度可分离卷积、激活层和归一化层,激活层可以是PReLU(Parametric Rectified Linear Unit);还可以是基于实际情况设置的预设数量的TCN网络,以及预设一个TCN网络中有预设数量个TCN模块。适配融合视觉特征指进行时间依赖关系适配后的视觉特征,其可以较好地反映各图像帧对应的时间动态。预设插值算法指用于调整特征维度的算法,可以是最近邻插值算法。

具体地,在综合考虑头部姿态规范成头部姿态不变时对应的第一视觉特征和原始的录制待处理视频中图像对应的第二视觉特征时,可以将第一视觉特征和第二视觉特征使用加法融合,得到融合后的初始融合视觉特征。为进一步提取分析初始融合视觉特征中更高维的特征信息以及使得各图像帧对应的初始融合视觉特征之间的时间依赖关系更符合实际的说话场景,从而捕捉到各图像帧之间的时间动态特征,可以将初始适配融合时间特征输入由预设数量个TCN网络构成的视觉特征适配器中,从而得到更高维分析以及能够反映各图像帧之间时间动态特性的适配融合时间特征。

进一步地,由于待处理视频和待处理音频的时间频率不同,在进行视觉特征和音频特征融合前需将视觉特征和音频特征对应的时间维度保持一致,以使待处理视频和待处理音频同步,可以根据最近邻插值算法,将适配融合视觉特征对应的时间维度进行上采样,从而得到与待处理音频时间同步的目标视觉特征。比如音频特征的向量维度为rd*t(128*720),适配融合视觉特征的向量维度为rd*n(128*75),可见音频特征和适配融合视觉特征在时间维度上不一致,音频特征是720,适配融合视觉特征是75,则可以采用最近邻插值算法将128*75在时间维度75上进行上采样到720,且该上采样过程可以根据torch.nn.functional.interpolate工具实现。

本实施例中,通过基于视觉适配器对第一视觉特征和第二视觉特征融合得的初始融合视觉特征进行更高维空间得分析以及调整各图像帧之间得时间依赖关系,以得到能够捕捉各图像帧所反映真实说话场景时对应得时间动态特性的适配融合视觉特征,并基于预设插值算法对适配融合视觉特征进行特征维度的上采用操作,以使待处理视频对应的视觉特征和待处理音频对应的音频特征在时间上同步,以更好的进行特征融合,从而为最终目标对象对应的目标音频的提取提供更为精确的数据基础。

在一个实施例中,步骤S204包括:目标音频提取网络模型包括音频编码器和特征融合器;

步骤S600,将待处理音频输入音频编码器,得到初始音频特征。

步骤S602,基于特征融合器中的音频处理网络层对初始音频特征进行特征优化,得到待融合音频特征。

步骤S604,基于特征融合器中的特征融合网络层,将待融合音频特征和目标视觉特征进行融合,得到目标对象对应的目标掩蔽特征。

其中,音频处理网络层指用于对待处理音频进行高维空间分析,以得到更细致与更有效的音频特征信息的网络层;其可以由2个包括8个TCN模块的TCN网络构成,此处的TCN模块也包含一个深度可分离卷积、激活层和归一化层;还可以根据实际场景调整设置TCN网络的数量以及TCN网络中TCN模块的数量。待融合音频特征指在音频处理网络层中进行高维空间分析得到的音频特征。特征融合层指用于融合目标视觉特征和待融合音频特征并掩蔽干扰特征的网络层;其可以包括用于融合待融合音频特征和目标视觉特征的特征融合模块、用于进一步提取特征融合模块得到的融合特征的特征信息的卷积层和用于将卷积层输出的融合特征进行高维分析与掩蔽干扰特征的融合特征处理网络层;特征融合模块可以基于串联的方式将待融合音频特征和目标视觉特征进行拼接融合;融合特征处理网络层可以是由一个包含8个TCN模块的TCN网络构成,还可以基于实际的应用场景调整设置TCN网络的数量以及TCN网络中TCN模块的数量。

具体地,可以基于目标音频提取网络模型中的音频编码器对待处理音频进行初始的音频特征提取,得到初始音频特征,为获取更为细致准确的音频特征信息,可以将初始音频特征输入由预设数量个TCN网络构建的音频处理网络层进行更高维空间的特征分析,从而得到具有精确度更高的特征信息的待融合音频特征,为有效利用目标视觉特征对提取目标对象对应的目标音频的辅助作用,可以在特征融合网络层中将目标视觉特征和待融合音频特征进行串联,并将串联结合后的特征进一步在高维空间中进行特征分析并掩蔽掉除目标对象对应的音频相关特征外的干扰特征,从而得到能够更精确地表征目标对象对应的音频特性的目标掩蔽特征。

本实施例中,通过将从音频编码器中提取出的初始音频特征输入音频处理网络层,以在更高维的空间中对初始音频特征进行特征分析,得到具有更高维与准确的特征信息的待融合音频特征,并在特征融合层将待融合音频特征和目标视觉特征进行融合,以有效利用目标视觉特征对从具有混合音频对应的混合特征中,判断目标对象对应的音频特征的辅助效果,并将其他的干扰特征进行岩壁,从而得到具有更能直观表征目标对象对应的音频特征信息的目标掩蔽特征,为最终解码得到目标对象对应的精确度更高的目标音频,提供了高精确度的特征信息。

在一个实施例中,步骤S200之前,还包括:

步骤S700,获取待训练的图像重构模型,获取待训练图像集和面部模板。

步骤S702,将待训练图像集和面部模板输入图像重构模型中,基于图像重构模型中的面部几何编码器,对待训练图像进行形变操作,得到姿态形变图像和面部形变图像。

步骤S704,基于图像重构模型中的面部关联特征融合器,将面部形变图像和面部模板进行融合,得到姿态标准化图像。

步骤S706,将姿态形变图像和姿态标准化图像输入图像重构模型的图像重构器中,得到重构图像和更新的图像重构模型,重复将待训练图像集和面部模板输入图像重构模型中的操作,直至更新的图像重构模型满足训练终止条件。

步骤S708,将满足训练终止条件的图像重构模型中的面部几何编码器和面部关联特征融合器构成初始姿态标准化模型。

其中,图像重构模型指基于解耦的逻辑将头部姿势和面部表情进行图像重构的模型,可以是SADRNet(Self-Aligned Dual Face Regression Networks)网络模型。待训练图像集指用于训练图像重构模型的图像,其可以从300W-LP数据集中获取。面部模板指用于构建姿态不变时的面部图像的模板,在本案中其是固定唯的。姿态形变图像指头部姿态发生形变的图像。姿态标准化图像指将待训练图像中原始的头部姿态对应的面部表情进行相对正面矫正后的正面图像。图像重构器指将姿态形变图像和姿态标准化图像进行自对准重构的图像。初始姿态标准化模型指用带训练图像训练重构图像模型后得到的姿态标准化模型,其已训练学习到将面部五官形变与面部模板进行融合得到姿势不变时对应的面部图像,姿势不变即相对于原始头部姿势对应的正面方向。

具体地,图像重构模型可以将由表情引起的非刚性面部变化与由头部姿势引起的刚性面部分离开分析,以及其考虑了头部姿势变化带来的点对点距离远大于表情变化的情况,导致机器学习对头部姿势相关面部的学习容易过拟合和面部表情拟合不足的问题,其有效地将头部姿势和面部表情进行了解耦分析,从而减少了头部姿势和面部表情之间的相互影响。而基于待训练图像集训练好的图像重构模型中的面部几何编码器和面部关联特征融合器构建的初始姿态标准化模型,已掌握了将输入图像中的人物对象,构建成在头部姿态不变时对应的面部图像的能力,为获取更高精确度的目标对象对应的头部姿态不变时对应的视觉特征信息,可以将初始姿态标准化模型用于音频提取网络模型中。

本实施例中,通过基于待训练图像集和面部模板对待训练的图像重构模型进行训练,以训练得到具有较高能力构建头部姿态不变时对应的姿态标准化图像的初始姿态标准化模型,并将初始姿态标准化模型用于音频提取网络模型的构建中,从而为特定说话对象对应的音频提取提供更为精确的头部姿态不变时对应的视觉特征信息,在一定程度上提高了对特定说话人声音提取的准确性。

在一个实施例中,步骤S200之前,还包括:

步骤S800,获取待训练音频提取网络模型,待训练目标音频提取网络模型中包括初始姿态标准化模型。

步骤S802,获取待训练音频集和待训练音频集中对应的音频对象对应的待训练视频集。

步骤S804,基于待训练音频集和待训练视频集对待训练目标音频提取网络模型进行训练,得到目标音频提取网络模型。

其中,待训练音频提取网络模型指未进行训练的音频提取网络模型,其构成中包含从重构模型中训练后得到的初始姿态标准化模型。待训练音频集指用于训练待训练音频提取网络模型的音频集。待训练视频集指用于训练待训练音频提取网络模型的视频集。待训练音频集有对应的视频集,待训练视频集是从待训练音频集对应的视频集中截取对应的音频对象的说话视频的,且待训练视频集与用于训练图像重构模型的待训练图像集是不同的数据集。

具体地,在对待训练音频提取网络模型进行训练时,采用的待训练音频集和待训练视频集是相对应的,也就是待训练音频集中标注的说话对象和待训练视频集中标注的说话对象是相对应的,以使在对待训练音频提取网络模型进行训练时,基于待训练视频集提取到的视觉特征对应的指定说话对象,确定待训练音频集中指定说话对象对应的音频特征,从而学习出区分视觉特征和音频特征融合后,融合特征中指定说话对象对应的音频特征和其他干扰特征,并将其他干扰特征进行掩蔽的能力,进而将掩蔽干扰特征后得到的特征与待训练集中提取的初始特征进行更全面的融合,以得到纯度更高的指定说话对象的音频特征信息,从而基于指定说话对象的音频信息解码出精确度较高的音频。

本实施例中,通过将具有较好构建头部姿态不变时对应的面部图像能力的初始姿态标准化模型应用于待训练音频提取网络模型的构建中,并基于待训练音频集和与待训练音频集中对应的音频对象对应的待训练视频集来训练待训练音频提取网络模型,从而得到利用特定说话对象对应的头部姿态不变的视觉特性,辅助从混合音频中提取出特定说话对象的音频的目标音频提取网络模型,为提高对特定说话对象的音频提取提高了高效精确的方式。

在一个实施例中,以从混合音频中提取出特定说话对象的音频的应用场景为例进行描述。如图3所示,图3为使用目标音频提取网络模型的流程示意图,图3中姿势标准图像S指对待处理视频进行姿态标准化后得到的姿态标准视频的图像帧,最终输入视觉编码器中的也是姿态标准视频中的所有图像帧;Is为第一视觉特征;Io为第二视觉特征;Ve是目标视觉特征;Ae是初始音频特征;Vo为待处理视频中的图像帧;姿态标准化模型的结构可见图4中的姿态标准化器,图4中的姿态标准化器即本案的姿态标准化模型。可以在某个多人交流的场景中,多机位的录取整个场景的有声谈话视频,并从录制的有声谈话视频中提取出混合音频作为待处理音频,以及从录制的视频中裁剪出特定说话对象的视频作为目标对象对应的待处理视频,将待处理音频和待处理视频输入预先训练好的目标音频提取网络模型中,根据目标音频提取网络模型中的姿态标准化模型对待处理视频进行姿态标准化操作,从而得到各图像帧对应的头部姿势不变对应的姿势标准图像,即得到姿态标准视频,并分别将待处理视频中的各帧图像和姿态标准视频中的各帧图像分别输入两个不同的视觉编码器中,得到头部姿态不变时对应的第一视觉特征和原始的待处理视频中各图像帧对应的第二视觉特征,将第一视觉特征和第二视觉特征进行相加融合,并将相加融合得到的视觉特征输入视觉特征视频器中,以在更高维的空间中分析融合后的视觉特征以及步骤各图像帧之间的时间动态关系,从而分析得到具有精确度更高的特征信息的视觉特征,再将视觉特征视频器输出的视觉特征对应的时间维度进行上采用,以实现视觉特征和音频特征在时间上的同步,从而得到用于作为提取目标对象对应的音频的辅助因素的目标视觉特征。

进一步地,基于目标音频提取网络模型的音频编码器对待处理音频进行音频特征提取,将提取得到的初始音频特征和目标视觉特征输入特征融合器中进行特征融合和干扰特征掩蔽,也就是先基于特征融合器中的音频处理网络层将初始音频特征置于更高维的空间中进行分析,以得到具有更准确的音频特征信息的待融合音频特征,再在特征融合网络层中的特征融合模块中将目标视觉特征和待融合音频特征进行串联融合,并将串联后的到的融合特征经过卷积层和融合特征处理网络层再进行更高维空间的特征分析,以分析得到融合视觉和音频特征后更精确的特征信息,并将除目标对象对应的音频特征之外的干扰特征进行掩蔽,从而得到能够精确表征目标对象对应的音频特征信息的目标掩蔽特征,为使得输入的音频特征的维度与音频解码器的维度一致,以及更全面的提取完待处理音频中目标对象所具有的音频特征信息,可以将目标掩蔽特征和初始音频特征进行乘积运算,从而得到尽可能全面表征待处理音频中目标对象对应的音频特性的目标融合特征,最后基于音频解码器对目标融合特征进行解码,得到从待处理音频中提取出的目标对象对应的目标音频。将目标对象说话时头部姿势的变化进行标准化,从而精确获得可用于辅助判断目标对象说话信息的头部姿态不变的特征信息,并将综合了原始图像的特征信息和头部姿态不变对应的特征信息与待处理音频的语音特征进行融合,并将出目标对象外的干扰特征信息进行掩蔽,从而得到高精度的目标对象对应的音频特征信息,进而使得解码得到的目标音频精确度较高,实现了根据说话对象说话时面部的变化情况来辅助判断特定说话对象的语音信息,较好地提高了在混合音频中提取特定说话对象的音频的准确性。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的音频提取方法的音频提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个音频提取装置实施例中的具体限定可以参见上文中对于音频提取方法的限定,在此不再赘述。

在一个实施例中,如图5所示,提供了一种音频提取装置,包括:获取模块500、提取模块502、融合模块504和解码模块506,其中:

获取模块500,用于获取训练好的目标音频提取网络模型,获取待处理音频和目标对象对应的待处理视频。

提取模块502,用于基于所述目标音频提取网络模型,对所述待处理视频进行姿态标准化操作,得到姿态标准视频,分别对所述姿态标准视频和待处理视频进行视觉特征提取,得到第一视觉特征和第二视觉特征,将所述第一视觉特征和第二视觉特征进行融合,得到目标视觉特征。

融合模块504,用于基于所述目标音频提取网络模型对所述待处理音频进行音频特征提取,得到初始音频特征,基于所述目标视觉特征和初始音频特征融合得到所述目标对象对应的目标掩蔽特征。

解码模块506,用于基于所述目标音频提取网络模型将所述初始音频特征和所述目标掩蔽特征进行融合,得到目标融合特征,将所述目标融合特征输入所述目标音频提取网络模型中的音频解码器,得到所述目标对象对应的目标音频。

在一个实施例中,提取模块502还用于所述目标音频提取网络包括预设数量个视觉编码器和姿态标准化模型;将所述待处理视频输入所述姿态标准化模型中,得到所述姿态标准视频,将所述姿态标准视频输入对应的视觉编码器中,得到所述第一视觉特征;将所述待处理视频输入另一个视觉编码器中,得到所述第二视觉特征。

在一个实施例中,提取模块502还用于基于所述姿态标准化模型中的面部几何编码器,对所述待处理视频中的每一帧图像进行面部形变操作,得到每一帧图像对应的面部形变图像;获取面部模板,基于所述姿态标准化模型中的面部关联特征融合器,将每一帧图像对应的面部形变图像分别与所述面部模板进行融合,得到所述姿态标准视频。

在一个实施例中,提取模块502还用于所述目标音频提取网络模型包括视觉特征适配器,所述视觉特征适配器用于调整视觉特征之间的时间依赖关系;将所述第一视觉特征和所述第二视觉特征进行融合,得到初始融合视觉特征,将所述初始融合视觉特征输入所述视觉特征适配器,得到适配融合视觉特征;基于预设插值算法,对所述适配融合视觉特征对应的特征维度进行上采样操作,得到所述目标视觉特征。

在一个实施例中,融合模块504还用于所述目标音频提取网络包括音频编码器和特征融合器;将所述待处理音频输入所述音频编码器,得到所述初始音频特征;基于所述特征融合器中的音频处理网络层对所述初始音频特征进行特征优化,得到待融合音频特征;基于所述特征融合器中的特征融合网络层,将所述待融合音频特征和目标视觉特征进行融合,得到所述目标对象对应的目标掩蔽特征。

在一个实施例中,音频提取装置还包括训练模块508,用于获取待训练的图像重构模型,获取待训练图像集和面部模板;将所述待训练图像集和所述面部模板输入所述图像重构模型中,基于所述图像重构模型中的面部几何编码器,对所述待训练图像进行形变操作,得到姿态形变图像和面部形变图像;基于所述图像重构模型中的面部关联特征融合器,将所述面部形变图像和面部模板进行融合,得到姿态标准化图像;将所述姿态形变图像和姿态标准化图像输入所述图像重构模型的图像重构器中,得到重构图像和更新的图像重构模型,重复将所述待训练图像集和所述面部模板输入所述图像重构模型中的操作,直至所述更新的图像重构模型满足训练终止条件;将满足所述训练终止条件的图像重构模型中的面部几何编码器和面部关联特征融合器构成初始姿态标准化模型

在一个实施例中,训练模块508,还用于获取待训练音频提取网络模型,所述待训练音频提取网络模型中包括所述初始姿态标准化模型;获取待训练音频集和所述待训练音频集中对应的音频对象对应的待训练视频集;基于所述待训练音频集和待训练视频集对所述待训练音频提取网络模型进行训练,得到所述目标音频提取网络模型。

上述音频提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行过程相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频提取方法。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频提取方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图6和图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一些实施例中,提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 音频信号的评分方法、装置、电子设备及计算机存储介质
  • 音频数据的传输方法、装置、计算机设备和存储介质
  • 一种音频检测方法、装置、设备及计算机可读存储介质
  • 一种音频信号的调节方法、装置、设备及计算机存储介质
  • 音频对齐方法、装置、计算机设备以及可读存储介质
  • 音频数据提取方法、装置、计算机设备和存储介质
  • 音频特征的提取方法、装置、计算机设备及存储介质
技术分类

06120116494247