掌桥专利:专业的专利平台
掌桥专利
首页

一种音频处理模型训练方法以及音频处理方法

文献发布时间:2024-04-18 19:58:26


一种音频处理模型训练方法以及音频处理方法

技术领域

本申请涉及语音增强技术领域,尤其涉及一种音频处理模型训练方法以及音频处理方法。

背景技术

语音增强(Speech Enhancement)的本质是语音降噪,麦克风采集的语音通常是带有不同噪声的语音,语音增强的主要目的就是从带噪声的语音中恢复不带噪声的语音。通过语音增强可以有效抑制各种干扰信号,增强目标语音信号,不仅提高语音可懂度和话音质量,还有助于提高语音识别。语音增强技术通常可以分为近场语音增强和远场语音增强,远场语音增强和近场语音增强相比,由于距离更远,信噪比更低,且通常伴有混响,所以难度更大。

目前,通过降噪模型和去混响模型分别对待处理的语音进行降噪和去混响处理,具体可以分为先降噪后去混响以及先去混响后降噪。在方案实际落地时,需要分别对两个模型进行训练和测试,计算量大,难以满足实时的要求。

发明内容

本申请实施例提供了一种音频处理模型训练方法及其装置,通过在音频处理模型中增加了噪音子网络层以及混响子网络层,实现同时进行去噪和去混响的训练,提升训练效率。

本申请的第一方面提供一种音频处理模型训练方法,包括:

根据去噪音频序列生成混噪音频序列,其中,混噪音频序列包括K个第一音频帧,K为大于1的整数;

对混噪音频序列进行时频特征转换,生成音频特征序列,其中,音频特征序列包括K个原始频域特征,原始频域特征与第一音频帧具有对应关系;

将音频特征序列作为音频编码模型的输入,通过音频编码模型输出音频增强特征序列;

将音频增强特征序列作为线性网络层的输入,通过线性网络层输出K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,其中,线性网络层包括聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层;

根据音频特征序列、K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,计算损失结果;

采用损失结果对音频编码模型以及线性网络层进行训练。

本申请的第二方面提供了一种音频处理模型训练装置,包括:

加噪加混响模块,用于根据去噪音频序列生成混噪音频序列,其中,混噪音频序列包括K个第一音频帧,K为大于1的整数;

时频转换模块,用于对混噪音频序列进行时频特征转换,生成音频特征序列,其中,音频特征序列包括K个原始频域特征,原始频域特征与第一音频帧具有对应关系;

音频增强模块,用于将音频特征序列作为音频编码模型的输入,通过音频编码模型输出音频增强特征序列;

映射模块,用于将音频增强特征序列作为线性网络层的输入,通过线性网络层输出K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,其中,线性网络层包括聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层;

损失结果计算模块,用于根据音频特征序列、K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,计算损失结果;

模型训练模块,用于采用损失结果对音频编码模型以及线性网络层进行训练。

在本申请实施例的另一种实现方式中,加噪加混响模块还用于:

获取去噪音频;

对去噪音频进行分帧处理以及加窗处理,得到去噪音频序列,其中,去噪音频序列包括K个第二音频帧;

对去噪音频序列进行加混响处理,得到混响音频序列,其中,混响音频序列包括K个第三音频帧;

对混响音频序列进行加噪处理,得到混噪音频序列,其中,混噪音频序列包括K个第一音频帧。

在本申请实施例的另一种实现方式中,音频处理模型训练装置还包括:标注模块,用于:

对音频特征序列中的K个原始频域特征进行标注,得到K个聚类类型标注值;

将K个第一音频帧作为K个噪音标注帧;

将K个第二音频帧作为K个去噪标注帧;

将K个第三音频帧作为K个混响标注帧。

在本申请实施例的另一种实现方式中,映射模块,还用于:

通过聚类子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个聚类类型特征;

通过去噪子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个去噪频域特征;

通过噪音子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个噪音频域特征;

通过混响子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个混响频域特征。

在本申请实施例的另一种实现方式中,损失结果计算模块,还用于:

根据K个聚类类型标注值以及K个聚类类型特征,计算聚类类型损失结果;

根据K个去噪标注帧以及K个去噪频域特征,计算去噪损失结果;

根据K个噪音标注帧以及K个噪音频域特征,计算噪音损失结果;

根据K个混响标注帧以及K个混响频域特征,计算混响损失结果;

根据聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,计算损失结果。

在本申请实施例的另一种实现方式中,时频转换模块,还用于:

对混噪音频序列中的K个第一音频帧进行特征提取,得到K个原始频域特征,其中,原始频域特征包括对数功率谱、梅尔频率倒谱系数特征中的至少一项;

将K个原始频域特征组成音频特征序列。

本申请的第三方面提供了一种音频处理方法,包括:

获取目标音频;

根据目标音频生成目标音频序列,其中,目标音频序列包括W个目标音频帧,W为大于1的整数;

对目标音频序列进行时频特征转换,生成目标音频特征序列,其中,目标音频特征序列包括W个目标频域特征,目标频域特征与目标音频帧具有对应关系;

将目标音频特征序列作为上述第一方面中任一项方法训练出的音频编码模型的输入,通过音频编码模型输出目标音频增强特征序列;

将目标音频增强特征序列作为上述第一方面中任一项方法训练出的去噪子网络层的输入,通过去噪子网络层输出W个目标去噪频域特征;

对W个目标去噪频域特征进行逆变换,得到目标去噪音频序列;

通过目标去噪音频序列生成目标去噪音频。

本申请的第四方面提供了一种音频处理装置,包括:

目标音频获取模块,用于获取目标音频;

目标音频分帧加窗模块,用于根据目标音频生成目标音频序列,其中,目标音频序列包括W个目标音频帧,W为大于1的整数;

目标音频序列时频转换模块,用于对目标音频序列进行时频特征转换,生成目标音频特征序列,其中,目标音频特征序列包括W个目标频域特征,目标频域特征与目标音频帧具有对应关系;

目标音频特征序列处理模块,用于将目标音频特征序列作为上述第一方面中任一项方法训练出的音频编码模型的输入,通过音频编码模型输出目标音频增强特征序列;

目标音频增强特征序列处理模块,用于将目标音频增强特征序列作为上述第一方面中任一项方法训练出的去噪子网络层的输入,通过去噪子网络层输出W个目标去噪频域特征;

目标去噪频域特征时频逆转换模块,用于对W个目标去噪频域特征进行逆变换,得到目标去噪音频序列;

目标去噪音频生成模块,用于通过目标去噪音频序列生成目标去噪音频。

本申请的第五方面提供了一种计算机设备,包括:

存储器、收发器、处理器以及总线系统;

其中,存储器用于存储程序;

处理器用于执行存储器中的程序,包括执行上述第一方面或第三方面提供的方法;

总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。

本申请的第六方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第三方面提供的方法。

本申请的第七方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或第三方面提供的方法。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请提供了一种音频处理模型训练方法以及相关装置,其方法包括:首先,根据去噪音频序列生成混噪音频序列,并且对混噪音频序列进行时频特征转换,生成音频特征序列;接着,将音频特征序列作为音频编码模型的输入,通过音频编码模型输出音频增强特征序列;然后,将音频增强特征序列作为线性网络层的输入,通过线性网络层输出K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征;再次,根据音频特征序列、K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,计算损失结果;最后,采用损失结果对音频编码模型以及线性网络层进行训练。本申请某一实施例提供的音频处理模型训练方法,通过在音频处理模型中增加了噪音子网络层以及混响子网络层,实现同时进行去噪和去混响的训练,提升训练效率。

附图说明

图1为本申请某一实施例提供的音频处理模型训练系统的一个架构示意图;

图2为本申请某一实施例提供的音频处理模型训练方法的流程图;

图3为本申请另一实施例提供的音频处理模型训练方法的流程图;

图4为本申请另一实施例提供的音频处理模型训练方法的流程图;

图5为本申请另一实施例提供的音频处理模型训练方法的流程图;

图6为本申请另一实施例提供的音频处理模型训练方法的流程图;

图7为本申请又一实施例提供的音频处理模型训练方法的流程图;

图8为本申请某一实施例提供的对语音音频进行去噪去混响的语音音频处理模型训练过程的示意图;

图9为本申请某一实施例提供的语音音频处理模型的结构示意图;

图10为本申请某一实施例提供的音频处理方法的流程图;

图11为本申请某一实施例提供的音频处理模型训练装置的示意图;

图12为本申请另一实施例提供的音频处理模型训练装置的示意图;

图13为本申请某一实施例提供的音频处理装置的示意图;

图14为本申请某一实施例提供的服务器结构示意图。

具体实施方式

本申请实施例提供了一种音频处理模型训练方法,通过在音频处理模型中增加了噪音子网络层以及混响子网络层,实现同时进行去噪和去混响的训练,提升训练效率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

语音增强(Speech Enhancement)的本质是语音降噪,麦克风采集的语音通常是带有不同噪声的语音,语音增强的主要目的就是从带噪声的语音中提取出不带噪声的语音。通过语音增强可以有效抑制各种干扰信号,增强不带噪声的语音信号,不仅提高语音可懂度和话音质量,还有助于提高语音识别。

语音增强技术通常可以分为近场语音增强和远场语音增强,远场语音增强拥有广泛的应用,如应用在移动终端、会议终端设备等。远场语音增强和近场语音增强相比,距离更远,信噪比更低,且通常伴有混响,所以对远场语音进行语音增强的难度更大。通常远场语音增强会利用多个麦克风组成阵列进行降噪,和单麦克风相比,用到了空间相位信息。

本申请实施例提供的方法通过在音频处理模型中增加了噪音子网络层以及混响子网络层,实现同时进行去噪和去混响的训练,提升训练效率。

为了便于理解,请参阅图1,图1为本申请实施例中音频处理模型训练方法和音频处理方法的应用环境图,如图1所示,本申请实施例中音频处理模型训练方法应用于音频处理模型训练系统。音频处理模型训练系统包括:服务器和用户终端;其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端包括但不限于会议大屏、电脑、智能语音交互设备、智能家电、车载终端、飞行器等可提供远场语音的终端设备。服务器和用户终端可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。

执行音频处理模型训练方法时,服务器首先根据去噪音频序列生成混噪音频序列,并且对混噪音频序列进行时频特征转换,生成音频特征序列;接着,将音频特征序列作为音频编码模型的输入,通过音频编码模型输出音频增强特征序列;然后,将音频增强特征序列作为线性网络层的输入,通过线性网络层输出K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征;再次,根据音频特征序列、K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,计算损失结果;最后,采用损失结果对音频编码模型以及线性网络层进行训练。

执行音频处理方法时,用户终端首先获取目标音频,然后用户终端将目标音频发送至服务器。服务器首先接收用户终端发送的目标音频,并且根据目标音频生成目标音频序列;其次,服务器对目标音频序列进行时频特征转换,生成目标音频特征序列;再次,服务器将目标音频特征序列作为音频处理模型训练方法中训练出的音频编码模型的输入,通过音频编码模型输出目标音频增强特征序列;接着,服务器将目标音频增强特征序列作为音频处理模型训练方法中训练出的去噪子网络层的输入,通过去噪子网络层输出目标去噪频域特征;然后,服务器对目标去噪频域特征进行逆变换,得到目标去噪音频序列,并且通过目标去噪音频序列生成目标去噪音频;最后,服务器将生成的目标去噪音频发送至用户终端。

下面将从服务器的角度,对本申请中音频处理模型训练方法进行介绍。请参阅图2,本申请实施例提供的音频处理模型训练方法包括:步骤S110至步骤S160。具体的:

S110、根据去噪音频序列生成混噪音频序列。

其中,混噪音频序列包括K个第一音频帧,K为大于1的整数。

需要说明的是,去噪音频是指,训练集中的无噪音无混响的音频;混噪音频是指,对去噪音频进行加噪音处理以及加混响处理得到的音频。混噪音频序列是由混噪音频进行处理得到的K个第一音频帧所组成的,去噪音频序列是由对去噪音频进行处理得到的K个第二音频帧所组成的。

可以理解的是,去噪音频序列中的K个第二音频帧均为无噪无混响的干净帧。对去噪音频进行加噪音处理以及加混响处理得到混噪音频时,可以对去噪音频序列中的部分第二音频帧加噪音特征和混响特征,即混噪音频序列中包括K

S120、对混噪音频序列进行时频特征转换,生成音频特征序列。

其中,音频特征序列包括K个原始频域特征,原始频域特征与第一音频帧具有对应关系。

需要说明的是,时频特征转换可采用快速傅里叶变换(Fast FourierTransformation,FFT)。原始频域特征与第一音频帧具有对应关系是指,原始频域特征的数量与第一音频帧的数量相同,且具有一一对应的关系。

可以理解的是,首先,将混噪音频序列中时域上的K个第一音频帧转化为频域上的K个频域特征;然后求取K个频域特征的离散功率谱;接着,对离散功率谱求对数,得到K个原始频域特征;最后,由K个原始频域特征组成音频特征序列。

S130、将音频特征序列作为音频编码模型的输入,通过音频编码模型输出音频增强特征序列。

需要说明的是,音频编码模型可以是长短期记忆(Long-Short Term Memory,LSTM)模型。LSTM是一种时间循环神经网络,是为了解决一般的循环神经网络(RecurrentNeural Network,RNN)存在的长期依赖问题而专门设计出来的。

可以理解的是,通过音频编码模型对输入的音频特征序列进行处理,得到音频增强特征序列。

S140、将音频增强特征序列作为线性网络层的输入,通过线性网络层输出K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征。

其中,线性网络层包括聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层。

需要说明的是,音频处理模型的线性网络层具有4个线性子网络层,分别是聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层。聚类类型特征是0或1的输出值,0代表音频增强特征序列中无噪音无混响的音频帧,1代表音频增强特征序列中无噪音有混响的音频帧以及有噪音有混响的音频帧。去噪频域特征是指,音频增强特征序列中无噪音无混响的音频帧。噪音频域特征是指,音频增强特征序列中有噪音有混响的音频帧。混响频域特征是指,音频增强特征序列中无噪音有混响的音频帧。聚类类型特征、去噪频域特征、噪音频域特征以及混响频域特征均为音频处理模型对音频特征序列进行处理后的预测结果。

可以理解的是,聚类子网络层对输入的音频增强特征序列进行处理,得到K个聚类类型特征。去噪子网络层对输入的音频增强特征序列进行处理,得到K个去噪频域特征。噪音子网络层对输入的音频增强特征序列进行处理,得到K个噪音频域特征。混响子网络层对输入的音频增强特征序列进行处理,得到K个混响频域特征。

S150、根据音频特征序列、K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,计算损失结果。

需要说明的是,损失结果是指音频处理模型的损失值,由音频处理模型的损失函数计算得到。

可以理解的是,用于计算损失结果的损失函数根据音频特征序列、K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征建立得到。

S160、采用损失结果对音频编码模型以及线性网络层进行训练。

需要说明的是,音频处理模型由音频编码模型以及线性网络层组成,为了使得音频处理模型更趋近于标注状态,需要通过损失结果对音频处理模型中的音频编码模型的参数和线性网络层的参数进行调整。

可以理解的是,步骤S110至步骤S160为音频处理模型的一次训练过程,在实际训练中,需要进行多次反复的训练,且每次训练均是基于上一次训练后的音频处理模型,直到音频处理模型的损失结果满足期望预设结果后,完成音频处理模型的训练。

本申请实施例提供的音频处理模型训练方法,通过在音频处理模型中增加了噪音子网络层以及混响子网络层,实现同时进行去噪和去混响的训练,提升训练效率。

在本申请的图2对应的实施例提供的音频处理模型训练方法的一个可选实施例中,请参阅图3,步骤S110进一步包括:步骤S1101至步骤S1104。

具体的:

S1101、获取去噪音频。

需要说明的是,去噪音频是指,训练集中无噪音无混响的干净音频。

S1102、对去噪音频进行分帧处理以及加窗处理,得到去噪音频序列,其中,去噪音频序列包括K个第二音频帧。

需要说明的是,分帧处理以及加窗处理均为对去噪音频进行预处理的阶段。由于音频信号具有短时平稳性,需要将音频信号进行切段,即为分帧处理;通常,10-30ms范围内都可以认为音频信号是稳定的;优选的,对去噪音频进行分帧处理,使得一帧的帧长为32ms,帧移为20ms。由于分帧后的每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与去噪音频的误差也就越大;故通过加窗处理,使分帧后的信号变得连续,使每一帧表现出周期函数的特征,以满足FFT处理的周期性要求,减少泄漏。K个第二音频帧为无噪音无混响的干净帧。

可以理解的是,对去噪音频进行分帧处理以及加窗处理均为时域上的处理过程。去噪音频序列中的音频帧均为干净帧,去噪音频序列中的所有的干净帧为第二音频帧。

S1103、对去噪音频序列进行加混响处理,得到混响音频序列,其中,混响音频序列包括K个第三音频帧。

需要说明的是,混响是指,一个空间内,声源停止发音后,声音继续存在、反弹的声学现象。对去噪音频序列进行加混响处理是为了模拟具有混响的音频。

可以理解的是,对去噪音频序列进行加混响处理时,可以对去噪音频序列中的部分第二音频帧均加混响特征,即混响音频序列包括K

S1104、对混响音频序列进行加噪处理,得到混噪音频序列,其中,混噪音频序列包括K个第一音频帧。

需要说明的是,对混响音频序列进行加噪处理为了模拟同时具有混响和噪音的音频。

可以理解的是,对混响音频序列进行加混响处理时,可以对混响音频序列中的部分第三音频帧均加噪音特征,即混噪音频序列中包括K

本申请实施例提供的音频处理模型训练方法,通过对训练集中的去噪音频依次进行加混响和加噪音处理,以模拟具有混响和噪音的混噪音频,并用混噪音频对音频处理模型进行训练。

在本申请的图3对应的实施例提供的音频处理模型训练方法的一个可选实施例中,请参阅图4,步骤S120之后,音频处理模型训练方法还包括:步骤S121。具体的:

S121、对音频特征序列中的K个原始频域特征进行标注,得到K个聚类类型标注值;将K个第一音频帧作为K个噪音标注帧;将K个第二音频帧作为K个去噪标注帧;将K个第三音频帧作为K个混响标注帧。

需要说明的是,比较同一时频点上去噪标注帧与噪音标注帧的幅度大小,作为聚类类型标注值;聚类类型标注值是0或1的输出值,0代表音频特征序列中去噪标注帧,1代表音频特征序列中噪音标注帧。

可以理解的是,通过对音频特征序列中的每个原始频域特征进行标注,以确定用于训练的音频特征序列中所有音频帧的类型。

本申请实施例提供的音频处理模型训练方法,通过标注得到的音频特征序列中所有音频帧的类型与通过音频处理模型预测得到的所有音频帧的类型进行对比,计算音频处理模型的损失结果,通过损失结果更新音频处理模型的参数值,以提高音频处理模型对音频去噪去混响的处理效果。

在本申请的图4对应的实施例提供的音频处理模型训练方法的一个可选实施例中,请参阅图5,步骤S140进一步包括:步骤S1401;具体的:

S1401、通过聚类子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个聚类类型特征;通过去噪子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个去噪频域特征;通过噪音子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个噪音频域特征;通过混响子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个混响频域特征。

需要说明的是,聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层均为音频处理模型的线性网络层。聚类类型特征用于表示,音频处理模型对音频增强特征序列进行处理,得到的聚类类型预测结果。去噪频域特征用于表示,音频处理模型对音频增强特征序列进行处理,得到的干净帧的预测结果。噪音频域特征用于表示,音频处理模型对音频增强特征序列进行处理,得到的噪音帧的预测结果。混响频域特征用于表示,音频处理模型对音频增强特征序列进行处理,得到的混响帧的预测结果。

可以理解的是,将音频增强特征序列作为聚类子网络层的输入,通过聚类子网络输出聚类类型特征。将音频增强特征序列作为去噪子网络层的输入,通过聚类子网络输出去噪频域特征。将音频增强特征序列作为噪音子网络层的输入,通过聚类子网络输出噪音频域特征。将音频增强特征序列作为混响子网络层的输入,通过聚类子网络输出混响频域特征。

本申请实施例提供的音频处理模型训练方法,通过音频处理模型中的聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层对音频增强特征序列进行预测处理,得到聚类类型特征、去噪频域特征、噪音频域特征以及混响频域特征;进而将标注得到的音频特征序列中所有音频帧的类型与通过音频处理模型预测得到的所有音频帧的类型进行对比,计算音频处理模型的损失结果,通过损失结果更新音频处理模型的参数值,以提高音频处理模型对音频去噪去混响的处理效果。

在本申请的图5对应的实施例提供的音频处理模型训练方法的一个可选实施例中,请参阅图6,步骤S150进一步包括:步骤S1501至步骤S1502。

具体的:

S1501、根据K个聚类类型标注值以及K个聚类类型特征,计算聚类类型损失结果;根据K个去噪标注帧以及K个去噪频域特征,计算去噪损失结果;根据K个噪音标注帧以及K个噪音频域特征,计算噪音损失结果;根据K个混响标注帧以及K个混响频域特征,计算混响损失结果。

需要说明的是,分别计算聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,而后根据4个损失结果计算音频处理模型的损失结果。聚类类型标注值、去噪标注帧、噪音标注帧以及混响标注帧通过步骤S121得到。聚类类型特征、去噪频域特征、噪音频域特征以及混响频域特征通过步骤S1401得到。

可以理解的是,音频处理模型的线性网络层具有4个线性子网络层:聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层,进而产生4种预测结果:聚类类型特征、去噪频域特征、噪音频域特征以及混响频域特征。对4种预测结果与对应的原始标注进行对比,得到4种损失结果:聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果。

S1502、根据聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,计算损失结果。

需要说明的是,根据聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,计算音频处理模型的损失结果时,并不是将聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果进行简单的累加,而是根据训练目的,适用性调整聚类类型损失结果的系数、去噪损失结果的系数、噪音损失结果的系数以及混响损失结果的系数。

音频处理模型的损失结果可通过以下公式表示:

loss=a

其中,loss为音频处理模型的损失结果;loss

本申请实施例提供的音频处理模型训练方法,通过聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,计算音频处理模型损失结果,通过损失结果更新音频处理模型的参数值,以提高音频处理模型对音频去噪去混响的处理效果。

在本申请的图2对应的实施例提供的音频处理模型训练方法的一个可选实施例中,请参阅图7,步骤S120进一步包括:步骤S1201至步骤S1202。具体的:

S1201、对混噪音频序列中的K个第一音频帧进行特征提取,得到K个原始频域特征。

其中,原始频域特征包括对数功率谱、梅尔频率倒谱系数特征中的至少一项。

需要说明的是,功率谱是功率谱密度函数的简称,为单位频带内的信号功率。对数功率谱是对功率谱中的每个信号功率进行求取对数得到的。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

S1202、将K个原始频域特征组成音频特征序列。

可以理解的是,首先,将混噪音频序列中时域上的K个第一音频帧转化为频域上的K个频域特征;然后求取K个频域特征的离散功率谱;接着,对离散功率谱求对数,得到K个原始频域特征;最后,由K个原始频域特征组成音频特征序列。

本申请实施例提供的音频处理模型训练方法,通过对各个离散功率谱分别进行对数计算,得到各个音频序列分别对应的各个对数功率谱,并将各个对数功率谱作为语音样本数据的原始频域特征,所有原始频域特征的集合就是音频特征序列。

为了便于理解,下面将结合图8介绍一种用于对语音音频进行去噪去混响的语音音频处理模型训练方法。客户端的近端通话只适合单人或者人数较少的近距离通话,音视频体验一般。为了进一步提升用户体验,需要研究大屏设备下的远场语音通话,例如会议终端中的远场语音通话。语音音频是时序序列,具有短时平稳性,这和长短期记忆(Long-Short Term Memory,LSTM)模型的长时记忆能力相吻合,用LSTM模型对语音音频进行处理可以保留语音音频的时序性,以达到一个很好的效果。

请参阅图8,图8是一种用于对语音音频进行去噪去混响的语音音频处理模型训练过程的示意图,包括:

步骤1:从训练集中获取去噪语音音频。

步骤2:对去噪语音音频进行分帧、加窗并进行时频转换,得到去噪语音音频序列。其中,去噪语音音频序列包括K个第二语音音频帧,并将K个第二语音音频帧作为K个去噪标注帧。

步骤3:对去噪语音音频进行加混响处理,得到混响语音音频序列。其中,混响语音音频序列包括K个第三语音音频帧,并将K个第三语音音频帧作为K个混响标注帧。

步骤4:对混响语音音频序列进行加噪处理,得到混噪语音音频序列。其中,混噪语音音频序列包括K个第一语音音频帧,并将K个第一语音音频帧作为K个噪音标注帧。

步骤5:对混噪语音音频进行分帧、加窗并进行时频转换,得到语音音频特征序列。

步骤6:比较去噪语音音频序列和语音音频特征序列在每一个时频点上的特征幅度大小,得到K个聚类类型标注值。

步骤7:将语音音频特征序列输入至LSTM模型,得到语音音频增强特征序列。

步骤8:将语音音频增强特征序列分别输入至聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层,分别得到K个聚类类型特征、K个去噪频域特征、K个噪语音音频域特征以及K个混响频域特征。

步骤9:根据K个聚类类型标注值以及K个聚类类型特征,计算聚类类型损失结果;根据K个去噪标注帧以及K个去噪频域特征,计算去噪损失结果;根据K个噪音标注帧以及K个噪音频域特征,计算噪音损失结果;根据K个混响标注帧以及K个混响频域特征,计算混响损失结果。

步骤10:根据聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,计算语音音频处理模型的损失结果。

步骤11:采用损失结果对语音音频编码模型以及线性网络层进行训练。

可以理解的是,请参阅图9,图9是语音音频处理模型的结构示意图。语音音频处理模型采用chimear++网络,chimear++网络是一个底层权重共享、多头输出的网络。语音音频处理模型包括4个网络输出端:深度聚类端(deep clustering)、去噪端(clean)、噪音端(noise)以及混响端(reverberation)。深度聚类端用于辅助降噪,深度聚类是一个基于时频点聚类的二值损失值(loss

本申请实施例提供的语音音频处理模型训练方法,在chimear++网络设计的深度聚类端、去噪端、噪音端以及混响端,通过多任务的训练方法,在不增加额外计算量的情况下,提升了语音音频处理模型降噪和去混响的性能,提升了处理后的语音的听感。

下面对本申请中的音频处理方法进行详细描述,请参阅图10,本申请实施例提供的音频处理方法包括步骤S210至步骤S270。具体的:

S210、获取目标音频。

需要说明的是,目标音频为测试集中的音频或是在音频处理模型实际使用中的音频,目标音频可以是带噪带混响的音频或不带噪带混响的音频或带噪不带混响的音频。本实施例的目的在于,对目标音频进行降噪和去混响,以得到无噪音无混响的目标去噪音频。

S220、根据目标音频生成目标音频序列。

其中,目标音频序列包括W个目标音频帧,W为大于1的整数。

需要说明的是,对目标音频进行分帧处理以及加窗处理,得到目标音频序列。分帧处理以及加窗处理均为目标音频进行预处理的阶段。由于音频信号具有短时平稳性,需要将音频信号进行切段,即为分帧处理;通常,10-30ms范围内都可以认为音频信号是稳定的;优选的,目标音频进行分帧处理,使得一帧的帧长为32ms,帧移为20ms。由于分帧后的每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与目标音频的误差也就越大;故通过加窗处理,使分帧后的信号变得连续,使每一帧表现出周期函数的特征,以满足FFT处理的周期性要求,减少泄漏。

可以理解的是,目标音频进行分帧处理以及加窗处理均为时域上的处理过程。

S230、对目标音频序列进行时频特征转换,生成目标音频特征序列。

其中,目标音频特征序列包括W个目标频域特征,目标频域特征与目标音频帧具有对应关系。

需要说明的是,时频特征转换包括快速傅里叶变换(Fast FourierTransformation,FFT)。

可以理解的是,首先,将目标音频序列中时域上的W个目标音频帧转化为频域上的W个目标频域特征;然后求取W个目标频域特征的离散功率谱;接着,对离散功率谱求对数,得到W个目标频域特征;最后,由W个目标频域特征组成目标音频特征序列。

S240将目标音频特征序列作为上述音频处理模型训练方法训练出的音频编码模型的输入,通过音频编码模型输出目标音频增强特征序列。

可以理解的是,通过训练出的音频编码模型对目标音频特征序列进行处理,得到目标音频增强特征序列。

S250、将目标音频增强特征序列作为上述音频处理模型训练方法训练出的去噪子网络层的输入,通过去噪子网络层输出W个目标去噪频域特征。

可以理解的是,通过训练出的去噪子网络层对目标音频增强特征序列进行处理,得到目标去噪频域特征。

S260、对W个目标去噪频域特征进行逆变换,得到目标去噪音频序列。

可以理解的是,将W个频域上的目标去噪频域特征进行逆变换,得到W个时域上的目标去噪音频帧,将W个目标去噪音频帧组成目标去噪音频序列。

S270、通过目标去噪音频序列生成目标去噪音频。

可以理解的是,对目标去噪音频序列进行处理,得到目标去噪音频。

本申请实施例提供的音频处理方法,通过训练后的音频处理模型对目标音频进行去噪音和去混响处理,得到无噪音无混响的目标音频;通过训练后的音频处理模型提高了对目标音频中噪音和混响的分离效果。

为了便于理解,下面将介绍一种音频处理方法,该音频处理方法通过上述训练完成的音频处理模型对待处理的目标音频进行去噪处理和去混响处理,以得到无噪音并且无混响目标去噪音频。

步骤1:接收用户终端发送的目标音频。

步骤2:然后将目标音频进行分帧处理,例如,分帧后的目标音频的帧长为32ms,帧移为20ms。

步骤3:基于此,可对分帧后的目标音频进行加窗处理,得到目标音频序列。其中,目标音频序列是连续的,并且满足FFT处理的周期性要求。该目标音频序列中包含N个目标音频帧。

步骤4:将目标音频序列中时域上的N个目标音频帧转化为频域上的N个目标频域特征。然后,求取N个目标频域特征的离散功率谱。接下来,可以对离散功率谱求对数,得到N个目标频域特征。最后,由N个目标频域特征组成目标音频特征序列。

步骤5:通过训练出的音频编码模型对目标音频特征序列进行处理,得到目标音频增强特征序列。

步骤6:通过训练出的去噪子网络层对目标音频增强特征序列进行处理,由此得到N个目标去噪频域特征。

步骤7:将N个频域上的目标去噪频域特征进行逆变换,得到N个时域上的目标去噪音频帧,将N个目标去噪音频帧组成目标去噪音频序列,以此生成生成目标去噪音频。

本申请实施例提供的音频处理方法,通过训练后的音频处理模型提高了对目标音频中噪音和混响的分离效果,实现将含有噪音和混响的目标音频转化为无噪音并且无混响的目标去噪音频。

下面对本申请中的音频处理模型训练装置进行详细描述,请参阅图11。图11为本申请实施例中音频处理模型训练装置10的一个实施例示意图,音频处理模型训练装置10包括:

加噪加混响模块110,用于根据去噪音频序列生成混噪音频序列。其中,混噪音频序列包括K个第一音频帧,K为大于1的整数。

时频转换模块120,用于对混噪音频序列进行时频特征转换,生成音频特征序列。其中,音频特征序列包括K个原始频域特征,原始频域特征与第一音频帧具有对应关系。

音频增强模块130,用于将音频特征序列作为音频编码模型的输入,通过音频编码模型输出音频增强特征序列。

映射模块140,用于将音频增强特征序列作为线性网络层的输入,通过线性网络层输出K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征。其中,线性网络层包括聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层。

损失结果计算模块150,用于根据音频特征序列、K个聚类类型特征、K个去噪频域特征、K个噪音频域特征以及K个混响频域特征,计算损失结果。

模型训练模块160,用于采用损失结果对音频编码模型以及线性网络层进行训练。

本申请实施例提供的音频处理模型训练装置,通过在音频处理模型中增加了噪音子网络层以及混响子网络层,实现同时进行去噪和去混响的训练,提升训练效率。

在本申请的图11对应的实施例提供的音频处理模型训练装置的一个可选实施例中,加噪加混响模块110还用于:

获取去噪音频;

对去噪音频进行分帧处理以及加窗处理,得到去噪音频序列,其中,去噪音频序列包括K个第二音频帧;

对去噪音频序列进行加混响处理,得到混响音频序列,其中,混响音频序列包括K个第三音频帧;

对混响音频序列进行加噪处理,得到混噪音频序列,其中,混噪音频序列包括K个第一音频帧。

本申请实施例提供的音频处理模型训练装置,通过对训练集中的去噪音频依次进行加混响和加噪音处理,以模拟具有混响和噪音的混噪音频,并用混噪音频对音频处理模型进行训练。

在本申请的图11对应的实施例提供的音频处理模型训练装置的一个可选实施例中,请参阅图12,音频处理模型训练装置还包括:标注模块121,用于:对音频特征序列中的K个原始频域特征进行标注,得到K个聚类类型标注值;将K个第一音频帧作为K个噪音标注帧;将K个第二音频帧作为K个去噪标注帧;将K个第三音频帧作为K个混响标注帧。

本申请实施例提供的音频处理模型训练装置,通过标注得到的音频特征序列中所有音频帧的类型与通过音频处理模型预测得到的所有音频帧的类型进行对比,计算音频处理模型的损失结果,通过损失结果更新音频处理模型的参数值,以提高音频处理模型对音频去噪去混响的处理效果。

在本申请的图12对应的实施例提供的音频处理模型训练装置的一个可选实施例中,映射模块140,还用于:通过聚类子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个聚类类型特征;通过去噪子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个去噪频域特征;通过噪音子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个噪音频域特征;通过混响子网络层对音频增强特征序列中的K个原始频域特征进行处理,得到K个混响频域特征。

本申请实施例提供的音频处理模型训练装置,通过音频处理模型中的聚类子网络层、去噪子网络层、噪音子网络层以及混响子网络层对音频增强特征序列进行预测处理,得到聚类类型特征、去噪频域特征、噪音频域特征以及混响频域特征;进而标注得到的音频特征序列中所有音频帧的类型与通过音频处理模型预测得到的所有音频帧的类型进行对比,计算音频处理模型的损失结果,通过损失结果更新音频处理模型的参数值,以提高音频处理模型对音频去噪去混响的处理效果。

在本申请的图12对应的实施例提供的音频处理模型训练装置的一个可选实施例中,损失结果计算模块150,还用于:根据K个聚类类型标注值以及K个聚类类型特征,计算聚类类型损失结果;根据K个去噪标注帧以及K个去噪频域特征,计算去噪损失结果;根据K个噪音标注帧以及K个噪音频域特征,计算噪音损失结果;根据K个混响标注帧以及K个混响频域特征,计算混响损失结果;根据聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,计算损失结果。

本申请实施例提供的音频处理模型训练装置,通过聚类类型损失结果、去噪损失结果、噪音损失结果以及混响损失结果,计算音频处理模型损失结果,通过损失结果更新音频处理模型的参数值,以提高音频处理模型对音频去噪去混响的处理效果。

在本申请的图12对应的实施例提供的音频处理模型训练装置的一个可选实施例中,时频转换模块120,还用于:对混噪音频序列中的K个第一音频帧进行特征提取,得到K个原始频域特征,其中,原始频域特征包括对数功率谱、梅尔频率倒谱系数特征中的至少一项;将K个原始频域特征组成音频特征序列。

本申请实施例提供的音频处理模型训练方法,通过对各个离散功率谱分别进行对数计算,得到各个音频序列分别对应的各个对数功率谱,并将各个对数功率谱作为语音样本数据的原始频域特征,所有原始频域特征的集合就是音频特征序列。

下面对本申请中的音频处理装置进行详细描述,请参阅图13。图13为本申请实施例中音频处理装置20的一个实施例示意图,音频处理装置20包括:

目标音频获取模块210,用于获取目标音频。

目标音频分帧加窗模块220,用于根据目标音频生成目标音频序列。其中,目标音频序列包括W个目标音频帧,W为大于1的整数。

目标音频序列时频转换模块230,用于对目标音频序列进行时频特征转换,生成目标音频特征序列。其中,目标音频特征序列包括W个目标频域特征,目标频域特征与目标音频帧具有对应关系。

目标音频特征序列处理模块240,用于将目标音频特征序列作为上述第一方面中任一项方法训练出的音频编码模型的输入,通过音频编码模型输出目标音频增强特征序列。

目标音频增强特征序列处理模块250,用于将目标音频增强特征序列作为上述第一方面中任一项方法训练出的去噪子网络层的输入,通过去噪子网络层输出W个目标去噪频域特征。

目标去噪频域特征时频逆转换模块260,用于对W个目标去噪频域特征进行逆变换,得到目标去噪音频序列。

目标去噪音频生成模块270,用于通过目标去噪音频序列生成目标去噪音频。

本申请实施例提供的音频处理装置,通过训练后的音频处理模型对目标音频进行去噪音和去混响处理,得到无噪音无混响的目标音频;通过训练后的音频处理模型提高了对目标音频中噪音和混响的分离效果。

图14是本申请实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows Server

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种音频处理方法和装置
  • 一种节目切换时的音频处理方法和装置
  • 一种音频处理方法及终端设备
  • 一种音频处理装置、终端设备及信号处理方法
  • 音频处理方法、装置及存储介质
  • 音频处理模型的训练方法、音频处理方法及装置
  • 音频处理模型的训练方法、音频处理方法及相关设备
技术分类

06120116489683