掌桥专利:专业的专利平台
掌桥专利
首页

语音增强模型迭代式的自监督训练方法、系统和电子设备

文献发布时间:2023-06-19 19:30:30


语音增强模型迭代式的自监督训练方法、系统和电子设备

技术领域

本发明涉及智能语音领域,尤其涉及一种语音增强模型迭代式的自监督训练方法、系统和电子设备。

背景技术

随着智能语音技术的发展,自动语音识别、说话人识别等语音技术在生活中得到了越来越多的应用。然而,这些技术在真实场景中表现的效果往往不如在实验室的理想环境下能得到的效果。导致这一差距的重要因素是真实世界中的环境噪声,环境噪声的干扰会使语音识别的准确率大大降低。可以用语音增强技术去除语音中的干扰噪声,来提升语音识别性能。

在语音增强时,通常会使用基于统计信号处理的传统方法、基于深度神经网络(增改模型训练、神经网络组合)的处理方法,或者自监督训练的方法。

在实现本发明过程中,发明人发现相关技术中至少存在如下问题:

基于统计信号处理的语音增强方法,较依赖于噪声估计算法,噪声估计算法能较为准确地估计稳态噪声,但噪声能量谱的过估计会也导致语音失真,对于噪声能量的欠估计会导致残余噪声,对非稳态噪声的估计表现较差。基于深度神经网络的方法,均存在依赖大量干净语音训练数据的问题,然而这些大量干净语音训练数据在实际应用中很难获取到。直接将自监督训练用于训练神经网络,对部分噪声类型下泛化能力较差,无法得到较好的效果。

发明内容

为了至少解决现有技术中语音增强需要大量干净语音训练数据、自监督训练难以获得较好的效果的问题。第一方面,本发明实施例提供一种语音增强模型迭代式的自监督训练方法,包括:

利用纯噪声样本对语音增强模型在第k-1阶段输出降噪后的带噪语音进行预处理,得到在第k阶段的训练数据对,其中,所述k>1,所述训练数据对包括:带噪语音以及加噪语音;

将所述第k阶段的训练数据对输入至所述语音增强模型,对所述第k阶段的训练数据对中的加噪语音进行语音降噪,得到所述第k阶段输出的降噪后的带噪语音;

基于所述第k阶段输出的降噪后的带噪语音以及所述第k阶段的训练数据对中的带噪语音的损失函数对所述语音增强模型进行第k阶段的自监督学习训练,若所述损失函数不收敛,利用所述纯噪声以及所述第k阶段输出的降噪后的带噪语音对所述语音增强模型迭代进行下一阶段的自监督学习训练,直至所述损失函数收敛。

第二方面,本发明实施例提供一种语音增强模型迭代式的自监督训练系统,包括:

预处理程序模块,用于利用纯噪声样本对语音增强模型在第k-1阶段输出降噪后的带噪语音进行预处理,得到在第k阶段的训练数据对,其中,所述k>1,所述训练数据对包括:带噪语音以及加噪语音;

语音增强程序模块,用于将所述第k阶段的训练数据对输入至所述语音增强模型,对所述第k阶段的训练数据对中的加噪语音进行语音降噪,得到所述第k阶段输出的降噪后的带噪语音;

迭代训练程序模块,用于基于所述第k阶段输出的降噪后的带噪语音以及所述第k阶段的训练数据对中的带噪语音的损失函数对所述语音增强模型进行第k阶段的自监督学习训练,若所述损失函数不收敛,利用所述纯噪声以及所述第k阶段输出的降噪后的带噪语音对所述语音增强模型迭代进行下一阶段的自监督学习训练,直至所述损失函数收敛。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音增强模型迭代式的自监督训练方法的步骤。

第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的语音增强模型迭代式的自监督训练方法的步骤。

本发明实施例的有益效果在于:使用和带噪语音不相关的噪声为噪声源,构造全新的训练数据对,并且将迭代方法应用到自监督训练中,能够和神经网络结构有效结合而不是简单地使用非纯净语音作为目标来训练。在不使用纯净训练的情况下,能够达到较优的语音增强效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法的流程图;

图2是本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法的迭代训练系统框架图;

图3是本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法的模型架构图;

图4是本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法的自监督方法语音增强架构图;

图5是本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法的训练目标数据示意图;

图6是本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法的抽样参数p示意图;

图7是本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法在VoiceBank+DEMAND数据集上的评估结果示意图;

图8是本发明一实施例提供的一种语音增强模型迭代式的自监督训练系统的结构示意图;

图9为本发明一实施例提供的一种语音增强模型迭代式的自监督训练的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语音增强模型迭代式的自监督训练方法的流程图,包括如下步骤:

S11:利用纯噪声样本对语音增强模型在第k-1阶段输出降噪后的带噪语音进行预处理,得到在第k阶段的训练数据对,其中,所述k>1,所述训练数据对包括:带噪语音以及加噪语音;

S12:将所述第k阶段的训练数据对输入至所述语音增强模型,对所述第k阶段的训练数据对中的加噪语音进行语音降噪,得到所述第k阶段输出的降噪后的带噪语音;

S13:基于所述第k阶段输出的降噪后的带噪语音以及所述第k阶段的训练数据对中的带噪语音的损失函数对所述语音增强模型进行第k阶段的自监督学习训练,若所述损失函数不收敛,利用所述纯噪声以及所述第k阶段输出的降噪后的带噪语音对所述语音增强模型迭代进行下一阶段的自监督学习训练,直至所述损失函数收敛。

在本实施方式中,对于单声道语音增强,最基础的模型可简易表示为:

y=X+n

其中

对于步骤S11,本方法的语音增强模型迭代式的自监督训练结构如图2所示,其中,y表示本轮次输入的带噪语音,该带噪语音y是由上一轮语音增强模型输出得到;n’表示纯噪声样本中与带噪语音y噪声无关的其他噪声;F

作为一种实施方式,当所述k=1时,利用纯噪声样本对原始的带噪语音进行预处理,得到在第1阶段的训练数据对。

在所述纯噪声样本中选取与所述带噪语音噪声不相关的部分纯噪声,将所述部分纯噪声按照预设的信噪比添加至所述带噪语音中,得到加噪语音。

在本实施方式中,当k=1时,也就是本方法的初始阶段准备了原始的带噪语音y,以及各种纯噪声组成的纯噪声样本。在预处理过程,分为两个部分,第一部分为数据集准备,从纯噪声样本中选择与原始的带噪语音y不相关的噪声添加至原始的带噪语音y中生成加噪语音,例如原始的带噪语音中的噪声是交通类型的噪音,就在纯噪声样本中选择不是交通类型的噪音的其他类型的噪音。其中,加噪语音中的噪声比带噪语音y的噪声更强,将带噪语音以及加噪语音作为训练数据对{(y

当k>1时,利用纯噪声样本对语音增强模型在第k-1阶段输出降噪后的带噪语音y进行预处理,具体的预处理过程与k=1时步骤相同,在此不再赘述。

对于步骤S12,将步骤S11确定的第k阶段的训练数据对输入至语音增强模型,在第k个阶段中,当k=0时直接将训练数据对{(y

那么第k次训练的训练数据对为:

其中,p∈[0,1]是从集合中采样的概率Ω

作为一种实施方式,所述语音增强模型为编码器-解码器结构,其中:

所述编码器包括多个卷积块,以及与所述多个卷积块对应的反卷积块,其中,所述多个卷积块与所述多个反卷积块之间由各卷积块注意力模块连接,所述各卷积块注意力模块由通道注意力块和频率注意力块组成;

所述编码器与所述解码器之间由多个双路块连接,其中,所述双路块包括:在频域建模的第一长短期记忆层以及在时域建模的第二长短期记忆层。

在本实施方式中,本方法对语音增强模型进行调整,如图3所示为本方法语音增强模型的结构,其中包含M个Conv2D卷积块、M个ConvTrans2D对应反卷积块和N个双路径块。Conv2D/ConvTrans2D块由Conv2D/ConvTrans2D层、批处理规范化层和PReLu(ParametricReLU,激活函数)组成。双路径块包括两个LSTM(Long Short-Term Memory,长短期记忆)层,在两个LSTM中,在第一个LSTM对频率维度进行建模,然后在第二个LSTM对时间维度进行建模。每个编码器和解码器块都与CBAM(convolutionalblock attention module,卷积块注意力模块)连接,该模块由信道关注块和频率关注块组成。

对于步骤S13,以s和

基于s和

使用SNR(SIGNAL-NOISE RATIO,信噪比)和SI-SNR(Scale invariant-SNR,尺度不变信噪比)的语音信号评估标准。

其中

MS-STFT(multi-scale-STFT,多尺度短时傅里叶变换):神经声码器领域的MS-STFT损失对语音增强非常有效。第i级STFT损失定义为:

其中||·|||

通过确定的L

通过该实施方式可以看出,使用和带噪语音不相关的噪声为噪声源,构造全新的训练数据对,并且将迭代方法应用到自监督训练中,能够和神经网络结构有效结合而不是简单地使用非纯净语音作为目标来训练。在不使用纯净训练的情况下,能够达到较优的语音增强效果。

对本方法的语音增强进行具体实验说明,选取VoiceBank+DEMAND数据集进行实验,其中,该数据集有两个训练子集,本方法使用了28个说话人的子集,共11572个对话。测试集由2个不可见的演讲人组成,共有824个语音。此外,从训练子集中随机选择1000个对话作为验证集,其余对话用作训练集。DEMAND2语料库包含18种类型的噪声,每种噪声的固定长度为5分钟。

数据集以48kHz的采样率进行采样和混合,将所有语音的采样降到16kHz。使用400个样本(25ms)的汉明窗口来分割语音信号,帧移长度为100个样本(6.25ms),傅里叶变换的FFT长度为512。输入到神经网络的帧数为157(1s)。因此,取景窗口大小W、帧数T和频率F分别为400、157和257。

为了在训练过程中获得噪声或估计语音的噪声版本,从具有随机起始位置的DEMAND中随机选择噪声类型。通过将采样语音和SNR级别从-5dB到20dB的采样噪声相加,来混合噪声较大的语音。

对于语音增强模型迭代式的自监督训练,编码器的块大小为M=3。编码器中卷积层的信道号为32、64和128。内核大小、步长和填充分别为(5,2)、(2,1)和(1,1)。因此,编码器输出的信道和频率维度分别为128和32。双路径模块的块大小为N=2。解码器的块大小与编码器相同,每个反卷积层的其他配置设置为卷积层的镜像。神经网络的模型参数的数量约为150万。

使用Xavier初始化和AdamW优化器来训练神经网络。初始学习率为0.001,使用名为“ReduceLROnPlateau”的调度器,当达到停止策略触发或达到最大300个训练周期时,训练过程停止。

本方法使用以下具有代表性的语音增强方法进行比较。选择了传统的基于MMSE(minimum mean-square error,最小均方误差)的语音增强方法(例如:OMLSA)和基于DNN(Deep Neural Networks,深度神经网络)的监督方法(例如:DCCRN)进行比较。此外,还比较了两种相关的自监督学习方法Noise2Noise和Noisy2Target。

为了评估去噪语音的质量,本方法使用SISNR、PESQ-WB(Perceptual Evaluationof Speech Quality,客观语音质量评估)以及eSTOI(extended Short-Time ObjectiveIntelligibility,扩展的短时客观可懂度)作为评估指标。

本方法首先对训练目标和抽样参数进行测试研究。如图5显示了四个训练目标的评估结果,其中采样参数p为0.5。MagNorm表示是否将估计信号的幅度归一化为输入信号。当不应用MagNorm时,只有SI-SNR训练目标成功收敛。当应用MagNorm时,SI-SNR仍然获得最佳性能。这是因为在模型训练期间在线生成训练数据对,导致混合语音的均方根(RMS)水平也是随机值。对于去噪模型,不可能学习随机RMS值。在四个训练目标中,只有将估计信号投影到参考信号上的SI-SNR对信号的RMS电平不敏感。因此,在以下实验中使用SI-SNR作为训练目标。

如图6展示了采样参数p的不同值在0.0到1.0范围内的结果,间隔为0.1。当p=0.0时,训练策略等效于Noisy2Target,其仅使用原始噪声语音作为训练目标。当p=1.0时,训练策略类似于图像去噪的迭代细化方法,其仅使用估计的语音作为训练目标。从图中可以看出,随着p的增加,性能也相应提高。当p为0.9时,PESQ-WB、eSTOI和SI-SNR得分分别达到最大值2.512、0.839和19.22dB。然而,当p增加到1.0时,得分分别降低到2.262、0.825和18.831dB。因此,在随后的比较实验中设置p=0.9。

然后进行比较实验。音频样本和补充可在线获取。如图7展示了语音库+DEMAND测试集上比较方法的评估结果,以粗体突出显示了每个评估指标的最高得分。OMLSA不需要训练,对测试集进行去噪。使用原始的设置训练DCCRN和Noise2Noise去噪模型。本方法仅使用VoiceBank+DEMAND数据集进行了Noisy2Target训练策略,测试集上的PESQ-WB、eSTOI和SI-SNR分数如图所示,p=0.0(分别为2.033、0.791和12.98dB)。

如图7中的实验结果表明:1、监督学习方法DCCRN获得最高的PESQ-WB和eSTOI分数;2、Noise2Noise方法具有比DCCRN更好的SI-SNR分数;3、Noisy2Target方法在所有度量方面都具有最差的性能,除了与传统的基于MMSE的方法OMLSA相比;4、本方法在所有度量方面产生了自监督方法中的最佳性能,并且在所有比较方法中获得了最高的SI-SNR分数。从结果中,可以得出本方法所提出的自监督方法与最先进的监督语音增强方法相比取得了可以竞争的性能。

总的来说,本方法语音增强的自监督学习方法,该方法不需要真实的干净语音。具体地说,本方法逐步构建有噪训练数据,以迭代方式训练模型。使用语音增强中常用的四个损失函数进行了广泛的实验,发现只有SI-SNR损失函数成功收敛。实验结果表明,本方法所提出的自监督方法与最先进的监督语音增强方法相比取得了可以竞争的性能。

如图8所示为本发明一实施例提供的一种语音增强模型迭代式的自监督训练系统的结构示意图,该系统可执行上述任意实施例所述的语音增强模型迭代式的自监督训练方法,并配置在终端中。

本实施例提供的一种语音增强模型迭代式的自监督训练系统10包括:预处理程序模块11,语音增强程序模块12和迭代训练程序模块13。

其中,预处理程序模块11用于利用纯噪声样本对语音增强模型在第k-1阶段输出降噪后的带噪语音进行预处理,得到在第k阶段的训练数据对,其中,所述k>1,所述训练数据对包括:带噪语音以及加噪语音;语音增强程序模块12用于将所述第k阶段的训练数据对输入至所述语音增强模型,对所述第k阶段的训练数据对中的加噪语音进行语音降噪,得到所述第k阶段输出的降噪后的带噪语音;迭代训练程序模块13用于基于所述第k阶段输出的降噪后的带噪语音以及所述第k阶段的训练数据对中的带噪语音的损失函数对所述语音增强模型进行第k阶段的自监督学习训练,若所述损失函数不收敛,利用所述纯噪声以及所述第k阶段输出的降噪后的带噪语音对所述语音增强模型迭代进行下一阶段的自监督学习训练,直至所述损失函数收敛。

本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音增强模型迭代式的自监督训练方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

利用纯噪声样本对语音增强模型在第k-1阶段输出降噪后的带噪语音进行预处理,得到在第k阶段的训练数据对,其中,所述k>1,所述训练数据对包括:带噪语音以及加噪语音;

将所述第k阶段的训练数据对输入至所述语音增强模型,对所述第k阶段的训练数据对中的加噪语音进行语音降噪,得到所述第k阶段输出的降噪后的带噪语音;

基于所述第k阶段输出的降噪后的带噪语音以及所述第k阶段的训练数据对中的带噪语音的损失函数对所述语音增强模型进行第k阶段的自监督学习训练,若所述损失函数不收敛,利用所述纯噪声以及所述第k阶段输出的降噪后的带噪语音对所述语音增强模型迭代进行下一阶段的自监督学习训练,直至所述损失函数收敛。

作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语音增强模型迭代式的自监督训练方法。

图9是本申请另一实施例提供的语音增强模型迭代式的自监督训练方法的电子设备的硬件结构示意图,如图9所示,该设备包括:

一个或多个处理器910以及存储器920,图9中以一个处理器910为例。语音增强模型迭代式的自监督训练方法的设备还可以包括:输入装置930和输出装置940。

处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。

存储器920作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的语音增强模型迭代式的自监督训练方法对应的程序指令/模块。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音增强模型迭代式的自监督训练方法。

存储器920可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器920可选包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置930可接收输入的数字或字符信息。输出装置940可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器920中,当被所述一个或者多个处理器910执行时,执行上述任意方法实施例中的语音增强模型迭代式的自监督训练方法。

上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音增强模型迭代式的自监督训练方法的步骤。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 工作量评估及模型训练方法、电子设备及存储介质
  • 数据加密、机器学习模型训练方法、装置以及电子设备
  • 数据加密、机器学习模型训练方法、装置及电子设备
  • 用于识别作弊用户的模型的训练方法、装置及电子设备
  • 一种语音增强及模型训练方法、装置和电子设备
  • 语音增强模型的训练方法、装置和电子设备
技术分类

06120115932800