掌桥专利:专业的专利平台
掌桥专利
首页

语音增强方法、电子设备和存储介质

文献发布时间:2023-06-19 19:30:30


语音增强方法、电子设备和存储介质

技术领域

本发明属于语音增强技术领域,尤其涉及语音增强方法、电子设备和存储介质。

背景技术

相关技术中,语音增强技术对麦克风收集到的语音信号进行降噪处理,用于提升语音质量和语音可懂度。语音增强作为语音应用系统的前端处理模块,是语音通信、语音识别、说话人识别等系统应用落地的重要技术手段。

语音增强技术已经有数十年的研究历史,主要可以分为传统的基于信号处理的方法,以及近年来基于数据驱动的神经网络方法。传统基于信号处理的方法优点在于无需训练数据、算法适应性强,但其缺点在于降噪效果有限。近年来发展的神经网络降噪方法优点在于闭集测试的降噪效果好,但对于未在训练集出现的噪声类型泛化能力较差。将传统的数字信号处理方法和神经网络方法相结合,能融合两者的优势,得到降噪效果更好、泛化能力更强的语音增强方法。

其中,一种基于数据驱动的神经网络方法首次使用深度神经网络用于语音降噪,其使用全连接层的深度神经网络结构,只对语音信号的幅度谱进行处理,网络的输入为带噪语音信号的幅度谱,输出为纯净语音信号的复倒谱。另一种基于数据驱动的神经网络方法采用时频掩膜估计的神经网络降噪方法,该类方法使用神经网络估计语音信号的某种时频掩膜,比如幅度谱或者功率谱的二值掩膜或比值掩膜,以及复数域的掩膜。语音降噪时,通过该掩膜与带噪语音的幅度谱、功率谱或者复数谱进行点乘即可得到降噪后的语音。除了在时频掩膜上的改进与优化,神经网络降噪方法在神经网络的结构上进行探索。例如,将卷积神经网络和循环神经网络进行组合,得到卷积循环神经网络结构,卷积网络层用于提取信号的时频信息,循环网络层用于建模语音信号的时序信息。或者,对语音信号幅度谱直接进行处理的复数神经网络结构,该网络结构对复数的实部和虚部分别进行处理,并采用复数的运算法则进行前向传播。

另一些神经网络降噪技术由于没有采用傅里叶变换的端到端时域方法,网络的输入和输出均为时域语音信号,使用编码器-解码器的网络结构实现信号特征的提取,在信号的某种特征域上进行降噪处理。此类方法的优势在于能较好地拟合训练数据,但缺点在于泛化能力较差,因而在实际工程应用中较少采用。还有有一些现有技术将传统信号处理的声码器结构和神经网络相结合,得到一种神经网络同态合成的语音增强方法。此类方法能有效地利用语音信号的物理产生模型,从而使得建模方法更为高效、降噪效果更为稳定,但该方法只能对信号的幅度谱进行处理,从而限制了算法的性能上限。

发明人在实现本申请的过程中发现:传统的基于信号处理语音增强方法,不需要训练数据,对未知的噪声有一定适应性,但其依赖噪声的跟踪和估计方法。噪声跟踪和估计算法的准确性决定了降噪算法的性能上限,但传统的噪声估计算法一般只能跟踪和估计稳态噪声,对于非稳态噪声表现较差。另一方面,基于神经网络的语音增强方法,通常未考虑语音信号本身的特点,较依赖大量的训练数据。在闭集测试中能取得较好的降噪效果,但在未知噪声类型上的泛化能力较差,存在过度降噪导致语音失真。

发明内容

本发明实施例提供一种语音增强方法、电子设备和存储介质,用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种语音增强方法,用于语音增强系统,其中,所述语音增强系统包括编码器模块、双路模块、解码器模块和合并模块,所述解码器模块包括激励解码器、声道解码器和复数谱解码器,所述方法包括:利用所述编码器模块提取原始带噪语音信号中的预设特征;利用所述双路模块对所述预设特征在频率轴进行建模处理得到频率轴特征,利用所述双路模块对所述频率轴特征在时间轴进行建模处理得到时间轴特征;利用所述激励解码器和所述声道解码器对所述时间轴特征进行处理得到时间轴分支的第一降噪语音信号;利用所述复数谱解码器对所述频率轴特征进行处理得到频率轴分支的第二降噪语音信号;利用所述合并模块将所述第一降噪语音信号、所述第二降噪语音信号和所述原始带噪语音信号进行合并得到最终的估计语音信号。

第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音增强方法的步骤。

第三方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音增强方法的步骤。

在本申请实施例的方法中,通过使用双路模块分别在时间轴和频率轴建模处理,之后分别采用不同的解码器对频率轴特征和时间轴特征进行处理,然后再进行合并,使用单解码器、多解码器的网络结构,将两者有机融合为一体,从而能实现模型复杂度更低、模型解释性更强、降噪性能更好的语音增强。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音增强方法的流程图;

图2为本发明一实施例提供的融合神经同态合成与时频掩膜估计的语音增强方法系统框图;

图3为本发明一实施例提供的神经网络具体结构图;

图4为相关技术中一般源滤波模型的图示;

图5为相关技术中语音的同态分析的图示;

图6为相关技术中用于语音增强的倒频谱分析和合成方框图;

图7为本发明一实施例提供的噪声和清洁语音的频谱图;

图8为本发明一实施例提供的在VoiceBand+DEMAND数据集上对神经网络结构的研究;

图9为本发明一实施例提供的在voicebank+demand数据集上与其他sota方法的性能比较;

图10为本发明一实施例提供的与其他SOTA方法在DNS挑战2020测试集上的性能比较;

图11是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,其示出了本申请的语音增强方法一实施例的流程图。其中,该方法用于语音增强系统,其中,所述语音增强系统包括编码器模块、双路模块、解码器模块和合并模块,所述解码器模块包括激励解码器、声道解码器和复数谱解码器。

如图1所示,在步骤101中,利用所述编码器模块提取原始带噪语音信号中的预设特征;

在步骤102中,利用所述双路模块对所述预设特征在频率轴进行建模处理得到频率轴特征,利用所述双路模块对所述频率轴特征在时间轴进行建模处理得到时间轴特征;

在步骤103中,利用所述激励解码器和所述声道解码器对所述时间轴特征进行处理得到时间轴分支的第一降噪语音信号;在一个具体示例中,利用所述激励解码器对所述时间轴特征进行信号激励部分建模处理得到激励特征,以及利用所述声道解码器对所述时间轴特征进行声道部分建模处理得到声道特征,对所述激励特征和所述声道特征进行预设处理得到处理后特征,将所述处理后特征与所述原始带噪语音信号的相位特征进行结合得到时间轴分支的第一降噪语音信号,本申请在此没有限制。

在步骤104中,利用所述复数谱解码器对所述频率轴特征进行处理得到频率轴分支的第二降噪语音信号;在一个具体示例中,利用所述复数谱解码器对所述频率轴特征进行复数谱的建模处理得到复数谱特征,将所述复数谱特征与所述原始带噪语音信号的频谱特征进行掩膜处理,得到频率轴分支的第二降噪语音信号,本申请在此没有限制。

在步骤105中,利用所述合并模块将所述第一降噪语音信号、所述第二降噪语音信号和所述原始带噪语音信号进行合并得到最终的估计语音信号。

本实施例的方法通过双路模块分别在时间轴和频率轴建模处理,之后分别采用不同的解码器对频率轴特征和时间轴特征进行处理,然后再进行合并,使用单解码器、多解码器的网络结构,将两者有机融合为一体,从而能实现模型复杂度更低、模型解释性更强、降噪性能更好的语音增强。

在一些可选的实施例中,所述利用所述双路模块对所述预设特征在频率轴进行建模处理得到频率轴特征包括:对所述预设特征进行第一次矩阵变维处理;将第一次矩阵变维处理后的特征输入至频率序列层进行处理;对所述频率序列层输出的特征进行第二次矩阵变维处理;对第二次矩阵变维处理后的特征进行层归一化处理得到频率轴特征。

在进一步可选的实施例中,所述利用所述双路模块对所述频率轴特征在时间轴进行建模处理得到时间轴特征包括:对所述预设特征进行第一次矩阵变维处理;将第一次矩阵变维处理后的特征输入至时间序列层进行处理;对所述时间序列层输出的特征进行第二次矩阵变维处理;对第二次矩阵变维处理后的特征进行层归一化处理得到时间轴特征。其中,跳跃连接能更有效地将编码器模块的信息传递给解码模块。

在进一步可选的实施例中,在所述频率轴建模的输入与所述频率轴建模的输出有一个跳跃连接,在所述时间轴建模的输入与所述时间轴建模的输出之间有一个跳跃连接。

在一些可选的实施例中,所述编码器模块包括M个二维卷积模块,每一所述二维卷积模块包括一个二维反卷积层,一个批归一化层和一个PReLU激活层;所述解码器模块中的每一种解码器包括M个二维反卷积模块,每一所述二维反卷积模块包括一个二维反卷积层,一个批归一化层和一个PReLU激活层。

在进一步可选的实施例中,每个所述二维卷积模块和对应的所述二维反卷积模块通过卷积注意力模块进行跳跃连接,所述卷积注意力模块包括通道注意力子模块和频率注意力子模块,所述通道注意力子模块在数据的通道轴进行处理,所述频率注意力子模块在所述频率轴进行处理,所述通道注意力子模块的输出和所述频率注意力子模块的输出均通过使用矩阵元素相乘得到。用卷积注意力模块进行跳跃连接能让神经网络通过学习的方式有选择性地传递信息。

在进一步可选的实施例中,所述语音增强系统在训练时将所述估计语音信号与预期的纯净语音信号计算代价函数误差,将所述代价函数误差使用反向传播更新所述语音增强系统的神经网络模型参数,训练时每一轮对训练数据进行随机打乱,以不断迭代更新所述模型参数,直至所述代价函数误差不再明显减少时停止训练。

在进一步可选的实施例中,所述代价函数包括在多尺度短时傅里叶代价函数的基础上添加时域的L1代价函数。

需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。

发明人发现上述缺陷主要是由以下原因导致的:基于信号处理的语音增强方法,其缺陷是由于噪声跟踪和估计算法导致的,对于噪声能量谱的过估计会导致语音失真,对于噪声能量的欠估计会导致残余噪声。一方面,神经网络降噪方法,在短时傅里叶变换域或者某种网络变换域进行降噪,未考虑语音信号的物理生成模型,因而建模的稳定性较差,需要海量的训练数据。另一方面,基于声码器合成方法的语音增强方法,虽然考虑了语音信号的物理生成模型,但只对语音信号的幅度谱进行处理,这限制了算法的性能上限。

为了解决神经网络算法复杂度高、模型泛化能力较差的缺陷,当前学术界和工业界的从业人员一般通过设计更为精妙的神经网络结构单元,构建更复杂的代价函数,以及使用更多的训练数据。然而,这些方法均没有考虑语音信号本身的特性,一般只在时频域估计时频掩膜或者直接估计纯净语音信号。基于声码器的语音增强方法,无论是传统的声码器还是神经网络声码器,虽然考虑了语音信号的特性,但其算法复杂度仍然较高,难以应用于工程实践。

借鉴神经网络声码器的思想所实现的语音增强方法,融合了神经网络降噪与声学特征表示两者的优点,能在一定程度上实现算法复杂度较低、降噪性能较好的语音增强方法。但其通常只能针对语音信号的幅度谱进行处理,降噪后的语音信号只能使用带噪相位或者隐式地估计得到的相位,这种处理方式在一定程度上限制了降噪算法的性能上限。

为了解决上述缺陷,本申请实施例将复数谱神经网络降噪方法,融合到神经同态合成语音增强方法中,使用单解码器、多解码器的网络结构,将两者有机融合为一体,从而能实现模型复杂度更低、模型解释性更强、降噪性能更好的语音增强。

请参考图2,其示出了本申请一实施例提供的融合神经同态合成与时频掩膜估计的语音增强方法系统框图。其将神经同态合成的语音增强方法与时频掩膜估计的语音增强方法融为一体。该框架主要包括一个编码器模块,一个双路信号建模模块,三个解码器模块,以及一个信号合并模块。如果只使用激励解码器和声道解码器的输出,即为基于倒谱分析与合成的神经同态合成语音增强方法;如果单独使用复数解码器的输出,即为时频掩膜语音增强方法。以下对图2中各个模块进行介绍:

编码器模块,输入为带噪语音信号,输出为经过变换之后特征,用于提取输入语音信号的时频特征,一般采用卷积神经网络实现,具体网络结构在后续介绍。

双路模块,输入为编码器的输出,输出为经过处理之后的特征,用于对时序信号进行建模,分别在时间轴和频率轴进行处理,因而称之为双路模块,具体网络结构在后续介绍。

三个解码器模块,激励解码器、声道解码器、复数谱解码器,输入为双路模块的输出,分别完成信号激励部分、声道部分、以及复数谱的建模,三个解码器的网络完全一致,具体网络结构在后续介绍。激励解码器的输出和声道解码器的输出进行卷积得到最小相位语音信号,再与带噪相位进行结合得到一个分支的降噪语音信号。复数谱解码器的输出与带噪频谱进行掩膜处理,得到另一个分支降噪后的语音信号。

合并模块,输入两个分支的降噪信号,以及原始带噪语音信号,通过合并模块之后得到最终的估计语音信号。此模块的网络结构与编码器结构类似,也采用卷积神经网络实现。

除此之外,图2中省略了预处理以及后处理模块。预处理模块包括对信号进行加窗和分帧处理,以及进行傅里叶变换到频域。比如,对于采样率为16kHz的语音,使用汉明窗分帧,帧长为400个采样点(即25ms),帧移为100个采样点(即6.25ms),再使用512点的快速傅里叶变换得到傅里叶频域信号。后处理模块包括重叠相加,以及反傅里叶变换过程,最终得到时域语音信号。

继续参考图3,其示出了本申请实施例所采用的神经网络具体结构图。

如图3所示,编码器包括M个二维卷积模块、双路模块包括N个双路序列模块,解码器包括M个二维反卷积模块,其中每个二维卷积模块和二维反卷积模块通过卷积注意力模块进行跳跃连接,以下分别对各个模块进行介绍:

二维卷积模块,该模块包括一个二维卷积层,一个批归一化层以及一个PReLU激活层。

二维反卷积模块,该模块与二维卷积模块类似,其包括一个二维反卷积层,一个批归一化层以及一个PReLU激活层。

双路序列模块(即双路模块),首先在频率轴进行建模,其中包括一个矩阵变维步骤、频率序列层、再次进行矩阵变维、以及层归一化;然后在时间轴进行建模,其步骤与频率轴建模类似,其中包括一个矩阵变维步骤、时间序列层、再次进行矩阵变维、以及层归一化,其中,双路序列模块是串联结构,其输入是前一个模块的输出。此外,在输入与频率轴建模的输出有一个跳跃连接,在时间轴建模的输入与输出之间也有一个跳跃连接,这两个跳跃连接均使用矩阵元素相加,其中,跳跃连接的作用是更有效地传递信息,此处分别在两个维度进行。

卷积注意力模块,包括通道注意力和频率注意力,这两个子模块分别在数据的通道轴和频率轴进行处理,并使用矩阵元素相乘得到各个子模块的输出,在本申请实施例中,神经网络所有的数据维度都是B*C*F*T,即batch*channel*frequency*time,此处通道轴是第二个轴。

本申请实施例提出的语音增强方法的实施,在本领域常用的VoiceBank+DEMAND数据集,以及DNS Challenge数据集上进行了验证。主要分为以下几个步骤:

1.训练数据准备阶段

VoiceBank+DEMAND数据集为已经进行信号和噪声混合的数据,并单独划分了测试集,只需要将训练集划分出少量(比如1000条)语音作为训练过程的校验集即可。DNSChallenge数据集为提供训练数据集,只提供了纯净语音和噪声数据,以及预先混合的测试数据,所以数据准备阶段先生成300小时无混响训练数据以及200小时有混响,混合信噪比使用-5dB~20dB随机值,并随机选取1000条语音作为训练过程的校验集。

2.模型训练阶段

模型训练阶段将带噪语音作为图2的输入,经过编码器、双路模块、解码器、以及信号合并模块之后得到估计的纯净语音,将估计的语音与预期的纯净语音计算代价函数误差,将此误差使用反向传播更新神经网络参数。训练过程的每一轮都对训练数据集进行随机打乱,不断地迭代更新模型参数,当代价函数在校验集上的误差不再明显减少时停止训练。

模型训练采用多尺度短时傅里叶代价函数,其公式为:

其中,

式中,I表示傅里叶变换的集合。

3.语音增强模型推理阶段

模型在测试集上各种测试指标(如PESQ、SNR等)达到预期之后,将系统和模型工程化部署到设备或者服务器上进行语音增强推理,其流程按照图2所示,输入为带噪语音,输出为降噪之后的语音。

本申请实施例在考虑弥补神经同态合成降噪只进行幅度谱处理的缺陷时,考虑了以下两种方案:

1.通过另外的级联模块单独进行相位处理、只从幅度谱恢复相位,实验结果表明,该模块的较难训练,且恢复得到的相位不够准确,重建的语音质量较差。

2.将时频掩膜降噪作为神经同态合成降噪的前处理或者后处理模块,也即是级联的方式,但方案会明显增加模型复杂度,且两级模型的训练更为困难。

本申请实施例方案通过共享编码器模块与中间的双路模块的方式,实现了更为精简的网络结构,各个解码器模块实现各自的功能,最后通过合并模块实现多分支信号的融合。

本申请实施例将复数域时频掩膜估计方法和神经同态合成降噪方法融合为一个整体,而不是简单地级联。该方案对于语音增强领域是一种全新的尝试,可能会出现类似方案,比如将其他声码器的语音增强方法与复数域时频掩膜方法的融合,从而能解决声码器语音增强方法无法显示地估计相位的问题。

以下通过具体的实验和实验数据验证本申请实施例相对于现有技术具有的有益效果。

语音增强是指抑制背景噪声,以提高含噪语音的感知质量和可懂度。近年来,基于深度神经网络(DNN)的语音增强算法已经取代了传统的基于统计信号处理的算法,成为研究领域的主流。然而,大多数基于DNN的语音增强方法通常工作在频域,而没有使用语音生成模型,这使得这些模型容易对噪声抑制不足或对语音抑制过度。为了解决这一缺陷,本申请实施例提出了一种融合了神经同态合成和复数频谱掩膜的新型语音增强方法。具体来说,本申请实施例使用了一个共享编码器和多解码器的神经网络架构。对于神经同态合成,通过同态滤波将语音信号分解为激励和声道两部分,使用两个DNN解码器分别估计目标信号,并通过估计的最小相位信号和带噪相位合成降噪后的语音。对于复数频谱掩膜,采用另一个DNN解码器来估计目标语音的复数掩膜,并通过掩蔽操作得到降噪后的语音。这两个分支分别估计语音信号,并通过合并模块对这两个分支的语音得到最终增强后的语音。在两个流行数据集上的实验结果表明,该方法在大多数评估指标中都达到了最先进的性能,而模型参数量只有920K。

本申请实施例的贡献可以总结为以下几点:

1)本申请实施例提出了一种新的语音增强方法,它结合了神经同态合成和复杂频谱去噪器的优点。

2)本申请实施例设计了一个新颖的多解码器神经网络结构,以预测分解后的语音成分和平行的复杂频谱。

3)本申请实施例采用复杂的神经网络块来构建本申请实施例的网络,从而使提出的模型只有92万个参数。

在两个流行的基准数据集(即VoiceBank+DEMAND[36]和DNS Challenge)上的实验结果表明,新提出的方法在大多数评估指标上达到了最先进的(SOTA)性能,并且在模型参数数量上更有竞争力。

神经同态合成

A.源-滤波模型

源滤波模型在数字语音处理中被广泛使用。它假定短时语音信号是由激励信号和线性时变系统的调制产生的。图4示出了语音产生的一般源滤波模型。左边的虚线框代表激励信号e(n)的简化版本。对于无声语音,e(n)是一个随机噪声发生器u(n)的输出。对于有声语言,e(n)被假定为准周期脉冲序列p(n)和声门脉冲g(n)的调制。线性时变系统h(n)是由声门和辐射系统组合而成。为了简洁起见,后续实施例称为声道系统。因此,语音段x(n)由e(n)和h(n)的卷积来表示:

x(n) = e(n) * h(n) (1)

如图4所示,e(n)是激励信号,h(n)是声道系统,x(n)是语音信号。

图5示出了语音的同态分析。图5中的(a)示出了短时傅里叶变换的幅度((重线表示声道频谱的估计值),图5中的(b)示出了激励频谱的估计值。

按照源滤波模型,图5展示了对有声语段的同态分析。图5中的(a)显示了开窗语音信号的DFT(细线),即|FFT{x(n)}|,和声带频谱的估计(重线),即|FFT{h(n)}|。图5中的(b)显示了激励谱的相应估计,即|FFT{e(n)}|。从图中,可以清楚地看到,语音片段可以被分解成两个部分:激励和声道。本申请实施例将在后面给出去卷积程序的细节。

B.语音的短时倒频分析和合成

给定一段语音信号x(n),使用离散傅里叶变换(DFT)和反DFT(IDFT)的近似特征系统进行卷积,得到复数倒谱:

然后,在倒频域的线性滤波器(即升降机)中:

其中nco是截止阙值,用来把

最后,应用e(n)和h(n)的循环卷积,得到恢复的语音段:

(2)和(3)中的方程式指的是短时倒谱分析,(4)和(5)指的是相应的合成。在数学上,这两个程序是完全可逆的。也就是说,(2)中的x(n)与(5)中的

然而,应该注意的是,(2)中的复数对数有唯一性问题。具体来说,给定x(n)的傅里叶变换,

对于去卷积程序,必须确保以下公式:

在(6)中,

与(2)中的复数倒频谱类似,实数倒频谱被定义为:

c(n)=IFFT{log|FFT{x(n)}|}(8)

然后,应用(3)中的提升器来获得相应的实数版激励

其中w

最后,x(n)的原始相位被用来合成语音段:

实倒频和复倒频分析/合成的主要区别是,倒频只对幅度谱进行操作,并使用原始相位来合成语音。

从理论上讲,无论是实倒频谱分析还是复倒频谱分析,将语音片段分解为激励和声道的过程都对背景噪声不敏感。让n(n)和y(n)表示加性噪声和噪声语音,那么,y(n)可以被表述为:

应用(2),可以得到:

其中

使用神经同态合成的语音增强

另一方面,神经声码器可以从无噪音的声学特征(如Mel-spectrogram,基频等)产生高保真的语音。然而,对于有噪音的声学特征,合成的语音的感知质量和可懂度会急剧下降。相比之下,语音增强算法通常可以从嘈杂的语音中获得可接受的语音质量,即使是在低信噪比下。因此,将语音去噪模型和神经声码器整合为一个整体,有望获得高质量的语音增强算法。

在相关技术中,将一个基于DNN的复杂去噪器整合到一个复杂倒谱分析和合成声码中。具体来说,我们使用两个复值DNN来分别估计目标语音的激励和声道的复数频谱。将两个DNNs与(4)相融合,得到:

其中F

为了克服这个缺点,在相关技术中提出了一个实值版的基于神经同态合成(NHS)的语音增强方法(即NHS-MagSE)。将两个DNNs集成到(9)中,得到:

其中F

图6用于语音增强的倒频谱分析和合成方框图。1)应用倒频谱分析得到倒频谱表示,2)提升得到激励和声道,3)采用倒频谱反转,其中包括DNN的可训练参数,得到时域信号,4)应用循环卷积,5)使用原始相位合成增强的语音。

NHS-MagSE的详细框图见图6。为了简单起见,图中没有包括预处理(即成帧)和后处理(即重叠添加)。首先,倒谱分析(8)(包括DFT、对数幅度和IDFT)被应用于语音段。第二,用(3)的升降器分离频谱,得到激励和发声。第三,采用两个倒谱反转(15)(包括DFT、指数、DNNs正向传播和IDFT),分别得到两个成分的时域表示。之后,采用循环卷积法(10)来获得估计的语音信号。最后,原始相位被用来合成增强的语音(11)。

与NHS-SE相比,NHS-MagSE可以有效避免引入合成噪声的问题。此外,NHS-MagSE只使用实值神经网络,这有利于模型的占用率。与主流的基于DNN的语音增强方法相比,NHS-MagSE的优势在于NHS-MagSE利用了语音生产模型,这使得它能有效地对语音信号的物理属性进行建模,从而在相同的参数数量下获得更好的建模能力。为了充分利用基于NHS的语音增强算法的优势,本文将采用NHSMagSE作为集成方法的一个分支。下一节将介绍所提出的集成语音增强方法的细节。

III.综合方法

A.概述

单声道语音增强的问题可以被表述为,在给定的噪声观测值y(n)的情况下,估计地下干净的语音x(n)。让x∈R

继续参考图2,在本申请实施例的语音增强方法的概述中,包括一个共享编码器、双路径块、三个解码器和一个合并块。仅使用激励解码器和声道解码器的输出对应于NHS-MagSE方法。只使用复谱解码器的输出对应于流行的基于DNN的方法。本申请实施例的方法合并了这两种方法的输出。

继续参考图3示出的神经网络的结构。左上是编码器-解码器结构,包括CBAMs(左下)、双路序列模块(右上)和Conv2D/ConTrans2D块(右下)。

在图2示出的语音增强方法的概况中,噪声输入Y

B.神经网络架构

本申请实施例使用带有跳过连接的编码器-解码器架构来构建深度神经网络。图3说明了神经网络的结构。左上是编码器-解码器网络的框架,其中包括CBAM(左下)、双路径块(右上)和Conv2D/ConTrans2D块(右下)。我们将在后续实施例中介绍每个构件的细节。

1)编码器和解码器。编码器由M个二维卷积(Conv2D)块组成,预计将输入特征转化为潜在空间。同样,解码器由M个二维卷积(ConTrans2D)块组成,预计将特征从潜伏空间转化回原始空间。图3的右下方显示了Conv2D和ConTrans2D块的细节,分别由Conv2D和ConTrans2D层组成,然后是批量归一化层和PReLu激活。

具体来说,编码器的块大小M为3,三个卷积层的通道数分别为16、32和64。对于前两个卷积层,核大小、跨度和填充分别为(5,2)、(2,1)和(1,1)。对于最后一个卷积层,内核大小、跨度和填充分别是(1,1)、(1,1)和(0,0)。因此,编码器的输出为D∈R

2)卷积块注意模块。这表明,在每个编码器和解码器块之间添加一个卷积块注意模块(CBAM)可以有效地提高性能,而不是直接跳过连接,参数开销可以忽略不计。图3的左下方是CBAM的Bolck图,由一个信道注意块和一个频率(ffeq.)注意块组成。

通道注意块由两个平行的池化层和一个有两层的共享线性块组成。让第i个编码器块的输出为Y

其中σ是sigmoid激活,W1和W2是共享线性块的权重,

频率注意块,其输入是前一个通道注意块的输出,由两个串联的池化层和一个Conv2D块组成。频率注意门G

其中σ是sigmoid激活,fconv是Conv2D块。

3)双路径块。双路径(即两阶段)块最初被提出用于语音分离,并被证明在语音增强中是有效的。双路径块首先用一个序列神经网络块对频率维度建模,然后用另一个序列神经网络块对时间维度建模。图5的右上方是双路径序列模型(DP SeqModel)块的框图,它主要由一个频率序列层(SeqLayer)和一个时间序列层组成。双路径块常用的序列层包括递归神经网络(RNN)、变换器、构型器等。本申请实施例将在实验部分描述序列层的选择。

如图3所示,双路径块的输入是编码器的输出,即D∈R

4)合并块。如图2所示,激励解码器和声带解码器的输出产生一个去噪语音分支(即NHS-分支),复谱解码器的输出产生另一个去噪语音分支(即Complex-分支)。本申请实施例在时域中应用一个合并块来合并这两个去噪的语音。

让D

对于复数解码器,应用与频域中的噪声语音的掩蔽操作(即点乘),以获得去噪语音的估计:

其中[Y

本申请实施例使用两个去噪语音和时域中的噪声语音来组成合并块的输入特征,

最后,通过重叠和加法得到一批一维时域语音信号。

损失函数

在语音增强领域,常用的损失函数是SNR、尺度不变SNR(SI-SNR)和均方误差(MSE)。然而,多尺度STFT(MS-STFT)损失可以为基于NHS的语音增强方法获得更好的性能。MS-STFT损失最初是为训练基于DNN的声码器而设计的,并被证明对波形域语音增强有效。让

其中//·//

最近的相关工作显示了采用跨域损失函数的优势。结合频域和时域的联合损失函数可以进一步提高语音质量。因此,在MS-STFT损失的基础上加上估计语音和清洁语音的L1损失,形成最终的损失:

其中I是实验部分详述的FFT尺寸集。

IV.实验

A.数据集

本申请实施例在两个公开可用的数据集上评估所提出的方法,VoiceBank+DEMAND数据集1和DNS Challenge数据集2。

1)VoiceBank+DEMAND:它是一个小规模的数据集,广泛用于衡量语音增强算法的性能。清洁的语音是从VoiceBank语料库中收集的。原始训练集有两个子集:一个子集包含28个英格兰口音地区的说话者,另一个子集包含56个苏格兰和美国口音地区的说话者。本申请实施例将这两个子集合并,共34647个语料(约27小时),并随机选择33647个语料进行训练,其余1000个语料进行验证。测试集包含872个来自2个未见过的英国人的语料。对于训练和验证测试,来自DEMAND语料库的8种真实噪声类型和2种人工噪声被用来生成混合语料,信噪比水平为0dB、5dB、10dB和15dB。对于测试集,来自DEMAND的五种未见过的噪声类型被用来生成不同信噪比水平为2.5dB、7.5dB、12.5dB和17.5dB的混合语料。该数据集是以48kHz的频率记录和混合的,在本申请实施例的实验中,将所有的语料降频为16kHz。

2)DNS挑战:这是一个大规模的数据集,包括来自11,350名发言人的500多个小时的干净语音,来自Audioset和Freesound的150个类别的60,000多个噪声剪辑,以及100,000多个房间脉冲响应(RIRs)剪辑。对于训练,本申请实施例使用相关技术提供的合成工具生成了300小时无混响的noisyclean对和200小时有混响的noisy-clean对,SNR水平随机在-5dB和20dB之间。因此,本申请实施例合成了60,000个噪声-清洁对,并随机选择其中的1,000个作为验证集。评估集包括150个有混响(即有混响)和无混响(即无混响)的合成噪声-清洁对,SNR范围分别为0~25dB。

3)数据扩增。这表明,数据增强可以有效地提高神经网络模型的泛化性能,特别是对于小规模的数据集。因此,对于VoiceBank+DEMAND数据集,本申请实施例采用了以下两种数据增强方法:1)Remix,给定一批噪声-清洁训练对(y,x),本申请实施例首先得到噪声,n=y-x,然后将噪声n与批轴一起洗牌;最后,本申请实施例将洗牌后的噪声n′与清洁语音y′=x+n′相加,得到新的噪声混合物。2)BandMask,与SpecAug增强法类似,BandMask使用带阻滤波器随机去除20%的Mel规模的频率信号。

B.实验设置

1)配置。在本申请实施例的实验中,语音信号被帧为400个样本(25ms),使用一个跳长为100个样本(6.25ms)的hamming窗口,FFT大小为512。块大小,即送入神经网络的帧的数量,被设定为637(4s)。(3)中用于分离倒频的截止阙值被设置为29,相当于16000/29≈550Hz的频率。根据设置,频率仓的数量F为257,帧的数量F为637。除非另有规定,否则批量大小B被设定为12。双路径块的数量N取决于序列层的选择,将在下面的小节中描述。对于(22)中的MS-STFT损失,本申请实施例采用长度为{1200,600,240}的汉宁窗,重叠率为75%,并使用窗长的下一个2次方的FFT尺寸。

2)训练细节。所有层的权重都用Xavier初始化,并由AdamW优化器优化,初始学习率为0.001。学习率以0.5的系数降低,在监测验证损失时耐心等待5个epochs。本申请实施例还采用了早期停止策略,对VoiceBank+DEMAND和DNS Challenge数据集的耐心分别为11次和7次。这两个数据集的最大训练历时分别被设定为300和50。本申请实施例用PyTorchLightning框架在Python中实现算法,并在高性能计算(HPC)中心进行所有实验。

评价指标

本申请实施例使用以下措施来评估增强的语音质量。

-PESQ:本申请实施例选择宽频带版本的语音质量感知评估(PESQ),得分范围为-0.5至4.5。

-SI-SNR:尺度不变的信噪比,这是一个广泛用于端到端语音分离的时域测量。

-STOI/eSTOI:短时客观可懂度或其扩展版本,扩展STOI,评分范围为0至1.0。

-SegSNR:分段信噪比的测量。

-CSIG:信号失真综合测量,遵循ITU-T P.835方法,评分范围为0至5。

-CBAK:与CSIG类似,测量噪声失真。

-COVL:与CBAK类似,衡量整体质量。

对于所有的指标,分数越高表示语音质量越好。

D.神经网络结构的研究

本申请实施例在VoiceBank+DEMAND数据集上研究神经网络架构,并使用PESQ、eSTOI和SI-SNR作为评价指标。还研究了每个模型的模型参数数量和计算复杂性。

图7示出了噪声(左上)和清洁(右上)语音的频谱图,估计的激励(右中)和声带(左中),以及VoiceBand+DEMAND测试集(ID:P232258)的NHS(左下)和复合(右下)分支的输出图示。

图8示出了在VoiceBand+DEMAND数据集上对神经网络结构的研究。其中,中英文对照如下:Noisy:含噪语音,#Params:参数量,FLOPs:计算量,NHS-branch:神经同态合成分支,Complex-branch:复数频谱掩膜分支,Integrated:结合;block:块,transfomer:一种序列模型,confomer:卷积增强的transfomer,GFLOPS:Giga Floating-point OperationsPer Second,每秒10亿次的浮点运算数,PESQ能够用于编解码或系统评估、选择和优化,SI-SNR:scale invariant signal to noise ratio,刻度不变信噪比,STOI:Short-TimeObjective Intelligibility,短时客观可懂度。

1)多分支结构的影响。本申请实施例首先研究多分支结构的影响,结果见表一第三行至第五行。NHS-branch、Complex-branch和Integrated分别表示只使用激励解码器和声道解码器,只使用复谱解码器的输出,以及整合NHS-branch和Complex-branch的输出。对于这三个模型,本申请实施例使用长短时记忆(LSTM)RNN作为双路径块的构建模块,块大小为2。结果表明,NHS分支和Complex分支获得了互补的结果:NHS分支在时域语音质量测量(即SI-SNR)方面获得了较高的分数,而Complex分支在频域语音质量测量(即PESQ和eSTOI)方面获得了较高的分数。综合方法在所有评价指标上都比NHS-分支和Complex-分支方法获得更高的分数。图7说明了噪声和清洁语音的频谱图,估计的激励和声带,以及来自VoiceBand+DEMAND测试集(id:p232 258)的NHS和复合分支的输出。图中显示,估计的激励和声带成分分别给出了语音信号的信息,特别是谐波结构的曲线。NHS分支和Complex分支的输出给出了互补的频谱:NHS分支给出了更详细的语音信号信息,而它倾向于引入类似于盐和胡椒噪声的失真;Complex分支给出了平滑的语音频谱,而它倾向于过度压制语音。通过整合这两个输出,过度抑制的频谱可以由NHS分支的输出来补偿。

2)双路径块的选择。本申请实施例研究双路径块的选择,结果显示在表一的底部两行。Transformer和Conformer表示采用改进的Transformer和Conformer作为双路径块的构建模块。对于Transform和Conformer,块大小N为4和2,导致模型的足迹和计算复杂度分别为78万和2.49GFlops,87万和10.52GFlops。结果显示,用Transformer模块取代LSTMRNNs,计算复杂度增加了一倍,没有改善PESQ和eSTOI得分,只在SI-SNR方面获得了微小的改善。结果还显示,与LSTM RNN相比,Conformer的PESQ和eSTOI得分没有提高,SI-SNR只提高了约0.5dB,代价是计算复杂度增加了8倍。基于本研究的结果,本申请实施例在以下实验中使用LSTM RNNs作为双路径块的构建模块。

E.与其他SOTA方法的比较

图9示出了在voicebank+demand数据集上与其他sota方法的性能比较,'-'表示原论文中没有给出结果,预训练模型不可用。with reverb:混响,no reverb:无混响,ours:本申请实施例提出的方法。

图10示出了与其他SOTA方法在DNS挑战2020测试集上的性能比较,'-'表示原始论文中没有给出结果,预训练的模型不可用。

1)比较的方法。本申请实施例选择了几种最新的基于SOTA DNN的语音增强方法进行比较。根据神经网络的输入特征,比较的方法可以分为时域方法(如DEMUCS和TSTNN)和TF域方法(如MetricGAN/MetricGAN+,DCCRN/DCCRN+,GaGNet,SN-Net,FRCRN,CMGAN,DB-AIAT,FullSubNet和HGCN+(以上缩写均为现有技术中相关模型的名称,在此不作赘述))。时域方法直接将语音波形反馈给神经网络,而TF域方法首先采用STFT来获得TF表示,然后将TF特征反馈给神经网络。更具体地说,TF域方法可以细分为大小谱方法(如MetricGAN/MetricGAN+、FullSubNet)、复谱方法(如DCCRN/DCCRN+、SN-Net、FRCRN、HGCN+),以及复合谱方法(如GaGNet、CMGAN、DBAIAT)。幅值频谱方法只对幅值频谱进行操作,并使用嘈杂的相位频谱来合成增强的语音。复值频谱方法同时对复值频谱的实数和虚数进行操作。复合频谱方法使用复值频谱的实数、虚数和幅度分量来构成输入特征。

另一方面,比较的方法可分为单分支和多分支(如SN-Net、CMGAN和DB-AIAT)方法。多分支方法采用两个分支的神经网络平行处理信号中各自的成分,并将两个输出结合起来以获得增强的语音。

根据上述分类和分析,本申请实施例所提出的方法采用复数频谱和激励和声带的幅度频谱作为输入特征,并将两个神经网络的输出合并以获得增强的语音,可以归入多分支的范畴,是复合频谱方法的延伸。

2)对比方法的评估。本申请实施例用PESQ和STOI作为评价指标,在两个数据集上进行了比较实验,STOI分数以百分比显示。此外,为了使评价结果具有可比性,本申请实施例对VoiceBank+DEMAND数据集采用SegSNR、CSIG、CBAK和COVL。此外,本申请实施例还对DNS挑战赛数据集使用了PESQ(PESQ-NB)的窄带版本和SI-SNR。音频样本和补充资料在网上提供。

图9显示了比较的方法在VoiceBank+Demand测试集上的评估结果,其中'-'表示原始论文中没有给出结果,作者没有公布源代码和预训练模型。表格中每个评价指标的最佳得分以粗体表示。需要注意的是,为了公平比较,表中CMGAN的得分是没有使用判别器的结果(CMGAN使用MetricGAN作为额外的判别器来优化PESQ得分)。总的来说,结果显示TF域方法超过了时域方法,复谱方法超过了量级谱方法,复合谱方法超过了复谱方法,多分支方法战胜了单分支方法。从结果中可以看出,在相同的模型参数数(即92万)下,本申请实施例所提方法的大部分评价得分都明显超过了TSTNN方法。此外,所提出的方法在CSIG和COVL方面也优于目前的先进方法(即CMGAN和DB-AIAT)。

CSIG和COVL,而模型参数不到一半。

图10显示了比较的方法在DNS挑战赛2020测试集上的评估结果。NSNet2是DNS挑战赛的基线方法,它使用直接的递归网络结构和对数功率谱作为输入特征。DCCRN[30]在2020年DNS挑战赛中取得了第一名,FRCRN和HGCN+在2022年DNS挑战赛中获得第二名和第五名。总的来说,图10的结果与图9的趋势相似,复谱方法(如DCCRN/DCCRN+)超过了量谱方法(如NSNet2),多分支方法(如SN-Net)超过了单分支方法(如GaGNet)。结果表明,与其他SOTA方法相比,所提出的方法取得了有竞争力的性能。具体来说,本申请实施例的方法在无混响测试集的PESQ-NB和STOI方面获得了最高分,在混响测试集的所有评价指标中获得了最高分。此外,本申请实施例的方法只有92万个模型参数。相比之下,其他SOTA方法有超过300万个模型参数。

从图9的VoiceBank+Demand测试集和图10的DNS Challenge测试集的结果来看,本申请实施例可以得出以下结论。1)提出的新型多分支方法比单分支方法更有效地提高了语音质量;2)提出的方法在大多数评价指标上都达到了SOTA的性能,并且在模型参数数量上比其他SOTA方法更有效率。

V.结论

在这项工作中,本申请实施例提出了一种融合了神经谐波合成和频谱掩码的新型语音增强方法。基于神经谐波合成的语音增强分支采用同态解除法获得语音信号的激励成分和声带成分,利用两个DNN模块估计分离成分的目标幅度频谱,并以最小相位信号和噪声相位合成去噪语音。同时,基于频谱掩码的分支估计了目标频谱的掩码,并通过掩码的复合频谱获得去噪语音。最后,通过合并两个分支的输出,得到增强的语音。对神经网络结构的研究显示了所提方法的效率和效果,在流行的数据集VoiceBand+DEMAND和DNS Challenge上的实验结果表明,所提方法在大多数评估指标上取得了最先进的性能。

在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音增强方法,用于语音增强系统,其中,所述语音增强系统包括编码器模块、双路模块、解码器模块和合并模块,所述解码器模块包括激励解码器、声道解码器和复数谱解码器;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

利用所述编码器模块提取原始带噪语音信号中的预设特征;

利用所述双路模块对所述预设特征在频率轴进行建模处理得到频率轴特征,利用所述双路模块对所述预设特征在时间轴进行建模处理得到时间轴特征;

利用所述激励解码器和所述声道解码器对所述时间轴特征进行处理得到时间轴分支的第一降噪语音信号;

利用所述复数谱解码器对所述频率轴特征进行处理得到频率轴分支的第二降噪语音信号;

利用所述合并模块将所述第一降噪语音信号、所述第二降噪语音信号和所述原始带噪语音信号进行合并得到最终的估计语音信号。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音增强方法和系统的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音增强方法。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音增强方法。

图11是本发明实施例提供的电子设备的结构示意图,如图11所示,该设备包括:一个或多个处理器1110以及存储器1120,图11中以一个处理器1110为例。语音增强方法和系统的设备还可以包括:输入装置1130和输出装置1140。处理器1110、存储器1120、输入装置1130和输出装置1140可以通过总线或者其他方式连接,图11中以通过总线连接为例。存储器1120为上述的非易失性计算机可读存储介质。处理器1110通过运行存储在存储器1120中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音增强方法和系统。输入装置1130可接收输入的数字或字符信息,以及产生与语音增强装置的用户设置以及功能控制有关的键信号输入。输出装置1140可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

作为一种实施方式,上述电子设备应用于语音增强系统中,所述语音增强系统包括编码器模块、双路模块、解码器模块和合并模块,所述解码器模块包括激励解码器、声道解码器和复数谱解码器中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:

利用所述编码器模块提取原始带噪语音信号中的预设特征;

利用所述双路模块对所述预设特征在频率轴进行建模处理得到频率轴特征,利用所述双路模块对所述预设特征在时间轴进行建模处理得到时间轴特征;

利用所述激励解码器和所述声道解码器对所述时间轴特征进行处理得到时间轴分支的第一降噪语音信号;

利用所述复数谱解码器对所述频率轴特征进行处理得到频率轴分支的第二降噪语音信号;

利用所述合并模块将所述第一降噪语音信号、所述第二降噪语音信号和所述原始带噪语音信号进行合并得到最终的估计语音信号。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115938698