掌桥专利:专业的专利平台
掌桥专利
首页

一种基于循环神经网络和全子频带特征的实时语音降噪方法

文献发布时间:2024-04-18 20:00:50


一种基于循环神经网络和全子频带特征的实时语音降噪方法

技术领域

本发明涉及环保装置技术领域,尤其涉及一种基于循环神经网络和全子频带特征的实时语音降噪方法。

背景技术

传统的语音降噪算法基于信号处理思路,方法复杂,鲁棒性差,对于非平稳的噪声效果有限。基于神经网络的语音降噪大多依赖全频带特征,采用卷积神经网络,需要整句话进行特征提取,很难做到实时处理。因此,如何提供一种基于循环神经网络和全子频带特征的实时语音降噪方法是本领域技术人员亟需解决的问题。

发明内容

本发明的一个目的在于提出一种基于循环神经网络和全子频带特征的实时语音降噪方法,本发明采用循环神经网络架构,并且融合了子频带特征以捕获更多的频谱信息,可以做到按帧实时处理,可以大大降低实时通信、语音会议场景下的延时,具有一定的实用价值。

根据本发明实施例的一种基于循环神经网络和全子频带特征的实时语音降噪方法,包括如下方法步骤:

S1、搜集纯净语音、不同类型的噪声以及不同尺寸的房间冲激响应;

S2、将纯净语音、噪声和房间冲激响应合成对应的带噪语音;

S3、对于带噪语音,对其预设参数做短时傅里叶变换,得到其时频域的表示;

S4、在每个频点联合其相邻的频点一起构成子频带特征;

S5、把常规的全频带特征融合子频带特征作为最终的模型输入特征;

S6、分别对全频带特征和子频带特征建立模型并且做合适的融合以充分利用,以干净语音和带噪语音语谱图的复数比值作为训练的目标,训练复数域的掩膜;

S7、依据S1-S6训练出完整的降噪模型,对真实的带噪语音进行测试;

S8、采用overlap and add的方式进行提升音质。

可选的,所述S1具体包括从互联网上搜集大量公开的纯净语音和不同类型的噪声,或在实际的不同环境下录制不同的噪声,搜集公开的真实的不同尺寸下的房间冲激响应,或通过开源软件,输入房间的长宽高,声源及麦克风位置,墙壁的反射系数参数生成模拟的房间冲激响应。

可选的,所述S2具体包括:

S21、对于每条纯净语音,产生[0,1]之间的随机数p,并预先定义的混响门限th;

S22、如果p>th则对带噪语音加混响,随机的从所有房间冲激响应里取出一条冲激响应,否则不取冲激响应;

S23、再产生一个随机的信噪比SNR,如果满足p>th,则将纯净语音和冲激响应卷积后,按SNR的信噪比和随机的一条噪声语音叠加作为最终的带噪语音;反之,如果不满足p>th,则直接拿纯净语音和随机的一条噪声语音按SNR的信噪比叠加;

S24、保存好纯净语音和其对应生成的带噪语音。

可选的,所述S3具体包括X(t,f),对于t=t

X

其对应的纯净语音也做同样参数的短时傅里叶变换得到时频域特征,以此作为后续模型训练的标注信息。

可选的,所述S4具体包括对于时域点t=t

X

可选的,所述S5具体包括对于全频带特征X

可选的,所述S6具体包括带噪语音的STFT谱、预测的复数掩模、纯净语音的STFT谱的复数值分别为X,M,S,将其分别表示为复数的形式;

X=X

S

其中,

从而得到模型训练的目标信息。

可选的,所述S7具体包括对真实的语音按照训练时相同的参数进行分帧加窗,做快速傅里叶变换,得到一帧的频域特征,将该频域特征送入模型,依次通过G

可选的,所述S8具体包括t时刻恢复出长度L的时域信号s

本发明的有益效果是:

(1)本发明特征层面引入了子频带特征,丰富了局部语谱特征的建模,捕获了更多的局部信息,和全频带信息形成了优势互补;

(2)本发明采用了循环神经网络的架构,在测试时可以按帧输入特征,按帧恢复语音,达到实时处理的效果,大大降低了系统的延时;

(3)本发明可以方便的集成到已有的实时通信系统里,不会对已有的系统产生过多的负载,并且可以显著提升语音的质量。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明提出的一种基于循环神经网络和全子频带特征的实时语音降噪方法的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。

参考图1,一种基于循环神经网络和全子频带特征的实时语音降噪方法,包括如下方法步骤:

S1、搜集纯净语音、不同类型的噪声以及不同尺寸的房间冲激响应;

本实施方式中,S1具体包括从互联网上搜集大量公开的纯净语音和不同类型的噪声,或在实际的不同环境下录制不同的噪声,搜集公开的真实的不同尺寸下的房间冲激响应,或通过开源软件,输入房间的长宽高,声源及麦克风位置,墙壁的反射系数参数生成模拟的房间冲激响应。

S2、将纯净语音、噪声和房间冲激响应合成对应的带噪语音;

本实施方式中,S2具体包括:

S21、对于每条纯净语音,产生[0,1]之间的随机数p,并预先定义的混响门限th;

S22、如果p>th则对带噪语音加混响,随机的从所有房间冲激响应里取出一条冲激响应,否则不取冲激响应;

S23、再产生一个随机的信噪比SNR,如果满足p>th,则将纯净语音和冲激响应卷积后,按SNR的信噪比和随机的一条噪声语音叠加作为最终的带噪语音;反之,如果不满足p>th,则直接拿纯净语音和随机的一条噪声语音按SNR的信噪比叠加;

S24、保存好纯净语音和其对应生成的带噪语音。

S3、对于带噪语音,对其预设参数做短时傅里叶变换,得到其时频域的表示;

本实施方式中,S3具体包括X(t,f),对于t=t

X

其对应的纯净语音也做同样参数的短时傅里叶变换得到时频域特征,以此作为后续模型训练的标注信息。

S4、在每个频点联合其相邻的频点一起构成子频带特征;

本实施方式中,S4具体包括对于时域点t=t

X

S5、把常规的全频带特征融合子频带特征作为最终的模型输入特征;

本实施方式中,S5具体包括对于全频带特征X

S6、分别对全频带特征和子频带特征建立模型并且做合适的融合以充分利用,以干净语音和带噪语音语谱图的复数比值作为训练的目标,训练复数域的掩膜;

本实施方式中,S6具体包括带噪语音的STFT谱、预测的复数掩模、纯净语音的STFT谱的复数值分别为X,M,S,将其分别表示为复数的形式;

X=X

S

其中,

从而得到模型训练的目标信息。

S7、依据S1-S6训练出完整的降噪模型,对真实的带噪语音进行测试;

本实施方式中,S7具体包括对真实的语音按照训练时相同的参数进行分帧加窗,做快速傅里叶变换,得到一帧的频域特征,将该频域特征送入模型,依次通过G

S8、为了让恢复后的信号误差更小,提升音质,采用overlap and add的方式进行操作。

本实施方式中,S8具体包括t时刻恢复出长度L的时域信号s

实施例1

数据准备:收集大量的纯净语音样本,不同类型的噪声样本,以及不同尺寸房间的冲激响应。将纯净语音样本与不同类型噪声混合,模拟各种噪声环境下的语音。

特征提取和预处理:对每个带噪语音样本进行短时傅里叶变换,得到其时频域表示。构建全频带和子频带特征,子频带特征通过对STFT结果进行适当的分割和重组得到。

模型训练:设计一个循环神经网络模型,输入特征为全频带和子频带特征的融合。使用带噪语音样本和对应的纯净语音样本训练模型,目标是使模型学会从带噪语音中恢复纯净语音。

实时降噪处理:在实际应用中,将实时捕获的语音信号进行STFT,提取全频带和子频带特征。将这些特征输入训练好的模型,实时输出降噪后的语音信号。

音质提升:使用overlap and add方法对降噪后的信号进行处理,进一步提升音质。

在实验中,比较模型处理前后的信噪比,处理前SNR为10dB的语音样本,在经过模型处理后,SNR提高至20dB,证明了噪声降低的有效性。采用客观语音质量评估标准PESQ(Perceptual Evaluation of Speech Quality)对降噪前后的语音进行评估。处理前PESQ评分为2.5,处理后提升至3.5,语音质量有显著提升。记录模型处理单帧语音所需的时间。如果该时间远低于语音帧的持续时间,处理时间为5ms,而单帧持续时间为20ms,本发明能够满足实时处理的要求。

通过以上实施例和数据证明,我们可以清晰地展示这种基于循环神经网络和全子频带特征的实时语音降噪方法在实际应用中的流程和效果。这种方法能够有效降低噪声,提高语音质量,同时保证了实时处理的需求,适用于各种需要高质量语音通信的场景。

本发明特征层面引入了子频带特征,丰富了局部语谱特征的建模,捕获了更多的局部信息,和全频带信息形成了优势互补;

本发明采用了循环神经网络的架构,在测试时可以按帧输入特征,按帧恢复语音,达到实时处理的效果,大大降低了系统的延时;

本发明可以方便的集成到已有的实时通信系统里,不会对已有的系统产生过多的负载,并且可以显著提升语音的质量。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种纳豆激酶的制药用途
  • 一种新型BTK激酶抑制剂的盐酸盐及其制备方法与用途
  • 一种食品香料作为黄曲霉抑制剂的用途
  • 一种新型环保高性能包被抑制剂及其制备方法和用途
  • 一种STAT3抑制剂的甲磺酸盐及其制备方法与用途
  • 一种ERK抑制剂及其制药用途
  • 一种靶向抑制剂在制备乳腺癌细胞上皮间质转化抑制药物中的用途
技术分类

06120116540508