掌桥专利:专业的专利平台
掌桥专利
首页

一种基于单麦克风的瞬态噪声检测与抑制的方法及装置

文献发布时间:2023-06-19 19:30:30


一种基于单麦克风的瞬态噪声检测与抑制的方法及装置

技术领域

本发明涉及噪声检测与抑制技术领域,具体涉及一种基于单麦克风的瞬态噪声检测与抑制的方法、装置、存储介质、电子设备和计算机程序产品。

背景技术

经查阅大量国内外相关文献可知,瞬态噪声的抑制方法基本上有两类,一类是去除时域中的瞬态噪声分量,而另一类是减少变换域(如小波变换域和频域)中的瞬态噪声分量。Vaseghi 和Rayner提出了一种检测和抑制脉冲瞬态噪声(包括相对短时长的噪声脉冲)的时域处理方法,该方法首先对受瞬态脉冲噪声污染的信号段进行检测,然后使用基于期望源是自回归 (AR) 假设的插值来估计该段源信号来替换所检测到的污染信号段;此后,Godsill和Rayner基于统计模型并使用Gibbs采样器插值技术对上述算法的性能进行了进一步的改进;但这类技术均要求受瞬态脉冲噪声污染的语音信号片段的时长要相对很短,否则将会产生明显可感知的语音信号失真。R. Talmon等学者考虑了重复出现的瞬态噪声干扰抑制问题,并提出了一种基于非局部扩散滤波器的这类瞬态噪声干扰抑制频域方法,该方法的第一阶段是估计瞬态噪声的功率谱密度 (PSD),这一估计是通过这样的处理实现的:首先在时域应用线性预测误差滤波器,对麦克风接收信号进行白化处理以增强瞬态噪声,然后对白化处理后的信号在其短时频谱域应用非局部 (Nonlocal) 邻域扩散滤波器来提取瞬态噪声信号的PSD;该方法的第二阶段是基于I. Cohen和B. Berdugo提出的优化修订对数频谱幅度(Optimally-Modified Log-Spectral Amplitude,OM-LSA) 估计器,利用第一阶段估计的瞬态噪声PSD并结合用传统降噪技术估计的运行环境中伪稳态噪声PSD,来进行降噪处理。

由于非局部邻域扩散滤波器工作的基础是假设瞬态噪声干扰模式会重复出现,因此该技术对单次出现的瞬态噪声无法抑制。为克服上述方法的缺陷,A. Hirszhorn等提出一种瞬态和伪稳态噪声联合抑制的另一种频域方法,他们基于浊音频谱分量与瞬态噪声相比变化缓慢的这一观测事实,通过配置比跟踪伪稳态噪声变化更快的合适参数,把OM-LSA估计器中关于伪稳态噪声功率谱的估计算法,扩展到能够跟踪输入语音信号频谱快速变化的修订版,从而能够有效地估计瞬态噪声的PSD,最后根据瞬态噪声和伪稳态噪声的PSD估计,应用OM-LSA估计器来增强语音。该解决方案对瞬态噪声类型具有鲁棒性、不需要离线或预处理或后处理,并且不依赖于瞬态周期性或重复。而C. Zhang等提出了一种基于语音特性和频谱相干性的无延迟瞬态降噪频域方法,该方法首先通过使用能量归一化方差在每个子带中检测瞬态噪声分量,然后对检测到含有瞬态噪声的子带,应用浊音的谐波特性和语音信号的连续性来进行抑制处理,以减少浊音段中的语音失真,此外,还定义了一个新的频谱相干性来区分清音和瞬态噪声,以避免抑制清音。近年来,随着深度学习技术的发展及其在语音识别领域的成功应用,基于监督学习的语音增强算法开始展现其价值。深度神经网络 (DNN)、卷积神经网络 (CNN)、长短期记忆 (LSTM) 网络、生成对抗网络 (GAN)都是应用于频域来实现语音增强;在充分训练的情况下,这些监督学习模型表现出优于传统增强方法的性能,特别在瞬态噪声抑制方面。

现有的瞬态噪声抑制技术中,Vaseghi 和Rayner等提出的去除脉冲型瞬态噪声时域处理方法受限于瞬态脉冲噪声污染的语音信号片段时长相对很短的条件,否则将会产生明显可感知的语音信号失真。R. Talmon等提出的基于非局部扩散滤波器瞬态噪声干扰抑制频域方法计算复杂度高,不易于实际应用中、特别是在DSP商用芯片上实时实现;此外,它不能抑制非重复模式的瞬态噪声。尽管A. Hirszhorn等提出另一种瞬态噪声联合抑制的频域方法易于实际实现,但其相关参数的配置取决于应用场景,难以预先设定;此外,它还涉及一个基于反因果窗口的处理,该窗口的时长必须在待处理的瞬态噪声持续时长和语音音素时长之间选取,在应用中也难以事先统一设定;而反因果窗口涉及的相关处理所带来的强制性延时也不利于实时处理的要求。C. Zhang等提出的基于语音特性和频谱相干性的无延迟瞬态降噪频域方法,由于其仅使用能量归一化方差来检测每个子带中瞬态噪声分量,所以产生的误检错误率较高,由此造成抑制处理后的语音损伤较多,尽管该方法中应用浊音的谐波特性、语音信号的连续性和用于区分清音与瞬态噪声的新定义的频谱相干性。基于DNN技术的瞬态噪声抑制技术计算复杂度巨大,难以在实际应用中、特别是在DSP商用芯片上实时实现;此外,还需要收集庞大的各种类型瞬态噪声样本训练集,而训练集的准确标注也是一项艰巨繁重的耗时耗人力的任务。

众所周知,现行的传统单麦克风降噪技术通常均由两个部分组成:运行环境噪声功率谱估计和用于估计所需期望语音信号的噪声抑制增益计算,这些技术均基于两个基本假设:第一个假设是噪声频谱在观察间隔期间与语音信号的频谱相比变化缓慢(即伪平稳噪声信号的假设); 第二个假设是语音信号在整个观察间隔内不是连续存在的。 因此,基于上述两个基本假设,有关学者相继地提出了大量诸如分位数法、最小统计量法和最小均方估计法等传统的噪声功率谱估计算法,应用这些算法可以获得噪声功率谱的估计;然后通过使用该噪声功率谱估计,可以基于预定义的统计模型来计算噪声抑制增益,以便获得所需期望语音信号的有效估计。

伪平稳噪声信号的假设对上述传统算法造成了极大限制,使其在诸如源自引擎、键盘打字、施工操作、铃声、敲门声、铃声、锤击声等瞬态非平稳噪声干扰环境中,性能急剧恶化。

如何在上述瞬态非平稳噪声干扰环境中,仍能保证性能良好、且将瞬态噪声检测及抑制方法在实时工程中实现,是待解决的技术问题。

发明内容

基于此,有必要针对基于现有的在上述瞬态非平稳噪声干扰环境中,性能急剧恶化、且现有的瞬态噪声检测及抑制方法无法在实时工程中实现的问题,提供一种基于单麦克风的瞬态噪声检测与抑制的方法、装置、存储介质、电子设备和计算机程序产品。

第一方面,本申请实施例提供了一种基于单麦克风的瞬态噪声检测与抑制的方法,所述方法包括:

通过单麦克风接收包含噪声的时域数字语音信号;

将所述包含噪声的时域数字语音信号经短时傅里叶变换器变换为对应的包含噪声的短时频谱;

通过稳态噪声抑制器预处理模块对所述包含噪声的短时频谱进行稳态降噪预处理,得到对应的预处理后的短时频谱;

通过瞬态噪声抑制器对所述预处理后的短时频谱进行增强处理,得到对应的增强短时频谱;

通过逆短时傅里叶变换器,对所述增强短时频谱进行转换处理,得到对应的时域增强数字语音信号,以通过所述时域增强数字语音信号完成稳态和瞬态噪声背景下的语音增强任务。

第二方面,本申请实施例提供了一种基于单麦克风的瞬态噪声检测与抑制的装置,所述装置包括:

接收模块,用于通过单麦克风接收包含噪声的时域数字语音信号;

变换模块,用于将所述包含噪声的时域数字语音信号经短时傅里叶变换器变换为对应的包含噪声的短时频谱;

预处理模块,用于通过稳态噪声抑制器预处理模块对所述包含噪声的短时频谱进行稳态降噪预处理,得到对应的预处理后的短时频谱;

增强模块,用于通过瞬态噪声抑制器对所述预处理后的短时频谱进行增强处理,得到对应的增强短时频谱;

转换模块,用于通过逆短时傅里叶变换器,对所述增强短时频谱进行转换处理,得到对应的时域增强数字语音信号,以通过所述时域增强数字语音信号完成稳态和瞬态噪声背景下的语音增强任务。

第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述的方法步骤。

第四方面,本申请实施例提供一种电子设备,所述电子设备包括:

处理器;

用于存储所述处理器可执行指令的存储器;

所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述的方法步骤。

第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的方法步骤。

在本申请实施例中,通过单麦克风接收包含噪声的时域数字语音信号;将包含噪声的时域数字语音信号经短时傅里叶变换器变换为对应的包含噪声的短时频谱;通过稳态噪声抑制器预处理模块对包含噪声的短时频谱进行稳态降噪预处理,得到对应的预处理后的短时频谱;通过瞬态噪声抑制器对预处理后的短时频谱进行增强处理,得到对应的增强短时频谱;以及通过逆短时傅里叶变换器,对增强短时频谱进行转换处理,得到对应的时域增强数字语音信号,以通过时域增强数字语音信号完成稳态和瞬态噪声背景下的语音增强任务。与现有的降噪方法相比,本申请实施例提出的基于单麦克风的瞬态噪声检测与抑制的方法,既可以有效地抑制(伪)稳态背景噪声,又可以有效地抑制瞬态非平稳背景噪声;语音失真更小,对运行环境的变化具有很强的鲁棒性和自适跟踪能力;实时性强,计算复杂度低,更易于自动且实时地应用于工程实现的应用场景中。

附图说明

通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法的原理框图;

图2为根据本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法中的瞬态噪声检测器算法实现的程序流程示意图;

图3为根据本申请一示例性实施例提供的基于单麦克风的瞬态噪声检测与抑制方法的流程图;

图4为根据本申请一示例性实施例提供的基于单麦克风的瞬态噪声检测与抑制方法中的TNS算法及其在传统单麦克风降噪系统中集成的工程实现程序流程示意图;

图5为根据本申请一示例性实施例提供的基于单麦克风的瞬态噪声检测与抑制装置500的结构示意图;

图6示出了本申请一示例性实施例提供的一种电子设备的示意图;

图7示出了本申请一示例性实施例提供的一种计算机可读介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种基于单麦克风的瞬态噪声检测与抑制方法及装置、一种电子设备以及计算机可读介质,下面结合附图进行说明。

本申请实施例提出了一种基于单麦克风的瞬态噪声检测与抑制方法,其主要技术原理框图如图1所示,其中单麦克风接收的时域(数字)语音信号x(n)经“短时傅里叶变换器(STFT)”模块转化为时-频域的短时频谱X(k,t)(这里t=0,1,2,…,为信号帧时间索引;k =0,1,2,…,K=N/2,为频点索引;N为短时傅里叶变换器中窗长参数,取值为2的幂次方;以下均同,不另作说明),应用传统“稳态噪声抑制器(SNS)”预处理模块对短时频谱X(k,t)进行稳态降噪后可得短时频谱

鉴于STFT和ISTFT以及传统稳态噪声抑制器(SNS)均是音频信号处理领域中常用技术,其具体工作原理在这里将不再赘述。作为本发明实施例提供的基于单麦克风的瞬态噪声检测与抑制方法所采用的TNS一个预处理模块,图1中的SNS由“稳态噪声功率谱估计器”和“稳态噪声抑制增益计算器”两个子模块构成,其中“稳态噪声功率谱估计器”子模块对含噪语音短时频谱X(k,t)中稳态噪声的功率谱密度

“瞬态噪声抑制器(TNS)”模块的系统结构如图1所示,它包含“瞬态噪声检测器”、“中值滤波处理器”、“瞬态噪声抑制增益计算器”和“舒适噪声生成器”四个子模块,其中“瞬态噪声检测器”子模块用于检测当前帧短时频谱

现就TNS上述4个处理子模块的工作原理,分别简要描述如下:

I.“瞬态噪声检测器”的工作原理:

瞬态噪声是一种突然爆发的声音,它由一个初始峰值和随后衰减的短时振荡组成,其时长范围通常在10到50毫秒。这一突发性与短时性,使得其具有区别于背景(伪)稳态噪声和语音信号的时-频特性,即:1)鉴于瞬态噪声的突发性和较短的持续时间,那么它在频域表现为比语音具有更为广泛的扩散性,因而其短时频谱滚降频率(Spectral RolloffFrequency)明显地高于语音浊音信号的频谱滚降频率;2)由于瞬态噪声和语音信号均比背景(伪)稳态噪声的变化快, 所以它们的短时频谱通量(Spectral Flux)均显著地高于背景(伪)稳态噪声的短时频谱通量;3)由于浊音语音短时频谱含有基音及其大量谐波分量,而语音建模理论表明清音是由白噪声激励产生的,那么浊音语音的短时频谱熵(SpectralEntropy)要显著地低于瞬态噪声和清音语音的短时频谱熵;4)理论研究和仿真实验均表明:瞬态噪声通常具有较高的低阶频谱相干系数,而清音语音信号的低阶频谱相干系数通常很小;此外,清音语音信号短时频谱高频段与其低频段的能量之比(后续将之简称为“高-低频段能量比”,不另作说明)通常明显高于瞬态噪声的“高-低频段能量比”。

鉴于瞬态噪声的上述特点,在本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法中,提出了一种新的瞬态噪声检测器,它由2个分别称之为第一检测器和第二检测器的处理模块组成,其中第一检测器选用短时频谱滚降频率和短时频谱通量作为它的2个检测特征,用来区分瞬态噪声帧(包括含有语音的混合瞬态噪声帧)短时频谱和背景(伪)稳态噪声帧(包括仅含有语音信号的混合伪稳态噪声帧)短时频谱,以便获得瞬态噪声的备选帧短时频谱。第二检测器对第一检测器所获得的瞬态噪声备选帧短时频谱,作进一步检测处理,以便鉴别该备选帧是否是单纯的瞬态噪声、是否是单纯的语音清音帧或含有语音浊音的混合瞬态噪声帧;为此,第二检测器选用短时频谱熵、低阶(1-3阶)短时频谱相干系数和短时频谱高-低频段能量比作为它的3个检测特征,其中短时频谱熵主要用于鉴别备选帧是否含有语音浊音信号分量,而低阶(1-3阶)短时频谱相干系数和短时频谱高-低频段能量比用来进一步鉴别备选帧是否是单纯的语音清音帧或单纯的瞬态噪声帧。

具体地,对稳态降噪预处理模块输出的短时频谱

式(1);

其中,

式(2);

短时频谱

式(3);

其中,

式(4);

那么,本发明实施例提出的瞬态噪声第一检测器判决准则可表示为:

式(5);

其中,

本发明实施例提出的瞬态噪声第二检测器仅在瞬态噪声第一检测器的判决指示结果为“真”(即:

式(6);

那么,本发明实施例提出的瞬态噪声第二检测器中关于备选帧是否含有浊音语音成分的检测判决准则可表示为:

式(7);

其中,

在瞬态噪声第二检测器关于备选帧是否含有浊音语音成分的判决指示结果为“假”(即:

短时频谱

式(8);

其中 ,* 为复共轭运算符;

短时频谱

式(9);

其中,参数

那么,第二检测器在其

式(10);

其中,

这里应该指出的是:鉴于第二检测器是仅在第一检测器的检测结果

总之,本发明实施例提供的基于单麦克风的瞬态噪声检测与抑制方法所提出的瞬态噪声检测器算法实现的程序流程示意图,详见图2所示。针对图2的相关描述和相关公式,参见前述相同或相关的部分,在此不再赘述。

由上述可知,本发明实施例提出了一种新的瞬态噪声检测器(TND),该TND由2个分别称之为第一和第二检测器的子模块构成,第一检测器用来检测判决当前帧的短时频谱是否为瞬态噪声备选帧的短时频谱,本发明实施例提出的第一检测器利用当前帧短时频谱的归一化滚降频率及其频谱通量为检测特征并按上述式(5)定义的判决准则进行检测;在第一检测器确认当前帧短时频谱为瞬态噪声备选帧短时频谱的前提下,第二检测器才开始启动,用来进一步确认备选帧是否是单纯的瞬态噪声、单纯的清音语音或含有浊音语音的瞬态噪声;这种层次型判决结构,精简了检测判决过程,使得本发明实施例提出的这种TND具有结构简单、检测可靠和计算复杂度低等优点。

II.“中值滤波处理器”的工作原理:

通过对麦克风接收信号的时-频语谱图的考察与分析,可以获知:(1)瞬态噪声的短时频谱幅度在其频点索引域k(即频域)方向上表现为对应于给定信号帧索引t的一条较为平滑变化的曲线,而在其信号帧索引域t(即时域)方向上表现为对应于给定频点索引k的一条具有突起峰值点的曲线(若有多个瞬态噪声出现,则有多个相应的突起峰值点);(2)与瞬态噪声上述特征相反,语音信号的短时频谱幅度在其频点索引域k(即频域)方向上表现为对应于给定信号帧索引t的一条有若干对应于基音及其谐波分量的峰值点曲线,而在其信号帧索引域t(即时域)方向上表现为对应于给定频点索引k的一条具有较为平滑变化的曲线。根据上述的这一观察,可以应用非线性中值滤波处理技术,来分别提取每个给定信号帧索引t处对应的瞬态噪声短时频谱的频域变化包络

具体地,用“中值滤波处理器”的第一中值滤波器,对稳态降噪预处理模块输出的短时频谱

式(11);

其中,Med{ · }为非线性中值滤波算子,它将其滤波器窗口中(

式(12);

这里

应用“中值滤波处理器”的第二中值滤波器,对稳态降噪预处理模块输出的短时频谱

式(13);

其中,频域中值滤波器窗口长度为(

式(14);

这里

由上述可知,本发明实施例提出了一种提取含噪短时频谱中所包含的语音短时频谱在每个给定频点索引处的时域变化包络和(可能的)瞬态噪声短时频谱在每个给定信号帧索引处的频域变化包络的新方法,该方法是在对麦克风接收信号的时-频语谱图的观察与分析基础上,对含噪短时频谱幅度信号分别进行时域(即帧索引域)和频域(即频点索引域)非线性中值滤波处理,从而有效地提取了语音信号短时频谱在每个给定频点索引处的时域变化包络和瞬态噪声信号短时频谱在每个给定信号帧索引处的频域变化包络。

III. “瞬态噪声抑制增益计算器”的工作原理:

该处理模块是根据“瞬态噪声检测器”的判决结果和“中值滤波处理器”提取的相关信息,来计算瞬态噪声的抑制增益

和/>

和/>

和/>

综上所述,瞬态噪声抑制增益的计算公式可由下式描述,即:

式(15);

其中,

由上述可知,本发明实施例提出了一种瞬态噪声抑制增益的计算新方法,特别是增强瞬态噪声中的语音成分的抑制增益计算技术;用该方法计算的瞬态噪声抑制增益在有效地抑制瞬态噪声的同时,产生的语音失真与现有的方法相比会更小。

IV. “舒适噪声生成器”的工作原理:

由于瞬态噪声抑制增益

中会出现明显的“凹坑”,使得其对应的时域信号在听觉上非常不舒适。为此,需要生成一个适配于(伪)稳态背景环境的舒适随机噪声短时频谱

既然“稳态噪声抑制器预处理模块”已获得了稳态噪声的功率谱密度估计值

式(16);

这里;

式(17);

为总降噪增益;

那么需要生成的舒适噪声的短时频谱

式(18);

其中,

由上述可知,本发明实施例提出了一种简单的舒适噪声频域生成方法,从而弥补了TNS在剔除单纯的瞬态噪声短时频谱时所带来的听觉上的不舒适感的缺限。

请参考图3,其示出了本申请的一些实施方式所提供的一种基于单麦克风的瞬态噪声检测与抑制的方法的流程图,如图3所示,基于单麦克风的瞬态噪声检测与抑制的方法可以包括以下步骤:

步骤S301:通过单麦克风接收包含噪声的时域数字语音信号;

步骤S302:将包含噪声的时域数字语音信号经短时傅里叶变换器变换为对应的包含噪声的短时频谱;

步骤S303:通过稳态噪声抑制器预处理模块对包含噪声的短时频谱进行稳态降噪预处理,得到对应的预处理后的短时频谱;

步骤S304:通过瞬态噪声抑制器对预处理后的短时频谱进行增强处理,得到对应的增强短时频谱;

步骤S305:通过逆短时傅里叶变换器,对增强短时频谱进行转换处理,得到对应的时域增强数字语音信号,以通过时域增数字强语音信号完成稳态和瞬态噪声背景下的语音增强任务。

在一种可能的实现方式中,本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法还包括以下步骤:

通过瞬态噪声抑制器中的瞬态噪声检测器的检测及判决处理,得到对应的检测判决二元型检测指示结果,检测判决二元型检测指示结果包括是否是瞬态噪声的备选帧的第一判决指示结果、是否还有浊音的第二判决指示结果和是否是清音的第三判决指示结果。

在本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法中,瞬态噪声检测器包括瞬态噪声第一检测器和瞬态噪声第二检测器;

瞬态噪声第一检测器,用于通过选用的第一检测特征区分瞬态噪声帧短时频谱和背景稳态噪声帧或含有语音信号的混合背景稳态噪声帧短时频谱,并获得瞬态噪声备选帧的短时频谱;第一检测特征包括短时频谱滚降频率和短时频谱通量;

瞬态噪声第二检测器,用于通过选用的第二检测特征对瞬态噪声备选帧的短时频谱进行检测处理,以获得对应的鉴别结果,鉴别结果包括第一鉴别子结果、第二鉴别子结果和第三鉴别子结果,第一鉴别子结果用于表征瞬态噪声备选帧的短时频谱是否是单纯的瞬态噪声短时频谱、第二鉴别子结果用于表征瞬态噪声备选帧的短时频谱是否是单纯的语音清音帧短时频谱,第三鉴别子结果用于表征瞬态噪声备选帧的短时频谱是否是含有语音浊音的混合瞬态噪声帧短时频谱,第二检测特征包括短时频谱熵、低阶短时频谱相干系数和短时频谱高-低频段能量比,短时频谱熵作为用于鉴别瞬态噪声备选帧的短时频谱是否含有语音浊音信号成分的检测特征,低阶短时频谱相干系数和短时频谱高-低频段能量比作为用于鉴别瞬态噪声备选帧的短时频谱是否是单纯的语音清音帧或单纯的瞬态噪声帧短时频谱的检测特征。

在一种可能的实现方式中,本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法还包括以下步骤:

通过瞬态噪声抑制器中的中值滤波处理器提取短时频谱中所包含的语音短时频谱在每个给定频点索引处的时域变化包络和瞬态噪声短时频谱在每个给定信号帧索引处的频域变化包络,得到对应的提取信息。

在本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法中,中值滤波处理器包括第一中值滤波器和第二中值滤波器;

第一中值滤波器,用于对稳态噪声抑制器预处理模块输出的短时频谱进行时域中值滤波处理,以提取对应的语音信号短时频谱在每个给定频点索引处的时域变化包络;

第二中值滤波器,用于对稳态噪声抑制器预处理模块输出的短时频谱进行频域中值滤波处理,以提取对应的瞬态噪声短时频谱在每个给定信号帧索引处的频域变化包络。

在本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制方法中,瞬态噪声抑制器还包括瞬态噪声抑制增益计算器和舒适噪声生成器;

瞬态噪声抑制增益计算器,用于获取中值滤波处理器所得的提取信息和瞬态噪声检测器检测及判决所得的检测判决二元型检测指示结果,并根据提取信息和检测判决二元型检测指示结果进行计算,得到对应的瞬态噪声的抑制增益,瞬态噪声的抑制增益用于对预处理后的短时频谱进行修订处理,得到对应的修订后的短时频谱;

舒适噪声生成器,用于根据瞬态噪声的抑制增益、稳态噪声抑制器预处理模块中的稳态噪声功率谱估计器估计的稳态噪声的功率谱密度和稳态噪声抑制器预处理模块中的稳态噪声抑制增益计算器计算所得的稳态噪声的抑制增益进行计算处理,生成对应的舒适噪声短时频谱;以及根据舒适噪声短时频谱和修订后的短时频谱进行叠加处理,得到对应的增强语音信号的短时频谱。

在一种可能的实现方式中,通过瞬态噪声抑制器中的瞬态噪声检测器的检测及判决处理,得到对应的检测判决二元型检测指示结果,包括以下步骤:

获取经初始化处理的初始化相关参数和变量;

根据初始化相关参数和变量,对信号帧索引进行更新处理;

读取第t帧稳态降噪预处理后的短时频谱;

根据预设模型计算瞬态噪声第一检测器选用的第一检测特征,第一检测特征包括短时频谱滚降频率和短时频谱通量;

基于第一检测特征按照对应的处理方式进行瞬态噪声第一检测器的判决处理,生成对应的第一判决指示结果;

响应于第一判决指示结果为1,按照对应的处理方式计算频谱熵特征变量,并基于频谱熵特征变量进行瞬态噪声第二检测器的浊音判决处理,生成对应的第二判决指示结果;

响应于第二判决指示结果为0,按照对应的处理方式计算低阶频谱相干系特征变量和高-低频段能量比特征变量,并基于低阶频谱相干系特征变量和高-低频段能量比特征变量进行瞬态噪声第二检测器的清音判决,生成对应的第三判决指示结果;

输出瞬态噪声第一检测器的第一判决指示结果、瞬态噪声第二检测器的第二判决指示结果和第三判决指示结果。

在一种可能的实现方式中,通过瞬态噪声抑制器中的瞬态噪声检测器的检测及判决处理,得到对应的检测判决二元型检测指示结果,还包括以下步骤:

响应于第一判决指示结果为0,将瞬态噪声第二检测器对应的所有判决指示结果均复位为0。

在一种可能的实现方式中,通过瞬态噪声抑制器中的瞬态噪声检测器的检测及判决处理,得到对应的检测判决二元型检测指示结果,还包括以下步骤:

响应于第二判决指示结果为1,将瞬态噪声第二检测器对应的清音判决指示结果复位为0。

本发明实施例提出的这种瞬态噪声抑制器(TNS)可用作基于单麦克风的传统(伪)稳态噪声抑制器的后处理模块,以克服其缺陷、扩充其功能和改善其性能。本发明提出的TNS算法及其在传统单麦克风(伪)稳态降噪系统中集成的工程实现程序流程示意图如图4所示。

针对图4的相关描述,参见前述相同或相似部分的描述,尤其对应的各个公式的详细描述,参见前述相同或相似部分的描述,在此不再赘述。

本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制的方法,通过单麦克风接收包含噪声的时域数字语音信号;将包含噪声的时域数字语音信号经短时傅里叶变换器变换为对应的包含噪声的短时频谱;通过稳态噪声抑制器预处理模块对包含噪声的短时频谱信号进行稳态降噪预处理,得到对应的预处理后的短时频谱;通过瞬态噪声抑制器对预处理后的短时频谱进行增强处理,得到对应的增强短时频谱;以及通过逆短时傅里叶变换器,对增强短时频谱进行转换处理,得到对应的时域增强数字语音信号,以通过时域增强数字语音信号完成稳态和瞬态噪声背景下的语音增强任务。与现有的降噪方法相比,本申请实施例提出的基于单麦克风的瞬态噪声检测与抑制的方法,既可以有效地抑制(伪)稳态背景噪声,又可以有效地抑制瞬态非平稳背景噪声;语音失真更小,对运行环境的变化具有很强的鲁棒性和自适跟踪能力;实时性强,计算复杂度低,更易于自动且实时地应用于工程实现的应用场景中。

在上述的实施例中,提供了一种基于单麦克风的瞬态噪声检测与抑制的方法,与之相对应的,本申请还提供一种基于单麦克风的瞬态噪声检测与抑制的装置。本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制的装置可以实施上述一种基于单麦克风的瞬态噪声检测与抑制的方法,该基于单麦克风的瞬态噪声检测与抑制的装置可以通过软件、硬件或软硬结合的方式来实现。例如,该基于单麦克风的瞬态噪声检测与抑制的装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。

请参考图5,其示出了本申请的一些实施方式所提供的一种基于单麦克风的瞬态噪声检测与抑制的装置的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图5所示,基于单麦克风的瞬态噪声检测与抑制的500可以包括:

接收模块501,用于通过单麦克风接收包含噪声的时域数字语音信号;

变换模块502,用于将包含噪声的时域数字语音信号经短时傅里叶变换器变换为对应的包含噪声的短时频谱;

预处理模块503,用于通过稳态噪声抑制器预处理模块对包含噪声的短时频谱进行稳态降噪预处理,得到对应的预处理后的短时频谱;

增强模块504,用于通过瞬态噪声抑制器对预处理后的短时频谱进行增强处理,得到对应的增强短时频谱;

转换模块505,用于通过逆短时傅里叶变换器,对增强短时频谱进行转换处理,得到对应的时域增强数字语音信号,以通过时域增强数字语音信号完成稳态和瞬态噪声背景下的语音增强任务。

在本申请实施例的一些实施方式中,所述装置500还可以包括:

检测及判决模块(在图5中未示出),用于通过瞬态噪声抑制器中的瞬态噪声检测器的检测及判决处理,得到对应的检测判决二元型检测指示结果,检测判决二元型检测指示结果包括是否是瞬态噪声备选帧的第一判决指示结果、是否还有浊音的第二判决指示结果和是否是清音的第三判决指示结果。

在本申请实施例的一些实施方式中,检测及判决模块具体用于:

获取经初始化处理的初始化相关参数和变量;

根据初始化相关参数和变量,对信号帧索引进行更新处理;

读取第t帧稳态降噪预处理后的短时频谱;

根据预设模型计算瞬态噪声第一检测器选用的第一检测特征,第一检测特征包括短时频谱滚降频率和短时频谱通量;

基于第一检测特征按照对应的处理方式进行瞬态噪声第一检测器的判决处理,生成对应的第一判决指示结果;

响应于第一判决指示结果为1,按照对应的处理方式计算频谱熵特征变量,并基于频谱熵特征变量进行瞬态噪声第二检测器的浊音判决处理,生成对应的第二判决指示结果;

响应于第二判决指示结果为0,按照对应的处理方式计算低阶频谱相干系特征变量和高-低频段能量比特征变量,并基于低阶频谱相干系特征变量和高-低频段能量比特征变量进行瞬态噪声第二检测器的清音判决,生成对应的第三判决指示结果;

输出瞬态噪声第一检测器的第一判决指示结果、瞬态噪声第二检测器的第二判决指示结果和第三判决指示结果。

在本申请实施例的一些实施方式中,检测及判决模块具体还用于:

响应于第一判决指示结果为0,将瞬态噪声第二检测器对应的所有判决指示结果均复位为0。

在本申请实施例的一些实施方式中,检测及判决模块具体还用于:

响应于第二判决指示结果为1,将瞬态噪声第二检测器对应的清音判决指示结果复位为0。

在本申请实施例的一些实施方式中,瞬态噪声检测器包括瞬态噪声第一检测器和瞬态噪声第二检测器;

瞬态噪声第一检测器,用于通过选用的第一检测特征区分瞬态噪声帧短时频谱和背景稳态噪声帧或含有语音信号的混合背景稳态噪声帧短时频谱,并获得瞬态噪声备选帧的短时频谱;第一检测特征包括短时频谱滚降频率和短时频谱通量;

瞬态噪声第二检测器,用于通过选用的第二检测特征对瞬态噪声备选帧的短时频谱进行检测处理,以获得对应的鉴别结果,鉴别结果包括第一鉴别子结果、第二鉴别子结果和第三鉴别子结果,第一鉴别子结果用于表征瞬态噪声备选帧的短时频谱是否是单纯的瞬态噪声短时频谱、第二鉴别子结果用于表征瞬态噪声备选帧的短时频谱是否是单纯的语音清音帧短时频谱,第三鉴别子结果用于表征瞬态噪声备选帧的短时频谱是否是含有语音浊音的混合瞬态噪声帧短时频谱,第二检测特征包括短时频谱熵、低阶短时频谱相干系数和短时频谱高-低频段能量比,短时频谱熵作为用于鉴别瞬态噪声备选帧的短时频谱是否含有语音浊音信号成分的检测特征,低阶短时频谱相干系数和短时频谱高-低频段能量比作为用于鉴别瞬态噪声备选帧的短时频谱是否是单纯的语音清音帧或单纯的瞬态噪声帧短时频谱的检测特征。

在本申请实施例的一些实施方式中,所述装置500还可以包括:

提取模块(在图5中未示出),用于通过瞬态噪声抑制器中的中值滤波处理器提取短时频谱中所包含的语音信号短时频谱在每个给定频点索引处的时域变化包络和瞬态噪声信号短时频谱在每个定信号帧处的频域变化包络,得到对应的提取信息。

在本申请实施例的一些实施方式中,中值滤波处理器包括第一中值滤波器和第二中值滤波器;

第一中值滤波器,用于对稳态噪声抑制器预处理模块输出的短时频谱进行时域中值滤波处理,以提取对应的语音信号短时频谱在每个给定频点索引处的时域变化包络;

第二中值滤波器,用于对稳态噪声抑制器预处理模块输出的短时频谱进行频域中值滤波处理,以提取对应的瞬态噪声短时频谱在每个给定信号帧索引处的频域变化包络。

在本申请实施例的一些实施方式中,瞬态噪声抑制器还包括瞬态噪声抑制增益计算器和舒适噪声生成器;

瞬态噪声抑制增益计算器,用于获取中值滤波处理器所得的提取信息和瞬态噪声检测器检测及判决所得的检测判决二元型检测指示结果,并根据提取信息和检测判决二元型检测指示结果进行计算,得到对应的瞬态噪声的抑制增益,瞬态噪声的抑制增益用于对预处理后的短时频谱进行修订处理,得到对应的修订后的短时频谱;

舒适噪声生成器,用于根据瞬态噪声的抑制增益、稳态噪声抑制器预处理模块中的稳态噪声功率谱估计器估计的稳态噪声的功率谱密度和稳态噪声抑制器预处理模块中的稳态噪声抑制增益计算器计算所得的稳态噪声的抑制增益进行计算处理,生成对应的舒适噪声短时频谱;以及根据舒适噪声短时频谱和修订后的短时频谱进行叠加处理,得到对应的增强语音信号的短时频谱。

在本申请实施例的一些实施方式中本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制的装置500,与本申请前述实施例提供的基于单麦克风的瞬态噪声检测与抑制的方法出于相同的发明构思,具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的基于单麦克风的瞬态噪声检测与抑制的方法对应的电子设备,电子设备可以是用于服务端的电子设备,例如服务器,包括独立的服务器和分布式服务器集群等,以执行上述基于单麦克风的瞬态噪声检测与抑制的方法;电子设备也可以是用于客户端的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述基于单麦克风的瞬态噪声检测与抑制的方法。

请参考图6,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图6所示,电子设备40包括:处理器400,存储器401,总线402和通信接口403,处理器400、通信接口403和存储器401通过总线402连接;存储器401中存储有可在处理器400上运行的计算机程序,处理器400运行计算机程序时执行本申请前述的基于单麦克风的瞬态噪声检测与抑制的方法。

其中,存储器401可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。

总线402可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器401用于存储程序,处理器400在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的基于单麦克风的瞬态噪声检测与抑制的方法可以应用于处理器400中,或者由处理器400实现。

处理器400可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器400读取存储器401中的信息,结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的基于单麦克风的瞬态噪声检测与抑制的方法对应的计算机可读介质,请参考图7,其示出的计算机可读存储介质为光盘50,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述基于单麦克风的瞬态噪声检测与抑制的方法。

需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于单麦克风的瞬态噪声检测与抑制的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

相关技术
  • 一种基于单目面阵相机的桥梁缺陷检测装置及检测方法
  • 一种应用在采煤机瞬态检测的自动保护预警装置及方法
  • 一种基于双光纤环形滤波器的光纤激光器噪声抑制装置
  • 用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声
  • 用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声
技术分类

06120115933720