掌桥专利:专业的专利平台
掌桥专利
首页

音频信号的风噪抑制方法、系统、设备及存储介质

文献发布时间:2024-05-31 01:29:11


音频信号的风噪抑制方法、系统、设备及存储介质

技术领域

本发明涉及音频技术领域,尤其涉及一种音频信号的风噪抑制方法、系统、设备及存储介质。

背景技术

风噪是由麦克风附近的空气湍流产生的噪声,在通过麦克风采集信号时,风噪将对采集的音频信号的质量和信号的处理产生影响。

现如今,通常通过频谱质心、线性预测等方式检测噪声,并通过自适应滤波法、频域滤波法、时域滤波法等对音频信号中的噪声进行抑制。但是,由于风噪是非平稳噪声,而传统的噪声检测、抑制算法仅能对平稳的噪声进行抑制,因此,在通过传统的算法对风噪进行抑制时,通常存在风噪抑制后语音失真度较大的技术问题。

发明内容

本发明提出一种音频信号的风噪抑制方法、系统、设备及存储介质,旨在解决抑制音频信号中的风噪后,音频信号中语音失真度较大的技术问题。

在本发明中,所述音频信号的风噪抑制方法包括:

获取待处理音频信号,并判断所述待处理音频信号中是否存在风噪;

在判断出所述待处理音频信号中存在风噪时,将所述待处理音频信号输入预设的第一降噪模型中,得到第一降噪信号,并将所述待处理音频信号输入预设的第二降噪模型中,得到第二降噪信号,其中,所述第一降噪模型为传统降噪模型,所述第二降噪模型为机器学习模型;

对所述第一降噪信号和所述第二降噪信号进行加权,得到风噪抑制后的音频信号。

可选地,在所述判断所述待处理音频信号中是否存在风噪的步骤之前,所述方法还包括:

根据预设的时间间隔将所述待处理音频信号划分为多个中间信号,并计算多个所述中间信号各自对应的平均能量;

在检测到多个所述平均能量中存在大于预设阈值的平均能量时,执行所述判断所述待处理音频信号中是否存在风噪的步骤;

在检测到多个所述平均能量中不存在大于所述预设阈值的平均能量时,通过预设的第三降噪模型对所述待处理音频信号进行降噪,其中,所述第三降噪模型为未进行参数调整的所述第一降噪模型。

可选地,所述判断所述待处理音频信号中是否存在风噪的步骤,包括:

提取所述待处理音频信号中的音频特征,并将所述音频特征输入风噪二分类模型,得到分类结果,其中,所述风噪二分类模型是以信号的声学特征为模型输入数据,以信号的声学特征的真实风噪存在结果的二分类标签为标签数据进行训练得到的;

若检测到所述分类结果与预设结果相同,则判定所述待处理音频信号中存在风噪,并对所述分类结果进行平滑处理,其中,所述预设结果为所述风噪二分类模型输出的表征存在风噪的分类结果。

可选地,所述将所述待处理音频信号输入预设的第一降噪模型中,得到第一降噪信号的步骤,包括:

调整所述第一降噪模型的降噪参数,得到第三降噪模型,并将所述待处理音频信号输入所述第三降噪模型,得到第一降噪信号。

可选地,所述降噪参数包括噪声概率、平滑因子、噪声谱更新周期、抑制增益、增益下限中的一种或者多种;

所述调整所述第一降噪模型的降噪参数的步骤,包括:

增大所述第一降噪模型的噪声概率;

和/或,

增大所述第一降噪模型的抑制增益;

和/或,

减小所述第一降噪模型的平滑因子;

和/或,

减小所述第一降噪模型的噪声谱更新周期;

和/或者,

对所述待处理音频信号进行分频处理,得到低频信号和中高频信号;

降低所述低频信号的增益下限,并提高所述中高频信号的增益下限。

可选地,在所述将所述待处理音频信号输入预设的第二降噪模型中,得到第二降噪信号的步骤之前,所述方法还包括:

获取样本数据集,其中,所述样本数据集包括多条样本数据,一条样本数据包括一个场景的音频信号,以及所述场景中音频信号的真实降噪结果;

根据各条所述样本数据中的真实降噪结果构建标签数据;

将各条样本数据作为模型输入数据,以及将各条样本数据对应的所述标签数据作为模型训练标签,对待训练的降噪模型进行训练,得到用于对音频信号中的风噪进行降噪的第二降噪模型。

可选地,所述对所述第一降噪信号和所述第二降噪信号进行加权,得到风噪抑制后的音频信号的步骤,包括:

将所述第一降噪信号对应预设的第一权重与所述第一降噪信号相乘,得到第一中间信号,并将所述第二降噪信号对应预设的第二权重与所述第二降噪信号相乘,得到第二中间信号;

叠加所述第一中间信号和所述第二中间信号,得到风噪抑制后的音频信号。

此外,为解决上述问题,本发明还提出一种音频信号的风噪抑制系统,所述音频信号的风噪抑制系统包括:

风噪判断模块,用于获取待处理音频信号,并判断所述待处理音频信号中是否存在风噪;

降噪模块,用于在判断出所述待处理音频信号中存在风噪时,将所述待处理音频信号输入预设的第一降噪模型中,得到第一降噪信号,并将所述待处理音频信号输入预设的第二降噪模型中,得到第二降噪信号,其中,所述第一降噪模型为传统降噪模型,所述第二降噪模型为机器学习模型;

信号叠加模型,用于对所述第一降噪信号和所述第二降噪信号进行加权,得到风噪抑制后的音频信号。

此外,为解决上述问题,本发明还提出一种音频信号的风噪抑制设备,所述音频信号的风噪抑制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频信号的风噪抑制程序,所述音频信号的风噪抑制程序被所述处理器执行时实现如上所述的音频信号的风噪抑制方法的步骤。

此外,本发明还提出一种存储介质,所述存储介质上存储有音频信号的风噪抑制程序,所述音频信号的风噪抑制程序被处理器执行时实现如上所述的音频信号的风噪抑制方法的步骤。

在本发明实施例中,本发明通过获取待处理音频信号,并判断待处理音频信号中是否存在风噪,能够仅对存在风噪的音频信号进行处理,从而避免了对不存在风噪的音频信号进行处理,造成处理资源的浪费和过度损伤音质的问题;通过在判断出待处理音频信号中存在风噪时,将待处理音频信号输入预设的第一降噪模型中,得到第一降噪信号,并将待处理音频信号输入预设的第二降噪模型中,得到第二降噪信号,其中,第一降噪模型为传统降噪模型,传统降噪模型包括自适应滤波模型、频域滤波模型、时域滤波模型,第二降噪模型包括循环神经网络模型、双信号变换长短时记忆网络模型中的一种或多种,能够通过传统的降噪算法对音频信号进行降噪,得到语音失真度较高但降噪效果较好的第一降噪信号,通过针对风噪降噪进行训练的循环神经网络模型等深度学习模型对音频信号进行降噪,得到语音失真度较低的第二降噪信号;然后按照预设权重对第一降噪信号和第二降噪信号进行加权,得到风噪抑制后的音频信号,其中,调整参数后的传统降噪效果可以更大程度抑制低频风噪,也就是风噪能量占比最大的频段,对中高频语音的保留更好,失真更小,但是低频段的语音保留不足,失真较大;机器学习模型对低频端语音保留更好,失真更小,同时低频段也能较好抑制风噪,但中高频的语音保留稍弱于调整参数后的传统算法;两者加权以后可以取长补短。从而,本申请技术方案在保证音频失真小,同时降低风噪,提高音频质量的前提下,解决了风噪抑制后语音失真度较大的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例方案涉及的音频信号的风噪抑制设备硬件运行环境的设备结构示意图;

图2为本发明音频信号的风噪抑制方法第一实施例的流程示意图;

图3为本发明音频信号的风噪抑制方法一实施例的风噪检测流程示意图;

图4为本发明音频信号的风噪抑制方法一实施例的风噪分类器示意图;

图5为本发明音频信号的风噪抑制方法一实施例的降噪信号加权示意图;

图6为本发明音频信号的风噪抑制方法一实施例的第一风噪降噪比对示意图;

图7为本发明音频信号的风噪抑制方法一实施例的第二风噪降噪比对示意图;

图8为本发明音频信号的风噪抑制方法一实施例的风噪检测-抑制示意图;

图9为本发明音频信号的风噪抑制方法一实施例的风噪检测比对示意图;

图10为本发明音频信号的风噪抑制系统一实施例的功能模块示意图。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

如图1所示,图1是本发明实施例方案涉及的音频信号的风噪抑制设备硬件运行环境的设备结构示意图。

如图1所示,在音频信号的风噪抑制设备的硬件运行环境中,该音频信号的风噪抑制设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的音频信号的风噪抑制设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音频信号的风噪抑制程序。

在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的音频信号的风噪抑制程序,并执行以下操作:

获取待处理音频信号,并判断所述待处理音频信号中是否存在风噪;

在判断出所述待处理音频信号中存在风噪时,将所述待处理音频信号输入预设的第一降噪模型中,得到第一降噪信号,并将所述待处理音频信号输入预设的第二降噪模型中,得到第二降噪信号,其中,所述第一降噪模型为传统降噪模型,所述第二降噪模型为机器学习模型;

对所述第一降噪信号和所述第二降噪信号进行加权,得到风噪抑制后的音频信号。

处理器1001可以用于调用存储器1005中存储的音频信号的风噪抑制程序,并执行以下操作:

根据预设的时间间隔将所述待处理音频信号划分为多个中间信号,并计算多个所述中间信号各自对应的平均能量;

在检测到多个所述平均能量中存在大于预设阈值的平均能量时,执行所述判断所述待处理音频信号中是否存在风噪的步骤;

在检测到多个所述平均能量中不存在大于所述预设阈值的平均能量时,通过预设的第三降噪模型对所述待处理音频信号进行降噪,其中,所述第三降噪模型为未进行参数调整的所述第一降噪模型。

处理器1001可以用于调用存储器1005中存储的音频信号的风噪抑制程序,并执行以下操作:

提取所述待处理音频信号中的音频特征,并将所述音频特征输入风噪二分类模型,得到分类结果,其中,所述风噪二分类模型是以信号的声学特征为模型输入数据,以信号的声学特征的真实风噪存在结果的二分类标签为标签数据进行训练得到的;

若检测到所述分类结果与预设结果相同,则判定所述待处理音频信号中存在风噪,并对所述分类结果进行平滑处理,其中,所述预设结果为所述风噪二分类模型输出的表征存在风噪的分类结果。

处理器1001可以用于调用存储器1005中存储的音频信号的风噪抑制程序,并执行以下操作:

调整所述第一降噪模型的降噪参数,得到第三降噪模型,并将所述待处理音频信号输入所述第三降噪模型,得到第一降噪信号。

可选地,所述降噪参数包括噪声概率、平滑因子、噪声谱更新周期、抑制增益、增益下限中的一种或者多种;

处理器1001可以用于调用存储器1005中存储的音频信号的风噪抑制程序,并执行以下操作:

增大所述第一降噪模型的噪声概率;

和/或,

增大所述第一降噪模型的抑制增益;

和/或,

减小所述第一降噪模型的平滑因子;

和/或,

减小所述第一降噪模型的噪声谱更新周期;

和/或者,

对所述待处理音频信号进行分频处理,得到低频信号和中高频信号;

降低所述低频信号的增益下限,并提高所述中高频信号的增益下限。

处理器1001可以用于调用存储器1005中存储的音频信号的风噪抑制程序,并执行以下操作:

获取样本数据集,其中,所述样本数据集包括多条样本数据,一条样本数据包括一个场景的音频信号,以及所述场景中音频信号的真实降噪结果;

根据各条所述样本数据中的真实降噪结果构建标签数据;

将各条样本数据作为模型输入数据,以及将各条样本数据对应的所述标签数据作为模型训练标签,对待训练的降噪模型进行训练,得到用于对音频信号中的风噪进行降噪的第二降噪模型。

可选地,处理器1001可以用于调用存储器1005中存储的音频信号的风噪抑制程序,并执行以下操作:

将所述第一权重与所述第一降噪信号相乘,得到第一中间信号,并将所述第二权重与所述第二降噪信号相乘,得到第二中间信号;

叠加所述第一中间信号和所述第二中间信号,得到风噪抑制后的音频信号。

基于上述硬件结构,提出本发明音频信号的风噪抑制方法各个实施例的整体构思。

风噪是由麦克风附近的空气湍流产生的噪声,在通过麦克风采集信号时,风噪将对采集的音频信号的质量和信号的处理产生影响。

现如今,通常通过频谱质心、线性预测等方式检测噪声,并通过自适应滤波法、频域滤波法、时域滤波法等对音频信号中的噪声进行抑制。但是,由于风噪是非平稳噪声,而传统的噪声检测、抑制算法仅能对平稳的噪声进行抑制,因此,在通过传统的算法对风噪进行抑制时,通常存在风噪抑制后语音失真度较大的技术问题。

为解决上述问题,提出一种音频信号的风噪抑制方法。

基于上述本发明音频信号的风噪抑制方法各个实施例的整体构思,提出本发明音频信号的风噪抑制方法的各个实施例。

需要说明的是,本发明音频信号的风噪抑制方法的执行主体为音频信号的风噪抑制设备,音频信号的风噪抑制设备可以是服务器、电脑等设备。为便于阐述,在以下实施例中,均省略执行主体进行阐述。

请参照图2,图2为本发明音频信号的风噪抑制方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,当然可以以不同于此处的顺序执行本发明音频信号的风噪抑制方法的各个步骤。

在本实施例中,本发明音频信号的风噪抑制方法包括:

步骤S10,获取待处理音频信号,并判断所述待处理音频信号中是否存在风噪;

需要说明的是,待处理音频信号指的是麦克风等设备采集的需要进行降噪处理的音频信号。可以理解的是,风噪强度与场景相关,在不同场景下,风噪强度也不同。此外,音频信号中除存在风噪之外,还可能存在其他噪声。

在本实施例中,在获取待处理的音频信号后,需要判断音频信号中是否存在风噪,以避免对不携带风噪的音频信号进行后续处理产生的算力资源浪费的问题。

作为一种示例,在得到待处理音频信号后,能够通过频谱分析法或者基于统计特征的方法判断待处理信号中是否存在风噪。

可选地,在一种可行的实施例中,上述步骤S10,还包括:

步骤S101,提取所述待处理音频信号中的音频特征,并将所述音频特征输入风噪二分类模型,得到分类结果,其中,所述风噪二分类模型是以信号的声学特征为模型输入数据,以信号的声学特征的真实风噪存在结果的二分类标签为标签数据进行训练得到的;

可以理解的是,音频特征为待处理音频信号的声学特征,其中,音频特征可以包括:对数梅尔频谱、频谱质心、谱熵、线性预测系数(LPC)、BFCC(Bark-frequency cepstralcoefficients,巴克频域倒谱系数)以及BFCC的差分、基音(pitch)相关度、基音周期、基音平稳度。其中,风噪二分类模型是用于区分音频信号中是否存在风噪的分类模型。

并且,可以理解的是,模型输入数据与算法模型有关。算法模型一般有以下几类模型:对于RNNoise类型的算法来说,先通过傅里叶变换计算音频帧的频谱,然后根据频谱计算BFCC等特征,模型输入为这些特征,模型输出结果再转换成频谱,最后逆傅里叶变换得到降噪后的音频帧。对于DTLN类型的算法来说,先通过傅里叶变换计算音频帧的频谱,频谱作为模型输入,模型输出也是频谱,最后逆傅里叶变换得到降噪后的音频帧。还有其他算法的模型输入就是降噪前的音频帧,输出就是降噪后的音频帧。

在本实施例中,在通过风噪二分类模型对获取的待处理音频信号进行判断前,还需要以各种音频信号的声学特征为模型输入数据,以各种音频信号的声学特征是否存在风噪的结果,即,以各种音频信号的声学特征的真实风噪存在结果为二分类标签,对常规的分类模型进行训练,在训练完成后,得到风噪二分类模型。其中,分类模型可以是机器学习算法模型,本发明对此不作限定。

然后提取待处理音频信号中的对数梅尔频谱、频谱质心等特征,并将提取出的特征输入训练完成的分类模型中,得到待处理音频信号的分类结果。其中,提取上述特征的方法为现有技术,本发明在此不再赘述。

步骤S102,若检测到所述分类结果与预设结果相同,则判定所述待处理音频信号中存在风噪,并对所述分类结果进行平滑处理,其中,所述预设结果为所述风噪二分类模型输出的表征存在风噪的分类结果。

在本实施例中,在得到待处理音频信号的分类结果(以下简称为实际结果)后,需要将分类结果与风噪二分类模型输出的表征声学特征存在风噪的分类结果(以下简称为预测结果)进行比较,若检测到实际结果与预测结果相同,则能够判定待处理音频信号中存在风噪,并对分类结果进行平滑处理。其中,平滑处理指的是对检测结果进行修正。修正的其中一种方式是统计N帧的检测结果,如果N帧结果中超过M帧的检测结果都为存在风噪,则把这N帧结果的结果都置为存在风噪;如果N帧结果中超过M帧的检测结果都为不存在风噪,则把这N帧结果的结果都置为不存在风噪。其中,N和M可以根据实际情况调整。

作为一种示例,能够预先以对数梅尔频谱为模型输入数据,以对数梅尔频谱是否表征存在风噪的二分类标签为标签数据,对逻辑回归模型进行训练,训练完成后,该逻辑回归模型即为风噪二分类模型。然后将待处理的音频信号的对数梅尔频谱输入风噪二分类模型,从而判断出待处理的音频信号中是否存在风噪。

作为另一种示例,分类模型还可以是SVM模型,计算量更小,准确率也可以达到95%以上;也可以是更复杂的基于全连接层、GRU或者LSTM层组合的神经网络模型,模型计算量稍大,相比SVM模型,准确率更高。在实际运用中,本领域技术人员能够基于运算性能选择合适的分类模型。此外,在得到分类结果后,由于一般风噪持续时间较长,不会瞬间开始或者瞬间结束,故而还能将分类结果作为预设时间段内的检测结果,从而避免多次检测造成的算力浪费。在一种可行的实施例中,如果N帧内大部分检测结果都是存在风噪,则N帧检测结果都设置成存在风噪;如果N帧内大部分检测结果都是不存在风噪,则N帧检测结果都设置成不存在风噪。

请参照图3,风噪检测流程可以是:在输入音频(待处理音频信号)后,对音频进行分帧、加窗处理,然后提取音频的特征,进而通过风噪分类器(风噪二分类模型)得到分类结果,然后再对分类结果进行平滑,然后输出音频中是否存在风噪的判断结果。

请参照图4,风噪分类器对音频特征的处理过程可以是:特征输入后,依次通过全连接层、多层GRU(Gated Recurrent Unit,门控循环单元)、softmax,得到分类结果。其中,图4所示的分类器采用的模型层次简单,仅需较小的计算量即可得到分类结果。

步骤S20,在判断出所述待处理音频信号中存在风噪时,将所述待处理音频信号输入预设的第一降噪模型中,得到第一降噪信号,并将所述待处理音频信号输入预设的第二降噪模型中,得到第二降噪信号,其中,所述第一降噪模型为传统降噪模型,所述第二降噪模型为机器学习模型;

可以理解的是,传统降噪模型指的是包括传统降噪逻辑的算法模型,传统降噪模型包括自适应滤波模型、频域滤波模型、时域滤波模型等等,第一降噪信号指的是传统降噪算法对待处理音频信号进行降噪处理后的音频,而第二降噪信号指的是机器学习算法对待处理音频信号进行降噪处理后的音频。机器学习模型可以是RNNoise(Real-Time NoiseSuppression,实时噪声抑制算法),DTLN(Dual-Signal Transformation LSTM Network,双信号转换长短期记忆网络),也可以是其他降噪模型比如DPCRN模型(Dual-PathConvolution Recurrent Network,双路径卷积循环网络)。

在本实施例中,在判断出待处理音频信号中存在风噪时,能够同时通过包括传统降噪逻辑的算法模型和机器学习模型对待处理音频信号进行处理,从而能够通过传统降噪逻辑的算法模型去除待处理音频信号中的风噪,并通过针对风噪降噪机器学习模型对待处理音频信号进行处理,得到语音失真度较低的降噪信号。

需要说明的是,在利用机器学习模型对待处理音频信号进行降噪前,需要控制机器学习算法模型通过训练学习到风噪的特性,使得机器学习算法模型能够在保留音频信号的同时有效地去除风噪。

作为一种示例,在得到待处理音频信号(音频A)后,能够通过自适应滤波模型对音频A进行降噪,降噪后的音频为音频B,然后还能够通过循环神经网络模型对音频A进行降噪,降噪后的音频为音频C。

可选地,在一种可行的实施例中,上述步骤S20,包括:

步骤S201,调整所述第一降噪模型的降噪参数,得到第三降噪模型,并将所述待处理音频信号输入所述第三降噪模型,得到第一降噪信号。

在本实施例中,除直接根据传统降噪模型对音频信号中的风噪进行降噪外,还能够调整传统降噪模型中的降噪参数,以提高降噪效果。其中,调整降噪参数后的第一降噪模型为第三降噪模型。在得到第三降噪模型后,能够将待处理音频信号输入第三降噪模型,从而得到第一降噪信号。

作为一种示例,除通过自适应滤波模型对音频信号进行降噪,得到第一降噪信号外,还能够调整自适应滤波模型中的降噪参数,进而根据参数调整后的自适应滤波模型对音频信号进行降噪,得到第一降噪信号。

可选地,在一种可行的实施例中,所述降噪参数包括噪声概率、平滑因子、噪声谱更新周期、抑制增益、增益下限中的一种或者多种,上述步骤S201,还包括:

步骤S2011,增大所述第一降噪模型的噪声概率;

步骤S2012,增大所述第一降噪模型的抑制增益;

步骤S2013,减小所述第一降噪模型的平滑因子;

步骤S2014,减小所述第一降噪模型的噪声谱更新周期;

步骤S2015,对所述待处理音频信号进行分频处理,得到低频信号和中高频信号;

步骤S2016,降低所述低频信号的增益下限,并提高所述中高频信号的增益下限。

在频域中,若通过传统降噪方法计算出来当前帧的噪声概率越高,那么当前帧频谱用于迭代噪声估计谱的权重更大,也就是估计出来的噪声谱更接近当前帧频谱,噪声抑制量更大。由于风噪属于非平稳噪声,也就是噪声频谱随时间变化较快,传统算法得到的噪声概率比较低,噪声抑制效果比较差。提高噪声概率,相当于修正了传统算法对于风噪的频谱估计。

另外,传统降噪方法中噪声估计分为最小值跟踪法、直方图法和时间递归平均法,其中直方图法和时间递归平均法都需要设置平滑因子,用于更新估计的噪声信息。平滑因子越小,说明当前帧对估计结果的权重越大,算法对噪声信息的跟踪越及时,降噪后的底噪能量越小。

此外,对于部分降噪算法来说,还有一个参数是强制更新噪声信息的周期(噪声谱更新周期),也就是设置一个周期T,每隔T帧强制更新噪声谱为当前帧的噪声信息,这样可以防止噪声估计跟不上噪声变化。这个周期调小以后,算法对噪声信息的跟踪更及时,降噪后的底噪能量越小。

对于抑制增益,在得到抑制增益gain后,为了减少失真,会设置一个gainfloor(增益下限),当gain小于gainfloor时,令gain等于gainfloor。这个gainfloor越小,降噪强度越高,产生的失真越明显。其中,gainfloor是频域的,也就是可以不同频率设置不同的gainfloor,对于低频段的gainfloor设置更小,则降噪后的底噪能量越小。

由于风噪能量主要集中在低频段,也就是低频段信噪比很低。在传统降噪算法的默认降噪参数下,低频段降噪后语音很难听清、并且残留的风噪还是比较大。因此,对于低频段采用更激进的参数,可以提升对风噪和语音的压制。除了低频段以外,语音在中高频段还有一部分能量,对中高频段采用默认的参数处理,可以保留更多语音能量,更容易听清。从而,本实施例通过调整降噪参数的方式,还能够尽量保留高频段的语音信息。

此外,在上述步骤S20之前,所述方法还包括:

步骤X,获取样本数据集,其中,所述样本数据集包括多条样本数据,一条样本数据包括一个场景的音频信号,以及所述场景中音频信号的真实降噪结果;

步骤Y,根据各条所述样本数据中的真实降噪结果构建标签数据;

步骤Z,将各条样本数据作为模型输入数据,以及将各条样本数据对应的所述标签数据作为模型训练标签,对待训练的降噪模型进行训练,得到用于对音频信号中的风噪进行降噪的第二降噪模型。

在本实施例中,样本数据集中包括各种场景下的音频信号,从而,样本数据集中包括多条样本数据,一条样本数据中包括一个场景下的音频信号,以及该场景中音频信号的真实降噪结果。其中,真实降噪结果是真实降噪后的音频。然后能够基于各条样本数据中的真实降噪结果构建标签数据,进而将各条样本数据作为模型的输入数据,将各条样本数据对应的标签数据作为模型训练模型对降噪模型进行训练,从而得到第二降噪模型。其中,降噪模型指的是未经过训练的RNNoise、DTLN等实时处理的算法模型。

在本实施例中,本发明通过不同场景下的携带风噪的音频信号对模型进行训练,能够提高模型对风噪抑制的针对性。从而能够实现对不同场景下的风噪进行降噪,提高了风噪抑制的鲁棒性。

步骤S30,对所述第一降噪信号和所述第二降噪信号进行加权,得到风噪抑制后的音频信号。

在本实施例中,在得到通过传统降噪算法得到的第一降噪信号和通过机器学习算法得到的第二降噪信号后,能够按照预设权重对第一降噪信号和第二降噪信号进行加权,从而将第一降噪信号和第二降噪信号合并为一个降噪后的信号,即,得到风噪抑制后的音频信号。

可选地,在一种可行的实施例中,上述步骤S30,包括:

步骤S301,将所述第一降噪信号对应预设的第一权重与所述第一降噪信号相乘,得到第一中间信号,并将所述第二降噪信号对应预设的第二权重与所述第二降噪信号相乘,得到第二中间信号;

步骤S302,叠加所述第一中间信号和所述第二中间信号,得到风噪抑制后的音频信号。

可以理解的是,第一中间信号为第一权重与第一降噪信号相乘得到的信号,第二中间信号为第二权重与第二降噪信号相乘得到的信号。

在本实施例中,还能够通过调整第一权重和第二权重的方式,调整第一降噪信号和第二降噪信号各自在最终的风噪抑制后的音频信号中的占比,从而能够调整降噪后的音频信号的语音失真度。在得到第一中间信号和第二中间信号后,还能够将第一中间信号和第二中间信号进行叠加,并将叠加生成的信号作为风噪抑制后的音频信号。

请参照图5,在音频输入后,若传统噪声检测算法检测到风噪,则能够通过传统噪声抑制算法对音频进行抑制,并通过深度学习降噪算法对噪声进行抑制,并将传统抑制算法得到的结果和深度学习降噪算法得到的结果进行加权求和,从而得到风噪降噪后的音频信号,并将降噪后的音频信号输出。

可以理解的是,针对不同权重调整,可以参考图6和图7,其中权重1:0和权重0:1,指的是传统算法(针对风噪处理)降噪后信号的权重:机器学习算法降噪信号的权重。当权重1:0时,降噪结果底噪稍多,风噪和语音混合的情况下,语音更清楚一些;当权重0:1时,降噪结果底噪更少,但风噪和语音混合的情况下,语音稍弱一些;其他权重结果介于1:0和0.1之间。

请继续参照图6,本申请提出的音频信号的风噪降噪方法与传统降噪方法相比,本方案降噪后底噪比传统降噪算法更小。

请继续参照图7,在风噪和语音混合时,本申请提出的音频信号的风噪降噪方法与传统降噪方法相比,本方案降噪后语音清晰度和传统算法接近,但残留风噪与传统算法相比更弱。

在本实施例中,本发明调整参数后的传统降噪效果可以更大程度抑制低频风噪,也就是风噪能量占比最大的频段,对中高频语音的保留更好,失真更小,但是低频段的语音保留不足,失真明显;机器学习模型对低频端语音保留更好,失真更小,同时低频段也能较好抑制风噪,但中高频的语音保留稍弱于调整参数后的传统算法;两者加权以后可以取长补短。

从而使得风噪抑制后的音频信号能够在降噪的基础上,降低语音失真度。从而,本申请技术方案解决了风噪抑制后语音失真度较大的技术问题。

基于上述本发明音频信号的风噪抑制方法的第一实施例,提出本发明音频信号的风噪抑制方法的第二实施例。

在本实施例中,在上述步骤S10之前,所述方法还包括:

步骤A,根据预设的时间间隔将所述待处理音频信号划分为多个中间信号,并计算多个所述中间信号各自对应的平均能量;

可以理解的是,预设的时间间隔可以是预先设定的对待处理音频信号进行分段的间隔。中间信号是分段后的音频信号。

在本实施例中,还能够根据预设的分段间隔将待处理的音频信号划分为多个中间信号,并计算每段中间信号各自对应的平均能量。需要说明的是,计算特定长度的音频(音频信号)的平均能量为现有技术,本发明对此不再赘述。

步骤B,在检测到多个所述平均能量中存在大于预设阈值的平均能量时,执行所述判断所述待处理音频信号中是否存在风噪的步骤;

步骤C,在检测到多个所述平均能量中不存在大于所述预设阈值的平均能量时,通过预设的第三降噪模型对所述待处理音频信号进行降噪,其中,所述第三降噪模型为未进行参数调整的所述第一降噪模型。

其中,预设的第三降噪模型指的是没有修改参数的传统降噪算法训练得到的模型。

在本实施例中,在检测到多个平均能量中存在大于预设阈值的平均能量,则执行上述判断待处理音频信号中是否存在风噪的步骤。

此外,上述计算平均能量,进而进行风噪检测的方式,还能用于检测猫叫、狗叫、工厂车床噪声。

可以理解的是,预设阈值可以根据实际场景进行设置,有的场景除了风噪以外,底噪也比较大,阈值A可以设置更大一些;有的场景除了风噪以外比较安静,阈值A可以设置更小一些。实际中设置的阈值,对应的音频信号平均能量RMS大约是-40dB。

作为一种示例,请参照图8,其中,预设的时间间隔为1s,预设阈值为阈值A,当平均能量低于阈值A,运行未修改参数的传统降噪算法。原因在于,对于能量较小的风噪,传统降噪算法的效果已经能满足要求,不至于过度损伤音质。当平均能量高于阈值A时,则运行风噪检测算法。当风噪检测算法检测出没有风噪时,运行传统降噪算法;当风噪检测算法检测出有风噪时,运行风噪抑制算法。

此外,请参照表1,表1列出了本发明提出的算法和已有算法的检测结果对比,其中,25cm风噪指的是麦克风和风扇距离25cm的录音,从表1数据能够得到:本申请提出检测算法明显准确性更高。

表1

请参照图9,从图9中能够看出,本申请采用的上述风噪检测方法检测出风噪的准确性更高。

在本实施例中,本发明通过对音频信号进行分段,并确定分段后音频信号的平均能量,进而根据平均能量初步检测能量是否较高,进而根据平均能量判断是否需要对风噪进行进一步检测的方式,提高了检测风噪的准确性。

此外,本发明还提出一种音频信号的风噪抑制系统。

请参照图10,所述音频信号的风噪抑制系统包括:

风噪判断模块10,用于获取待处理音频信号,并判断所述待处理音频信号中是否存在风噪;

降噪模块20,用于在判断出所述待处理音频信号中存在风噪时,将所述待处理音频信号输入预设的第一降噪模型中,得到第一降噪信号,并将所述待处理音频信号输入预设的第二降噪模型中,得到第二降噪信号,其中,所述第一降噪模型为传统降噪模型,所述第二降噪模型为机器学习模型;

信号叠加模型30,用于对所述第一降噪信号和所述第二降噪信号进行加权,得到风噪抑制后的音频信号。

可选地,所述音频信号的风噪抑制系统还包括:

信号划分模块,用于根据预设的时间间隔将所述待处理音频信号划分为多个中间信号,并计算多个所述中间信号各自对应的平均能量;

能量对比模块,用于在检测到多个所述平均能量中存在大于预设阈值的平均能量时,执行所述判断所述待处理音频信号中是否存在风噪的步骤;

未修改参数的传统降噪模块,用于在检测到多个所述平均能量中不存在大于所述预设阈值的平均能量时,通过预设的第三降噪模型对所述待处理音频信号进行降噪,其中,所述第三降噪模型为未进行参数调整的所述第一降噪模型。

可选地,风噪判断模块10还用于:

提取所述待处理音频信号中的音频特征,并将所述音频特征输入风噪二分类模型,得到分类结果,其中,所述风噪二分类模型是以信号的声学特征为模型输入数据,以信号的声学特征的真实风噪存在结果的二分类标签为标签数据进行训练得到的;

若检测到所述分类结果与预设结果相同,则判定所述待处理音频信号中存在风噪,并对所述分类结果进行平滑处理,其中,所述预设结果为所述风噪二分类模型输出的表征存在风噪的分类结果。

可选地,降噪模块20,还用于:

调整所述第一降噪模型的降噪参数,得到第三降噪模型,并将所述待处理音频信号输入所述第三降噪模型,得到第一降噪信号。

可选地,所述降噪参数包括噪声概率、平滑因子、噪声谱更新周期、抑制增益、增益下限中的一种或者多种,降噪模块20,还用于:

增大所述第一降噪模型的噪声概率;

和/或,

增大所述第一降噪模型的抑制增益;

和/或,

减小所述第一降噪模型的平滑因子;

和/或,

减小所述第一降噪模型的噪声谱更新周期;

对所述待处理音频信号进行分频处理,得到低频信号和中高频信号;

降低所述低频信号的增益下限,并提高所述中高频信号的增益下限。

可选地,所述音频信号的风噪抑制系统包括:

样本获取模块,用于获取样本数据集,其中,所述样本数据集包括多条样本数据,一条样本数据包括一个场景的音频信号,以及所述场景中音频信号的真实降噪结果;

标签数据构建模块,用于根据各条所述样本数据中的真实降噪结果构建标签数据;

模型训练模块,用于将各条样本数据作为模型输入数据,以及将各条样本数据对应的所述标签数据作为模型训练标签,对待训练的降噪模型进行训练,得到用于对音频信号中的风噪进行降噪的第二降噪模型。

可选地,信号叠加模型30,还用于:

将所述第一降噪信号对应预设的第一权重与所述第一降噪信号相乘,得到第一中间信号,并将所述第二降噪信号对应预设的第二权重与所述第二降噪信号相乘,得到第二中间信号;

叠加所述第一中间信号和所述第二中间信号,得到风噪抑制后的音频信号。

其中,上述音频信号的风噪抑制系统中各个模块的功能实现与上述音频信号的风噪抑制方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。

此外,本发明还提出一种音频信号的风噪抑制设备,该音频信号的风噪抑制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频信号的风噪抑制程序,所述音频信号的风噪抑制程序被所述处理器执行时实现如上所述本发明音频信号的风噪抑制方法的步骤。

本发明音频信号的风噪抑制设备的具体实施例与上述音频信号的风噪抑制方法各实施例基本相同,在此不作赘述。

此外,本发明还提出一种存储介质,该存储介质上存储有音频信号的风噪抑制程序,该音频信号的风噪抑制程序被处理器执行时实现如上所述本发明音频信号的风噪抑制方法的步骤。

本发明存储介质的具体实施例与上述音频信号的风噪抑制方法各实施例基本相同,在此不作赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是车载电脑,智能手机,计算机,或者服务器等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 音频设备的麦克风校准方法、装置、系统及可读存储介质
  • 音频信号的评分方法、装置、电子设备及计算机存储介质
  • 音频信号处理方法、装置、设备和存储介质
  • 一种音频信号的调节方法、装置、设备及计算机存储介质
  • 获取音频设备声音的方法、存储介质、电子设备及系统
  • 风噪抑制的音频信号处理方法、装置、系统和可读介质
  • 风噪抑制方法、装置、音频设备及系统
技术分类

06120116625523