掌桥专利:专业的专利平台
掌桥专利
首页

音频降噪方法、装置、电子设备以及存储介质

文献发布时间:2023-06-19 09:27:35


音频降噪方法、装置、电子设备以及存储介质

技术领域

本申请涉及电子设备技术领域,更具体地,涉及一种音频降噪方法、装置、电子设备以及存储介质。

背景技术

噪音的分类复杂多样,有平稳噪音、非平稳噪音等。目前市面上针对噪音的降噪处理大多采用单一降噪算法,少数采用两个降噪算法,但是,在很多噪音场景下,仅采用单一降噪算法或者两个降噪算法进行降噪处理,无法较好地解决复杂噪音场景的噪音问题,造成降噪效果较差的问题。

发明内容

鉴于上述问题,本申请提出了一种音频降噪方法、装置、电子设备以及存储介质,以解决上述问题。

第一方面,本申请实施例提供了一种音频降噪方法,所述方法包括:获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景;基于所述音频使用场景,选取多个目标音频降噪算法;按指定降噪处理顺序,将所述待降噪的音频信号依次经过所述多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

第二方面,本申请实施例提供了一种音频降噪装置,所述装置包括:音频使用场景获取模块,用于获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景;音频降噪算法获取模块,用于基于所述音频使用场景,选取多个目标音频降噪算法;音频降噪处理模块,用于按指定降噪处理顺序,将所述待降噪的音频信号依次经过所述多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的音频降噪方法、装置、电子设备以及存储介质,获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,基于音频使用场景,选取多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号,从而根据待降噪的音频信号对应的音频使用场景选取多个音频降噪算法对待降噪的音频信号进行降噪处理,以实现根据实际的语音质量需求,选择相应数量的音频降噪算法进行降噪处理,提升音频处理效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1示出了本申请一个实施例提供的音频降噪方法的流程示意图;

图2示出了本申请又一个实施例提供的音频降噪方法的流程示意图;

图3示出了本申请再一个实施例提供的音频降噪方法的流程示意图;

图4示出了本申请另一个实施例提供的音频降噪方法的流程示意图;

图5示出了本申请又再一个实施例提供的音频降噪方法的流程示意图;

图6示出了本申请实施例提供的音频降噪装置的模块框图;

图7示出了本申请实施例用于执行根据本申请实施例的音频降噪方法的电子设备的框图;

图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的音频降噪方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

随着科技的发展,电子设备的应用越来越广泛,通过电子设备采集并播放音频也越来越普遍,但是,采集的音频中一般均包含有噪音,且噪音的分类复杂多样,有平稳噪音、非平稳噪音等。目前市面上针对噪音的降噪处理大多采用单一降噪算法,少数采用两个降噪算法,但是,在很多噪音场景下,仅采用单一降噪算法或者两个降噪算法进行降噪处理,无法较好地解决复杂噪音场景的噪音问题,造成降噪效果较差的问题。

针对上述问题,发明人经过长期的研究发现,并提出了本申请实施例提供的音频降噪方法、装置、电子设备以及存储介质,根据待降噪的音频信号对应的音频使用场景选取多个音频降噪算法对待降噪的音频信号进行降噪处理,以实现根据实际的语音质量需求,选择相应数量的音频降噪算法进行降噪处理,提升音频处理效果。其中,具体的音频降噪方法在后续的实施例中进行详细的说明。

请参阅图1,图1示出了本申请一个实施例提供的音频降噪方法的流程示意图。所述音频降噪方法用于根据待降噪的音频信号对应的音频使用场景选取多个音频降噪算法对待降噪的音频信号进行降噪处理,以实现根据实际的语音质量需求,选择相应数量的音频降噪算法进行降噪处理,提升音频处理效果。在具体的实施例中,所述音频降噪方法应用于如图6所示的音频降噪装置200以及配置有音频降噪装置200的电子设备100(图7)。下面将以电子设备为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的电子设备可以为智能手机、平板电脑、穿戴式电子设备等,在此不做限定。下面将针对图1所示的流程进行详细的阐述,所述音频降噪方法具体可以包括以下步骤:

步骤S110:获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景。

在本实施例中,以电子设备获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景进行说明。

其中,在嘈杂的室内环境或室外环境中,同时存在着许多不同的声源,具体地,可以存在着多个人同时说话的声音、餐具的碰撞声、音乐声以及这些声音经物体反射所产生的反射声等。在声波的传递过程中,不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波,因此,在到达听者耳道的混合声波中已经不存在独立的与各个声源相对应的声波,即,需要对混合声波进行音频降噪处理,以获得相对独立的声波,则可以将该混合声波作为待降噪的音频信号。

在一些实施方式中,电子设备可以从本地获取待降噪的音频信号,可以从服务器获取待降噪的音频信号,可以从其他电子设备获取待降噪的音频信号,也可以通过内置的音频采集设备采集待降噪的音频信号等,在此不做限定。其中,当电子设备通过内置的音频采集设备采集待降噪的音频信号时,电子设备可以通过内置的拾音器采集待降噪的音频信号。

在一些实施方式中,音频使用场景可以包括录音场景、远场拾音场景、语音识别场景、声纹唤醒场景等。因此,在本实施例中,可以检测待降噪的音频信号对应的音频使用场景是否为录音场景并获得检测结果,可以检测待降噪的音频信号对应的音频使用场景是否为远场拾音场景并获得检测结果,可以检测待降噪的音频信号对应的音频使用场景是否为语音识别场景并获得检测结果,可以检测待降噪的音频信号对应的音频使用场景是否为声纹唤醒场景并获得检测结果等,然后基于上述检测结果,可以获取待降噪的音频信号对应的音频使用场景。

作为一种方式,电子设备可以设置“录音场景”、“远场拾音场景”、“语音识别场景”、“声纹唤醒场景”四个选项,则在检测待降噪的音频信号对应的音频使用场景时,可以检测上述四个选项的选定情况,其中,当从上述四个选项中选定“录音场景”时,可以确定待降噪的音频信号对应的音频使用场景为“录音场景”,当从上述四个选项中选定“远场拾音场景”时,可以确定待降噪的音频信号对应的音频使用场景为“远场拾音场景”,当从上述四个选项中选定“语音识别场景”时,可以确定待降噪的音频信号对应的音频使用场景为“语音识别场景”,当从上述四个选项中选定“声纹唤醒场景”时,可以确定待降噪的音频信号对应的音频使用场景为“声纹唤醒场景”。

步骤S120:基于所述音频使用场景,选取多个目标音频降噪算法。

在本实施例中,在获取待降噪的音频信号对应的音频使用场景后,可以基于该待降噪的音频信号对应的音频使用场景,选取多个目标音频降噪算法。在一些实施方式中,选取的目标音频降噪算法的数量至少为三个,以提升待降噪的音频信号的降噪处理效果。

作为一种方式,电子设备的本地可以预先存储有多个音频降噪算法,则在获取音频使用场景后,可以基于该音频使用场景,从本地存储的多个音频降噪算法中选取多个目标音频降噪算法。作为又一种方式,电子设备的本地可以没有预先存储多个音频降噪算法,则在获取音频使用场景后,可以基于该音频使用场景,从与电子设备通信的服务器中选取多个目标音频将降噪算法。

在一些实施方式中,当电子设备预先存储有多个音频降噪算法时,在获取音频使用场景后,可以基于该音频使用场景获取多个待使用的音频降噪算法,并检测电子设备的本地存储的多个音频降噪算法中是否完全包括多个待使用的音频降噪算法。其中,当检测到电子设备的本地存储的多个音频降噪算法中完全包括多个待使用的音频降噪算法时,则可以从本地存储的多个音频降噪算法中选取多个待使用的音频降噪算法,作为多个目标音频降噪算法。其中,当检测到电子设备的本地存储的多个音频降噪算法中不完全包括多个待使用的音频降噪算法时,则可以从电子设备的本地存储的多个音频降噪算法中选取所包括的待使用的音频降噪算法,并从与电子设备通信的服务器选取剩余的待使用的音频降噪算法,并将从电子设备的本地选取的待使用的音频降噪算法和从服务器选取的待使用的音频降噪算法,共同作为多个目标音频降噪算法。

在一些实施方式中,多个目标音频降噪算法可以包括波束形成算法、盲源分离算法、维纳滤波算法、谱减算法以及深度神经网络降噪算法等,在此不做限定。

其中,波束形成算法可以根据多个麦克风提供的空间信息和时频信息进行处理,先预估麦克风阵列间的时间延迟,使得各通道的语音信号同步,然后进行延迟相加(delayand sum beamforming),以消除均值为零的背景噪音。该方法主要是抑制主瓣以外的声音干扰,比如想加强零度角方向的语音,当波束从零度角方向入射时,麦克风阵列采集到的信号之间不存在延迟差,因而,语音会因为“叠加”作用而增强,但采集到的噪声和其他方向的语音则会因为延迟差不同或相关性较低而没有“叠加”增强,这使得零度角方向形成的波束比其他方向入射的信号的增益大。通过波束形成算法可以滤除了大部分其他方向的非稳态噪音,对非稳态噪音的抑制效果明显,但是特定方向语音也还会包含非稳态噪音和稳态噪音,例如,包含音响播放的音乐等非稳态噪音和空调等稳态噪音,这类噪声通常不具有空间指向性。

其中,盲源分离算法采用盲源分离技术(BSS,Blind Signal/SourceSeparation),是指将未知的观察信号采集后进行分离,进而恢复得到源信号的过程。为了分离混合信号,需要对源信号做出不同的假设,例如,假设源信号间相互统计独立,并且最主要的组成成分满足高斯分布。基于以上的假设,盲源分离问题可以转化为独立成分分析(ICA),即将接收到的混合信号按照统计独立的原则通过优化算法分离为若干独立分量,分离这部分主要工作在于利用学习策略求解分离矩阵。因此,盲源分离算法利用信号的高阶统计量来分离目标语音,能分离出相对独立的所有非高斯性声源。

其中,维纳滤波算法可以先对待降噪的音频信号进行离散傅里叶变换,在频率域计算语音、噪声的概率,然后通过维纳滤波对噪声进行抑制,再进行逆离散傅里叶变换到时域,得到最终降噪后的语音信号。因此,维纳滤波算法对稳态噪音(如恒定转速的风扇噪音,家用电器噪音)具有很好的抑制效果,引入失真极小。

其中,谱减算法是指在频率域估计出噪声的功率谱,用带噪语音的功率谱减去噪声的功率谱,理论上就可以得出估计的纯净语音功率谱,即达到语音增强的效果。但谱减法容易引入音乐噪音,为了改善谱减法造成的比较明显的音乐噪音,可以考虑引入了心理声学模型,来改善增益函数,有效抑制噪音且同时减小引入音乐噪声的问题。因此,谱减算法对稳态噪音有比较好的抑制效果,可以去除经其他降噪算法处理后残余的噪音。

其中,深度神经网络降噪算法,是指可以先将纯净语音和多种类型的噪音数据组合进行训练,用反向传播网络方法,在噪声环境中通过带噪语音网络输出与纯净语音比较,不断调节网络的加权系数获得深度神经网络降噪算法,通过训练得到的深度神经网络降噪算法去估计纯净的语音信号,在信噪比较高的环境下消噪效果较为明显。但是,深度神经网络降噪算法对特定噪音的抑制效果较为明显,但对于不常见的噪音效果的抑制性较差。

步骤S130:按指定降噪处理顺序,将所述待降噪的音频信号依次经过所述多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

在本实施例中,在获取多个目标音频降噪算法后,可以按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号,提升音频信号的降噪效果。其中,该指定降噪处理顺序可以是默认的降噪处理顺序,也可以是根据经验更新的降噪处理顺序,在此不做限定。

例如,假设多个目标音频降噪算法包括第一目标音频降噪算法、第二目标音频降噪算法、第三目标音频降噪算法……第N目标音频降噪算法,且指定降噪处理顺序为:第一目标音频降噪算法-第二目标音频降噪算法-第三目标音频降噪算法……第N目标音频降噪算法。那么,可以首先将待降噪的音频信号经过第一目标音频降噪算法进行降噪处理,获得第一待降噪的音频信号,将第一待降噪的音频信号经过第二目标音频降噪算法进行降噪处理,获得第二待降噪的音频信号,将第二待降噪的音频信号经过第三目标音频降噪算法进行降噪处理,获得第三待降噪的音频信号,以此类推,将第N-1待降噪的音频信号经过第N目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

本申请一个实施例提供的音频降噪方法,获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,基于音频使用场景,选取多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号,从而根据待降噪的音频信号对应的音频使用场景选取多个音频降噪算法对待降噪的音频信号进行降噪处理,以实现根据实际的语音质量需求,选择相应数量的音频降噪算法进行降噪处理,提升音频处理效果。

请参阅图2,图2示出了本申请又一个实施例提供的音频降噪方法的流程示意图。下面将针对图2所示的流程进行详细的阐述,所述音频降噪方法具体可以包括以下步骤:

步骤S210:获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景。

其中,步骤S210的具体描述请参阅步骤S110,在此不再赘述。

步骤S220:获取所述音频使用场景允许的最大音频失真。

其中,不同的音频使用场景对音频失真的要求不同,并且,有的音频使用场景对音频失真的要求较高,而有的音频使用场景对音频失真的要求较低。例如,语音识别场景、声纹唤醒场景等对于音频失真的要求较高,录音场景、远场拾音场景等对于音频失真的要求较低。因此,对音频失真的要求较高的音频使用场景允许的最大音频失真较小,对音频失真的要求较低的音频使用场景允许的最大音频失真较大。

在本实施例中,在获取待降噪的音频信号对应的音频使用场景后,可以获取该音频使用场景允许的最大音频失真。在一些实施方式中,电子设备可以预先获取每个音频使用场景允许的最大音频失真,以及建立并存储音频使用场景和其允许的最大音频失真的对应关系,那么,在获取待降噪的音频信号对应的音频使用场景后,可以基于本地存储的音频使用场景和其允许的最大音频失真的对应关系,获取该待降噪的音频信号对应的音频使用场景允许的最大音频失真。

步骤S230:基于所述允许的最大音频失真,选取所述多个目标音频降噪算法。

在本实施例中,在获得音频使用场景允许的最大音频失真后,可以基于该音频使用场景允许的最大音频失真,选取多个目标音频降噪算法。在一些实施方式中,若音频使用场景允许的最大音频失真越大,表征该音频使用场景对音频失真的要求不高,则可以选取数量较多的目标音频降噪算法对待降噪的音频信号进行降噪处理,以提升音频降噪处理的效果;若音频使用场景允许的最大音频失真越小,表征该音频使用场景对音频失真的要求较高,则可以选取数量较少的目标音频降噪算法对待降噪的音频信号进行降噪处理,以平衡音频降噪处理效果和失真要求。

作为一种方式,电子设备可以预先设置并存储有预设音频失真,该预设音频失真可以用于作为音频使用场景允许的最大音频失真的判断依据。因此,在本实施例中,在获取音频使用场景允许的最大音频失真时,可以将音频使用场景允许的最大音频失真与预设音频失真进行比较,以判断音频使用场景允许的最大音频失真是否大于预设音频失真,其中,当音频使用场景允许的最大音频失真大于预设音频失真时,表征该音频使用场景对音频失真的要求较低,则可以选取第一数量的音频降噪算法作为多个目标音频降噪算法,当音频使用场景允许的最大音频失真不大于预设音频失真时,表征该音频使用场景对音频失真的要求较高,则可以选取第二数量的音频降噪算法作为多个目标音频降噪算法,其中,第一数量大于第二数量。

在一些实施方式中,当音频使用场景为录音场景或远场拾音场景时,可以确定音频使用场景允许的最大音频失真大于预设音频失真,即,确定录音场景和远场拾音场景对音频失真的要求较低,则可以选取第一数量的音频降噪算法作为多个目标音频降噪算法;当音频使用场景为语音识别场景或声纹唤醒场景时,可以确定音频使用场景允许的最大音频失真不大于预设音频失真,即确定语音识别场景和声纹唤醒场景对音频失真的要求较高,则可以选取第二数量的音频降噪算法作为多个目标音频降噪算法。

步骤S240:按指定降噪处理顺序,将所述待降噪的音频信号依次经过所述多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

其中,步骤S240的具体描述请参阅步骤S130,在此不再赘述。

本申请又一个实施例提供的音频降噪方法,获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,获取音频使用场景允许的最大音频失真,基于允许的最大音频失真,选取多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。相较于图1所示的音频降噪方法,本实施例还获取音频使用场景允许的最大音频失真,并基于允许的最大音频失真选取多个目标降噪算法,以使最终获取的降噪后的音频信号符合该音频使用场景的失真要求,提升音频使用效果。

请参阅图3,图3示出了本申请再一个实施例提供的音频降噪方法的流程示意图。下面将针对图3所示的流程进行详细的阐述,所述音频降噪方法具体可以包括以下步骤:

步骤S310:获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景。

其中,步骤S310的具体描述请参阅步骤S110,在此不再赘述。

步骤S320:获取所述音频使用场景允许的最大音频失真。

其中,步骤S320的具体描述请参阅步骤S220,在此不再赘述。

步骤S330:当所述音频使用场景为录音场景或远场拾音场景时,确定所述音频使用场景允许的最大音频失真大于所述预设音频失真,选取波束形成算法、盲源分离算法、维纳滤波算法以及谱减算法,作为所述多个目标音频降噪算法。

在一些实施方式中,当音频使用场景为录音场景或远场拾音场景时,可以确定音频使用场景允许的最大音频失真大于预设音频失真,即,确定录音场景和远场拾音场景对音频失真的要求较低,则可以选取波束形成算法、盲源分离算法、维纳滤波算法以及谱减算法,作为多个目标音频降噪算法,以通过较多的音频降噪算法参与待降噪的音频信号的降噪处理,提升待降噪的音频信号的降噪效果。

在一些实施方式中,还可以选取深度神经网络降噪算法与波束形成算法、盲源分离算法、维纳滤波算法以及谱减算法共同作为多个目标音频降噪算法,在此不做限定。

步骤S340:按所述指定降噪处理顺序,将所述待降噪的音频信号依次经过所述波束形成算法、所述盲源分离算法、所述维纳滤波算法以及所述谱减算法进行降噪处理,获得所述降噪后的音频信号。

在一些实施方式中,指定降噪处理顺序可以为:波束形成算法-盲源分离算法-维纳滤波算法-谱减算法。那么,在本实施例中,可以首先将待降噪的音频信号经过波束形成算法进行降噪处理,获得经波束形成算法处理后的音频信号,再将经波束形成算法处理后的音频信号经过盲源分离算法进行降噪处理,获得经波束形成算法和盲源分离算法处理后的音频信号,然后将经波束形成算法和盲源分离算法处理后的音频信号经过维纳滤波算法进行降噪处理,获得经波束形成算法、盲源分离算法以及维纳滤波算法处理后的音频信号,最后将经波束形成算法、盲源分离算法以及维纳滤波算法处理后的音频信号经谱减算法进行降噪处理,获得经波束形成算法、盲源分离算法、维纳滤波算法以及谱减算法处理后的音频信号,作为降噪后的音频信号。

步骤S350:当所述音频使用场景为语音识别场景或声纹唤醒场景时,确定所述音频使用场景允许的最大音频失真不大于所述预设音频失真,选取波束形成算法、盲源分离算法以及维纳滤波算法,作为所述多个目标音频降噪算法。

在一些实施方式中,当音频使用场景为语音识别场景或声纹唤醒场景时,可以确定音频使用场景允许的最大音频失真不大于预设音频失真,即,确定语音识别场景和声纹唤醒场景对音频失真的要求较高,则可以选取波束形成算法、盲源分离算法以及维纳滤波算法,作为多个目标音频降噪算法,以通过较少的音频降噪算法参与待降噪的音频信号的降噪处理,平衡待降噪音频信号的降噪效果和音频失真要求。

步骤S360:按所述指定降噪处理顺序,将所述待降噪的音频信号依次经过所述波束形成算法、所述盲源分离算法以及所述维纳滤波算法进行降噪处理,获得所述降噪后的音频信号。

在一些实施方式中,指定降噪处理顺序可以为:波束形成算法-盲源分离算法以及维纳滤波算法。那么,在本实施例中,可以首先将待降噪的音频信号经过波束形成算法进行降噪处理,获得经波束形成算法处理后的音频信号,然后将经波束形成算法处理后的音频信号经过盲源分离算法进行降噪处理,获得经波束形成算法和盲源分离算法处理后的音频信号,最后将经波束形成算法和盲源分离算法处理后的音频信号经过维纳滤波算法进行降噪处理,获得经波束形成算法、盲源分离算法以及维纳滤波算法处理后的音频信号,作为降噪后的音频信号。

本申请再一个实施例提供的音频降噪方法,获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,获取音频使用场景允许的最大音频失真,当音频使用场景为录音场景或远场拾音场景时,确定音频使用场景允许的最大音频失真大于预设音频失真,选取波束形成算法、盲源分离算法、维纳算法以及普减算法,作为多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过波束形成算法、盲源分离算法、维纳算法以及普减算法进行降噪处理,获得降噪后的音频信号,当音频使用场景为语音识别场景或声纹唤醒场景时,确定音频使用场景允许的最大音频失真不大于预设音频失真,选取波束形成算法、盲源分离算法以及维纳算法,作为目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过波束形成算法、盲源分离算法以及维纳算法进行降噪处理,获得降噪后的音频信号。相较于图1所示的音频降噪方法,本实施例还在音频使用场景为录音场景或远场拾音场景等对失真要求较低的场景时,选取波束形成算法、盲源分离算法、维纳滤波算法以及谱减算法作为多个目标音频降噪算法,在音频使用场景为语音识别场景或声纹唤醒场景等对失真要求较高的场景时,选取波束形成算法、盲源分离算法以及维纳滤波算法作为多个目标音频降噪算法,以提升音频降噪算法的合理性。

请参阅图4,图4示出了本申请另一个实施例提供的音频降噪方法的流程示意图。下面将针对图4所示的流程进行详细的阐述,所述音频降噪方法具体可以包括以下步骤:

步骤S410:获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景。

其中,步骤S410的具体描述请参阅步骤S110,在此不再赘述。

步骤S420:获取所述待降噪的音频信号的信噪比。

在一些实施方式中,在获取待降噪的音频信号后,可以获取该待降噪的音频信号的信噪比。作为一种方式,在获取待降噪的音频信号后,可以通过音频分析仪获取待降噪的音频信号的信噪比。

步骤S430:基于所述信噪比和所述音频使用场景,选取所述多个目标音频降噪算法。

在一些实施方式中,在获取待降噪的音频信号的信噪比和待降噪的音频信号对应的音频使用场景后,可以基于该信噪比和音频使用场景,选取多个目标音频降噪算法。作为一种方式,在不同的待降噪的音频信号的音频使用场景一致的情况下,针对信噪比较高的待降噪的音频信号选取的目标音频降噪算法的数量小于针对信噪比较低的待降噪的音频信号选取的目标音频降噪算法的数量。例如,在不同的待降噪的音频信号的音频使用场景一致的情况下,针对信噪比较高的待降噪的音频信号,可以选取波束形成算法、盲源分离算法以及维纳滤波算法作为目标音频降噪算法,针对信噪比较低的待降噪音频信号,可以选取波束形成算法、盲源分离算法、维纳滤波算法以及谱减算法作为目标音频降噪算法。

步骤S440:按指定降噪处理顺序,将所述待降噪的音频信号依次经过所述多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

其中,步骤S440的具体描述请参阅步骤S130,在此不再赘述。

本申请另一个实施例提供的音频降噪方法,获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,获取待降噪的音频信号的信噪比,基于信号比和音频使用场景,选取多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。相较于图1所示的音频降噪方法,本实施例还获取待降噪的音频信号的信噪比,并根据信噪比和音频使用场景,选取多个目标音频降噪算法,以使选取的目标音频降噪算法与待降噪的音频信号的信噪比更适配,提升音频降噪效果。

请参阅图5,图5示出了本申请又再一个实施例提供的音频降噪方法的流程示意图。下面将针对图5所示的流程进行详细的阐述,所述音频降噪方法具体可以包括以下步骤:

步骤S510:获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景。

其中,步骤S510的具体描述请参阅步骤S110,在此不再赘述。

步骤S520:获取所述待降噪的音频信号中所包含的噪音类型。

在一些实施方式中,在获取待降噪的音频信号后,可以获取该待降噪的音频信号中所包含的噪音类型。作为一种方式,在获取待降噪的音频信号后,可以检测待降噪的音频信号中所包含的噪音是否包含稳态噪音、可以检测待降噪的音频信号中所包含的噪音是否包含非稳态噪音,可以检测待降噪的音频信号中所包含的噪音是否包含特定的噪音,从而根据检测结果获取待降噪的音频信号中所包含的噪音类型是否包含稳态噪音类型、是否包含非稳态噪音类型、以及是否包含特定的噪音类型。

步骤S530:基于所述噪音类型和所述音频使用场景,选取所述多个目标音频降噪算法。

在一些实施方式中,在获取待降噪的音频信号中所包含的噪音类型和待降噪的音频信号对应的音频使用场景后,可以基于噪音类型和音频使用场景,选取多个目标音频降噪算法。作为一种方式,由于不同的音频降噪算法可以重点滤除不同类型的噪音,例如,波束形成算法可以重点滤除非稳态噪音、深度神经网络降噪算法可以重点滤除特定的噪音、维纳算法可以重点滤除稳态噪音。因此,在本实施例中,可以根据噪音类型选取对应的音频降噪算法作为目标音频降噪算法,例如,当待降噪的音频信号中的音频类型均为非稳态噪音时,则可以不选取维纳算法参与降噪处理;当待降噪的音频信号中的音频类型均为稳态噪音时,则可以不选取波束形成算法参与降噪处理等,在此不做限定。

步骤S540:按指定降噪处理顺序,将所述待降噪的音频信号依次经过所述多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

其中,步骤S540的具体描述请参阅步骤S130,在此不再赘述。

本申请又再一个实施例提供的音频降噪方法,,获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,获取待降噪的音频信号中所包含的噪音类型,基于噪音类型和音频使用场景,选取多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。相较于图1所示的音频降噪方法,本实施例还获取待降噪的音频信号中所包含的噪音类型,并根据噪音类型和音频使用场景,选取多个目标音频降噪算法,以使选取的目标音频降噪算法与待降噪的音频信号的噪音类型更适配,提升音频降噪效果。

请参阅图6,图6示出了本申请实施例提供的音频降噪装置的模块框图。下面将针对图6所示的框图进行阐述,所述音频降噪装置200包括:音频使用场景获取模块210、音频降噪算法获取模块220以及音频降噪处理模块230,其中:

音频使用场景获取模块210,用于获取待降噪的音频信号,并获取所述待降噪的音频信号对应的音频使用场景。

音频降噪算法获取模块220,用于基于所述音频使用场景,选取多个目标音频降噪算法。

进一步地,所述音频降噪算法获取模块220包括:允许的最大音频失真获取子模块和第一音频降噪算法选取子模块,其中:

允许的最大音频失真获取子模块,用于获取所述音频使用场景允许的最大音频失真。

第一音频降噪算法选取子模块,用于基于所述允许的最大音频失真,选取所述多个目标音频降噪算法。

进一步地,所述第一音频降噪算法选取子模块包括:第一音频降噪算法选取单元和第二音频降噪算法选取单元,其中:

第一音频降噪算法选取单元,用于当所述允许的最大音频失真大于预设音频失真时,选取第一数量的音频降噪算法,作为所述多个目标音频降噪算法。

进一步地,所述第一音频降噪算法选取单元包括:第一音频降噪算法选取子单元,其中:

第一音频降噪算法选取子单元,用于当所述音频使用场景为录音场景或远场拾音场景时,确定所述音频使用场景允许的最大音频失真大于所述预设音频失真,选取第一数量的音频降噪算法,作为所述多个目标音频降噪算法。

进一步地,所述第一音频降噪算法选取子单元包括:第一音频降噪算法选取子子单元,其中:

第一音频降噪算法选取子子单元,用于当所述音频使用场景为录音场景或远场拾音场景时,确定所述音频使用场景允许的最大音频失真大于所述预设音频失真,选取波束形成算法、盲源分离算法、维纳滤波算法以及谱减算法,作为所述多个目标音频降噪算法。

第二音频降噪算法选取单元,用于当所述允许的最大音频失真不大于所述预设音频失真时,选取第二数量的音频降噪算法,作为所述多个目标音频降噪算法,其中,所述第一数量大于所述第二数量。

进一步地,所述第二音频降噪算法选取单元包括:第二音频降噪算法选取子单元,其中:

第二音频降噪算法选取子单元,用于当所述音频使用场景为语音识别场景或声纹唤醒场景时,确定所述音频使用场景允许的最大音频失真不大于所述预设音频失真,选取第二数量的音频降噪算法,作为所述多个目标音频降噪算法。

进一步地,所述第二音频降噪算法选取子单元包括:第二音频降噪算法子子单元,其中:

第二音频降噪算法子子单元,用于当所述音频使用场景为语音识别场景或声纹唤醒场景时,确定所述音频使用场景允许的最大音频失真不大于所述预设音频失真,选取波束形成算法、盲源分离算法以及维纳滤波算法,作为所述多个目标音频降噪算法。

进一步地,所述音频降噪算法获取模块220包括:信噪比获取子模块和第二音频降噪算法选取子模块,其中:

信噪比获取子模块,用于获取所述待降噪的音频信号的信噪比。

第二音频降噪算法选取子模块,用于基于所述信噪比和所述音频使用场景,选取所述多个目标音频降噪算法。

进一步地,所述音频降噪算法获取模块220包括:噪音类型获取子模块和第三音频降噪算法选取子模块,其中:

噪音类型获取子模块,用于获取所述待降噪的音频信号中所包含的噪音类型。

第三音频降噪算法选取子模块,用于基于所述噪音类型和所述音频使用场景,选取所述多个目标音频降噪算法。

音频降噪处理模块230,用于按指定降噪处理顺序,将所述待降噪的音频信号依次经过所述多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。

进一步地,所述音频降噪处理模块230包括:第一音频降噪处理子模块,其中:

第一音频降噪处理子模块,用于按所述指定降噪处理顺序,将所述待降噪的音频信号依次经过所述波束形成算法、所述盲源分离算法、所述维纳滤波算法以及所述谱减算法进行降噪处理,获得所述降噪后的音频信号。

进一步地,所述音频降噪处理模块230包括:第二音频降噪处理子模块,其中:

第二音频降噪处理子模块,用于按所述指定降噪处理顺序,将所述待降噪的音频信号依次经过所述波束形成算法、所述盲源分离算法以及所述维纳滤波算法进行降噪处理,获得所述降噪后的音频信号。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

请参阅图7,其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中,处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责待显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述,本申请实施例提供的音频降噪方法、装置、电子设备以及存储介质,获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,基于音频使用场景,选取多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号,从而根据待降噪的音频信号对应的音频使用场景选取多个音频降噪算法对待降噪的音频信号进行降噪处理,以实现根据实际的语音质量需求,选择相应数量的音频降噪算法进行降噪处理,提升音频处理效果。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 音频降噪方法、装置、电子设备及计算机可读存储介质
  • 一种音频数据的降噪方法、装置、电子设备及存储介质
技术分类

06120112173313