音频降噪方法、装置、电子设备及可读存储介质

文献发布时间：2023-06-19 19:30:30

技术领域

本申请属于音频处理技术领域，具体涉及一种音频降噪方法、装置、电子设备及可读存储介质。

背景技术

声学场景分类在日常生活中有着较为广泛地应用。声学场景分类是指对音频中包含的声学内容进行分析，进而识别出该音频对应的声学场景的过程。

相关技术中的声学场景分类主要通过以下两种方法实现：方法1，基于传统的声学场景分类方法，具体地，观察具体场景的信号特征，提取相应的特征进行声学场景分类。方法2，基于深度学习模型的场景分类方法，具体地，根据输入的语音信号提取语音特征，比如梅尔倒谱系数、对数幅度谱和相位谱等语音特征，并根据提取的语音特征选择合适的深度分类模型进行有监督的学习，然后再通过学习得到的深度分类模型对音频进行声学场景分类。

然而，按照上述方法，基于传统的声学场景分类方法只挑选特殊声学场景，基于深度学习模型的场景分类方法过于复杂，难以结合实际降噪需求进行部署。如此，导致相关技术中的声学场景分类方法的通用性和实用性较差。

发明内容

本申请实施例的目的是提供一种音频降噪方法、装置、电子设备及可读存储介质，能够解决相关技术中的音频降噪方法的通用性和实用性较差的问题。

第一方面，本申请实施例提供了一种音频降噪方法，该方法包括：计算目标音频信号对应的目标长时信噪比和目标长时平稳度指标，所述目标长时平稳度指标用于指示目标音频信号中噪声的平稳程度；根据目标长时信噪比和目标长时平稳度指标，确定目标音频信号对应的目标声学场景；基于目标声学场景，对目标音频信号进行降噪处理。

第二方面，本申请实施例提供了一种音频降噪装置，该装置包括：处理模块和确定模块。处理模块，用于计算目标音频信号对应的目标长时信噪比和目标长时平稳度指标，目标长时平稳度指标用于指示目标音频信号中噪声的平稳程度；确定模块，用于根据处理模块计算的目标长时信噪比和目标长时平稳度指标，确定目标音频信号对应的目标声学场景；处理模块，还用于基于确定模块确定目标声学场景，对目标音频信号进行降噪处理。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，所述程序产品被存储在存储介质中，所述程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，计算目标音频信号对应的目标长时信噪比和目标长时平稳度指标，所述目标长时平稳度指标用于指示目标音频信号中噪声的平稳程度；根据目标长时信噪比和目标长时平稳度指标，确定目标音频信号对应的目标声学场景；基于目标声学场景，对目标音频信号进行降噪处理。通过该方案，由于音频信号对应的长时信噪比和平稳度指标为音频信号中噪声的两个本质特征，因此基于目标音频信号对应的目标长时信噪比和目标长时平稳度指标，能够更加准确、快速地确定出目标音频信号对应的目标声学场景，从而可以提高基于目标声学场景对目标音频降噪的准确度，该降噪方法的通用性和实用性更好。

附图说明

图1是本申请实施例提供的音频降噪方法的流程示意图之一；

图2是本申请实施例提供的音频降噪方法的流程示意图之二；

图3是本申请实施例提供的音频降噪装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图之一；

图5是本申请实施例提供的电子设备的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

对电子设备用户来说，通话的音质是衡量电子设备性能好坏的一个十分重要的指标。为了提高音质，可以对通话中的语音信号进行降噪处理。

目前，可以通过对语音信号所属的声学场景进行分类，以基于语音信号所属的声学场景，对语音信号进行针对性降噪处理。

相关技术中的声学场景分类主要通过基于传统的音频降噪方法和基于深度学习模型的场景分类方法。

具体地，基于传统的音频降噪方法可以通过观察具体场景的信号特征，以提取相应的特征进行声学场景分类，并在分类后进行相应的噪声抑制。比如，针对风噪场景的检测，针对键盘声的场景检测，针对手机马达振动的场景检测等。可见，传统的声学场景分类方法只能对特殊声学场景进行分类。

基于深度学习模型的场景分类方法一般框架分为两步。第一步是根据输入的语音信号提取语音特征，比如梅尔倒谱系数，对数幅度谱，相位谱等语音特征；第二步是根据提取的这些语音特征选择合适的深度分类模型进行有监督的学习，然后再通过学习得到的深度分类模型对音频进行声学场景分类。

然而，基于深度学习的场景分类方法具有以下缺陷：(1)网络尺寸一般比较大，对于一些对功耗要求高的场景上难以实现实时部署；(2)对噪声场景的标签进行逐一标记也是比较大的工作量；(3)对场景分类过于细化，不利于实际使用，比如把场景分为地铁、公交、咖啡厅、食堂、汽车、飞机场等过于多样的场景。

基于上述论述可知，基于传统的声学场景分类方法只挑选特殊场景，基于深度学习的声学场景方法的又过于复杂，难以结合降噪实际进行部署。如此，导致相关技术中的声学场景分类方法的通用性和实用性较差。

本申请实施例提供的音频降噪方法旨在给出一种基于主流降噪算法框架的音频降噪方法，基于音频信号对应的长时信噪比和平稳度指标，确定音频信号所属的声学场景，其通用性和实用性更好。

不同于常见的声学场景分类类型，比如把场景分为地铁、公交、咖啡厅、食堂、汽车、飞机场等过于多样的多分类类型，或者简单的挑选出风噪等特殊场景的二分类。本申请实施例提出从声学场景的两个本质特征，即长时信噪比和噪声平稳度度量(即噪声的平稳度)出发，提出可以对声学场景进行长信噪比和噪声的平稳程度组合的分类。将声学场景分为：第一声学场景，第二声学场景，第三声学场景，第四声学场景。

其中，在第一声学场景中：音频信号的长时信噪比大于或等于信噪比门限，且音频信号的长时平稳度指标大于或等于平稳度指标门限；在第二声学场景中：音频信号的长时信噪比大于或等于信噪比门限，且音频信号的长时平稳度指标小于平稳度指标门限；在第三声学场景中：音频信号的长时信噪比小于信噪比门限，且音频信号的长时平稳度指标大于或等于平稳度指标门限；在第四声学场景中：音频信号的长时信噪比小于信噪比门限，且音频信号的长时平稳度指标小于平稳度指标门限。如此，由于可以基于声学场景的两个本质特征，将声学场景分为4类，因此本申请实施例提供的音频降噪方法具有较大的实用性和通用性。

可选地，在确定音频信号的声学场景后，即基于该声学场景对应的噪声抑制策略，对该音频信号进行噪声抑制。如此可以实现在不同声学场景下，用户对降噪的不同需求。比如在嘈杂的环境下，用户希望能够对噪声进行更多的抑制。在高信噪比的场景下，用户希望更高保留原始的语音音质，不希望进行太多的降噪处理。在非平稳场景下，用户希望能够对突发的噪声进行有效的抑制。在平稳的场景下，用户希望噪声的抑制更加自然。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频降噪方法、装置、电子设备及可读存储介质进行详细地说明。

本申请实施例提供一种音频降噪方法，图1示出了本申请实施例提供的音频降噪方法的一种可能的流程示意图，如图1所示，本申请实施例提供的音频降噪方法可以包括下述的步骤101至步骤103。下面以电子设备执行该方法为例进行说明。

步骤101、电子设备计算目标音频信号对应的目标长时信噪比和目标长时平稳度指标。

其中，目标长时平稳度指标可以用于指示目标音频信号中噪声的平稳程度。目标长时信噪比可以表征目标音频信号的相对信噪比，换句话说，目标长时信噪比表征目标音频信号相对于一段时间内音频信号的相对噪声水平。

可选地，目标音频信号可以为电子设备采集的一帧或多帧音频信号，也可以为一个音频文件中的一帧或多帧音频信号，具体可以根据实际使用需求确定。

示例性地，以目标音频信号为电子设备采集的音频信号为例，在通话过程中，电子设备可以对采集的音频信号进行分帧处理。例如，对实时处理情况来说，电子设备的麦克风采集到的语音信号会实时送到电子设备的数字处理芯片中，比如一次向数字处理芯片送10ms长度的音频信号。由于语音信号是短时平稳(如30ms以内近似认为是平稳的)、长时间不平稳的信号，因此可以将一定时长内的语音信号作为一帧音频信号；例如每30ms的语音信号作为一帧音频信号，即一个处理帧。具体来说，数字处理芯片每次读10ms的音频信号，把读入的10ms音频信号合并之前缓存的音频信号，凑齐30ms左右的音频信号后，对该音频信号(即一帧音频信号)进行一次分析和处理。

为了便于描述，除特别说明外，在下述实施例中均以目标音频信号为电子设备采集的音频信号为例进行示意。

可选地，“电子设备计算目标音频信号对应的目标长时信噪比”具体可以通过下述的步骤A和步骤B实现。

步骤A、电子设备基于N组历史音频信号的瞬时信噪比确定N个第一瞬时信噪比。

其中，上述N组历史音频信号中的每组历史音频信号中可以包括M个历史音频信号，N个第一瞬时信噪比与N组历史音频信号一一对应；M和N均为正整数。

例如，M可以为大于1的整数，N可以为5～10中的任意一个整数。

本申请实施例中，电子设备可以将采集的相邻的M帧音频信号划分为一组，即第1帧音频信号～第M帧音频信号为第1组；第M+1帧音频信号～第2M帧音频信号为第2组，以此类推。

可选地，上述N组历史音频信号可以为最近采集的N组历史音频信号。假设电子设备在采集目标音频信号前，已采集了Q帧音频信号，Q＝W1*M+W2，W1为大于或等于N的整数，W2为小于M的正整数，即电子设备已采集了W1组历史音频信号，那么：“上述N组历史音频信号”为该W1组历史音频信号中最近采集的N组历史音频信号。

例如，假设N为10，又假设采集目标音频信号前，电子设备已采集20(W1＝20)组历史音频信号，且按照时间先后顺序依次为：组1～组20，那么上述N组历史音频信号包括组11～组20。

本申请实施例中，“N组历史音频信号的瞬时信噪比”可以包括：该N组历史音频信号的每组历史音频信号中的M帧历史音频信号的瞬时信噪比，即包括M*N帧历史音频信号的瞬时信噪比，共M*N个瞬时信噪比。

可选地，一种可能的实现方式中，对于上述N组历史音频信号中的每组历史音频信号，电子设备可以通过下述的步骤1，确定与每组历史音频信号对应的第一瞬时信噪比。即电子设备执行N次步骤1之后，可以得到N个第一瞬时信噪比。

步骤1，电子设备确定每组历史音频信号的瞬时信噪比中的最大瞬时信噪比，并将该最大瞬时信噪比确定为与每组历史音频信号对应的第一瞬时信噪比。

本申请实施例中，电子设备每采集M帧音频信号即可确定出一个第一瞬时信噪比。具体而言，假设电子设备最近一次采集的一组历史音频信号为：第T组历史音频信号，电子设备可以通过一种方式或另一种方式，确定第T组历史音频信号对应的第一瞬时信噪比snr

在一种方式中，第T组历史音频信号对应的第一瞬时信噪比snr

其中，在公式(1)中，f为M的倍数，且

由公式1可以看出，在一种方式中，在确定出每组历史音频信号的瞬时信噪比中的最大瞬时信噪比前，电子设备需求保存每组历史音频信号中的每帧音频信号的瞬时信噪比。

在另一种方式中，电子设备可以在采集第T组历史音频信号的过程中，将第T组历史音频信号中的第j帧音频信号的瞬时信噪比与第j-1帧音频信号的瞬时信噪比进行比较；并删除较小的瞬时信噪比，保留较大的瞬时信噪比；然后将该较大的瞬时信噪比与第T组历史音频信号中的第j+1帧音频信号的瞬时信噪比进行比较；以此类推，直至将最近一次保留的瞬时信噪比与第T组历史音频信号中的第M帧音频信号的瞬时信噪比参与比较后，该两者中较大的瞬时信噪比作为：第T组历史音频信号的瞬时信噪比中的最大瞬时信噪比。

如此，在另一种方式中，由于可以对将同一组历史音频信号中相邻两帧音频信号的瞬时信噪比进行比较，并保留较大的瞬时信噪比，从而可以节省瞬时信噪比的缓存数量。

可以理解，电子设备每采集M帧音频信号更新一次snr

可选地，假设N个第一瞬时信噪比构成一个N维数组snr

snr

其中，在公式(2)中，snr

可选地，电子设备可以构造一个用于存储最近N组历史语音信号对应的第一瞬时信噪比的N维数组。从而电子设备每确定一个第一瞬时信噪比，即可以对该N维数组进行一次更新。具体地，电子设备可以将上述N维数组中的第一个第一瞬时信噪比从该N维数组中移出，并将最近一次确定的第一瞬时信噪比添加至N维数组中。这样，电子设备可以直接采用该N维数组中的N个第一瞬时信噪比，确定当前帧语音信号的目标长时信噪比。

上述实施例中是以电子设备将每组历史音频信号的M个瞬时信噪比中的最大信噪比确定为与每组历史音频信号对应的第一瞬时信噪比为例的，实际实现中，还可以将每组历史音频信号的M个瞬时信噪比中的次大信噪比或平均瞬时信噪比确定为与每组历史音频信号对应的第一瞬时信噪比。

如此，由于每组历史音频信号的最大瞬时信噪比能够表征：该组历史音频信号的语音信号与噪声信号的相对强度，而N个第一瞬时信噪比为N组历史音频信号的最大瞬时信噪比，因此N个第一瞬时信噪比能够准确表征目标音频信号所属的音频序列的语音信号的质量。

下面以确定目标音频信号的瞬时信噪比为例，对电子设备确定音频信号的瞬时信噪比的方法进行说明。

具体而言，电子设备可以通过下述的步骤i～步骤iii确定目标音频信号的瞬时信噪比。

步骤i、电子设备先对目标音频信号进行快速傅里叶变换(Fast FourierTransform，TTF)，即将目标音频信号变换到频域，以得到目标音频信号的目标时频信号X(t,k)。其中，t表示目标音频信号的时间帧，k表示目标音频信号中的第k个频点。

步骤ii、电子设备根据目标时频信号X(t,k)，确定目标音频信号的信号总能量Esignal(t)，Esignal(t)可以通过下述的公式(3)表示：

其中，在公式(3)中，B为目标音频信号中的频点个数，t表示目标时频信号的时间帧，k表示目标时频信号X(t,k)中的第k个频点。

步骤iii、电子设备根据目标时频信号X(t,k)，计算目标音频信号的噪声信号Noise(t,k)；并基于Noise(t,k)，确定目标音频信号的噪声总能量Enoise(t)。其中，k表示噪声信号Noise(t,k)中的第k个频点。

对于电子设备确定噪声信号Noise(t,k)和噪声总能量Enoise(t)的具体方法可以参见相关技术中的相关描述。例如电子设备可以基于信号存在概率的递归平均算法等方法，确定目标音频信号的噪声信号Noise(t,k)。

步骤iiii、电子设备根据目标音频信号的噪声信号Noise(t,k)和目标音频信号的信号总能量Esignal(t)，确定目标音频信号的瞬时信噪比snr

其中，目标音频信号的瞬时信噪比snr

至此，电子设备得到了第t帧音频信号的瞬时信噪比。

进一步地，电子设备可以对目标音频信号的瞬时信噪比snr

其中，在公式(5)中，α为平滑因子，

可以理解，每组历史音频信号的瞬时信噪比具体可以包括：该组历史音频信号中的M帧音频信号的最终瞬时信噪比。

步骤B、电子设备基于N个第一瞬时信噪比确定目标长时信噪比。

可选地，电子设备可以确定N个第一瞬时信噪比的平均信噪比，并将该平均信噪比确定为目标长时信噪比。

具体地，电子设备确定N个第一瞬时信噪比的平均信噪比之后，可以先对该平均信噪比进行平滑处理，然后将平滑处理后的信噪比确定为目标长时信噪比，该目标长时信噪比snr

snr

其中，在公式(6)中，snr

当然，电子设备还可以基于N个第一瞬时信噪比，采用其他任意可能的方法，确定目标长时信噪比；例如，电子设备可以将第一信噪比集合中的信噪比的平方根，确定为目标长时信噪比。

可选地，电子设备基于N个第一瞬时信噪比和第二瞬时信噪比，确定目标长时信噪比；其中，第二瞬时信噪比可以为目标音频信号的瞬时信噪比。具体地，电子设备可以确定N个第一瞬时信噪比和第二瞬时信噪比之间的平均信噪比，然后对该平均信噪比进行平滑处理，并将平滑处理后的平均信噪比确定为目标长时信噪比。

如此，由于电子设备可以基于N个第一瞬时信噪比，确定目标音频信号对应的目标长时信噪比，因此使得该目标长时信噪比能够更好地表征目标音频信号中的噪声的相对平稳度。如此可以更加准确地确定出目标音频信号对应的声学场景。

可选地，“电子设备估计目标音频信号对应的目标长时平稳度指标”具体可以通过下述的步骤C和步骤D实现。

步骤C、电子设备确定第一信号能量和第二信号能量之间的信号能量差。

步骤D、电子设备对信号能量差进行平滑处理，以得到目标长时平稳度指标。

其中，第一信号能量为对目标音频信号进行平稳噪声降噪处理后的信号能量，第二信号能量为对目标音频信号进行深度学习降噪处理后的信号能量。

可选地，步骤C中的信号能量差M

其中，在公式(7)中，Es(t)表示第一信号能量，Et(t)表示第二信号能量。

需要说明的是，对于平稳噪声，平稳降噪处理(也称为传统信号处理)和深度学习降噪处理都能够对于平稳噪声进行很好的抑制，即对于平稳噪声两种降噪方法的差异比较小，也即M

通常情况下，若目标音频信号为平稳语音信号，则M

本申请实施例中，由于M

其中，电子设备可以通过下述的公式(8)对M

其中，在公式(8)中，MS

需要说明的是，MS

下面对电子设备确定第一信号能量的方法进行示例性地说明。

首先，电子设备可以先基于平稳噪声降噪处理方法(也称为传统信号处理方法)，比如最小值跟踪方法，直方图方法等，确定目标音频信号的平稳底噪。然后根据该平稳底噪，确定目标音频信号对应的平稳降噪增益(以下称为第一频点增益)Gs(t,k)。由于Gs(t,k)是根据平稳底噪计算得到，所以只能对目标音频信号中的平稳噪声进行抑制。

可以理解，确定Gs(t,k)的方法很多，比如维纳滤波、均衡算法(Minimum MeanSquare Error，MMSE)等方法，具体参见相关技术，此处不予详细介绍。

其次，电子设备根据目标时频信号X(t,k)和第一频点增益G

其中，在公式(9)中，B为目标音频信号中的频点个数。

下面对电子设备确定第二信号能量的方法进行示例性地说明。

首先，电子设备可以先基于深度学习掩膜(mask)降噪算法，确定第二频点增益G

可以理解，基于深度学习mask计算的降噪算法是当前主流的降噪方法，其对平稳噪声和非平稳噪声都有一定的抑制能力。

对于基于深度学习mask计算的降噪算法的具体描述，参见相关技术。

其次，电子设备根据目标时频信号X(t,k)和第二频点增益G

其中，在公式(10)中，B为目标音频信号中的频点个数。

步骤102、电子设备根据目标长时信噪比和目标长时平稳度指标，确定目标音频信号所属的目标声学场景。

可选地，本申请实施例中，上述的步骤102具体可以通过下述的步骤102a或步骤102d实现。

步骤102a、在目标长时信噪比大于或等于信噪比门限，且目标长时平稳度指标大于或等于平稳度指标平稳度指标门限的情况下，电子设备确定目标声学场景为第一声学场景。

步骤102b、在目标长时信噪比大于或等于信噪比门限，且目标长时平稳度指标小于平稳度指标平稳度指标门限的情况下，电子设备确定目标声学场景为第二声学场景。

步骤102c、在目标长时信噪比小于信噪比门限，且目标长时平稳度指标大于或等于平稳度指标平稳度指标门限的情况下，电子设备确定目标声学场景为第三声学场景；

步骤102d、在目标长时信噪比小于信噪比门限，且目标长时平稳度指标小于平稳度指标平稳度指标门限的情况下，电子设备确定目标声学场景为第四声学场景。

例如，信噪比门限可以为15db；平稳度指标门限2db。

可选地，信噪比门限和平稳度指标门限均可调。

示例性地，假设信噪比门限为thr_snr，平稳度指标平稳度指标门限为thr_ms，那么如表1所示：

表1

如表1所示，当目标长时信噪比snr

当长时信噪比snr

其中，thr_snr为可调的信噪比门限，thr_ms为可调的平稳度指标门限。

例如，信噪比门限可以为15db±c内的任意值；平稳度指标门限可以为2db±d，c、d根据实际使用需求确定。

如此，由于第一声学场景、第二声学场景、第三声学场景和第四声学场景能够覆盖现实中的全部声学场景，因此提高了声学场景分类的通用性和适用性。

步骤103、电子设备基于目标声学场景，对目标音频信号进行降噪处理。

可以理解，在本申请实施例提供的音频降噪方法中，声学场景的分类类型为4类，分别为包括第一声学场景、第二声学场景、第三声学场景和第四声学场景，由于声学场景的分类类型较少，因此电子设备可以针对性地对各声学场景中的音频信号进行降噪处理，即针对不同声学场景进行针对性降噪处理。

示例性地，假设每种声学场景对应的降噪策略均包括：深度学习降噪处理和稳噪声降噪处理，那么：

在第一声学场景对应的降噪策略中，平稳噪声降噪处理的权重＜深度学习降噪处理的权重，且噪声抑制比例为第一比例；

在第二声学场景对应的降噪策略中，平稳噪声降噪处理的权重＞深度学习降噪处理的权重，且噪声抑制比例为第二比例；

在第三声学场景对应的降噪策略中，平稳噪声降噪处理的权重＜深度学习降噪处理的权重，且噪声抑制比例为第三比例；

在第四声学场景对应第的降噪策略，平稳噪声降噪处理的权重＞深度学习降噪处理的权重，且噪声抑制比例为第四比例。

其中，第一比例＜第三比例，且第一比例＜第四比例；相应地，第二比例＜第三比例，且第二比例＜第四比例。

可选地，第一比例与第二比例可以相同，第三比例和第四比例可以相同。

如此，由于可以按照与目标声学场景对应的降噪策略，对目标音频信号执行降噪处理，因此提高对目标音频信号降噪处理的效果，提高电子设备的音质。

可选地，电子设备可以在对目标音频信号进行降噪处理后，输出处理后的目标音频信号。例如，电子设备与目标设备通话，即目标音频信号为电子设备在通话过程中获取语音信号为例，电子设备在对目标音频信号进行降噪处理后，可以将处理后的目标音频信号发送给目标设备。

需要说明的是，对于音频文件中的每帧音频或电子设备获取的每帧音频，电子设备均可以执行上述的步骤101至步骤103。

在本申请实施例提供的音频降噪方法中，由于音频信号对应的长时信噪比和平稳度指标为音频信号中噪声的两个本质特征，因此基于目标音频信号对应的目标长时信噪比和目标长时平稳度指标，能够更加准确、快速地确定出目标音频信号对应的目标声学场景，从而可以提高基于目标声学场景对目标音频降噪的准确度。

下面结合附图2对本申请实施例提供的音频降噪方法进行示例性地说明。

示例性地，以电子设备对通话过程中的音频信号进行降噪处理为例，电子设备可以采用本申请实施例提供的音频降噪方法，对通话过程中的每帧音频信号进行降噪处理。如图2所示，该音频信号降噪处理方法可以包括下述的步骤201至步骤219。

步骤201、电子设备读入语音信号，并对读入的语音信号进行分帧处理。

例如，对实时处理情况来说，每次麦克风采集到的语音信号会实时送到电子设备的数字处理芯片中，比如一次送进来10ms长度的数据。由于语音信号是短时平稳(如30ms以内近似认为是平稳的)、长时间不平稳的信号，所以电子设备可以对相对短时的语音信号做分析，如假设取30ms左右的信号为处理的一帧。即一次读进来数据10ms，通过对历史读入的语音数据进行缓存，凑齐30ms左右的语音数据进行一次分析和处理。

可以看出，对语音信号分帧处理的目的是，将每固定时长(如30ms)的语音信号作为一个处理帧，也称为一帧语音信号。

进一步地，分帧处理得到的每帧语音信号为时域信号。

步骤202、电子设备将当前帧语音信号的时域信号作FFT变换，得到当前帧语音信号的时频信号。

可以理解，当前帧语音信号即上述实施例中的目标音频信号。

步骤203、电子设备根据当前帧语音信号的时频信号，确定当前帧语音信号的信号总能量。

步骤204、电子设备可以根据目标时频信号，计算当前帧语音信号的噪声信号；并基于该噪声信号，确定当前帧语音信号的噪声总能量。

比如，电子设备基于信号存在概率的递归平均算法等方法计算当前帧语音信号的噪声信号。

步骤205、电子设备根据当前帧音频信号的信号总能量和噪声总能量，确定当前帧语音信号的瞬时信噪比。由于信号的瞬时信噪比并不能反映一段时间的信号噪声能量水平。信号的长时信噪比才能更好的做声学场景分类。下面介绍根据瞬时信噪比计算长时信噪比的方法。

步骤206、电子设备对当前帧语音信号的瞬时信噪比进行平滑处理，得到当前帧语音信号的最终瞬时信噪比。

本申请实施例中，电子设备可以将通话过程中的每M(如100)帧语音信号分为一组历史语音信号。

可以理解，当前帧语音信号的瞬时信噪比可以参与确定当前帧语音信号的长时信噪比，或者可以参与确认在当前帧语音信号之后读入的语音信号的长时信噪比。

语音信号的长时信噪比可以表征语音信号相对于一段时间内音频信号(如多帧历史语音信号)的相对噪声水平。

需要说明的是，电子设备可以对通话过程中的每帧语音信号执行步骤302至步骤306，以得到每帧语音信号的最终瞬时信噪比。

步骤207、电子确定每组历史语音信号的瞬时信噪比中的最大瞬时信噪比，并将该最大瞬时信噪比确定为与每组历史语音信号对应的第一瞬时信噪比。

对于电子设备确定每组历史语音信号的瞬时信噪比中的最大瞬时信噪比的方法参见上述实施例中的相关描述。

步骤208、电子设备构造N维数组。

其中，N维数组中包括N个第一瞬时信噪比，该N个第一瞬时信噪比为本次通话过程中的最近N组历史语音信号对应的第一瞬时信噪比。

本申请实施例中，电子设备每采集M帧语音信号，可以更新一次N维数组。

步骤209、电子设备确定N维数组中的N个第一瞬时信噪比的平均信噪比，且对该平均信噪比进行平滑处理，并将平滑处理后的平均信噪比确定为目标长时信噪比。

一般来说，目前主流的降噪算法都是深度学习方法和传统降噪方法相结合。由于基于深度学习的mask估计方法对非平稳噪声有抑制能力，而基于传统方法的降噪算法对非平稳噪声的抑制能力十分有限，本申请实施例提出可以利用这两种降噪算法之间的噪声抑制差异，确定通话过程中的语音信号的平稳度度量指标。

步骤210、电子设备估计当前帧语音信号的平稳底噪。

其中，具体确定语音信号的平稳底噪的方法很多，比如最小值跟踪方法，直方图方法等。

步骤211、电子设备根据当前帧语音信号的平稳底噪，确定当前帧语音信号对应的平稳降噪增益。

其中，平稳降噪增益用于抑制语音信号中的平稳噪声。

电子设备根据当前帧语音信号的平稳底噪求得的其对应的频点增益，即平稳降噪增益G

步骤212、电子设备采用平稳降噪增益，对当前帧语音信号进行降噪处理，得到平稳降噪处理后的第一信号能量。

步骤213、电子设备估计当前帧语音信号的非平稳底噪。

如，电子设备采用深度学习降噪算法，对当前帧语音信号处理，得到当前帧语音信号的非平稳底噪。

步骤214、电子设备根据当前帧语音信号的非平稳底噪，确定当前帧语音信号对应的非平稳降噪增益。

其中，非平稳降噪增益对当前帧语音信号中的非平稳噪声和平稳噪声都有一定的抑制能力。

步骤215、电子设备采用非平稳降噪增益，对当前帧语音信号进行降噪处理，得到非平稳降噪处理后的第二信号能量。

步骤216、电子设备确定第一信号能量和第二信号能量之间的信号能量差。

其中，该信号能量差可以作为当前帧语音信号的瞬时平稳度指标。

可以理解，对于平稳噪声，平稳降噪和深度学习降噪都能够取得比较好的结果，即两种降噪方法的差异比较小，即信号能量差接近0；对于非平稳噪声，平稳噪声的降噪能力较弱，深度学习降噪具有较强的降噪能力，即深度学习降噪之后的能量Et(t)小于平稳噪声抑制降噪之后的能量Es(t)，则信号能量差为一个大于0的值。这个值取决于两者的噪声能量抑制差。一般平稳语音接近0，非平稳语音为几个db。

由于信号能量差表示当前帧的瞬时平稳程度，不利于实际使用，从而可以对信号能量差作平滑处理，以得到当前帧语音信号在一段时间内的噪声平稳程度。

步骤217、电子设备对信号能量差进行平滑处理，得到当前帧语音信号的长时平稳度指标。

至此，我们得到平稳度度量指标，若该指标的值接近0，则表示当前帧语音信号对应的声学场景为平稳噪声类型；当该指标的值较大，则表示当前帧语音信号对应声学场景为非平稳噪声类型。

步骤218、电子设备根据当前帧语音信号的目标长时信噪比、长时平稳度指标，确定当前帧语音信号对应的目标声学场景。

步骤219、电子设备基于目标声学场景，对当前帧语音信号进行降噪处理。

对于步骤201至步骤219的其他描述，具体可以参见上述实施例中的相关描述，为了避免重复，此处不再赘述。

本申请实施例提供的音频降噪方法，执行主体可以为音频降噪装置，或者该音频降噪装置中的用于执行音频降噪的方法的控制模块。本申请实施例中以音频降噪装置执行音频降噪方法为例，说明本申请实施例提供的音频降噪装置。

本申请实施例提供了一种音频降噪装置，图3示出了本申请实施例提供的音频降噪装置的一种可能的结构示意图，如图3所示，该音频降噪装置300可以包括：处理模块301和确定模块302。所述处理模块，用于计算目标音频信号对应的目标长时信噪比和目标长时平稳度指标，所述目标长时平稳度指标用于指示所述目标音频信号中噪声的平稳程度；所述确定模块，用于根据所述处理模块计算的所述目标长时信噪比和所述目标长时平稳度指标，确定所述目标音频信号对应的目标声学场景；所述处理模块，还用于基于所述确定模块确定所述目标声学场景，对所述目标音频信号进行降噪处理。

一种可能的实现方式中，确定模块，具体用于：在所述目标长时信噪比大于或等于信噪比门限，且所述目标长时平稳度指标大于或等于平稳度指标门限的情况下，确定所述目标声学场景为第一声学场景；

在所述目标长时信噪比大于或等于所述信噪比门限，且所述目标长时平稳度指标小于所述平稳度指标门限的情况下，确定所述目标声学场景为第二声学场景；

在所述目标长时信噪比小于所述信噪比门限，且所述目标长时平稳度指标大于或等于所述平稳度指标门限的情况下，确定所述目标声学场景为第三声学场景；

在所述目标长时信噪比小于所述信噪比门限，且所述目标长时平稳度指标小于所述平稳度指标门限的情况下，确定所述目标声学场景为第四声学场景。

一种可能的实现方式中，处理模块，具体用于基于N组历史音频信号的瞬时信噪比确定N个第一瞬时信噪比；并基于所述N个第一瞬时信噪比确定所述目标长时信噪比；

其中，每组历史音频信号中包括M个历史音频信号，所述N个第一瞬时信噪比与所述N组历史音频信号一一对应；M和N均为正整数。

一种可能的实现方式中，处理模块，具体用于确定所述每组历史音频信号的瞬时信噪比中的最大瞬时信噪比，并将所述最大瞬时信噪比确定为与所述每组历史音频信号对应的第一瞬时信噪比。

一种可能的实现方式中，处理模块，具体用于基于所述N个第一瞬时信噪比和第二瞬时信噪比，确定所述目标长时信噪比；

其中，所述第二瞬时信噪比为所述目标音频信号的瞬时信噪比。

一种可能的实现方式中，处理模块，具体用于确定所述N个第一瞬时信噪比的平均信噪比，并将所述平均信噪比确定为所述目标长时信噪比。

一种可能的实现方式中，处理模块，具体用于确定第一信号能量和第二信号能量之间的信号能量差；并对所述信号能量差进行平滑处理，得到所述目标长时平稳度指标；

其中，所述第一信号能量为对所述目标音频信号进行平稳噪声降噪处理后的信号能量，所述第二信号能量为对所述目标音频信号进行深度学习降噪处理后的信号能量。

在本申请实施例中，由于音频信号对应的长时信噪比和平稳度指标为音频信号中噪声的两个本质特征，因此基于目标音频信号对应的目标长时信噪比和目标长时平稳度指标，能够更加准确、快速地确定出目标音频信号对应的目标声学场景，从而可以提高基于目标声学场景对目标音频降噪的准确度。

本申请实施例中的音频降噪装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频降噪装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频降噪装置能够实现图1和图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图4所示，本申请实施例还提供一种电子设备400，包括处理器401和存储器402，存储器402上存储有可在所述处理器401上运行的程序或指令，该程序或指令被处理器401执行时实现上述音频降噪方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图5为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509以及处理器510等中的至少部分部件。

本领域技术人员可以理解，终端500还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的终端结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器510，用于计算目标音频信号对应的目标长时信噪比和目标长时平稳度指标，所述目标长时平稳度指标用于指示所述目标音频信号中噪声的平稳程度；

所述处理器510，还用于根据所述目标长时信噪比和所述目标长时平稳度指标，确定所述目标音频信号对应的目标声学场景；

所述处理器510，还用于基于所述处理器510确定所述目标声学场景，对所述目标音频信号进行降噪处理。

一种可能的实现方式中，处理器510，具体用于：在所述目标长时信噪比大于或等于信噪比门限，且所述目标长时平稳度指标大于或等于平稳度指标门限的情况下，确定所述目标声学场景为第一声学场景；

在所述目标长时信噪比小于所述信噪比门限，且所述目标长时平稳度指标小于所述平稳度指标门限的情况下，确定所述目标声学场景为第四声学场景。

一种可能的实现方式中，处理器510，具体用于基于N组历史音频信号的瞬时信噪比确定N个第一瞬时信噪比；并基于所述N个第一瞬时信噪比确定所述目标长时信噪比；

其中，每组历史音频信号中包括M个历史音频信号，所述N个第一瞬时信噪比与所述N组历史音频信号一一对应；M和N均为正整数。

一种可能的实现方式中，处理器510，具体用于确定所述每组历史音频信号的瞬时信噪比中的最大瞬时信噪比，并将所述最大瞬时信噪比确定为与所述每组历史音频信号对应的第一瞬时信噪比。

一种可能的实现方式中，处理器510，具体用于基于所述N个第一瞬时信噪比和第二瞬时信噪比，确定所述目标长时信噪比；

其中，所述第二瞬时信噪比为所述目标音频信号的瞬时信噪比。

一种可能的实现方式中，处理器510，具体用于确定所述N个第一瞬时信噪比的平均信噪比，并将所述平均信噪比确定为所述目标长时信噪比。

一种可能的实现方式中，处理器510，具体用于确定第一信号能量和第二信号能量之间的信号能量差；并对所述信号能量差进行平滑处理，得到所述目标长时平稳度指标；

应理解的是，本申请实施例中，输入单元504可以包括图形处理单元(GraphicsProcessingUnit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元506可包括显示面板5061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507包括触控面板5071以及其他输入设备5072中的至少一种。触控面板5071，也称为触摸屏。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

本申请实施例中，射频单元501接收来自网络侧设备的下行数据后，可以传输给处理器510进行处理；另外，射频单元501可以向网络侧设备发送上行数据。通常，射频单元501包括但不限于天线、放大器、收发信机、耦合器、低噪声放大器、双工器等。

存储器509可用于存储软件程序或指令以及各种数据。存储器509可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器509可以包括易失性存储器或非易失性存储器，或者，存储器509可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本申请实施例中的存储器509包括但不限于这些和任意其它适合类型的存储器。

处理器510可包括一个或多个处理单元；可选地，处理器510集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频降噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频降噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频降噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王少华;
专利申请人：维沃移动通信有限公司;