音频降噪处理方法、装置、声音采集终端及存储介质

文献发布时间：2024-01-17 01:15:20

技术领域

本发明实施例涉及但不限于音频降噪技术领域，具体而言，涉及但不限于一种音频降噪处理方法、装置、声音采集终端及存储介质。

背景技术

目前，在实时通讯领域中，对实时通讯功能的终端产品需求越来越高，端到端的语音传输要求更好的用户体验，因此，实时通讯功能的提升是推进整体的消费市场的主要因素。

对音频的降噪需求越来越高，现有技术中对音频滤波降噪的方法主要是信号输入及预处理、特征提取、音频信号分类、信号去噪等四步骤，这种常用方法是先分清噪音和语音，然后削弱噪音，增大语音；但是，在常用的降噪模型中，需要对降噪模型进行训练，模型的实现需要具备已进行训练的功能。而不能进行实时的音质优化，不能根据实时的环境噪音进行降噪，不能满足实时通讯过程中环境的复杂性和噪声多变性特点。

因此，如何实现实时的环境噪音降噪成为亟待解决的问题。

发明内容

本发明实施例提供的音频降噪处理方法、装置、声音采集终端及存储介质，解决的技术问题是目前音频降噪需要预先进行降噪模型训练，不能根据实时的环境噪音进行降噪的问题。

本发明实施例提供一种音频降噪处理方法，应用于声音采集终端，所述方法包括：

分别采集环境噪音和混合声音，所述混合声音包括目标语音和环境噪音；

根据所述环境噪音生成降噪滤波器；

采用所述降噪滤波器对所述混合声音进行降噪处理得到目标语音信号。

可选的，所述分别采集环境噪音和混合声音包括：

在距离所述目标语音的音源第一距离的位置采集所述环境噪音；

在距离所述目标语音的音源第二距离的位置采集所述混合声音；

所述第二距离小于所述第一距离。

可选的，所述根据所述环境噪音生成降噪滤波器包括：

将所述环境噪音转换成第一声音信号；

将所述第一声音信号转换成第一数字信号；

计算所述第一数字信号的频域分布情况，所述频域分布情况包括基波和谐波从最大幅值到下降3dB处的频率范围和幅值大小；

根据所述第一数字信号的频域分布情况生成降噪滤波器。

可选的，所述根据所述第一数字信号的频域分布情况生成降噪滤波器包括：

根据所述第一数字信号的频域分布情况获取基波的特征情况，所述基波的特征情况包括所述基波的频域幅值最大处到下降3dB处的目标频率范围和频域幅值最大处的频率；

将所述目标频率范围的最小值作为下限截止频率；

将所述目标频率范围的最大值作为上限截止频率；

根据所述上限截止频率和所述下限截止频率生成降噪滤波器。

可选的，所述采用所述降噪滤波器对所述混合声音进行降噪处理得到目标语音信号包括：

将所述混合声音转换成第二声音信号；

将所述第二声音信号转换成第二数字信号；

采用所述降噪滤波器对所述第二数字信号进行降噪处理得到所述目标语音信号。

可选的，所述分别采集环境噪音和混合声音包括：

当所述声音采集终端与其他终端开始建立通讯时，开始采集所述环境噪音；

当所述声音采集终端与其他终端建立通讯成功时，结束采集所述环境噪音。

可选的，在采用所述降噪滤波器对所述混合声音进行降噪处理得到目标语音信号之后，所述方法还包括：

对所述目标语音信号进行平滑处理。

本发明实施例还提供一种音频降噪处理装置，应用于声音采集终端，其特征在于，所述装置包括：

声音采集模块，用于分别采集环境噪音和混合声音，所述混合声音包括目标语音和环境噪音；

滤波器生成模块，用于根据所述环境噪音生成降噪滤波器；

降噪模块，用于采用所述降噪滤波器对所述混合声音进行降噪处理得到目标语音信号。

本发明实施例还提供一种声音采集终端，其特征在于，所述声音采集终端包括第一声音采集设备、第二声音采集设备、处理器、存储器及通信总线；

所述第一声音采集设备用于采集环境噪音；

所述第二声音采集设备用于采集混合声音，所述混合声音包括目标语音和环境噪音；

所述第一声音采集设备和所述第二声音采集设备设于不同位置；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的一个或者多个计算机程序，以实现如上所述的音频降噪处理方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如上所述的音频降噪处理方法的步骤。

根据本发明实施例提供的一种音频降噪处理方法，所述方法应用于声音采集终端，所述方法包括：分别采集环境噪音和混合声音，所述混合声音包括目标语音和环境噪音；根据所述环境噪音生成降噪滤波器；采用所述降噪滤波器对所述混合声音进行降噪处理得到目标语音信号，该方法通过在声音采集过程中分别采集环境噪音和混合声音，利用采集的环境噪音生成出降噪滤波器，利用降噪滤波器对混合声音进行降噪，而不需要预先训练降噪模型，能够根据当前的环境噪音生成出降噪滤波器实现声音实时降噪处理，提升用户体验。

本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本发明说明书中的记载变的显而易见。

附图说明

图1为本发明的一个实施例提供的一种音频降噪处理方法的基本流程图；

图2为本发明的一个实施例提供的一种根据环境噪音生成降噪滤波器的方法的基本流程图；

图3为本发明的一个实施例提供的一种采用降噪滤波器对混合声音进行降噪处理的方法的基本流程图；

图4为本发明的另一个实施例提供的一种音频降噪处理装置的结构示意图；

图5为本发明的另一个实施例提供的一种声音采集终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了解决目前音频降噪需要预先训练降噪模型，而不能进行实时的音质优化，不能根据实时的环境噪音进行降噪，不能满足实时通讯过程中环境的复杂性和噪声多变性特点。本发明实施例提供一种音频降噪方法，请参见图1，图1为本发明实施例提供的一种音频降噪方法的基本流程图，该方法包括：

S101：分别采集环境噪音和混合声音，混合声音包括目标语音和环境噪音；

S102：根据环境噪音生成降噪滤波器；

S103：采用降噪滤波器对混合声音进行降噪处理得到目标语音信号。

在本发明实施例中，上述步骤S101中，分别采集环境噪音和混合声音可以用于实时建立通讯的场景，也可以用于非实时通讯的场景，即仅仅用于声音采集终端用于声音采集而非实时传输声音信号。

分别采集环境噪音和混合声音包括：在距离目标语音的音源第一距离的位置采集环境噪音；在距离目标语音的音源第二距离的位置采集混合声音；第二距离小于第一距离。

应当理解的是，当处于实时建立通讯的场景时，可以在通话进行的过程，同时采集环境噪音和混合声音，由于采用第一声音采集设备采集环境噪音，采用第二声音采集设备采集混合声音；第一声音采集设备和目标语音的音源的距离为第一距离；第二声音采集设备和目标语音的音源的距离为第二距离；第二距离小于第一距离。虽然第一声音采集设备远离目标语音的音源，但采用第一声音采集设备采集环境噪音其实也包含少量目标语音，但是可以忽略不计，由于通话过程中，环境不会发生大幅度变化，所以环境噪声较稳定，因此可以仅仅在通话开始进行时的预设时间内采集环境噪声，而在通话过程的全程采集混合声音。

由于通话过程中采用第一声音采集设备采集的环境噪音其实也包含少量目标语音，优选的，为了提升环境噪音的准确度，可以在当声音采集终端与其他终端开始建立通讯时，开始采集环境噪音；当声音采集终端与其他终端建立通讯成功时，结束采集环境噪音，因此采集环境噪音是在建立通讯开始到建立通讯成功的过程中进行的，也即是说采集环境噪音是在通话开始之前。而采集混合噪音是在刚刚建立通讯成功时，即通话开始时，进行采集混合噪音，在通话结束时，停止采集混合噪音，因此，在采集环境噪音时，只存在环境噪音，保证了环境噪音的准确度。

当处于非实时传输声音信号场景时，声音采集终端可以先采集环境噪音再采集混合声音，从而保证环境噪音的准确度。

图2为本发明实施例提供的一种根据环境噪音生成降噪滤波器的方法的基本流程图，如如2所示，步骤S102中，根据环境噪音生成降噪滤波器包括：

S1021：将环境噪音转换成第一声音信号；

S1022：将第一声音信号转换成第一数字信号；

S1023：计算第一数字信号的频域分布情况；

具体的，可以将第一数字信号通过傅里叶变换方法，实现从时域到频域的转换，计算可得第一数字信号的频域分布情况，即可以获得第一数字信号包含了哪些不同频率的信号类型，每种类型信号的幅值是多少、波的数量等，具体的，包括基波和谐波从最大幅值到下降3dB处的频率范围和幅值大小，即得到基波和谐波的特征情况。其中，谐波波谱显示了发声体的音色，在第一数字信号的频谱域内，计算谐波的波峰值和波的数量，并将数据存储在数组中；基波波谱显示了发声体的音调，根据第一数字信号的频域分布情况获取基波的特征情况，基波的特征情况包括：基波的频域幅值最大处到下降3dB处的目标频率范围和频域幅值最大处的频率；将目标频率范围的最小值作为下限截止频率；将目标频率范围的最大值作为上限截止频率，将数据存储在数组中。

S1024：根据第一数字信号的频域分布情况生成降噪滤波器。

具体的，可以根据上限截止频率和下限截止频率生成带通滤波器作为降噪滤波器。

图3为本发明的一个实施例提供的一种采用降噪滤波器对混合声音进行降噪处理的方法的基本流程图，如图3所示，上述步骤S103中，采用降噪滤波器对混合声音进行降噪处理得到目标语音信号包括：

S1031：将混合声音转换成第二声音信号；

S1032：将第二声音信号转换成第二数字信号；

S1033：采用降噪滤波器对第二数字信号进行降噪处理得到目标语音信号。

步骤S1033后，还包括对目标语音信号进行平滑处理，去除毛刺等操作，处理后的目标语音信号，可以量化编码，用于无线或有线传输。

应当理解的是上述降噪处理得到目标语音信号可以在通话过程中，随着通话进行而伴随着采集混合声音一直进行的。

本发明实施例提供的音频降噪处理方法，该方法应用于声音采集终端，该方法包括：分别采集环境噪音和混合声音，混合声音包括目标语音和环境噪音；根据环境噪音生成降噪滤波器；采用降噪滤波器对混合声音进行降噪处理得到目标语音信号，该方法通过在声音采集过程中分别采集环境噪音和混合声音，利用采集的环境噪音生成出降噪滤波器，利用降噪滤波器对混合声音进行降噪，而不需要预先训练降噪模型，能够根据当前的环境噪音生成出降噪滤波器实现声音实时降噪处理；通过分别设置两个位置不同的声音采集设备采集环境噪音和混合声音，实现了同时采集环境噪音和混合声音，用于声音采集终端实时的根据环境噪音生成出降噪滤波器对混合声音进行实时降噪，提升用户体验。

本发明另一实施例还提供了一种音频降噪处理装置，应用于声音采集终端，如图4所示，该装置20包括：

声音采集模块21，用于分别采集环境噪音和混合声音，混合声音包括目标语音和环境噪音；

滤波器生成模块22，用于根据环境噪音生成降噪滤波器；

降噪模块23，用于采用降噪滤波器对混合声音进行降噪处理得到目标语音信号。

在本发明实施例中，声音采集模块21分别采集环境噪音和混合声音可以用于实时建立通讯的场景，也可以用于非实时通讯的场景，即仅仅用于声音采集终端用于声音采集而非实时传输声音信号。

声音采集模块21包括：第一声音采集模块，用于在距离所述目标语音的音源第一距离的位置采集所述环境噪音；第二声音采集模块，用于在距离所述目标语音的音源第二距离的位置采集所述混合声音；其中，第二距离小于第一距离。

应当理解的是，当处于实时建立通讯的场景时，可以在通话进行的过程，同时采集环境噪音和混合声音，由于采用第一声音采集模块采集环境噪音，采用第二声音采集模块采集混合声音；第一声音采集模块和目标语音的音源的距离为第一距离；第二声音采集模块和目标语音的音源的距离为第二距离；第二距离小于第一距离。虽然第一声音采集模块远离目标语音的音源，但采用第一声音采集模块采集环境噪音其实也包含少量目标语音，但是可以忽略不计，由于通话过程中，环境不会发生大幅度变化，所以环境噪声较稳定，因此可以仅仅在通话进行时采集环境噪声，而在通话过程的全程采集混合声音。

由于通话过程中采用第一声音采集模块采集的环境噪音其实也包含少量目标语音，优选的，为了提升环境噪音的准确度，可以在当声音采集终端与其他终端开始建立通讯时，开始采集环境噪音；当声音采集终端与其他终端建立通讯成功时，结束采集环境噪音，因此采集环境噪音是在建立通讯开始到建立通讯成功的过程中进行的，也即是说采集环境噪音是在通话开始之前。而采集混合噪音是在刚刚建立通讯成功时，即通话开始时，进行采集混合噪音，在通话结束时，停止采集混合噪音，因此，在采集环境噪音时，只存在环境噪音，保证了环境噪音的准确度。

当处于非实时传输声音信号场景时，声音采集终端可以先采集环境噪音再采集混合声音，从而保证环境噪音的准确度。

滤波器生成模块22具体用于，将环境噪音转换成第一声音信号；将第一声音信号转换成第一数字信号；计算第一数字信号的频域分布情况；根据第一数字信号的频域分布情况生成降噪滤波器。

具体的，可以将第一数字信号通过傅里叶变换方法，实现从时域到频域的转换，计算可得第一数字信号的频域分布情况，即可以获得第一数字信号包含了哪些不同频率的信号类型，每种类型信号的幅值是多少，波的数量，具体的，包括基波和谐波从最大幅值到下降3dB处的频率范围和幅值大小，即得到基波和谐波的特征情况。其中，谐波波谱显示了发声体的音色，在第一数字信号的频谱域内，计算谐波的波峰值和波的数量，并将数据存储在数组中；基波波谱显示了发声体的音调，根据第一数字信号的频域分布情况获取基波的特征情况，基波的特征情况包括：基波的频域幅值最大处到下降3dB处的目标频率范围和频域幅值最大处的频率；将目标频率范围的最小值作为下限截止频率；将目标频率范围的最大值作为上限截止频率，将数据存储在数组中。

具体的，可以根据上限截止频率和下限截止频率生成带通滤波器作为降噪滤波器。

将混合声音转换成第二声音信号；将第二声音信号转换成第二数字信号后，降噪模块具体用于，采用降噪滤波器对第二数字信号进行降噪处理得到目标语音信号。

该装置还包括音质优化模块，用于在采用降噪滤波器对混合声音进行降噪处理得到目标语音信号之后，对目标语音信号进行平滑处理，去除毛刺等操作，处理后的目标语音信号，可以量化编码，用于无线或有线传输。

应当理解的是上述降噪处理得到目标语音信号可以在通话过程中，随着通话进行而伴随着采集混合声音一直进行的。

本发明实施例提供的音频降噪处理装置，该装置应用于声音采集终端，该装置包括：声音采集模块，用于分别采集环境噪音和混合声音，所述混合声音包括目标语音和环境噪音；滤波器生成模块，用于根据所述环境噪音生成降噪滤波器；降噪模块，用于采用所述降噪滤波器对所述混合声音进行降噪处理得到目标语音信号，通过声音采集模块在声音采集过程中分别采集环境噪音和混合声音，滤波器生成模块利用采集的环境噪音生成出降噪滤波器，降噪模块利用降噪滤波器对混合声音进行降噪，而不需要预先训练降噪模型，能够根据当前的环境噪音生成出降噪滤波器实现声音实时降噪处理；通过分别设置两个位置不同的声音采集模块采集环境噪音和混合声音，实现了同时采集环境噪音和混合声音，用于声音采集终端实时的根据环境噪音生成出降噪滤波器对混合声音进行实时降噪，提升用户体验。

本发明另一实施例还提供了一种声音采集终端，如图5所示，声音采集终端30包括第一声音采集设备31、第二声音采集设备32、处理器33、存储器34及通信总线35；

第一声音采集设备31用于采集环境噪音；

第二声音采集设备32用于采集混合声音，混合声音包括目标语音和环境噪音；

第一声音采集设备31和第二声音采集设备32设于不同位置；

通信总线35用于实现处理器33和存储器34之间的连接通信；

处理器33用于执行存储器34中存储的一个或者多个计算机程序，以实现如上的音频降噪处理方法的步骤。

第一声音采集设备31和第二声音采集设备32用于将采集的环境噪音、混合声音传输、传输至存储器34。

本发明另一实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述实施例中的音频降噪处理方法的至少一个步骤。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：崔刚刚;
专利申请人：中兴通讯股份有限公司;

上一篇：模板定位装置和水沟施工方法
下一篇：一种易于维护的雷达物位计及其使用方法