掌桥专利:专业的专利平台
掌桥专利
首页

一种双麦克风降噪方法和存储设备

文献发布时间:2023-06-19 09:27:35


一种双麦克风降噪方法和存储设备

技术领域

本发明涉及数据处理技术领域,特别涉及一种双麦克风降噪方法和存储设备。

背景技术

现有大规模应用的最普遍的降噪技术是双麦克风降噪技术,一般采用此技术的对讲机配有主、副两个性能相同的电容式麦克风,其中主MIC用于拾取通话的语音,副MIC用于背景声拾音,一般安装在手机话筒的背面,与主MIC物理隔离。开始发起对讲时,音源靠近主MIC,它产生较大的音频信号A,同时副MIC也会得到同样但是经过削弱的语音信号B,这个信号经过手机内部DSP做声相反相处理达到抵消噪声的作用。

传统的噪声抑制算法,是通过采样声音,将噪声与人声+噪音混合的信号进行比对计算,进而从所采集的人声+噪声中将噪声分离出去。这种计算是实时的,只进行一次。导致算法学习到的关键信息无法保留,无法可重复使用。

发明内容

为此,需要提供一种双麦克风降噪方法,用以解决现有双麦克风降噪处理过程,算法学习得到的关键信息无法保留,无法重复使用的问题。具体技术方案如下:

一种双麦克风降噪方法,包括步骤:

设置两个以上的降噪层,预先设置所述降噪层每一层的降噪算法,所述降噪算法存储在数据库;

按所述降噪层层级先后顺序输入语音数据逐层进行处理;

语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若未低于预设阈值,则对上一层降噪处理后的语音数据继续下一层的降噪处理,直至降噪处理后的语音数据的噪声参数低于预设阈值;

所述噪声参数包括:信噪比差值。

进一步的,所述“按所述降噪层层级先后顺序输入语音数据逐层进行处理”,还包括步骤:

输入语音数据至所述降噪层的第一层进行预处理,按频率范围对每个语音数据进行切割,分离出不同频率范围的噪声;

所述不同频率范围的噪声包括以下中的一种或多种:低频噪声、中频噪声、高频噪声。

进一步的,所述“按所述降噪层层级先后顺序输入语音数据逐层进行处理”,还包括步骤:

输入第一层预处理后的语音数据至下一层,从数据库中获取该层降噪层的降噪算法对应的噪声特征值,根据所述噪声特征值对预处理后的语音数据进行去噪。

进一步的,自所述降噪层第二层起,每下一层的降噪算法对应的噪声特征值均为对上一层的降噪算法对应的噪声特征值的进一步细分。

进一步的,所述“设置两个以上的降噪层”,还包括步骤:设置三个的降噪层;

所述第二层的噪声特征值包括以下中的一种或多种:人声对应的噪声特征值、音乐声对应的噪声特征值、交通工具噪声特征值、建筑噪声特征值、工业噪声特征值、社会生活噪声特征值;

所述“根据所述噪声特征值对预处理后的语音数据进行去噪”,还包括步骤:获得降噪后的音频文件,用所述降噪后的音频文件替换旧音频文件,完成降噪。

进一步的,所述第三层的噪声特征值包括以下中的一种或多种:男声噪声特征值、女声噪声特征值、童声噪声特征值、小型汽车噪声特征值、摩托车噪声特征值、大型货运车噪声特征值、轨道交通噪声特征值、砖石堆砌解体噪声特征值、机械敲击噪声特征值、设备噪声噪声特征值、钢琴声特征值、竖琴声特征值、大提琴声特征值、中提琴声特征值、小提琴声特征值、低音提琴声特征值、口琴声特征值、凤凰琴声特征值、电子琴声特征值、木琴声特征值、钢片琴声特征值、颤音琴声特征值、竖琴声特征值、吉他声特征值、电吉他声特征值、贝司声特征值、长笛声特征值、短笛声特征值、木笛声特征值、陶瓷撞击噪声特征值、金属撞击噪声特征值、木制品撞击噪声特征值、玻璃制品撞击噪声特征值、石头撞击噪声特征值、陶瓷摩擦噪声特征值、金属摩擦噪声特征值、木制品摩擦噪声特征值、玻璃制品摩擦噪声特征值、石头摩擦噪声特征值、泡沫制品摩擦噪声特征值。

进一步的,所述“设置两个以上的降噪层”前,还包括步骤:

判断所述数据库是否存在更新,若所述数据库存在更新,则更新数据库。

进一步的,还包括步骤:

语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若低于预设阈值,则结束降噪,输出降噪处理后的语音数据。

为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:

一种存储设备,其中存储有指令集,所述指令集用于执行:

设置两个以上的降噪层,预先设置所述降噪层每一层的降噪算法,所述降噪算法存储在数据库;

按所述降噪层层级先后顺序输入语音数据逐层进行处理;

语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若未低于预设阈值,则对上一层降噪处理后的语音数据继续下一层的降噪处理,直至降噪处理后的语音数据的噪声参数低于预设阈值;

所述噪声参数包括:信噪比差值。

进一步的,所述指令集还用于执行:

所述“按所述降噪层层级先后顺序输入语音数据逐层进行处理”,还包括步骤:

输入语音数据至所述降噪层的第一层进行预处理,按频率范围对每个语音数据进行切割,分离出不同频率范围的噪声;

所述不同频率范围的噪声包括以下中的一种或多种:低频噪声、中频噪声、高频噪声。

本发明的有益效果是:设置两个以上的降噪层,预先设置所述降噪层每一层的降噪算法,所述降噪算法存储在数据库中;按所述降噪层层级先后顺序输入语音数据逐层进行处理;语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若未低于预设阈值,则对上一层降噪处理后的语音数据继续下一层的降噪处理,直至降噪处理后的语音数据的噪声参数低于预设阈值;所述噪声参数包括:信噪比差值。通过引入数据库存放所述降噪层每一层的降噪算法,每种算法的关键信息都在数据库中得以保存,即可以有针对性地对语音数据进行处理,又可以重复有效利用。

附图说明

图1为具体实施方式所述一种双麦克风降噪方法的流程图;

图2为具体实施方式所述原始音频示意图;

图3为具体实施方式所述优化后的音频示意图;

图4为具体实施方式所述一种存储设备的模块示意图。

附图标记说明:

400、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。

本申请的核心技术方案在于:通过引入数据库,并设计两个以上的降噪层,数据库中预先存储每个降噪层的降噪算法,当有新的算法更新时,亦会存入数据库中,当有语音数据需要处理时,按所述降噪层层级先后顺序输入语音数据逐层进行处理;其中每经过一层降噪层处理后,都会去判断经过该层处理后的语音数据是否达到了预先设置的降噪标准,若没有达到标准,则传入下一层继续降噪处理,若达到标准,则结束降噪处理,输出降噪处理后的语音数据。

其中数据库中预先为每个降噪层设置的算法,是通过前期大量实验得到的。而后期在持续获取到不同场景的语音数据后,会通过对这些语音数据的进一步分析处理,归结出其它的算法,定时将这些算法更新至数据库中。

传统的双麦克风主麦克用来采集手机通话的声音,副麦克采集环境噪声,通过采样声音,将噪声与人声+噪音混合的信号进行比对计算,进而从所采集的人声+噪声中将噪声分离出去。这种算法虽然可以有效抵御背景噪声,但在设计不当时,可能会影响正常的拾音质量,比如主副MIC隔离不好或者靠的太近又或者两个话筒的参数不完全一致,就可能导致正常通话也抵消一部分拾音,导致通话音量小。

而且因为环境的复杂性,固定的算法在遇到复杂的环境特别是人声频率较为接近混杂的环境时,可能错误的将本应拾取的人声进行错误的滤除,导致影响通话效果。

本发明专利算法的优势在于:

使用的是特征值提取过滤,针对不同特征值的干扰音进行有效的滤除,而且同时采用的双麦克,可以在干扰相对较小的前提下对不用位置人声进行进一步滤除,最大程度保留主麦克拾取的有效人声。

搭建噪声算法数据收集后台,用于采集各终端收集的噪声特征进而提取特征值,随着用户使用场景越多、特征值的不断收集,降噪效果可以进一步的提升。

首先对一些算法过程进行说明:

程序收到语音输入时,首先对语音数据分帧,每帧10ms,对每个帧的声音通过频率分离算法将高中低频声音进行分离。噪声分离后,根据预先集成的噪声特征值,对每帧噪声进行谱减计算。语音帧的组成为:

Y

对分离出语音帧进行谱减算法,得出最终输出的语音帧P(f)

即P(f)=Y(f)-N(f),Y(f)为分离后的原始帧,N(f)为分离后含有噪声特征值的帧。

我们采用分层级计算的噪声特征值对语音帧帧进行匹配:

匹配噪声特征值

δN(f)为噪声特征值关键字段,N(f)为待处理的带有噪声的语音,μH

t代表时间帧,δT

因为使用场景的复杂性,对噪声的处理不能简单的相位抵消,否则可能造成不可预期的声音失真问题,所以在算法中引入了δT

匹配到特征噪声后,对其进行特征噪声谱减计算。

对于没有匹配到特征值的的语音帧,进行一般谱减计算,并将原始数据上传到服务器。

请参阅图1,在本实施方式中,一种双麦克风降噪方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、对讲终端等,具体实施方式如下:

步骤S101:设置两个以上的降噪层,预先设置所述降噪层每一层的降噪算法,所述降噪算法存储在数据库。

步骤S102:按所述降噪层层级先后顺序输入语音数据逐层进行处理。

步骤S103:语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若未低于预设阈值,则对上一层降噪处理后的语音数据继续下一层的降噪处理,直至降噪处理后的语音数据的噪声参数低于预设阈值;所述噪声参数包括:信噪比差值。

设置两个以上的降噪层,预先设置所述降噪层每一层的降噪算法,所述降噪算法存储在数据库中;按所述降噪层层级先后顺序输入语音数据逐层进行处理;语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若未低于预设阈值,则对上一层降噪处理后的语音数据继续下一层的降噪处理,直至降噪处理后的语音数据的噪声参数低于预设阈值;所述噪声参数包括:信噪比差值。通过引入数据库存放所述降噪层每一层的降噪算法,每种算法的关键信息都在数据库中得以保存,即可以有针对性地对语音数据进行处理,又可以重复有效利用。

在本实施方式中,优选地以设置三个降噪层来进行说明。在其它实施方式中,具体要采用多少层级的降噪层则取决于终端的运算能力和用户可接受的语音时延,层级越多得出的最终效果越好,但是同时也消耗更多的设备资源及运算时间。以下以设置三个降噪层来具体展开说明:

第一层的处理如下:

所述“按所述降噪层层级先后顺序输入语音数据逐层进行处理”,还包括步骤:输入语音数据至所述降噪层的第一层进行预处理,按频率范围对每个语音数据进行切割,分离出不同频率范围的噪声;所述不同频率范围的噪声包括以下中的一种或多种:低频噪声、中频噪声、高频噪声。其中每层的算法数据则根据数据库保留的频点特征与采集到的音频进行匹配,如:第二层的算法中,有三个是针对低频噪声,两个针对中频噪声,一个针对高频噪声,则各算法对自己匹配的频率噪声进行去噪。

故所述“按所述降噪层层级先后顺序输入语音数据逐层进行处理”,还包括步骤:输入第一层预处理后的语音数据至下一层,从数据库中获取该层降噪层的降噪算法对应的噪声特征值,根据所述噪声特征值对预处理后的语音数据进行去噪。

在本实施方式中,所述第二层的噪声特征值包括以下中的一种或多种:人声对应的噪声特征值、音乐声对应的噪声特征值、交通工具噪声特征值、建筑噪声特征值、工业噪声特征值、社会生活噪声特征值;

所述“根据所述噪声特征值对预处理后的语音数据进行去噪”,还包括步骤:获得降噪后的音频文件,用所述降噪后的音频文件替换旧音频文件,完成降噪。

其中,自所述降噪层第二层起,每下一层的降噪算法对应的噪声特征值均为对上一层的降噪算法对应的噪声特征值的进一步细分。如:第二层算法我们对环境中的餐厅/集会场所、公交地铁火车站、风噪、音乐噪声的特征信息进行匹配优化,第三层则对餐厅场景中的其他人声、器物噪声、音乐声等进一步匹配优化。

优选地,所述第三层的噪声特征值包括以下中的一种或多种:男声噪声特征值、女声噪声特征值、童声噪声特征值、小型汽车噪声特征值、摩托车噪声特征值、大型货运车噪声特征值、轨道交通噪声特征值、砖石堆砌解体噪声特征值、机械敲击噪声特征值、设备噪声噪声特征值、钢琴声特征值、竖琴声特征值、大提琴声特征值、中提琴声特征值、小提琴声特征值、低音提琴声特征值、口琴声特征值、凤凰琴声特征值、电子琴声特征值、木琴声特征值、钢片琴声特征值、颤音琴声特征值、竖琴声特征值、吉他声特征值、电吉他声特征值、贝司声特征值、长笛声特征值、短笛声特征值、木笛声特征值、陶瓷撞击噪声特征值、金属撞击噪声特征值、木制品撞击噪声特征值、玻璃制品撞击噪声特征值、石头撞击噪声特征值、陶瓷摩擦噪声特征值、金属摩擦噪声特征值、木制品摩擦噪声特征值、玻璃制品摩擦噪声特征值、石头摩擦噪声特征值、泡沫制品摩擦噪声特征值。

进一步的,为了确保最优的去噪效果,所述“设置两个以上的降噪层”前,还包括步骤:判断所述数据库是否存在更新,若所述数据库存在更新,则更新数据库。

同时为了避免算法冗余,语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若低于预设阈值,则结束降噪,输出降噪处理后的语音数据。

请参阅图2至图3,为本技术方案:一种双麦克风降噪方法应用在某对讲终端上的前后降噪效果。图2为原始音频,图3为优化后的效果。

请参阅图4,在本实施方式中,一种存储设备400的具体实施方式如下:

一种存储设备400,其中存储有指令集,所述指令集用于执行:设置两个以上的降噪层,预先设置所述降噪层每一层的降噪算法,所述降噪算法存储在数据库;按所述降噪层层级先后顺序输入语音数据逐层进行处理;语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若未低于预设阈值,则对上一层降噪处理后的语音数据继续下一层的降噪处理,直至降噪处理后的语音数据的噪声参数低于预设阈值;所述噪声参数包括:信噪比差值。

设置两个以上的降噪层,预先设置所述降噪层每一层的降噪算法,所述降噪算法存储在数据库中;按所述降噪层层级先后顺序输入语音数据逐层进行处理;语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若未低于预设阈值,则对上一层降噪处理后的语音数据继续下一层的降噪处理,直至降噪处理后的语音数据的噪声参数低于预设阈值;所述噪声参数包括:信噪比差值。通过引入数据库存放所述降噪层每一层的降噪算法,每种算法的关键信息都在数据库中得以保存,即可以有针对性地对语音数据进行处理,又可以重复有效利用。

在本实施方式中,优选地以设置三个降噪层来进行说明。在其它实施方式中,具体要采用多少层级的降噪层则取决于终端的运算能力和用户可接受的语音时延,层级越多得出的最终效果越好,但是同时也消耗更多的设备资源及运算时间。以下以设置三个降噪层来具体展开说明:

第一层的处理如下:

所述指令集还用于执行:所述“按所述降噪层层级先后顺序输入语音数据逐层进行处理”,还包括步骤:输入语音数据至所述降噪层的第一层进行预处理,按频率范围对每个语音数据进行切割,分离出不同频率范围的噪声;所述不同频率范围的噪声包括以下中的一种或多种:低频噪声、中频噪声、高频噪声。其中每层的算法数据则根据数据库保留的频点特征与采集到的音频进行匹配,如:第二层的算法中,有三个是针对低频噪声,两个针对中频噪声,一个针对高频噪声,则各算法对自己匹配的频率噪声进行去噪。

故所述指令集还用于执行:输入第一层预处理后的语音数据至下一层,从数据库中获取该层降噪层的降噪算法对应的噪声特征值,根据所述噪声特征值对预处理后的语音数据进行去噪。

在本实施方式中,所述第二层的噪声特征值包括以下中的一种或多种:人声对应的噪声特征值、音乐声对应的噪声特征值、交通工具噪声特征值、建筑噪声特征值、工业噪声特征值、社会生活噪声特征值;

所述“根据所述噪声特征值对预处理后的语音数据进行去噪”,还包括步骤:获得降噪后的音频文件,用所述降噪后的音频文件替换旧音频文件,完成降噪。

其中,自所述降噪层第二层起,每下一层的降噪算法对应的噪声特征值均为对上一层的降噪算法对应的噪声特征值的进一步细分。如:第二层算法我们对环境中的餐厅/集会场所、公交地铁火车站、风噪、音乐噪声的特征信息进行匹配优化,第三层则对餐厅场景中的其他人声、器物噪声、音乐声等进一步匹配优化。

优选地,所述第三层的噪声特征值包括以下中的一种或多种:男声噪声特征值、女声噪声特征值、童声噪声特征值、小型汽车噪声特征值、摩托车噪声特征值、大型货运车噪声特征值、轨道交通噪声特征值、砖石堆砌解体噪声特征值、机械敲击噪声特征值、设备噪声噪声特征值、钢琴声特征值、竖琴声特征值、大提琴声特征值、中提琴声特征值、小提琴声特征值、低音提琴声特征值、口琴声特征值、凤凰琴声特征值、电子琴声特征值、木琴声特征值、钢片琴声特征值、颤音琴声特征值、竖琴声特征值、吉他声特征值、电吉他声特征值、贝司声特征值、长笛声特征值、短笛声特征值、木笛声特征值、陶瓷撞击噪声特征值、金属撞击噪声特征值、木制品撞击噪声特征值、玻璃制品撞击噪声特征值、石头撞击噪声特征值、陶瓷摩擦噪声特征值、金属摩擦噪声特征值、木制品摩擦噪声特征值、玻璃制品摩擦噪声特征值、石头摩擦噪声特征值、泡沫制品摩擦噪声特征值。

进一步的,为了确保最优的去噪效果,所述“设置两个以上的降噪层”前,还包括步骤:判断所述数据库是否存在更新,若所述数据库存在更新,则更新数据库。

同时为了避免算法冗余,语音数据每经过一层降噪层处理后,判断经过该层降噪处理后的语音数据的噪声参数是否低于预设阈值,若低于预设阈值,则结束降噪,输出降噪处理后的语音数据。

请参阅图2至图3,为某对讲终端上的前后降噪效果。图2为原始音频,图3为优化后的效果。

需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

相关技术
  • 一种双麦克风降噪方法和存储设备
  • 一种双麦克风语音降噪装置及其降噪方法
技术分类

06120112174757