掌桥专利:专业的专利平台
掌桥专利
首页

一种应用于三麦克风的降噪方法

文献发布时间:2023-06-19 18:37:28


一种应用于三麦克风的降噪方法

技术领域

本发明涉及声音信号降噪技术领域,尤其涉及一种应用于三麦克风的降噪方法。

背景技术

在常见的开放办公室场景中,外界的干扰声会影响办公通话质量,比如键盘声,敲击声,说话声等。尤其是当佩戴者周围存在其他干扰人声时,会影响通话质量。现有技术采用阵列麦克风和指向性算法进行降噪,该技术的缺点是个别角度噪声无法滤除,且消噪程度和语音还原度受声音入声角度影响大,即受耳机的佩戴方式影响大。现有技术还利用双麦相关性和能量差进行语音检测,然后进行消噪,该方法的缺点是难以滤除语音间的噪声,对语音噪声误检率高且难以避免。

发明内容

本发明提供一种应用于三麦克风的降噪方法,降低了麦克风语音信号中的外界嘈杂的背景噪声和干扰人声,提高了佩戴者的通话质量。

本发明一实施例提供一种应用于三麦克风的降噪方法,包括以下步骤:

通过主麦采集声音信号形成目标波束,通过所述右前馈副麦和左前馈副麦采集两路声音信号,并形成不同方向的双麦波束,所述双麦波束包括右前馈副麦方向的第一双麦波束、左前馈副麦方向的第二双麦波束和主麦方向的第三双麦波束;

分别计算第一双麦波束、第二双麦波束和第三双麦波束的频响得到第一频响、第二频响和第三频响,根据所述第一频响、第二频响和第三频响计算频响比值,根据所述频响比值对所述目标波束进行第一次滤波处理得到第一目标信号;

根据当前帧的先验信噪比构建后置滤波器,根据所述后置滤波器对所述第一目标信号进行第二次滤波处理;

根据所述主麦采集的声音信号的长时滤波能量差比值和短时滤波能量差比值对所述后置滤波器进行调整;所述长时滤波能量差比值是指每隔第一预设帧数更新一次能量差比值,所述短时滤波能量差比值是指每隔第二设帧数更新一次能量差的比值,所述第一预设帧数大于第二预设帧数,所述能量差比值根据所述主麦采集的声音信号在第一次滤波处理之前的能量累计值和第二次滤波处理之后的能量累计值进行计算得到。

进一步的,所述根据所述第一频响、第二频响和第三频响计算频响比值,具体为:

进一步的,将所述频响比值进行非线性化处理后,根据所述频响比值对所述第三双麦波束进行滤波处理得到第一目标信号。

进一步的,根据以下公式计算当前帧的短时滤波能量差和长时滤波能量差:

P(t)=delta*[(OrignalSum(t)-AfterfilterSum(t))/OrignalSum(t)]+(1-delta)*H(t)

计算当前帧的短时滤波能量差比值时,P(t)表示当前帧的短时滤波能量差比值,t表示第二预设帧数,OrignalSum(t)表示所述主麦采集的声音信号在所述第一次滤波处理之前t帧的能量累计值,AfterfilterSum(t)表示所述主麦采集的声音信号在所述第二次滤波处理之后t帧的能量累计值,delta表示第二遗忘因子,H(t)表示t帧之前的短时滤波能量差比值;

计算当前帧的长时滤波能量差比值时,P(t)表示当前帧的长时滤波能量差比值,t表示第一预设帧数,OrignalSum(t)表示所述主麦采集的声音信号在所述第一次滤波处理之前t帧的能量累计值,AfterfilterSum(t)表示所述主麦采集的声音信号在所述第二次滤波处理之后t帧的能量累计值,delta表示第一遗忘因子,H(t)表示t帧之前的长时滤波能量差比值。

进一步的,根据长时滤波能量差比值和短时滤波能量差比值对所述后置滤波器进行调整,包括以下步骤:

当所述长时滤波能量差比值小于等于第一预设阈值时,调小所述后置滤波器的滤波程度;

当所述长时滤波能量差比值大于所述第一预设阈值且所述短时滤波能量差比值小于等于第二预设阈值时,调小所述后置滤波器的滤波程度;

当所述长时滤波能量差比值大于所述第一预设阈值且所述短时滤波能量差比值大于第二预设阈值时,调大所述后置滤波器的滤波程度。

进一步的,根据所述第一目标信号、前一帧的信噪比和双麦波束频响计算所述当前帧的先验信噪比,所述双麦波束频响为第一频响和第二频响中较大的频响。

进一步的,根据所述第一目标信号、前一帧的信噪比和所述双麦波束频响计算所述当前帧的先验信噪比,具体为:

snr=alpha*(y–n)/n+(1-alpha)snr_old

式中,y表示所述第一目标信号,n表示所述双麦波束频响,snr_old表示所述前一帧的信噪比,alpha表示第二遗忘因子。

进一步的,根据当前帧的先验信噪比构建后置滤波器,具体为:

filterpost=(snr)/(snr+1)

式中,filterpost表示所述后置滤波器,snr表示当前帧的先验信噪比

本发明的实施例,具有如下有益效果:

本发明提供了一种应用于三麦克风的降噪方法,该方法利用目标方向和距离目标方向最大角度的多个波束形成频响来构造滤波器进行降噪处理,相比现有技术,本发明对佩戴者说话识别的准确率更高,对四周噪声尤其是开放办公室里干扰人声的消噪程度更好,能够解决传统波束形成的高频缺失问题和对佩戴者耳机佩戴角度依赖性问题。本发明利用距离目标方向最大角度的波束形成频响作为后置滤波器的噪声估计,利用滤波前后的长短时能量差对后置滤波进行修正;相比传统的后置滤波器,能够更加准确地识别出佩戴者的语音信息,避免目标信号的缺失,同时提升了对噪声的滤除效果。本发明相比于现有的降噪算法,能够有效地滤除开放办公室环境中的干扰噪声,尤其是四周的干扰人声(现有的语音降噪算法难以滤除干扰人声),同时能提升佩戴者说话的语音质量。

附图说明

图1是本发明一实施例提供的应用于三麦克风的降噪方法的流程示意图;

图2是本发明一实施例提供的应用于三麦克风的降噪方法的三麦克风位置关系示意图。

具体实施方式

下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明一实施例提供的一种应用于三麦克风的降噪方法,包括以下步骤:

步骤S101:通过主麦采集声音信号形成目标波束,通过右前馈副麦和左前馈副麦采集两路声音信号,并形成不同方向的双麦波束,所述双麦波束包括右前馈副麦方向的第一双麦波束、左前馈副麦方向的第二双麦波束和主麦方向的第三双麦波束。如图2所示,所述左前馈副麦FFL_mic设置在0°方向,所述右前馈副麦FFR_mic设置在180°方向,所述主麦Main_mic设置在90°方向,噪声源包含环境噪声和干扰人声。

作为其中一种实施例,根据mvdr模型将所述采集两路声音信号,形成双麦波束,具体为:将所述右前馈副麦和左前馈副麦采集含噪两路声音信号x=[x1,x2]进行短时傅里叶变换得到X=[X1,X2],根据mvdr模型的权重W计算得到降噪信号Y=W*X,W=(Φ-1*ds)/(ds*Φ-1*ds)。mvdr模型的原理是在不产生语音失真W*ds=1的条件下,使得噪声的总输出功率W*Φ*W最小,其中,Φ是双麦克风的噪声互功率谱矩阵,Φ=E{X*X},W是波束形成输出的权重值,ds为声音到麦克风之间的传递函数,ds跟麦克风的间距d和麦克风与人嘴的相对角度θ有关。

步骤S102:分别计算第一双麦波束、第二双麦波束和第三双麦波束的频响得到第一频响、第二频响和第三频响,根据所述第一频响、第二频响和第三频响计算频响比值,根据所述频响比值对所述目标波束进行第一次滤波处理得到第一目标信号。

作为其中一种实施例,根据以下公式计算所述频响比值:

如果当两个副麦克风拾取到的声音是佩戴者说话的声音,那么90°方向的波束形成的频响较大,0°和+180°方向的波束形成的频响较小,此时频响比值ratio会比较大;如果当两个副麦克风拾取到的声音是外界噪声或者四周的干扰人声,那么90°方向的波束形成的频响较小,0°和+180°方向的波束形成的频响较大,此时频响比值ratio会比较小。现有技术中的波束形成只做目标方向的频响(即增强来自目标方向的声音,抑制来自非目标方向的声音),但是单方向的波束形成过于依赖传递函数的估计,而传递函数的估计会受到耳机佩戴角度的影响,佩戴角度的抖动会影响降噪结果;此外单方向的波束形成存在自身降噪能量有限和高频能量缺失等问题;而本发明同时兼顾了3个方向的频响,可以很好的解决现有技术存在的这些问题。

作为其中一种实施例,将所述频响比值进行非线性化处理后,根据所述频响比值对所述第三双麦波束进行滤波处理得到第一目标信号。具体的,将计算得到的所述频响比值ratio在[0,1]范围内进行非线性化,包括使用sigmoid函数进行非线性化处理。将频响比值进行非线性化处理能够拉大目标语音和干扰噪声的区别,同时可以加快对二者判断的响应速度。然后,将所述频响比值作为滤波器对所述目标波束进行第一次滤波处理得到第一目标信号。

步骤S103:根据当前帧的先验信噪比构建后置滤波器,根据所述后置滤波器对所述第一目标信号进行第二次滤波处理。

作为其中一种实施例,根据所述第一目标信号、前一帧的信噪比和双麦波束频响计算所述当前帧的先验信噪比,所述双麦波束频响为步骤S102中计算得到的第一频响和第二频响中较大的频响。具体的,根据以下公式计算所述当前帧的先验信噪比:

snr=alpha*(y–n)/n+(1-alpha)snr_old

式中,y表示所述第一目标信号,n表示所述双麦波束频响,snr_old表示所述前一帧的信噪比,alpha表示第三遗忘因子,优选的,alpha取值为0.02。

根据当前帧的先验信噪比构建后置滤波器,具体为:

filterpost=(snr)/(snr+1)

式中,filterpost表示所述后置滤波器,snr表示当前帧的先验信噪比。本发明采用后置滤波器对主麦的信号(即所述第一目标信号)进行第二次滤波处理,进一步提升了降噪效果。

本发明的所述主麦是指向性麦,指向性麦的特点是主要拾取来自佩戴者说话方向的声音,同时一定程度上抑制了外界噪声。我们将经过步骤S102中第一次滤波处理的主麦信号(即第一目标信号)作为后置滤波器中的含噪信号;本发明的另外两个副麦是全向性麦,即能够拾取各个方向的声音,在步骤S102中分别计算0°和+180°方向的波束形成频响(即第一频响和第二频响),并将所述第一频响和第二频响中的较大值作为后置滤波器中的噪声估计值。

步骤S104:根据所述主麦采集的声音信号的长时滤波能量差比值和短时滤波能量差比值对所述后置滤波器进行调整;所述长时滤波能量差比值是指每隔第一预设帧数更新一次能量差比值,所述短时滤波能量差比值是指每隔第二设帧数更新一次能量差的比值,所述第一预设帧数大于第二预设帧数,所述能量差比值根据所述主麦采集的声音信号在第一次滤波处理之前的能量累计值和第二次滤波处理之后的能量累计值进行计算得到。

作为其中一种实施例,根据长时滤波能量差比值和短时滤波能量差比值对所述后置滤波器进行调整,包括以下步骤:

当所述长时滤波能量差比值小于等于第一预设阈值时,调小所述后置滤波器的滤波程度;

当所述长时滤波能量差比值大于所述第一预设阈值且所述短时滤波能量差比值小于等于第二预设阈值时,调小所述后置滤波器的滤波程度;

当所述长时滤波能量差比值大于所述第一预设阈值且所述短时滤波能量差比值大于第二预设阈值时,调大所述后置滤波器的滤波程度。

由于经过步骤S102和步骤S103的两次滤波处理,噪声得到很大程度上的抑制,前后的能量差很大;而佩戴者说话的声音基本得到保留,滤波前后的能量差很小,因此,本发明利用该特点对后置滤波器的滤波程度进一步修正。具体的,如果前后能量差大,则判断此时是噪声段,可以适当提高后置滤波器的滤波程度;反之则判断存在佩戴者说话的语音,可以适当降低后置滤波器的滤波程度。

作为其中一种实施例,根据以下公式计算当前帧的短时滤波能量差和长时滤波能量差:

P(t)=delta*[(OrignalSum(t)-AfterfilterSum(t))/OrignalSum(t)]+(1-delta)*H(t)

计算当前帧的短时滤波能量差比值时,t表示第二预设帧数,取10帧;P(10)表示当前帧的短时滤波能量差比值,OrignalSum(10)表示所述主麦采集的声音信号在第一次滤波处理之前10帧的能量累计值,AfterfilterSum(10)表示所述主麦采集的声音信号在第二次滤波处理之后10帧的能量累计值,delta表示第一遗忘因子,取值为0.8;H(10)表示10帧之前的短时滤波能量差比值。

计算当前帧的长时滤波能量差比值时,t表示第一预设帧数,取50帧;P(50)表示当前帧的长时滤波能量差比值,OrignalSum(50)表示所述主麦采集的声音信号在第一次滤波处理之前50帧的能量累计值,AfterfilterSum(50)表示所述主麦采集的声音信号在第二次滤波处理之后50帧的能量累计值,delta表示第二遗忘因子,取值为0.2;H(50)表示50帧之前的长时滤波能量差比值。

本发明通过计算长时滤波能量差比值和短时滤波能量差比值,进行长时和短时的滤波前后能量差跟踪,长时的前后能量差跟踪用于保存佩戴者说话的语音信息,短时的前后能量差跟踪用于进一步消除短暂急促的噪声。长时和短时是指对滤波前后能量差比值更新的速度不一样,比如每10帧更新一次前后能量差比值,即为短时滤波能量差比值;每50帧更新一次前后能量差比值,即为长时滤波能量差比值。

本发明利用目标方向和距离目标方向最大角度的多个波束形成频响以计算频响比值,并对频响比值进行非线性化处理后,根据频响比值构造滤波器进行降噪。相比现有技术,本发明对佩戴者说话识别的准确率更高,对四周噪声尤其是开放办公室里干扰人声的消噪程度更好,能够解决传统波束形成高频缺失和对佩戴者耳机佩戴角度依赖性等问题。本发明利用距离目标方向最大角度的波束形成频响作为后置滤波器的噪声估计,利用滤波前后的长短时能量差对后置滤波进行修正;相比传统的后置滤波器,能够更加准确地识别出佩戴者的语音信息,避免目标信号的缺失,同时提升了对噪声的滤除效果。

本发明相比于现有的降噪算法,能够有效地滤除开放办公室环境中的干扰噪声,尤其是四周的干扰人声(现有的语音降噪算法难以滤除干扰人声),同时能提升佩戴者说话的语音质量。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

技术分类

06120115635709