掌桥专利:专业的专利平台
掌桥专利
首页

一种目标声源锁定和提取的方法

文献发布时间:2023-06-19 09:38:30


一种目标声源锁定和提取的方法

技术领域

本发明涉及一种目标声源锁定和提取的方法,尤其涉及一种强非稳态干扰环境下基于多通道声源分离和端点检测的目标声源锁定和提取的方法。

背景技术

语音作为新一代的人机交互方式正在越来越多的被用在嵌入式设备中,如汽车中的车机和家用电器,融入到人们的日常生活中。然而这些带语音识别交互功能的嵌入式设备所在的环境通常包含了非稳态的干扰源。虽然近年来的降噪算法发展迅速,且越来越多的使用DNN(神经网络)的建模方式。但是当干扰源和目标声源的声学特征具有很强的共性时,传统语音增强算法的工作流通常无法从这种强非稳态干扰源中区分出目标声源,如具有高保真音响的电视播放的新闻节目等。而输入语音识别系统的理想信号应该是在目标声源和干扰声源重叠部分提取出目标声源信号,且在无目标声源段没有干扰声源输入语音识别系统。

传统的语音增强算法流程中,降噪算法虽然已经可以比较好的能应对一些与人声区别较大的日常噪声。但是对于和人声声学特征非常相似的干扰声源,降噪算法没有能力去区分目标声源。而单纯的多通道声源BSS(盲分离)算法虽然可以应对多个声源的情况,但是由于是盲分离,其无法锁定目标声源,并且在实际语音交互环境下由于混响和其他信号失真的影响,会留下大量纯干扰声源。

本发明主要目为在语音交互场景下,将含有多个声源的多路语音信号进行声源分离,并自适应地锁定目标声源从而提取出目标声源段,且同时大幅减少纯干扰声源信号段的能量水平,从而使语音识别系统在强非稳态干扰源下能够正常识别目标声源的有效语音。并且系统足够轻量级从而能够部署在大部分嵌入式系统中。

发明内容

本发明为解决上述技术问题而采用的技术方案是提供一种目标声源锁定和提取的方法,使用分离声源的SNR和语音识别反馈来自动锁定目标声源。

其中,具体技术方案为:

1)使用基于辅助函数的窗移独立向量分析;

2)在分离后的多通道声源中选择目标声源;

3)基于分离后声源相对空间信息的纯干扰声源段检测和消除;

4)使用基于DNN的VAD算法进行最终目标声源语音段提取。

上述的一种目标声源锁定和提取的方法,其中,1)使用基于辅助函数的窗移独立向量分析,具体为:

步骤1)将M个麦克风采集到的包含M个源信号的混合信号x

步骤2)累积得到L

步骤3)依据公式(1)和公式(2)更新辅助函数V

式(1)中,α(0≤α≤1)是遗忘因子,L

步骤4)依据公式(3)和公式(4)更新盲分离矩阵W(ω,τ),式(3)中e

w

步骤2)、3)和4)按算法1所示进行迭代计算W(ω,τ)和分离M路声源得到最终的Y(ω,τ)。

算法1:Block-Online的AuxIVA更新规则;

for τ=1 to Nτ do;

更新源分离矩阵:W(ω;τ)=W(ω;τ-1);

for n=1 to N do;

for m=1 to M do:

公式(1)更新r

for ω=1 to N

更新辅助变量V

end for

end for

end for

end for。

上述的一种目标声源锁定和提取的方法,其中,2)在分离后的多通道声源中选择目标声源,具体为:

步骤6)对于每一个分离的声源S

步骤7)对于当前大时间窗,对于每个分离的声源S

E_max

(6)

E_min

(7)

使用当前大时间窗每个声源统计得到的最大/最小值去分别更新信号/噪声的能量统计,其中α为平滑参数,t为大时间窗的索引,见公式(8)(9):

Speech

Noise

步骤8)使用语音识别系统反馈进一步提升声源锁定准确率:在语音交互中,语音识别系统既作为声学处理的下游任务,反过来给予声学处理模块以信息反馈;

当语音交互被触发,触发点的前T

E_max_target

使用公式(12)对目标区域内的最大值去和当前语音信号的统计做加权:

Speech

步骤9)最后更新信号噪声比,β为平滑系数:

对于每个大时间窗,做一次判决,取信噪比SNR

上述的一种目标声源锁定和提取的方法,其中,3)基于分离后声源相对空间信息的纯干扰声源段检测和消除,具体为:

步骤10)进一步利用目标声源和干扰声源的空间相关信息,从而判断当前block是否是纯干扰噪声源,是,则将当前窗进行静音;多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器,每个空间滤波器接收多路信号,将这多路信号中的同一声源信号提取到同一路输出中,则每个空间滤波器的作用就是提取目标声源信号,且滤出其他声源信号,则目标声源对应的空间滤波器SF

上述的一种目标声源锁定和提取的方法,其中,分析如下:

假设X为多路接收到的信号,且假设盲源分离对于各个源头的分离效果是均衡的,则在语音交互中存在两种情况:

情况一计算空间滤波器输出比R:

X(ω,τ)=S+N,其中S为理想纯目标语音信号,N为理想纯干扰噪声源;当SNR>>0时,该R值>>1,当SNR=0时,该R值会接近于1;

情况二计算空间滤波器输出比R:

X=N,接收到的是纯干扰噪声源。则在任意信噪比情况下啊,R值都会小于1。

由以上分析,由于AUX-IVA是以L

步骤11)利用情况二的突出特征来判断当前窗是否是纯干扰噪声,使用固定阈值或者长窗平滑R值作为阈值,即当有阈值R_thresh:

R

R≥R_thresh:当前窗存在语音信号;

根据以上R值的判断对纯干扰噪声段进行静音处理得到S

上述的一种目标声源锁定和提取的方法,其中,4)使用基于DNN的VAD算法进行最终目标声源语音段提取,具体为:

步骤12)VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性:语音帧和非语音帧;考虑到实际应用场景的复杂性,神经网络模型训练数据准备阶段,在基础数据集中加入了充分的远场模拟数据,并混入了不同类型、不同信噪比的噪声数据;依据神经网络的强大学习能力,从不同的数据集中学习到有效语音的特征,从而获得比较的强语音区分能力;

具体为,DNN接收处理过后的目标声源信号S

步骤13)语音识别系统反馈进行端点检测算法的鲁棒性提升:处理后的目标声源信号S

步骤14)更新背景音频能量的时候,系统中存储宽口大小为n的的能量窗,并在语音识别系统反馈的时间点,取能量窗中最大的能量值作为当前待更新的能量值E_bg_curr,使用平滑算法从而能够有效的估计环境不同时段的音频能量水平,具体见公式(19)其中αV为平滑参数。

E_bg_curr=Max[E(τ

(18)

E_bg=αV×E_bg+(1-αV)×E_bg_curr

(19)

步骤15)根据当前帧的能量E(τ)和环境能量E_bg,依据公式(20)计算得到当前帧的能量得分;

Energy_score(τ)=E(τ)/E_bg (20)

步骤16)根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ),公式(21)计算得到当前帧的最终得分Score(τ),其中βV为能量权重。当Score(τ)大于语音判定阈值speech_thres,判定当前帧为语音帧,否则为非语音帧;

在获取当前帧得分过程中,动态估计了系统工作环境的能量水平,使得能量得分的获取具有一定的自适应能力,从而提高了VAD系统的鲁棒性;

Score(τ)=βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)

步骤17)根据得到的Score(τ),当Score(τ)>=VAD阈值vad_threshold时,判定第τ帧为存在语音信号,否则判定为语音不存在,从而提取最终目标声源的有效语音段。

本发明相对于现有技术具有如下有益效果:

本发明所设计的目标声源提取系统,首先通过多通道BSS算法AUX-IVA(基于辅助函数的独立向量分析)提取出多个声源,再通过基于SNR(信噪比)和语音识别系统反馈的自适应目标声源锁定进行声源选择。在此基础上,再通过声源分离中的不同声源相对的空间信息判断纯干扰声源段,并进行消除。最后使用基于DNN的VAD端点检测)算法提取最终的目标声源有效语音段,语音识别系统的反馈同样作用于VAD算法。

1、基于时间窗的AUX-IVA算法,总体算法收敛迭代次数所需少,更加轻量级。

2、使用分离声源的SNR和语音识别反馈来自动锁定目标声源。

3、结合不同声源的相对空间信息来判断纯干扰声源段,从而对纯干扰声源信号段进行增益控制和消除。

4、基于远场模拟和噪声增强数据训练的基于DNN的VAD算法,具有对噪声的识别能力和远场语音的VAD能力。

5、将语音识别系统反馈加入到VAD算法中。

6、该系统对于麦克风阵列的拓扑结构没有先验要求,可以使用大于等于2个麦克风数量的的任意拓扑结构麦克风阵列作为算法硬件基础。

附图说明

图1为目标声源语音提取框图。

图2为语音识别反馈的示意图。

图3为端点检测框图的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

本发明的总体系统执行框图如图1描述,图1是目标声源语音提取框图。

具体操作流程具体描述如下:

1、使用基于辅助函数的窗移独立向量分析。

步骤1)将M个麦克风采集到的包含M个源信号的混合信号x

步骤2)累积得到L

步骤3)依据公式(1)和公式(2)更新辅助函数V

式(1)中,α(0≤α≤1)是遗忘因子,L

步骤4)依据公式(3)和公式(4)更新盲分离矩阵W(ω,τ),式(3)中e

w

步骤2),3)和4)按算法1所示进行迭代计算W(ω,τ)和分离M路声源得到最终的Y(ω,τ)。

算法1:Block-Online的AuxIVA更新规则。

for τ=1 to N

更新源分离矩阵:W(ω;τ)=W(ω;τ-1);

forn=1 to N do

for m=1 to M do

公式(1)更新r

forω=1to N

更新辅助变量V

end for

end for

end for

end for

2、在分离后的多通道声源中选择目标声源。

步骤6)对于每一个分离的声源S

步骤7)对于当前大时间窗,对于每个分离的声源S

E_max

(6)

E_min

(7)

使用当前大时间窗每个声源统计得到的最大/最小值去分别更新信号/噪声的能量统计,其中α为平滑参数,t为大时间窗的索引,见公式(8)(9):

Speech

Noise

步骤8)使用语音识别系统反馈进一步提升声源锁定准确率:在语音交互中,语音识别系统既可以作为声学处理的下游任务,又可以反过来给予声学处理模块以信息反馈。本发明结合了这样一种语音识别系统反馈机制,从而帮助信噪比统计时对语音信号的精确定位。如图2所示,当语音交互被触发,触发点的前T

E_max_target

(11)

使用公式(12)对目标区域内的最大值去和当前语音信号的统计做加权:

Speech

步骤9)最后更新信号噪声比,β为平滑系数:

对于每个大时间窗,做一次判决,取信噪比SNR

3、基于分离后声源相对空间信息的纯干扰声源段检测和消除

步骤10)进一步利用目标声源和干扰声源的空间相关信息,从而判断当前block是否是纯干扰噪声源,如果是,则可以将当前窗进行静音。多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器,每个空间滤波器接收多路信号,将这多路信号中的同一声源信号提取到同一路输出中。则每个空间滤波器的作用就是提取目标声源信号,且滤出其他声源信号。则目标声源(语音信号)对应的空间滤波器SF

分析如下:

假设X为多路接收到的信号,且假设盲源分离对于各个源头的分离效果是均衡的,则在语音交互中存在两种情况:

情况一计算空间滤波器输出比R:

X(ω,τ)=S+N,其中S为理想纯目标语音信号,N为理想纯干扰噪声源(可以是多个噪声源叠加)。当SNR>>0时,该R值>>1,当SNR=0时,该R值会接近于1。

情况二计算空间滤波器输出比R:

X=N,接收到的是纯干扰噪声源。则在任意信噪比情况下啊,R值都会小于1。

由以上分析,由于AUX-IVA是以L

步骤11)我们可以利用情况二的突出特征来判断当前窗是否是纯干扰噪声:使用固定阈值或者长窗平滑R值作为阈值都可以取得较好效果。即当有阈值R_thresh:

R<R_thresh:当前窗为纯干扰噪声段;

R>=R_thresh:当前窗存在语音信号;

根据以上R值的判断对纯干扰噪声段进行静音处理得到S

4、使用基于DNN的VAD算法进行最终目标声源语音段提取

一般而言,语音识别系统需要声学前端提供包含有效语音片段的语音信号,而VAD定义为从连续音频信号中检测出实际语音片段的起始点和终止点,从而提取出有效的语音片段,可以为语音识别系统去除不必要的非语音片段,减少了后续语音处理系统的计算压力,有利于提高系统的响应速度。

一般来说,在高信噪比条件下,VAD任务相对容易,传统基于能量或谱熵的检测方法即可得到较高的检测精度。目标声源信号S

步骤12)VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性:语音帧和非语音帧。考虑到实际应用场景的复杂性(远场拾音和噪声环境),神经网络模型训练数据准备阶段,在基础数据集中加入了充分的远场模拟数据,并混入了不同类型、不同信噪比的噪声数据;依据神经网络的强大学习能力,从不同的数据集中学习到有效语音的特征,从而获得比较的强语音区分能力。具体来讲,DNN接收处理过后的目标声源信号S

步骤13)语音识别系统反馈进行端点检测算法的鲁棒性提升:处理后的目标声源信号S

步骤14)更新背景音频能量的时候,系统中存储宽口大小为n的的能量窗,并在语音识别系统反馈的时间点,取能量窗中最大的能量值作为当前待更新的能量值E_bg_curr,使用平滑算法从而能够有效的估计环境不同时段的音频能量水平,具体见公式(19)其中αV为平滑参数。

E_bg_curr=Max[E(τ

(18)

E_bg=αV×E_bg+(1-αV)×E_bg_curr

(19)

步骤15)根据当前帧的能量E(τ)和环境能量E_bg,依据公式(20)计算得到当前帧的能量得分。

Energy_score(τ)=E(τ)/E_bg (20)

步骤16)根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ),公式(21)计算得到当前帧的最终得分Score(τ),其中βV为能量权重。当Score(τ)大于语音判定阈值speech_thres,判定当前帧为语音帧,否则为非语音帧。在获取当前帧得分过程中,动态估计了系统工作环境的能量水平,使得能量得分的获取具有一定的自适应能力,从而提高了VAD系统的鲁棒性。

Score(τ)=βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)

步骤17)根据得到的Score(τ),当Score(τ)>=VAD阈值vad_threshold时,判定第τ帧为存在语音信号,否则判定为语音不存在,从而提取最终目标声源的有效语音段。

虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

相关技术
  • 一种目标声源锁定和提取的方法
  • 一种目标声源的提取方法及装置
技术分类

06120112239366