掌桥专利:专业的专利平台
掌桥专利
首页

一种基于SRP-PHAT空间谱和GCC的声源定位方法

文献发布时间:2023-06-19 19:27:02


一种基于SRP-PHAT空间谱和GCC的声源定位方法

技术领域

本发明涉及声源定位技术,具体涉及一种基于SRP-PHAT(Steerable ResponsePower-Phase Transformation,可控响应功率相位变换)空间谱和GCC(GeneralizedCross-Correlation,广义互相关)的声源定位方法。

背景技术

声源定位技术在语音识别、智能语音系统、人机交互的前端处理中以及视频会议、智能家居等领域都有着广泛的应用前景。传统的声源定位技术基于麦克风阵列技术,利用不同麦克风采集到的数据对声音的方向进行估计。常见的DOA算法有三种:

1、基于声音的到达时延差(Time delay ofarrival,TDOA):由于阵列上每个阵元接受到的声源信号的延时的不同,我们可以通过广义互相关(Generalized Cross-Correlation,GCC)估计各个阵元之间的时延差,然后结合几何阵列关系来确定声源的方向。这类方法计算量小、抗噪能力强,但是对于采样精度、阵元间距等要求较高。

2、基于波束形成(Beamforming):这类算法对阵列中的各个阵元进行角度补偿相位,然后对各信号进行加权求和,波束输出功率最大的方向即为目标声源的方向,常见的波束形成有可控响应功率相位变换(Steerable Response Power-Phase Transformation,SRP-PHAT)算法,最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)算法。由于这类方法是通过角度补偿来扫描波术输出功率最大的方向,因此当对定位精度有高要求时,扫描的分辨率会导致计算量增加,而且算法的抗噪能力较弱。

3、基于高分辨率谱估计:通过获取了传声器阵列的信号来计算空间谱的相关矩阵对声源方向进行估计,比如特征值分解方法(MUSIC算法)等,这类算法精度较高,但是涉及矩阵计算所以需要付出很大的计算量,而且对环境噪声敏感,且通常用于窄带信号和单频信号。

因此,如何在减少计算量的同时,保证声源定位精度是业内亟待解决的一项技术问题。

发明内容

本发明所要解决的技术问题是:提出一种基于SRP-PHAT空间谱和GCC的声源定位方法,在减少计算量的同时,保证声源定位精度。

本发明解决上述技术问题采用的技术方案是:

一种基于SRP-PHAT空间谱和GCC的声源定位方法,基于麦克风阵列结构定位声源方向角,该方法包括以下步骤:

S1、根据麦克风阵列结构中的麦克风采集到的观测信号,通过GCC算法计算其它麦克风和参考麦克风之间的时延;

S2、根据麦克风阵列的几何结构,基于步骤S1计算的时延确定声源角度的范围;

S3、利用SRP-PHAT算法在步骤S2确定的声源角度的范围中进行搜索,确定出声源方向角。

进一步的,所述麦克风阵列结构采用4麦线性麦克风阵列结构。

进一步的,步骤S1中,所述通过GCC算法计算其它麦克风和参考麦克风之间的时延,具体包括:首先,对两个麦克风的观测信号进行快速傅里叶变换;然后,对经过快速傅里叶变换后的两个信号进行共轭相乘并进行PHAT加权;最后,对经过PHAT加权的信号进行逆傅里叶变换获得广义互相关序列,所述广义互相关序列中的峰值对应的时延即为两个麦克风之间的信号时延。

进一步的,步骤S2中,根据麦克风阵列的几何结构,基于步骤S1计算的时延确定声源角度的范围,具体包括:

假设步骤S1中计算出来的时延为T,则声源角度θ的范围为:

其中,f

进一步的,步骤S3中,所述利用SRP-PHAT算法在步骤S2确定的声源角度的范围中进行搜索,确定出声源方向角,具体包括:

首先,对每个麦克风采集到的信号进行傅里叶变换;然后对不同频率的幅频根据扫描角度进行相位补偿;接着对所有麦克风的频域信号求和,获得相位补偿后的求和频域信号;最后,对所述相位补偿后的求和频域信号进行逆傅里叶变换,获得该角度下补偿后的时序信号,在步骤S2确定的声源角度范围中,将使补偿后的时序信号能量最大的角度确定为声源方向角。

本发明的有益效果是:

本发明首先利用了广义互相关GCC声源定位算法计算两个观测信号之间的时延,然后根据时延偏差确定声源的角度范围,接着在该方向范围内,利用SRP-PHAT空间谱算法在范围内扫描进行声源方向的确定。即,本发明利用了GCC声源定位算法计算量小,速度快的优势,先进行声源角度范围的确定,并结合了SRP-PHAT空间谱算法精确度高的优势,直接在确定的声源角度范围内进行声源方向搜索,从而在减少计算量的同时,保证声源定位精度。

附图说明

图1为本发明中的声源定位方法总体流程图;

图2为本发明实施例中的麦克风阵列示意图;

图3为GCC算法流程图;

图4为广义互相关序列图;

图5为SRP-PHAT算法流程图。

具体实施方式

声源定位,通常利用多个麦克风在不同的测量位置对声音信号进行采集,利用不同麦克风采集到的声音的差异性来判断声音的位置。对于声源定位,通常需要两个信息:声源的到达方向(Direction of Arrival,DOA)、声源的距离估计,而本发明主要对DOA估计进行研究。本发明旨在提出一种基于SRP-PHAT空间谱和GCC的声源定位方法,在减少计算量的同时,保证声源定位精度。其核心思想是:首先利用GCC算法对声源方向进行一个大致估计,获得声源角度范围,从而缩小波束的扫描范围,然后再采用SRP-PHAT算法对范围内的角度进行精度更高的角度补偿计算波术的输出功率,确定最终的声源方向,总体流程如图1所示。

本发明的方案综合了GCC算法的计算量小和SRP-PHAT算法精度高的优点,相比于传统的单独采用GCC算法,有更高的定位精度,对采样频率和阵元间距要求不高,相比于传统的单独采用SRP-PHAT算法,搜索的角度范围小,计算时间更短,计算量更小。

实施例:

本实施例采用了4麦线性的麦克风阵列结构,每个阵元之间的间距为l,假设声场均为远场源,阵列结构如图2所示。

假设第i个麦克风采集到的信号为x

广义互相关算法流程如图3所示,首先对两个观测信号进行快速傅里叶变换,然后对两者进行共轭相乘并进行PHAT加权,最后进行逆傅里叶变换即可得到广义互相关序列,具体说明如下:

对于两个观测信号x

其中,

θ(f)为加权函数,常见的加权函数有很多,本实施例采用相位变换PHAT加权函数:

相位变换加权函数本质上是一个滤波器。在麦克风阵列处理实际情况时,由于存在混响和环境噪声,导致广义互相关函数的峰值不明显,降低了计算时延的准确度,因此需要通过PHAT突出峰值,抑制噪声和混响的干扰。最终x

其中,c为声速,L为阵元间的间距。同理,4个麦克风可以得到声源入射角θ

虽然GCC算法能够求得声源的角度,但是算法本身的原理带来误差。在GCC计算时延时,时延精度为1/f

err=arccos(c/Lf

所以在实际应用中,当计算时延为T时,实际的角度范围应该为:

SRP-PHAT定位算法:

可控波束响应是基于波束形成的一种方法,通过补偿延时然后累加的方法,寻找能量最大的方向。由于语音为宽带信号,所以需要采用宽带的波束线程。经过GCC算法确定了声源的大致方向后,SRP-PHAT算法在遍历角度的时候,可以遍历较小的角度范围,并采用较高的遍历精度,从而减小计算量,提高精度。

SRP-PHAT算法的流程如图5所示,首先对每个麦克风采集到的信号进行傅里叶变换,然后对不同频率的幅频根据扫描角度进行相位补偿。然后再对所有麦克风的频域求和,得到相位补偿后的求和频域信号。最后逆傅里叶变换可以得到该角度下补偿后的时序信号,具体介绍如下:

假设mic1采集到的信号为x

X

忽略噪声的影响,每个mic会有一个延时和衰减,且延时和麦克风mic1之间的距离有关。

若对X

能量和最大的值对应的相位即为语音的方向角。当入射角为θ时,第i个mic的相位补偿γ

由于语音信号为宽带信号,因此需要对所有频率范围内进行相位补偿并计算能量和。对所有麦克风的频域信号进行相位补偿,并按照频率刻度求和得到补偿后的频域和:

对Y

最后应当说明的是,上述实施例仅是优选实施方式,并不用以限制本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出若干修改,等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置
  • 基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法
  • 一种基于高斯混合模型和空间功率谱特征的声源定位方法
技术分类

06120115918046