掌桥专利:专业的专利平台
掌桥专利
首页

一种基于球谐域信号增强网络模型的声源定位方法

文献发布时间:2024-04-18 19:44:28


一种基于球谐域信号增强网络模型的声源定位方法

技术领域

本发明涉及一种声源定位方法,尤其涉及一种基于球谐域信号增强网络模型的声源定位方法,属于声源定位技术领域。

背景技术

使用麦克风阵列的声源定位旨在使用声学信号找到声源的位置或方向。随着小型电子设备和数字信号处理的发展,这些技术已被广泛应用于许多应用中,例如声源增强、移动机器人和房间几何估计。声源定位技术通常使用麦克风阵列元件之间的信息差异来进行。阵元间的信号差异与声源方向有关,一般用相位差或幅度差表示。根据不同的原理,研究人员提出了各种声源定位方法。例如,基于阵列单元的时间差到达(Time Difference ofArrival,TDOA)与声源方向之间的相关性进行了基于TDOA的方法。在这个过程中,首先估计每对麦克风之间的TDOA信息,然后使用几何方法推导出声源方向。此外,基于波束形成的方法是通过寻找最大能量的方向来设计的,该方向对应于麦克风的方向声源。为此,对每个麦克风的接收信号进行加权求和,得到不同方向的波束形成输出,设计权重系数以获得最优输出。除了上述时域或空域扫描方法外,超分辨率谱估计方法被提出来解决多源问题,也称为子空间方法。将线性空间的概念引入到DOA估计中,子空间方法在DOA估计分辨率上取得了突破,并得到广泛应用。

直观地说,声源的到达方向(波达方向(Direction of Arrival,DOA))与频率无关,仅与声源的位置相关。然而,传统的声源算法,如最小方差无失真响应(MinimumVariance Distortionless Response,MVDR)或多信号分类(Multiple SignalClassification,MUSIC)通常被暗示为窄带算法,因为所利用的空间特征,如相位间差或方向向量,总是与频率相关的。这种限制会导致定位算法在混响和嘈杂环境等复杂场景下的性能下降。为了解决这个问题,已经提出了在球谐(Spherical Harmonics,SH)域中处理的声源定位方法。利用球谐分解理论将麦克风阵列信号转化为HOA信号,可以解耦频率信息和空间信息,DOA估计方法不再局限于窄带算法。得益于HOA信号的这一特性,在SH域中提出了许多DOA估计方法。然而,受空间采样过程的限制,即所使用的麦克风阵列的采样顺序总是低于声场阶数,获得的HOA信号通常受到较低频段空间各向同性噪声和较高频段空间混叠的干扰。上述失真会降低SH域DOA估计方法的性能。

发明内容

(一)要解决的技术问题

与基于麦克风阵列的方法相比,基于高阶立体声(Higher Order Ambisonics,HOA)信号的声源定位方法不再局限于特定的阵列结构,在多源场景下具有更好的性能。然而,HOA信号的估计误差往往会限制定位算法的可用频段,导致定位算法的精度和鲁棒性下降。本发明要解决的技术问题是解决传统的声源定位技术在噪声和混响环境等复杂场景中受到频率依赖性和性能下降的限制的问题。

(二)技术方案

为了解决上述技术问题,我们提出了一种结合HOA信号估计神经网络模型的声源定位方法。该方法利用深度神经网络消除HOA信号中的低频噪声和高频混叠误差,并通过在训练过程中加入噪声干扰来增强HOA信号估计算法的抗噪声能力。由于网络模型提高了HOA信号各频段空间特征的一致性,我们直接使用全频段平滑算法来提高协方差估计的一致性,并结合EB-MVDR算法进行声源定位。实验结果表明,与传统的EB-MVDR算法相比,所提出的声源定位方法框架能够有效提高多源定位的精度,在不同数量的声源下具有良好的泛化性能。

本发明提出的声源定位方法包括以下步骤:

S1、获取麦克风阵列信号:获取麦克风阵列接收的语音信号,并生成语音数据集;其中,所述语音数据集包括训练数据集和测试数据集。

S2、获取(建立)HOA信号增强模型,并使用HOA信号增强模型(HOA信号估计模型)将麦克风阵列信号转换为HOA信号,利用该模型可以识别声场和空间混叠模式的稀疏特征,并在此基础上推导出混叠和噪声抑制的HOA信号;其中,使用步骤S1中的训练数据集和额外的背景噪声(高斯白噪声)先对HOA信号增强模型进行训练,以提高模型在嘈杂环境中的鲁棒性,提高HOA信号估计的准确性,然后使用步骤S1中的测试数据集进行测试,获取HOA信号。

S3、获取HOA信号后,对其进行频率平滑;在定位过程中使用频率平滑技术以降低方向估计过程中协方差矩阵病态问题。

S4、在步骤S3的基础上进行EB-MVDR算法进行DOA估计;EB-MVDR算法用于高分辨率DOA估计。

S5、进行峰值检测(输出功率最大方向检测),得到估计的声源方向。

作为技术方案的进一步说明,所述HOA信号增强模型包括:

全频段卷积层:对麦克风阵列信号在全频段信号上进行卷积操作;

分频段卷积层:将全频段卷积层输出结果分解为多个分频段特征,分别后接不同的分频段卷积网络来实现不同频率变换差异特征提取,并将其输入到频点内全连接层;所述分频段卷积层包括多个并列的分频段卷积网络,每一所述分频段卷积网络包括依次连接的多个卷积层。

频点内全连接层:提取不同频点之间的球谐函数变换差异特征。

HOA信号增强模型转换过程为:使用全频段卷积层从麦克风阵列信号中提取声场球谐函数变换过程中的频域无关特征;其中,所述声场球谐函数变换过程为将麦克风阵列信号变换到声场球谐函数信号的频域空间傅里叶变换过程。采用分频段卷积层将所述全频段卷积层输出的频域无关特征分解为多个分频段特征,将每一分频段特征分别输入一分频段卷积网络来提取该分频段特征所对应的频率变换特征,并将其输入到频点内全连接层;频点内全连接层根据各分频段特征对应的频率变换特征提取不同频点之间的球谐函数变换差异特征。然后对所述球谐函数变换差异特征进行频域空间逆傅里叶变换,得到麦克风阵列信号对应的声场球谐函数信号。

作为技术方案的进一步说明,所述HOA信号增强模型以麦克风阵列信号频谱图为输入,输出增强后的HOA信号频谱图。整个模型可以看作是一个多元回归过程,利用多尺度卷积神经网络提取声场的稀疏特征,据此估计出准确的HOA信号。

作为技术方案的进一步说明,所述HOA信号增强模型以麦克风阵列信号和高斯白噪声作为输入进行训练,具体为在麦克风阵列信号中加入信噪比为-10dB到30dB的高斯白噪声信号模拟空间白噪声。

(三)有益效果

本发明的上述技术方案具有如下优点:

本发明通过结合HOA信号增强网络和SH域DOA估计算法来解决传统声源定位方法在噪声和混响环境等复杂场景中受到频率依赖性和性能下降的限制的问题。HOA信号增强神经网络在频域使用多尺度卷积神经网络实现球谐分解。利用HOA信号增强模型可以识别声场和空间混叠模式的稀疏特征,并在此基础上推导出混叠和噪声抑制的HOA信号。本发明在模型训练过程中加入了额外的背景噪声,以提高模型在嘈杂环境中的鲁棒性,提高HOA信号估计的准确性。之后,将获得的HOA信号馈入SH域DOA估计算法。在定位过程中还使用了频率平滑技术,以降低方向估计过程中协方差矩阵病态问题。

本发明在声源定位过程中结合了HOA信号增强模型,即扩频神经网络,仿真结果证明了所提方法的有效性。此外,与其他基于学习的DOA估计模型不同,所提出的方法不受麦克风阵列结构、声源数量和混响的限制,使其在不同环境中更具普适性。

除了上述所描述的本发明解决的技术问题、构成的技术方案的技术特征以及有这些技术方案的技术特征所带来的优点之外,本发明的其他技术特征及这些技术特征带来的优点,将结合附图作出进一步说明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为不同阶数HOA信号的归一化均方误差(Normalized Mean Square Error,NMSE)图。

图2为本发明提出的DOA估计方法图。

图3为HOA信号估计模型的框图。

图4为单声源情况下不同阶数的NN-HOA信号和TRAD-HOA信号的质量比较图。

图5为不同声源数情况下(从1到5)4阶NN-HOA信号和TRAD-HOA信号的质量比较图。

图6为不同方法的二维角度空间谱结果示意图。

图7为信噪比为10dB时不同声源数条件下的DOA估计误差图。

图8为不同方法的二维角度空间谱结果示意图。

图9为声源数为3时,不同噪声条件下的DOA估计误差示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,若用到术语“多个”、“多根”、“多组”的含义是两个或两个以上。

实施例1

一种基于球谐域信号增强网络模型的声源定位方法,包括以下步骤:

S1、获取麦克风阵列信号;

S2、使用HOA信号增强模型将麦克风阵列信号转换为HOA信号;

S3、获取HOA信号后,对其进行频率平滑;

S4、在步骤S3的基础上进行EB-MVDR算法进行DOA估计,进行输出方向最大功率检测;

S5、得到估计的声源方向。

步骤S2中所述HOA信号增强模型包括:

全频段卷积层:对麦克风阵列信号在全频段信号上进行变换过程中频率无关特征提取。

分频段卷积层:将全频段卷积层输出结果分解为多个分频段特征,分别后接不同的分频段卷积网络来实现不同频率变换差异特征提取,并将其输入到频点内全连接层;所述分频段卷积层包括多个并列的分频段卷积网络,每一所述分频段卷积网络包括依次连接的多个卷积层。

频点内全连接层:提取不同频点之间的球谐函数变换差异特征。

本发明所述的声源定位方法的提出过程及评估如下:

1、HOA信号的DOA估计(利用HOA信号的DOA定位方法的原理)

本部分简要介绍从麦克风阵列信号到HOA信号的转换过程,并提供EB-MVDR算法。在下面的推导中,我们使用传统的Ω

其中波数k定义为ω/c,ω是时间角频率,c是声速。

其中

ifb

其中0≤n<∞且-n≤m≤n。在实践中,使用麦克风阵列在球体表面对压力进行空间采样,麦克风位于Ω

其中X(ka,Ω

在由入射为Ω

HOA信号的协方差矩阵可以计算为:

R(k)=B(k)B

其中

根据EB-MVDR算法,Ω

其中Y(Ω

2、误差分析

在实践中,麦克风的数量M受到分解阶数的限制,在均匀分布的情况下,我们要求M≥(N+1)

其中V

其中E

在噪声功率为

使用公式11和12,Ambisonics组件的白噪声增益(WNG)可表示为:

如公式13所示,当源方向给定时,每阶信号的WNG与径向函数b

上面提到的白噪声放大总是发生在低频段。此外,高频段HOA信号的准确估计也受到空间混叠的影响,这是由于使用麦克风阵列对声场的采样不足造成的。实际上,球体上的声压并不总是阶数限制函数(声场阶数用

其中

a

以常用的刚性球面32元麦克风阵列为例,在考虑低频噪声污染和高频空间混叠的情况下,不同频率范围内HOA信号的估计误差如图1所示。从图中可以看出,HOA信号的准确估计受频率的限制。信号估计结果在中频段较为准确,而在低频或高频频段误差较大。此外,随着阶数的增加,估计的HOA信号的准确性会降低。

3、提出方法

3.1、DOA估计算法框架

为了解决上述问题并提高使用HOA信号的定位精度,本发明提出了一种基于HOA信号增强神经网络的新型声源定位方法,如图2所示:与传统的DOA估计算法不同,所提出的方法通过提高信号空间特征估计的准确性来提高定位性能。该方法的框架包含三个模块。首先,使用本研究中提出的HOA信号估计模型将麦克风阵列信号转换为HOA信号。在获得增强的HOA信号后,采用频率平滑技术以提高协方差矩阵的估计精度。由于HOA信号的方向向量与频率无关,因此得到的频率平滑协方差矩阵可以表示为:

其中I是总频率数,之后,EB-MVDR算法用于高分辨率DOA估计。

3.2、HOA信号估计模型

所提出的HOA信号估计模型将嘈杂的麦克风信号频谱图作为输入,并输出增强的HOA信号频谱图。整个模型可以看作是一个多元回归过程,利用多尺度卷积神经网络提取声场的稀疏特征,据此估计出准确的HOA信号。网络模型的框图如图3所示。图中B是批量大小,卷积模块中的数字代表输出通道数,全连接模块中的数字代表输出节点数。

在实践中,输入信号的信号采样频率设置为48kHz。在输入网络模型之前,首先对信号进行短时傅里叶变换(short-time Fourier transform,STFT)变换,帧长设置为1024,将频域信号的实部和虚部拼接起来。因此,网络输入为多通道麦克风信号x∈R

在上式中,⊙代表对应元素乘积操作,x

从公式4可以看出,声场的球谐变换包含与频率无关的特性(求和部分)以及与频率相关的特性(径向函数部分)。使用单尺度卷积神经网络很难准确表征转换过程。因此,我们使用频域多尺度卷积网络作为模型的主要框架。首先,在变换过程中使用全频带卷积层提取频域无关特征,将全带卷积层的输出结果进一步分解为多个子频带特征,分别跟随不同的子频带卷积网络实现不同频率变换的差异特征提取。根据预实验结果,在本任务中,将0-24kHz范围(48kHz采样)划分为8个子带。为了避免不同频率信号之间的相互干扰,卷积核大小设置为1×1。

在每个子频带卷积模块中,卷积通道的数量先扩展后收缩以获得更广泛的空间特征表示。引用17采用稀疏编码网络学习声源空间的稀疏特性,需要通过实验的方法确定输出样本的数量,限制了网络模型在不同环境下的泛化性能。受ResNet模型的启发,在每个子频带卷积模块中使用skip connection结构,实现声场空间的稀疏特征提取。由于残差单元只需要学习残差函数,因此残差网络比传统的卷积神经网络更容易优化,更容易学习输入麦克风阵列信号与输出HOA信号之间的映射关系。

之后,每个频点内的全连接模块用于学习不同频率球谐函数变换差异特征。最后,对每个频率点处的全连接网络的输出进行积分,以获得估计的球谐函数信号。

此外,在训练过程中将高斯白噪声添加到麦克风信号中,以提高网络模型在嘈杂条件下的鲁棒性。

4、实验与结果

在消声环境中进行了一系列模拟实验。为了训练和测试所提出的方法,生成了一个模拟数据库,其中包含涉及多个来源的4000个场景。在每个场景中,声源随机位于阵列周围的不同方向,距离为10米,声源数量从1到10随机选择。声场是使用刚性球形麦克风阵列记录的,该阵列由32个半径为4.2cm的麦克风,可将声场分解至四阶(N=4)。这里使用高斯白噪声信号作为源,采样率为48kHz。麦克风阵列信号是基于刚性球体的散射模型生成的,并使用公式5获得理想的HOA信号。我们在每个场景中生成了200帧信号,帧大小为1024,导致数据库中总共有4000×200=800000帧。数据库中训练集、验证集和测试集的比例为8:1:1。此外,在训练过程中,我们在采样的麦克风阵列中加入了信噪比为-10dB到30dB的额外高斯白噪声信号模拟空间白噪声,训练网络模型的抗噪性能。

4.1定量评价

为了验证基于神经网络估计的HOA信号(以下简称为NN-HOA)的空间特性,我们计算了NN-HOA向量

空间相关性反映方向性形状,而分量水平对方向性响应的尺度有影响。良好的空间相关性和正确水平的估计HOA组件表示捕获的高质量空间特征。我们还基于刚性球体的物理模型导出了HOA信号以进行比较,缩写为TRAD-HOA。为了模拟麦克风阵列位置误差和系统噪声,将白噪声添加到输入信号中,并将输入SNR设置为30dB。

图4比较了使用传统模型计算的空间相关性和水平差异与在单源情况下使用本发明所提出的模型获得的空间相关性和水平差异。声场分解阶数从1到4,所有测试方向的结果取平均值。从TRAD-HOA结果可以看出,信号在低频部分(2kHz以下)受到噪声干扰明显。当频率高于7kHz时,会出现空间混叠现象,导致信号质量迅速下降。很明显,当阶数高于1时,NN-HOA信号在空间相关性和电平差指标上均优于TRAD-HOA信号。在低频部分,NN-HOA信号在保持适当的信号幅度水平的同时很好得保留。此外,高频部分的空间混叠问题得到了很好的纠正,并且操作带宽扩展到相当大的范围(从200Hz到20kHz)。

由于所提出的模型包含非线性特性,因此模型的性能与源的数量有关。我们比较了不同源数情况下(从1个源到5个源)的分解质量,分解阶数为4。结果如图5所示。传统的球谐变换是线性变换,因此TRAD-HOA的信号精度与声源数量无关。然而,我们提出的神经网络模型中加入了稀疏性约束,因此网络输出的性能会随着声源数量的增加而下降。可以看出,随着声源数量的增加,低频部分的噪声扰动和高频部分的空间混叠变得明显。通过调整神经网络损失函数中稀疏损失的权重,网络输出在中频部分(1500Hz到5kHz)保持精度。尽管如此,在所有源数情况下,NN-HOA信号的性能仍然优于TRAD-HOA信号。

4.2定位精度

为了评估所提出方法的有效性,本发明在多源和嘈杂场景下进行了声源定位实验。本发明选择了具有频率平滑的EB-MVDR算法作为基线。图6显示了所提出的方法和EB-MVDR的二维角度空间谱图。这里音源编号设置为5,对应五个红色星点。与传统方法相比,该方法在声源估计和干扰抑制的准确性方面表现出更好的性能,其特点是更准确的峰值位置和更小的旁瓣。

为了定量分析定位误差,我们从估计的图中提取声源位置。在这个过程中,设置了一个0.2的阈值,任何超过这个值的峰值位置都被确定为声源方向。当预测和参考之间的角度误差在20度以内时,预测方向被分配给最近的参考DOA。对于多源定位的结果,我们使用平均绝对估计误差(MAEE)来评估结果。该公式可以描述如下:

其中

图8和图9为信噪比为-5dB、声源数量设置为3的不同噪声环境下的声源定位结果。可以看出,EB-MVDR算法的定位精度随着背景噪声的增加而变差。相比之下,我们所提出的方法在嘈杂环境中表现出良好的鲁棒性,可以有效提高此类环境中的定位精度。

5总结

本发明提出的声源定位方法为一种新颖的噪声场景下多声源DOA估计方法。所提出的方法首先使用HOA信号增强网络模型改善麦克风阵列信号的空间特征,消除噪声分量和空间混叠,同时保持HOA信号的空间特征。接着,采用频率平滑技术进一步提高协方差矩阵的估计精度,并在此基础上进行EB-MVDR算法进行DOA估计。该框架首次在声源定位过程中使用了信号增强模块,使得定位算法在噪声环境中具有鲁棒性,具有更好的泛化性能。仿真结果表明,该方法对不同数量的声源和不同的噪声环境均有效,能够显著改善声源的定位误差。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

相关技术
  • 一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置
  • 一种基于球谐域实值权重波束形成的多声源定位方法
  • 一种时频-空域联合加权的圆谐域伪声强声源定位方法
技术分类

06120116302421