掌桥专利:专业的专利平台
掌桥专利
首页

基于毫米波振动感知的全场声源辨识方法和系统

文献发布时间:2024-04-18 20:01:30


基于毫米波振动感知的全场声源辨识方法和系统

技术领域

本发明涉及声源辨识技术领域,尤其是通过毫米波振动监测进行的全场声源辨识技术,具体地,涉及一种基于毫米波振动感知的全场声源辨识方法和系统。

背景技术

全视场声源的定位、辨识和区域可选择的声采集在声学传感领域具有广泛的应用前景。在机械系统故障诊断与噪声分析、声音采集与监视及灾害营救与安全等方面发挥着重要作用,如何精确感知声场中各个声源信号的位置同时精准辨别声源类型,一直是人们极力探索的重要任务和追求的目标。

目前常见的声源定位与声音辨识技术有以下两种,基于麦克风阵列的方法和基于激光多普勒测振仪的方法。其中基于麦克风阵列的声源定位方法一般通过特定结构组合的麦克风阵列来获取多个位置的声音信号,通过阵列信号处理算法进行声源的定位与重建,对解调之后的声音信号进行辨识;基于激光多普勒测振仪的方法是在声音是由振动产生的基础上,通过激光的多普勒效应测量发声体表面的振动,恢复并识别声音信号。

受限于麦克风单元数量较多、阵列尺寸较大,信号处理方式复杂;激光多普勒测振仪只能进行定向单点测量,不具备测量全场声源的能力。现提出一种基于毫米波雷达的全场声源定位与辨识方法。该方法在毫米波全场测振的基础上,对识别的声源计算相应特征值,并以此为依据进行声源类别辨别。与现存声音传感方法相比,雷达设备声源辨别效果准确,设备集成度高,成本低,雷达信号处理复杂度低,计算效率高。

现有的麦克风阵列分为线性、平面型、球形阵列。线型阵列麦克风的结构和算法都较为成熟和简单,但是定位范围较窄。平面型阵列麦克风可以实现大范围的声源定位,但是缺少z轴方向的基元。球型阵列麦克风可以获取360度范围内声源的方位信息,但是其结构也较为复杂,体积较大,计算复杂度较高。另外,在多声源定位和辨识中,为了解决相干性问题,麦克风阵列常要求声源特性具有较大差异,且难以实现低频声源的定位。

基于激光多普勒测振仪的方法只能在已知声源位置时,定向测量声音信号,无法在未知情况下,实现声源的准确定位。由于单点检测方式,激光麦克风在声源自动识别和多声源检测方面仍存在较大的局限性。

专利文献CN112782685A公开了一种基于MIMO雷达的多声源定位与声音重构方法及系统,包括:步骤1:发射和接收线性调频连续波微波信号,采集各通道雷达基带信号,获取雷达波束辐射区域的距离-角度像热图;步骤2:提取雷达波束辐射区域的距离-角度像热图中幅值达到预设值目标的位移演变时间序列;步骤3:对提取的每个目标的位移演变时间序列进行滤波处理;步骤4:对滤波处理后的位移演变时间序列进行滑动窗截取,得到频谱并基于频谱显著性时变特征指标辨别声源目标与非声源目标;步骤5:提取声源目标的距离和方位角信息,重构声音信号。本发明能够实现多声源精确定位,同时有效分离各个声源的声音信号并精确重构,系统微型化、低功耗、计算效率高。但是该专利文献的重点在于计算振动目标的振动位移时程信号,而本申请提出了由振动位移时程信号计算不同特征值,并以特征值为依据进行声源辨识分类的方法,本申请的重点在于特征值的设计与计算方法以及使用机器学习模型进行分类。

本申请解决现有技术在多声源定位和辨识中存在的问题,使用毫米波雷达实现多声源的精确定位和多种声源类型的识别,同时解决麦克风单元数量多、阵列尺寸大、计算量大及要求声源非相干及低频声源定位困难的问题,解决激光多普勒测振仪只能实现单点定向测试的问题。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于毫米波振动感知的全场声源辨识方法和系统。

根据本发明提供的一种基于毫米波振动感知的全场声源辨识方法,包括:

提取步骤:根据采集的雷达波束辐射区域的距离-角度像热图,对提取的目标的位移演变时间序列信号进行滤波处理,得到振动位移时程信号;

分类步骤:对待辨识目标的振动位移时程信号进行分类特征提取,得到特征值;

声源辨识步骤:根据分类步骤中计算的特征值,使用机器学习的方法对目标的振动位移时程信号进行声源辨识。

优选的,所述提取步骤包括:

采集步骤:将雷达天线正对待测区域,发射和接收线性调频连续波微波信号,并同步采集各通道雷达基带信号,获取雷达波束辐射区域的距离-角度像热图;

提取序列步骤:提取雷达距离-角度像热图中目标的位移演变时间序列;

滤波步骤:对提取的每个目标的位移演变时间序列信号进行滤波处理,得到有效的振动位移时程信号;其中,滤波处理方式为高通或带通滤波。

优选的,所述分类步骤包括:

计算短时能量特征步骤:短时能量的均值和标准变化分别表征所测振动位移时程信号的整体振幅和动力学具体特征;其中,短时能量特征包括短时能量均值和短时能量标准差,表达式如下:

短时能量均值:

短时能量标准差:

其中

计算时变频谱稀疏性特征步骤:时变频谱稀疏性特征表征物体的振动信号具有的频率分量以及其表现出的不同时变特性:其中,时变频谱稀疏性特征包括频谱稀疏比均值和频谱稀疏比标准差,表达式如下:

频谱稀疏比均值:

频谱稀疏比标准差:

其中

计算谐波特征步骤:谐波特征表征物体振动信号分解所得到的基频及基频整数倍的各次分量分布特征;其中,谐波特征包括总谐波比、声谐波比和声信号比,表达式如下:

其中,max[A(f)]代表当前窗口信号幅谱的峰值,mean[A(TF)]代表所有窗口的幅谱的均值,A(f

定义Har(k)=1时数值为k

计算频谱能量梯度特征步骤:频谱能量梯度特征能够表征目标声源频谱能量分布;其中,频谱能量梯度特征包括频谱能量梯度峰度,表达式如下:

其中,d(·)代表微分运算,A

用单值指标来表征谱能量梯度特征,定义梯度曲线的峰度,表示为:

其中E[·]为平均计算,σ[·]为标准推导计算;

计算随机移动性特征步骤:随机移动性特征表达声源物体相对于声音信号的大幅度运动;其中,随机移动性特征包括随机移动性的标准差,表达式如下:

其中,

优选的,所述声源辨识步骤包括:

数据集制作步骤:对不同种类的单个目标重复提取步骤和分类步骤进行特征值的数据采集,并进行人工标注声源类型;将提取并标注出的若干特征值分为两组:一组用于机器学习模型训练步骤,另一组用于机器学习模型验证步骤;

机器学习模型训练步骤:输入为所述分类步骤中的五类特征值,输出为4个声源类别,所述声源类别包括扬声器、电机转子、人体以及非声源物体;使用机器学习模型进行特征分类任务,包括支持向量机、BP神经网络、逻辑回归;

机器学习模型验证步骤:将测试特征值数据输入神经网络,识别出声源类别。

优选的,使用所述分类步骤中一种或多种或相应改进型特征作为声源辨识依据。

一种基于毫米波振动感知的全场声源辨识系统,包括:

提取模块:根据采集的雷达波束辐射区域的距离-角度像热图,对提取的目标的位移演变时间序列信号进行滤波处理,得到振动位移时程信号;

分类模块:对待辨识目标的振动位移时程信号进行分类特征提取,得到特征值;

声源辨识模块:根据分类模块中计算的特征值,使用机器学习的方法对目标的振动位移时程信号进行声源辨识。

优选的,所述提取模块包括:

采集模块:将雷达天线正对待测区域,发射和接收线性调频连续波微波信号,并同步采集各通道雷达基带信号,获取雷达波束辐射区域的距离-角度像热图;

提取序列模块:提取雷达距离-角度像热图中目标的位移演变时间序列;

滤波模块:对提取的每个目标的位移演变时间序列信号进行滤波处理,得到有效的振动位移时程信号;其中,滤波处理方式为高通或带通滤波。

优选的,所述分类模块包括:

计算短时能量特征模块:短时能量的均值和标准变化分别表征所测振动位移时程信号的整体振幅和动力学具体特征;其中,短时能量特征包括短时能量均值和短时能量标准差,表达式如下:

短时能量均值:

短时能量标准差:

其中

计算时变频谱稀疏性特征模块:时变频谱稀疏性特征表征物体的振动信号具有的频率分量以及其表现出的不同时变特性:其中,时变频谱稀疏性特征包括频谱稀疏比均值和频谱稀疏比标准差,表达式如下:

频谱稀疏比均值:

频谱稀疏比标准差:

其中

计算谐波特征模块:谐波特征表征物体振动信号分解所得到的基频及基频整数倍的各次分量分布特征;其中,谐波特征包括总谐波比、声谐波比和声信号比,表达式如下:

其中,max[A(f)]代表当前窗口信号幅谱的峰值,mean[A(TF)]代表所有窗口的幅谱的均值,A(f

定义Har(k)=1时数值为k

计算频谱能量梯度特征模块:频谱能量梯度特征能够表征目标声源频谱能量分布;其中,频谱能量梯度特征包括频谱能量梯度峰度,表达式如下:

其中,d(·)代表微分运算,A

用单值指标来表征谱能量梯度特征,定义梯度曲线的峰度,表示为:

其中E[·]为平均计算,σ[·]为标准推导计算;

计算随机移动性特征模块:随机移动性特征表达声源物体相对于声音信号的大幅度运动;其中,随机移动性特征包括随机移动性的标准差,表达式如下:

其中,

优选的,所述声源辨识模块包括:

数据集制作模块:对不同种类的单个目标重复触发提取模块和分类模块工作,从而进行特征值的数据采集,并进行人工标注声源类型;将提取并标注出的若干特征值分为两组:一组用于机器学习模型训练模块,另一组用于机器学习模型验证模块;

机器学习模型训练模块:输入为所述分类模块中的五类特征值,输出为4个声源类别,所述声源类别包括扬声器、电机转子、人体以及非声源物体;使用机器学习模型进行特征分类任务,包括支持向量机、BP神经网络、逻辑回归;

机器学习模型验证模块:将测试特征值数据输入神经网络,识别出声源类别。

优选的,使用所述分类模块中一种或多种或相应改进型特征作为声源辨识依据。

与现有技术相比,本发明具有如下的有益效果:

1、本发明在毫米波全场测振技术的基础上,研究不同类别声源振动位移时程信号的时域、频域特点,提出以振动位移时程信号的特征作为声源辨识分类的依据,提出五类共九个不同特征值的计算方法,并使用机器学习方法进行特征值分类。

2、本发明克服了现有技术难以实现多声源的距离角度定位,测量系统尺寸大、计算量高,中低频声音信号难以辨识和要求声源之间非相干的缺陷,在毫米波全场测振的基础上,实现了多类别声源的准确识别,系统具有微型化、低功耗及计算效率高等优点。

3、本发明基于毫米波全场振动感知技术,提出以振动位移时程信号的特征作为声源辨识分类的依据,设计多种特征值及其计算方法,应用机器学习方法对特征值进行分类,以达到声源准确辨识的技术效果。

4、本发明所设计的特征值能够表达不同声源振动位移时程信号在时域频域的典型特征,不同声源目标的特征值具有明显区分度。

5、本发明解决了有技术难以实现多声源的距离角度定位,测量系统尺寸大、计算量高,中低频声音信号难以辨识和要求声源之间非相干的缺陷的技术问题,达到了多类别声源的准确识别,且系统具有微型化、低功耗及计算效率高等优点的技术效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明的基于毫米波振动感知的全场声源辨识方法流程图;

图2为本发明实施实例提供的四种不同类别声源的时域幅值图与时频图;

图3为本发明实施实例提供的四种不同类别声源的九个特征值示例图;

图4为本发明实施实例提供的机器学习模型结构示意图;

图5为本发明实施例中的测试场景和辨识结果图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1~5所示,一种基于毫米波振动感知的全场声源辨识方法,如图1所示,包括以下步骤:

步骤1,雷达天线正对待测区域,发射和接收线性调频连续波微波信号,并同步采集各通道雷达基带信号,获取雷达波束辐射区域的距离-角度像热图。对某扫频周期的各通道基带信号进行二维快速傅里叶变换,再对二维快速傅里叶变换得到的二维频谱取幅值计算,得到距离-角度像热图。提取雷达距离-角度像热图中幅值较大目标的振动位移时程信号,如图2所示。

步骤1.1,雷达天线正对待测区域,发射和接收线性调频连续波微波信号,并同步采集各通道雷达基带信号,获取雷达波束辐射区域的距离-角度像热图。

步骤1.2,提取雷达距离-角度像热图中幅值较大目标的位移演变时间序列。

步骤1.3,对提取的每个目标的位移演变时间序列信号进行滤波处理,得到有效的振动位移时程信号。滤波方式为高通或带通滤波。

步骤2,计算如下5类特征值:

步骤2.1计算短时能量特征:声源的振动信号具有明显的时域波形特征,其动态模式随不同声源的变化而变化。例如,人和扬声器对应的振动信号通常表现出间歇性和高度动态,而机器的振动信号则相反。因此,可根据时域特性计算短时能量特征。短时能量的均值和标准变化分别是表征所测振动信号的整体振幅和动力学的具体特征,表达式如下:

短时能量均值:

短时能量标准差:

其中

步骤2.2计算时变频谱稀疏性特征:非声音物体的振动信号通常是宽带热噪声,而声源物体的振动信号通常具有丰富的频率分量,并根据不同类型的声源表现出不同程度的时变。因此,时变光谱稀疏性特征适用于区分声源和非声源,时变频谱稀疏性特征包括频谱稀疏比均值和频谱稀疏比标准差:

频谱稀疏比均值:

频谱稀疏比标准差:

其中

步骤2.3计算谐波特征:不同类别声源通常具有不同的谐波性质。由扬声器产生的音乐信号通常具有较强的谐波特征,语音信号是一种具有谐波浊音分量和非谐波非浊音分量的混合声音信号,而大多数机器产生的声音信号都是谐波的。因此,谐波特性可以作为对检测目标进行分类的重要特征。我们定义每个滑动窗口信号的谐波参数:当当前窗口信号的振幅谱的峰值小于短时傅里叶变换产生的所有滑动窗口信号产生的幅值谱的平均值时,设为零,表示没有基频;根据经验设置,当频率为二倍和三倍的分量的和大于基分量的四分之一时,则等于估计的基频,否则设为1,表示没有明显的谐波特征:

其中,max[A(f)]代表当前窗口信号幅谱的峰值,mean[A(TF)]代表所有窗口的幅谱的均值,A(f

定义Har(k)=1时数值为k

步骤2.4计算频谱能量梯度特征:测量的振动信号的短时傅里叶变换谱图中的谱能量分布通常用于揭示声源类型的特征,非声源的振动信号通常具有均匀分布,机器设备通常具有集中和平稳的频谱能量分布,而人喉部和扬声器的分布集中在中低频,并有动态变化。因此,我们提取频谱能量梯度特征来表征不同类型的声源。具体来说,是用短时傅里叶变换谱图计算谱能量分布的梯度:,频谱能量梯度特征包括频谱能量梯度峰度,表达式如下:

其中,d(·)代表微分运算,A

其中E[·]为平均计算,σ[·]为标准推导计算。

步骤2.5计算随机移动性特征:与扬声器和机器的声源相比,人体在说话过程中嘴唇和头部会产生运动,不可避免地会产生随机干扰,影响振动测量结果。我们提出了一种用于人声声源识别的随机迁移率特征,采用平滑滤波器提取人体的运动轨迹。静止目标的振动波形一般为滤波后的平缓曲线,没有明显的波动。因此,我们可以计算出测量振动信号平滑产生的随机波动轨迹的标准变化,记为随机移动性标准差。由于此特征涉及到被测目标的大幅度运动,需要使用步骤1.3滤波之前的振动位移时程信号进行计算。

其中,

步骤3,使用机器学习的方法根据步骤2中计算的特征值对目标的振动位移时程信号进行声源辨识。

步骤3.1,数据集制作。对不同种类的单个目标重复步骤1和2进行特征值的数据采集,人工标注声源类型。数据集制作步骤中提取并标注出的若干特征值分为两组:一组用于机器学习模型训练步骤,用于训练机器学习模型,使其具有分类能力;另一组用于神经网络验证步骤,测试机器学习模型具有分类能力,验证本方法的有效性。

步骤3.2,机器学习模型训练。该机器学的一般抽象模型如图3所示,输入为9个特征值,输出为4个声源类别,分别为扬声器,电机转子,人体以及非声源物体。可使用多种机器学习模型进行本发明的特征分类任务,包括但不限于支持向量机、BP神经网络、逻辑回归。由于机器学习模型结构较为简单,且特征值对于不同声源的区分较大,因此采用小样本数据集即可完成网络训练。

步骤3.3,机器学习模型验证。将测试特征值数据输入神经网络,即可识别声源类别。

本发明在毫米波全场测振技术的基础上,研究不同类别声源振动位移时程信号的时域、频域特点,提出以振动位移时程信号的特征作为声源辨识分类的依据,提出五类共九个不同特征值的计算方法,并使用机器学习方法进行特征值分类。本发明克服了现有技术难以实现多声源的距离角度定位,测量系统尺寸大、计算量高,中低频声音信号难以辨识和要求声源之间非相干的缺陷,在毫米波全场测振的基础上,实现了多类别声源的准确识别,系统具有微型化、低功耗及计算效率高等优点。

本发明还提供一种基于毫米波振动感知的全场声源辨识系统,所述基于毫米波振动感知的全场声源辨识系统可以通过执行所述基于毫米波振动感知的全场声源辨识方法的流程步骤予以实现,即本领域技术人员可以将所述基于毫米波振动感知的全场声源辨识方法理解为所述基于毫米波振动感知的全场声源辨识系统的优选实施方式。

一种基于毫米波振动感知的全场声源辨识系统,包括:提取模块:根据采集的雷达波束辐射区域的距离-角度像热图,对提取的目标的位移演变时间序列信号进行滤波处理,得到振动位移时程信号;分类模块:对待辨识目标的振动位移时程信号进行分类特征提取,得到特征值;声源辨识模块:根据分类模块中计算的特征值,使用机器学习的方法对目标的振动位移时程信号进行声源辨识。

具体的,所述提取模块包括:采集模块:将雷达天线正对待测区域,发射和接收线性调频连续波微波信号,并同步采集各通道雷达基带信号,获取雷达波束辐射区域的距离-角度像热图;提取序列模块:提取雷达距离-角度像热图中目标的位移演变时间序列;滤波模块:对提取的每个目标的位移演变时间序列信号进行滤波处理,得到有效的振动位移时程信号;其中,滤波处理方式为高通或带通滤波。

具体的,所述分类模块包括:计算短时能量特征模块:短时能量的均值和标准变化分别表征所测振动位移时程信号的整体振幅和动力学具体特征;其中,短时能量特征包括短时能量均值和短时能量标准差,表达式如下:

短时能量均值:

短时能量标准差:

其中

频谱稀疏比均值:

频谱稀疏比标准差:

其中

计算谐波特征模块:谐波特征表征物体振动信号分解所得到的基频及基频整数倍的各次分量分布特征;其中,谐波特征包括总谐波比、声谐波比和声信号比,表达式如下:

其中,max[A(f)]代表当前窗口信号幅谱的峰值,mean[A(TF)]代表所有窗口的幅谱的均值,A(f

定义Har(k)=1时数值为k

计算频谱能量梯度特征模块:频谱能量梯度特征能够表征目标声源频谱能量分布;其中,频谱能量梯度特征包括频谱能量梯度峰度,表达式如下:

其中,d(·)代表微分运算,A

用单值指标来表征谱能量梯度特征,定义梯度曲线的峰度,表示为:

其中E[·]为平均计算,σ[·]为标准推导计算;

计算随机移动性特征模块:随机移动性特征表达声源物体相对于声音信号的大幅度运动;其中,随机移动性特征包括随机移动性的标准差,表达式如下:

其中,

具体的,所述声源辨识模块包括:数据集制作模块:对不同种类的单个目标重复触发提取模块和分类模块工作,从而进行特征值的数据采集,并进行人工标注声源类型;机器学习模型训练模块:输入为所述分类模块中的五类特征值,输出为4个声源类别,所述声源类别包括扬声器、电机转子、人体以及非声源物体;使用机器学习模型进行特征分类任务,包括支持向量机、BP神经网络、逻辑回归;神经网络验证模块:将测试特征值数据输入神经网络,识别出声源类别。

具体的,使用所述分类模块中一种或多种或相应改进型特征作为声源辨识依据。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

技术分类

06120116565981