掌桥专利:专业的专利平台
掌桥专利
首页

基于神经网络和多维特征融合的水声目标识别方法及系统

文献发布时间:2024-04-18 20:02:18


基于神经网络和多维特征融合的水声目标识别方法及系统

技术领域

本发明涉及水声目标识别技术领域,具体为一种基于神经网络和多维特征融合的水声目标识别方法及系统。

背景技术

水声目标识别(Underwater Acoustic Target Recognition)技术是一种信息处理技术,它利用被动目标辐射噪声、主动目标回波信号和声纳接收的其他传感器信号来提取目标特征并进行识别或对目标类型进行分类。由于海洋声场环境的复杂性、水声信道时-空-频变特性和其他噪声的干扰,水声目标识别任务仍然是一个巨大的挑战,该问题的复杂性已得到国际公认。

被动声纳观测到的水声信号一般分为两类,一种是自然环境噪声,包括风声、雨声、海洋生物的声音等;另一种是人工噪声,包括水下船舶、钻井平台、潜艇的辐射噪声,以及接收设备产生的各种干扰噪声。人们根据每种声音的独特声纹特征来识别各类型的声音信号,水下舰船目标的辐射噪声种类多样且相互作用,其主要声源成分由机械噪声、螺旋桨噪声和水动力噪声等组成。

水声目标识别任务中常用的信号特征通常分为三类,分别是时间波形特征、时频特征和听觉感知特征,包括过零率、峰峰值、短时傅立叶变换(STFT)谱图、离散小波变换、LOFAR谱图、DEMON谱图、希尔伯特-黄(Hilbert-Huang)变换、Mel谱图、,梅尔频率倒谱系数(MFCC)等特征。

传统方法所采用的波形特征通常是时序波形的一阶/二阶统计特征,往往作为相关水下目标识别任务中辅助特征而不是主要特征。对于时频特征,短时傅立叶变换时频谱可以保留目标波形信号中最全面的时频信息,因此短时傅立叶变换时频谱被广泛应用于语音信号处理和水声信号处理的相关研究中。从本质上讲,LOFAR谱几乎与STFT谱相同,均为时频谱特征。DEMON频谱在提取时首先对接收到的宽带信号进行解调,得到低频包络频谱图,然后通过变换提取目标信号的轴频、叶频等低频物理特征。小波变换通常与希尔伯特-黄变换相结合进行特征提取,但由于缺乏准确的先验知识,基于经验模式分解的方法难以将目标信号从无序海洋噪声中分离出来。

发明内容

本发明的目的就在于为了解决上述至少一个技术问题而提供一种基于神经网络和多维特征融合的水声目标识别方法及系统。

第一方面,本发明实施例提供了一种基于神经网络和多维特征融合的水声目标识别方法,包括:提取待识别水声目标的水声信号频谱特征;所述频谱特征包括:STFT频谱特征、Mel频谱特征和MFCC特征;将所述Mel频谱特征和所述MFCC特征进行特征融合,得到初级融合特征;将所述初级融合特征和所述STFT频谱特征输入到训练好的卷积神经网络中,分别得到第一嵌入特征向量和第二嵌入特征向量;将所述第一嵌入特征向量和所述第二嵌入特征向量进行特征融合,得到目标融合特征;将所述目标融合特征输入到训练好的分类模型中,利用所述训练好的分类模型对所述待识别水声目标进行识别。

进一步地,所述分类模型包括长短时记忆网络层。

进一步地,所述频谱特征还包括delta频谱和delta-delta频谱;提取待识别水声目标的水声信号频谱特征,包括:分别对所述水声信号进行预加重、分帧、加窗和离散傅里叶变换处理,得到所述STFT频谱特征、所述Mel频谱特征和所述MFCC特征;基于所述Mel频谱特征,计算所述Mel频谱特征对应的delta频谱和delta-delta频谱;基于所述STFT频谱特征,计算所述STFT频谱特征对应的delta频谱;其中,所述delta频谱计算算式包括:

进一步地,将所述Mel频谱特征和所述MFCC特征进行特征融合,得到初级融合特征,包括:将所述Mel频谱特征、所述Mel频谱特征对应的delta频谱和delta-delta频谱、所述MFCC特征进行特征融合,得到所述初级融合特征。

进一步地,将所述STFT频谱特征输入到训练好的卷积神经网络中,包括:将所述STFT频谱特征和所述STFT频谱特征对应的delta频谱进行特征融合之后的特征作为输入,输入到所述训练好的卷积神经网络中。

进一步地,对所述分类模型进行优化的损失函数包括多类交叉熵损失函数。

第二方面,本发明实施例还提供了一种基于神经网络和多维特征融合的水声目标识别系统,包括:特征提取模块,嵌入向量生成模块,多维特征融合模块和水声目标识别模块;其中,所述特征提取模块,用于提取待识别水声目标的水声信号频谱特征;所述频谱特征包括:STFT频谱特征、Mel频谱特征和MFCC特征;所述特征提取模块,还用于将所述Mel频谱特征和所述MFCC特征进行特征融合,得到初级融合特征;所述嵌入向量生成模块,用于将所述初级融合特征和所述STFT频谱特征输入到训练好的卷积神经网络中,分别得到第一嵌入特征向量和第二嵌入特征向量;所述多维特征融合模块,用于将所述第一嵌入特征向量和所述第二嵌入特征向量进行特征融合,得到目标融合特征;所述水声目标识别模块,用于将所述目标融合特征输入到训练好的分类模型中,利用所述训练好的分类模型对所述待识别水声目标进行识别。

进一步地,所述频谱特征还包括delta频谱和delta-delta频谱;所述特征提取模块,还用于:分别对所述水声信号进行预加重、分帧、加窗和离散傅里叶变换处理,得到所述STFT频谱特征、所述Mel频谱特征和所述MFCC特征;基于所述Mel频谱特征,计算所述Mel频谱特征对应的delta频谱和delta-delta频谱;基于所述STFT频谱特征,计算所述STFT频谱特征对应的delta频谱;其中,所述delta频谱计算算式包括:

第三方面,本发明实施例还提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如第一方面所述的方法。

本发明提供了一种基于神经网络和多维特征融合的水声目标识别方法及系统,利用卷积神经网络层处理融合的多维时频域特征,然后利用分类模型对多维融合特征进行水声目标识别,可以有效地将目标信号从无序海洋噪声中分离出来,在提取具有显著表征能力的特征、实现稳健的目标分类模型方面具有明显优势。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法的流程图;

图2为本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法的模型架构图;

图3为本发明实施例提供的一种频谱特征提取流程示意图;

图4为本发明实施例提供的一种频谱特征的示意图;

图5为本发明实施例提供的一种初级特征融合的示意图;

图6为本发明实施例提供的另一种基于神经网络和多维特征融合的水声目标识别方法的模型架构图;

图7为本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法在ShipsEar数据集上的训练过程示意图;

图8为本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法的混淆矩阵示意图;

图9为本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

图1是根据本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法的流程图。如图1所示,该方法具体包括如下步骤:

步骤S102,提取待识别水声目标的水声信号频谱特征;频谱特征包括:STFT频谱特征、Mel频谱特征和MFCC特征。具体的,水声信号为时序波形信号。

步骤S104,将Mel频谱特征和MFCC特征进行特征融合,得到初级融合特征。

步骤S106,将初级融合特征和STFT频谱特征输入到训练好的卷积神经网络中,分别得到第一嵌入特征向量和第二嵌入特征向量。

步骤S108,将第一嵌入特征向量和第二嵌入特征向量进行特征融合,得到目标融合特征。

步骤S110,将目标融合特征输入到训练好的分类模型中,利用训练好的分类模型对待识别水声目标进行识别。

图2是根据本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法的模型架构图。如图2所示,首先,提取水声目标时序信号的三类频谱特征,分别是短时傅里叶变换(Short-Time Fourier Transform,STFT)频谱特征、Mel频谱特征和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征。然后在嵌入向量生成过程中,包含两个输入特征数据不同的对称子网络(即卷积神经网络),表示为sub-network1和sub-network2,两个子网络的输入特征分别为STFT频谱特征和Mel频谱特征与MFCC特征的融合特征,表示为Input1和Input2。两个子网络的输出为嵌入特征向量,分别表示为Embedding1和Embedding1。

具体的,如图2所示,本发明实施例提供的卷积神经网络包括二维卷积神经网络层(Conv2D_1和Conv2D_2)、最大池化层(MaxPooling2D_1和MaxPooling2D_2)、批量归一化层(BatchNormalization_1和BatchNormalization_2)、Dropout层(Dropout_1和Dropout_2)和全连接层(Dense_1和Dense_2)。卷积神经网络可以挖掘图像数据的局部机构特征,并保留特征相对于原始图像的位置关系,批量归一化层和Dropout层可以提高卷积神经网络的泛化能力和鲁棒性。

优选地,分类模型包括长短时记忆网络层(Long Short-Term Memory,LSTM)。具体的,如图2所示,分类模型还包括激活函数(ReLU)、Dropout层(Dropout_3)和两个全连接层(Dense_3和Dense_4)。长短时记忆网络(LSTM)层能够在过去的历史信息上逐帧操作音频,并可以提高目标识别任务的声音泛化能力;以及,批量归一化层、Dropout层和激活函数可以提高分类模型的泛化能力和鲁棒性。

图3是根据本发明实施例提供的一种频谱特征提取流程示意图。如图3所示,频谱特征还包括delta频谱(即图3中的Δ)和delta-delta频谱(即图3中的Δ

步骤S1021,分别对水声信号进行预加重、分帧、加窗和离散傅里叶变换(DiscreteFourier Transform,DFT)处理,得到STFT频谱特征、Mel频谱特征和MFCC特征;

步骤S1022,基于Mel频谱特征,计算Mel频谱特征对应的delta频谱和delta-delta频谱;

步骤S1023,基于STFT频谱特征,计算STFT频谱特征对应的delta频谱;

其中,delta频谱计算算式包括:

delta-delta频谱计算算式包括:

式中,S

在本发明实施例中,通过预加重、分帧、加窗和DFT处理,得到STFT频谱特征、Mel频谱特征和MFCC特征。由于这些原始的频谱特征只能反映信号的静态特性,为了提取信号的不同特征,本发明实施例还计算了频谱图中相邻帧对时间求导,从而提取了对应频谱特征的delta频谱(Δ)和delta-delta谱图(

例如,在16000Hz的采样频率下,在提取频谱特征时,设置帧长为1024,帧移为512,因此生成的STFT频谱特征是512维频谱图在时间维度上的叠加。在图2所示的模型架构中,Input1是形状为(513×95×N)的三维张量,从左至右维度分别是频点数、帧数和通道数。Mel频谱特征和MFCC特征的形状为(128×265×N),在进行提取时取帧长为1024,帧移为256,设置128个Mel滤波器组。图4是根据本发明实施例提供的一种频谱特征的示意图,图4中,(a)图为原始STFT频谱特征,(b)图为

图5是根据本发明实施例提供的一种初级特征融合的示意图。如图5所示,步骤S104包括:

将Mel频谱特征、Mel频谱特征对应的delta频谱和delta-delta频谱、MFCC特征进行特征融合,得到初级融合特征。

如图5所示,步骤S106还包括:

将STFT频谱特征和STFT频谱特征对应的delta频谱进行特征融合之后的特征作为输入,输入到训练好的卷积神经网络中。

图6是根据本发明实施例提供的另一种基于神经网络和多维特征融合的水声目标识别方法的模型架构图。如图6所示,二维卷积神经网络层(Conv2D)和长短时记忆网络层(LSTM)为关键网络层,其中,Conv2D卷积神经网络结构能够挖掘图像数据的局部结构特征,并保留特征相对于原始图像的位置关系,例如,本发明实施例中使用5

表一 网络超参数和输入输出的数据格式

优选地,在本发明实施例中,对分类模型进行优化的损失函数包括多类交叉熵(MCE)损失函数。具体的:

其中C是表示水下目标种类数量,pred表示预测结果,y表示真实结果。优选地,在本发明实施例中C=5,pred和y均为5维度的one-hot向量。

优选地,本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法的评估指标包括包括准确率、精确率、召回率和F1-得分,每个指标的公式如下所示:

其中,TP表示True Positive,意思是做出Positive的判定,而且判定是正确的;TN表示True Native,意思是做出Native的判定,而且判定是正确的;FP表示False Positive,意思是做出Positive的判定,但是判定是错误的;FN表示False Negative,意思是做出Negative的判定,但是判定是错误的。

由以上描述可知,本发明实施例提供了一种基于神经网络和多维特征融合的水声目标识别方法,利用卷积神经网络层处理融合的多维时频域特征,然后利用分类模型对多维融合特征进行水声目标识别,可以有效地将目标信号从无序海洋噪声中分离出来,在提取具有显著表征能力的特征、实现稳健的目标分类模型方面具有明显优势。

实施例二

下面通过一组对比实验,验证本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法(FCRN)的性能。

(1)数据集

ShipsEar是一个公开数据集,该数据集包含了多类船舶以及自然环境噪声的水下音频记录,由部署在码头的水听器及进行收集,包括90条长短不同的音频记录,音频的持续时间从15秒到15分钟不等,采样频率为52734Hz。该数据集在进行收集时采用了几种增益不同的水听器,因此数据的信噪比存在差异。具体而言,该水下音频数据集记录了11种船舶的辐射噪声,5种自然环境背景噪声,如风声、雨声、波浪声、瀑布声以及其他环境噪声。所有以上这些音频记录被大致分为5种类型A、B、C、D和E。本发明将数据集中的音频分割成持续时长为3秒的音频片段,音频片段之间重叠率为50%,总共获得6644个带标注的干净水下声音片段,具体类别与包含的音频片段数据的详细信息如表二所示:

表二 数据集中的目标类别和带标签的音频片段

这些样本被随机打乱,然后以7:1.5:1.5的比例拆分为测试集、验证集和测试集,其中所包含的音频片段数目分别为4651、996、997。

(2)实验设置

1)对比模型

基于卷积神经网络CNN的水下目标识别模型:由两个卷积块组成,每个块包含一个conv2D(64,(5,5))层、一个MaxPooling2d(3,3)层和一个批量归一化层,然后是一个Dropout(0.25)层和两个全连接层。第一个全连接层有64个节点,第二个全连接层有5个节点。

基于卷积循环神经网络CRN的水下目标识别模型:卷积块的解构与基于CNN的模型一致,然后连接一个Dropout(0.25)层和两个LSTM层,这两个LSTM层都有64个节点。之后连接两个全连接层和Dropout(0.25)层,最后将数据输入到一个具有5个节点的全连接层。

对于以上基于CNN的模型和基于CRN的模型,其输入特征均包括SFTF-2D频谱、Mel-3D频谱和MFCC谱。

2)优化器参数

所有对比模型以及本发明实施例所提出的一种基于神经网络和多维特征融合的水声目标识别方法(FCRN)是基于TensorFlow工具包实现的,基于训练集使用Adam优化器来训练和优化网络参数,使用验证集来控制学习速率。此外,初始学习率设置为

3)结果和讨论

表三总结了本实验中所实现的水声目标分类器的性能,其中粗体数据表示最佳结果:

表三 不同模型的结果

由表三可知,①本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法(FCRN)在ShipsEar数据集上获得了最好的识别性能,其次是CRN-Mel3D模型,结果明显表示融合特征比单个特征更有利于识别目标;②基于CRN结构的模型总体上优于基于CNN结构的模型,表明CRN网络结构具有更强的时序建模能力;③Mel频谱特征对于水声目标识别任务而言,是比其他特征更具区分度的特征。

图7是根据本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法在ShipsEar数据集上的训练过程示意图。其中,图7左图表示在训练集和验证集上的准确率变化情况示意图,图7右图表示在训练集和验证集上的损失变化情况示意图。图8是根据本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别方法的混淆矩阵示意图。如图8所示,对于测试集中的997个样本,准确性为96.67%。

本发明实施例提供了一种基于神经网络和多维特征融合的水声目标识别方法来解决水声目标识别问题,经过在ShipEar实测水声数据集上评估验证,该方法在提取具有显著表征能力的特征、实现稳健的目标分类模型方面具有明显优势。实验结果表明,多维特征融合和不同网络结构层的集成有助于提高分类性能。

实施例三

图9是根据本发明实施例提供的一种基于神经网络和多维特征融合的水声目标识别系统的示意图。如图9所示,该系统包括:特征提取模块10,嵌入向量生成模块20,多维特征融合模块30和水声目标识别模块40。

具体的,特征提取模块10,用于提取待识别水声目标的水声信号频谱特征;频谱特征包括:STFT频谱特征、Mel频谱特征和MFCC特征。

特征提取模块10,还用于将Mel频谱特征和MFCC特征进行特征融合,得到初级融合特征。

嵌入向量生成模块20,用于将初级融合特征和STFT频谱特征输入到训练好的卷积神经网络中,分别得到第一嵌入特征向量和第二嵌入特征向量。

具体的,本发明实施例提供的卷积神经网络包括二维卷积神经网络层、最大池化层、批量归一化层、Dropout层和全连接层。

多维特征融合模块30,用于将第一嵌入特征向量和第二嵌入特征向量进行特征融合,得到目标融合特征。

水声目标识别模块40,用于将目标融合特征输入到训练好的分类模型中,利用训练好的分类模型对待识别水声目标进行识别。优选地,分类模型包括长短时记忆网络层,对分类模型进行优化的损失函数包括多类交叉熵损失函数。

具体的,频谱特征还包括delta频谱和delta-delta频谱;特征提取模块10,还用于:

分别对水声信号进行预加重、分帧、加窗和离散傅里叶变换处理,得到STFT频谱特征、Mel频谱特征和MFCC特征;

基于Mel频谱特征,计算Mel频谱特征对应的delta频谱和delta-delta频谱;

基于STFT频谱特征,计算STFT频谱特征对应的delta频谱;

其中,delta频谱计算算式包括:

delta-delta频谱计算算式包括:

式中,S

特征提取模块10,还用于:将Mel频谱特征、Mel频谱特征对应的delta频谱和delta-delta频谱、MFCC特征进行特征融合,得到初级融合特征。

嵌入向量生成模块20,还用于将STFT频谱特征和STFT频谱特征对应的delta频谱进行特征融合之后的特征作为输入,输入到训练好的卷积神经网络中。

本发明实施例还提供了一种电子设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如实施例一中的方法。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现如实施例一中的方法。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

技术分类

06120116581695