掌桥专利:专业的专利平台
掌桥专利
首页

基于DyCNN及Bi-LSTM并融合注意力机制的语音情感识别方法

文献发布时间:2024-04-18 19:53:33


基于DyCNN及Bi-LSTM并融合注意力机制的语音情感识别方法

技术领域

本发明属于语音信号处理技术领域,具体涉及到一种基于DyCNN及Bi-LSTM并融合注意力机制的语音情感识别方法。

背景技术

语音是一种包含说话人语义、情感等众多信息并将语言作为信息载体的复杂信号。语音情感识别技术就是通过提取语音信号中能够表征说话人情感状态的特征,并通过机器学习等方法找出这些特征与人类情感的映射关系。其最终目的是让机器能够辨识说话人的情感状态,并实现智能、和谐的人机交互目标。

传统语音情感识别系统最受欢迎的算法是隐马尔可夫模型、高斯混合模型、支持向量机和人工神经网络,但还存在诸多不足。近年来,深度学习算法的性能超过了传统的机器学习算法,因此研究的重点转向了它们,当前语音情感识别的研究的趋势也是一样。在语音情感识别领域最广泛使用的深度学习算法是卷积神经网络和递归神经网络,但依旧存在一定的问题尚未解决。

考虑到语音情感信号由复杂的人类语言中提取,而人在说话时的情感是作用在不同片段上的,不同时间上的语音信号其情感作用的大小是不同的,因此仅仅只是将每段语音信号进行提取特征是不足的。传统的现代高性能卷积神经网络往往需要大量的计算资源来执行大量的卷积核操作,传统卷积的性质造成了卷积神经网络固有的大量冗余计算。

针对上述问题,本文提出一种基于动态卷积神经网络及双向长短期记忆网络并融合注意力机制的语音情感识别方法。首先以动态卷积的方法提升算法的性能,减少网络的冗余计算,改善静态卷积核对不同情感信息提取的灵活度。再结合Bi-LSAT解决传统RNN存在的长期依赖问题和LSTM对上下文信息提取不足的问题。之后结合注意力机制,对语音中不同的特征区域分配不同的注意力权重值,将更好的提取一句语音中情感作用突出部分的特征。最后使用Softmax分类器对不同的情感进行分类。

CN113450830A,一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括:步骤1,提取谱图特征和帧级特征。步骤2,谱图特征输送进CNN模块来学习特征中的时频相关信息。步骤3,多头自注意力层作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤4,一个多维注意层作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤5,处理过的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤6,一个融合层来总结不同模块的输出来增强模型性能。步骤7,利用Softmax分类器对不同情感进行分类。本发明结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。

传统cnn网络存在一定的冗余计算问题,本专利使用的dycnn可以在减少冗余计算的同时提升算法的性能,bilstm可以针对lstm在上下文信息提取不足的问题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于DyCNN及Bi-LSTM并融合注意力机制的语音情感识别方法。本发明的技术方案如下:

一种基于DyCNN及Bi-LSTM并融合注意力机制的语音情感识别方法,其包括以下步骤:

S1,将语音信号进行预处理,得到特征MFCC(Mel频率倒谱系数);

S2,将谱图输入到动态卷积神经网络中,提取动态的情感特征;

S3,将动态情感特征输入到双向长短期记忆网络中,针对上下文联系提取全局情感特征;

S4,采用注意力机制对网络学习得到的不同特征区域分配不同的注意力权重;

S5,将得到的情感特征通过全连接层和Softmax层,最终得到输出的分类识别结果。

进一步的,所述步骤S1,将语音信号进行预处理,得到特征MFCC,具体包括:

S11,对语音信号进行预加重处理:其中z域的传递函数为:

H(z)=1-0.97z

S12,对步骤S11处理后的信号进行分帧加窗,分帧使用汉明窗,公式如下:

S

其中S

S13,将步骤S12处理后的信号进行短时傅里叶变换,得到语音线性频谱X(k):

S14,对每个Mel滤波器的输出进行对数运算,得对数频谱S(m):

其中H

S15,对步骤S14得到的对数频谱进行离散余弦变换,得到MFCC,第n维特征C(n)为:

进一步的,所述步骤S2将MFCC谱图输入到动态卷积神经网络中,提取动态的情感特征,具体包括:

将得到的谱图输入动态卷积神经网络,动态卷积核模型计算公式如下:

其中,y为输出的动态情感特征,x为输入的谱图,σ为ELU激活函数,π

进一步的,所述步骤S3将动态情感特征输入到双向长短期记忆网络中,针对上下文联系提取全局情感特征,包括:

f

i

O

C

h

其中,f

进一步的,所述步骤S4采用注意力机制对网络学习得到的不同特征区域分配不同的注意力权重,具体包括:

其公式如下:

α

进一步的,所述步骤S5将得到的情感特征通过全连接层和Softmax层,最终得到输出的分类识别结果,包括:

将提取的情感特征输入到全连接层,然后再通过Softmax层进行分类,识别出语音中的情感。

本发明的优点及有益效果如下:

本发明提出了一种基于动态卷积神经网络及双向长短期记忆网络并融合注意力机制的语音情感识别方法,其利用动态卷积对语音中的情感信息进行更加灵活的提取,相较于传统卷积神经网络减少了网络的冗余计算,提升了算法性能,双向长短期记忆网络对时序特征进行更细致的提取,解决传统RNN存在的长期依赖问题和LSTM对上下文信息提取不足的问题,最后注意力机制对特征进行加权,突出情感重点部分,以此提升模型性能,更加灵活的分析语音中的情感信息。

附图说明

图1是本发明提供优选实施例预处理流程图;

图2动态卷积神经网络模块;

图3双向长短期记忆网络模块;

图4基于动态卷积神经网络及双向长短期记忆网络并融合注意力机制的语音情感识别方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

如图4所示,基于动态卷积神经网络及双向长短期记忆网络并融合注意力机制的语音情感识别方法包括以下步骤:

如图1所示,将语音信号进行预处理,得到Mel谱特征,包括:

获取原始语音信号,将其进行预加重,分帧,加窗,短时傅里叶变换,然后将得到的声谱图输入Mel滤波器组,得到Mel谱图,然后对其取对数,得到对数Mel谱图。

S11,对语音信号进行预加重处理:通过数字高通滤波器对语音信号进行处理,其中传递函数为:

H(z)=1-0.97z

S12,对步骤S11处理后的信号进行分帧加窗:帧长取30ms,帧移取15ms,分帧使用汉明窗,公式如下:

S

其中S

S13,将步骤S12处理后的信号进行短时傅里叶变换,将数据从时域变换到频域,得到语音线性频谱:

S14,对每个Mel滤波器的输出进行对数运算,得对数频谱:

其中H

S15,对步骤S14得到的对数频谱进行离散余弦变换,得到MFCC,第n维特征C(n)为:

如图2所示,预处理之后将谱图输入到动态卷积神经网络中,提取动态的情感特征,包括:

将得到的谱图输入动态卷积神经网络。动态卷积层基于注意力机制动态聚合多个平行卷积核,该组卷积核与前级注意力权重参数矩阵进行加权相加后得到可以根据输入自适应改变注意力的动态卷积核,与输入谱图进行卷积得到动态情感特征。注意力机制采用平均池化层和两层全连接层,并使用Softmax层将注意力权重π

其中,y为输出的动态情感特征,x为输入的谱图,σ为ELU激活函数,π

进一步,如图3所示,将动态情感特征输入到双向长短期记忆网络中,针对上下文联系提取全局情感特征,包括:

将得到的动态情感特征输入双向长短期记忆网络。双向长短期记忆网络由前向长短期记忆网络和后向长短期记忆网络组合而成,前者负责计算正序的上下文信息,后者负责计算逆向的上下文信息。双向长短期记忆网络联系输入的情感信息在一整句语音中的上下文状态信息,对输入的动态情感特征进一步提取。在t时刻,网络各门状态更新可以表示为:

f

i

O

C

h

其中,f

进一步,采用注意力机制对网络学习得到的不同特征区域分配不同的注意力权重,包括:

采用注意力机制对网络学习得到的一句语音信号中的情感特征生成时间分布上的权重,与特征图进行加权求和,以给不同特征区域分配不同的注意力权重。根据输入的特征计算不同时间序列片段特征的权重参数α

步骤S5所述将得到的情感特征通过全连接层和Softmax层,最终得到输出的分类识别结果,包括:

将提取的情感特征输入到全连接层,然后再通过Softmax层进行分类,识别出语音中的情感。

通过使用中国科学院自动化研究所的CASIA中文情感数据集对模型进行仿真实验,相较于使用传统的卷积神经网络结合长短期记忆网络的语音情感识别系统平均情感识别准确率提升了2.26%,验证了本文方法的有效性。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

技术分类

06120116338409