掌桥专利:专业的专利平台
掌桥专利
首页

一种基于门控跨注意力机制的多模态特征融合情感识别方法

文献发布时间:2024-04-18 20:01:55


一种基于门控跨注意力机制的多模态特征融合情感识别方法

技术领域

本发明提供了一种基于门控跨注意力机制的多模态特征融合情感识别方法,它提供了针对受试者头皮脑电信号与眼动信号的特征提取与融合方法,为多模态实时情感分析提供了新的途径,属于信号处理和模式识别技术领域。

背景技术

多模态情感识别是一项关键的研究领域,它旨在通过多种感知模态的综合分析,如脑电和眼动信号,来准确地理解和识别人类的情感状态。这种研究对于理解人类情感体验、改善情感识别技术以及在诸如人机交互、心理健康评估和情感智能等领域的应用具有重要意义。

脑电信号作为一种直接反映大脑神经活动的生理信号,可以提供关于情感产生和处理的重要线索。通过分析脑电信号的频谱特征、时域波形和时频变化等信息,我们可以获得关于情感状态的客观指标。脑电信号可以帮助我们理解情感的神经机制,识别不同情感状态之间的差异,甚至预测个体的情感体验。此外,眼动信号是反映视觉注意和信息处理过程的重要指标。眼动数据可以提供有关个体对不同刺激的注意力分配、情感反应和认知负荷的信息。通过分析眼动轨迹、注视点、扫视行为和瞳孔直径等特征,我们可以了解个体对情感刺激的感知和反应模式。眼动信号与脑电信号的结合分析可以提供更全面的情感识别结果,增强对情感状态的理解和预测能力。

在过去的研究中,单一感知模态情感识别方法存在着提取特征不充分的问题,包括:

1)仅仅依靠脑电信号进行情感分析,往往无法捕捉到其他感知模态如眼动信号在情感产生过程中的关键作用;

2)由于情感状态的复杂性,单一特征在不同情感状态之间可能存在重叠和模糊,使得识别准确率受限;

3)传统方法还受制于情感状态的多样性和环境的变化,从而导致了鲁棒性不足的问题。例如,在现实场景中,人们的情感表达可能受到多个因素的影响,如外部刺激、情感状态的变化等。

这就导致了现有的情感识别方法难以适应不同的情境和个体差异。

发明内容

为解决现有基于深度学习的情感识别方法在单域特征提取不充分、识别准确率低和鲁棒性差的问题,本发明提供了一种基于门控跨注意力机制的多模态特征融合情感识别方法。通过数据处理、模型构建、模型训练和模型测试等步骤,在多模态情感识别数据集SEEDIV上对该方法进行了性能评估和实验验证。首先对预先获取到的公开多模态情感识别数据进行预处理,即脑电信号和眼动信号,并构建对应的训练集和测试集;其次构建基于门控跨注意力机制的多模态特征融合情感识别神经网络模型;然后将预处理好的训练集输入构建好的模型中,更新模型参数,并将预处理好的测试集输入训练好的模型中进行方法的性能测试,最终输出识别准确率,进行结果比对,并从可解释性角度对结果进行分析。

根据本发明的一个实施例的一种基于门控跨注意力机制的多模态特征融合情感识别方法包括以下步骤:

步骤1:对预先获取的公开的多模态情感识别数据集SEEDIV进行预处理,并建立对应的训练集和测试集;

步骤2:使用Pytorch深度学习框架,构建基于门控跨注意力机制的多模态特征融合情感识别神经网络模型;

步骤3:将步骤1中预处理后的训练集输入构建好的模型,更新网络参数;

步骤4:将步骤1中预处理后的测试集输入训练好的模型中,获取多模态情感识别性能指标;

其中:

在所述步骤S1中,数据预处理包括数据筛选、带通滤波、基线校正、重参考和坏导剔除等操作;

在所述步骤S2中,所构建的基于门控跨注意力机制的多模态特征融合情感识别网络模型结构包括脑电信号多尺度时频特征计算模块、双分支动态图卷积网络和多维度眼动信号特征编码模块、基于门控跨注意力机制的多模态特征融合模块。其中,多尺度时频特征计算模块和双分支动态图卷积网络串行连接作为针对脑电信号的总体特征提取环节,再与多维度眼动信号特征编码模块并行连接,最终将从脑电信号与眼动信号的提取到的特征输入到基于门控跨注意力机制的多模态特征融合模块进行特征融合。具体地,多尺度时频特征计算模块用于提取脑电信号的时频域有效特征,双分支动态图卷积网络用于从空间维度层面对脑电信号特征进行通道关联信息挖掘,多维度眼动信号特征编码模块用于捕捉实时眼动特征变化,基于门控跨注意力机制的多模态特征融合模块用于融合脑电信号与眼动信号两类模态特征;

在所述步骤S3中:将预处理后的训练集分别输入构建好的基于门控跨注意力机制的多模态特征融合情感识别网络模型,更新模型参数,生成最终训练模型。具体包括:使用交叉熵损失函数计算模型输出与标签的误差,并通过误差反向传播和随机梯度下降迭代更新模型参数。设置训练数据批大小为128,模型学习率为0.0001,采用Adam优化器进行模型参数优化。训练过程中可以设置迭代次数为100次或当准确率开始下降时停止训练,并保存模型参数;

在所述步骤S4中:选取1s单位时间窗口,将预处理后的测试集分别输入训练好的基于门控跨注意力机制的多模态特征融合情感识别网络模型中,获取多模态情感识别分类性能指标,对不同的受试者分别进行独立模型性能验证,采用准确率、F1-Score、AUC三类指标来评价模型的多模态情感识别分类效果。

附图说明

图1为根据本发明的一个实施例的基于门控跨注意力机制的多模态特征融合情感识别方法的流程图。

图2为根据本发明的一个实施例的基于门控跨注意力机制的多模态特征融合情感识别神经网络结构图。

图3为根据本发明的一个实施例的基于门控跨注意力机制的多模态特征融合模块结构示意图。

图4为根据本发明的一个实施例在SEEDIV数据集上不同情绪状态下脑区通道拓扑分析结果图。

具体实施方式

根据本发明的一个实施例的基于门控跨注意力机制的多模态特征融合情感识别方法的整体流程如图1所示,其包括:

步骤S1:对预先获取的公开的多模态情感识别数据集SEED IV进行预处理,并建立该数据集的训练集和测试集,包括:

步骤S1.1:数据筛选,对于眼动信号,选择眼球运动轨迹(Gaze Path)、眼动瞳孔直径(Pupil Diameter)、眼动注视点(Fixation Point)与眼动扫视(Saccade)四类指标,对受试者的眼动变化进行捕捉;

步骤S1.2:带通滤波,选择适当的带通滤波器进行处理,包括先对脑电信号进行256Hz重采样,后施加1-50Hz带通滤波器,以适应脑电信号数据中情感信息存在的频带范围。对于眼动信号,根据眼动的频率特征,选择相应的带通滤波器对信号进行处理;

步骤S1.3:对脑电信号进行基线校准,从而消除长时间采集过程中可能存在的基线漂移现象,包括将每段数据调整到相同的基准起点,可以选择任务事件发生前一段时间的数据均值作为基线,然后计算任务事件发生后的相对值,作为新的脑电信号数据值;

步骤S1.4:重参考,根据需要选择适当的参考电极对脑电信号进行重参考;在本发明的一个优选实施例中,也同时对眼动信号进行重参考。在SEED IV数据集中,可以选择头顶中央电极(例如Cz)作为参考电极,以观察任务发生时全脑电极和眼动信号的变化。重参考过程将信号中的参考电极信息去除,以减少可能的参考导致的干扰;

步骤S1.5:坏导剔除,对于脑电信号进行剔除坏导操作,对超过正负100uV的脑电信号进行坏段剔除。剔除脑电信号中可能存在噪音或不良连接的电极通道,这些电极通常由于传感器故障或不良接触导致信号质量较差。

步骤S2:使用Pytorch深度学习框架,构建基于门控跨注意力机制的多模态特征融合情感识别神经网络模型,其结构如图2所示,包括:

脑电信号多尺度时频特征计算模块、双分支动态图卷积网络和多维度眼动信号特征编码模块、基于门控跨注意力机制的多模态特征融合模块;其中:

多尺度时频特征计算模块和双分支动态图卷积网络串行连接作为针对脑电信号的总体特征提取子网络,再与多维度眼动信号特征编码模块并行连接,最终将从脑电信号与眼动信号的提取到的特征输入到基于门控跨注意力机制的多模态特征融合模块进行特征融合;具体地,多尺度时频特征计算模块用于提取脑电信号的时频域有效特征,双分支动态图卷积模块用于从空间维度层面对脑电信号特征进行通道关联信息挖掘,多维度眼动信号特征编码模块用于捕捉实时眼动特征变化,基于门控跨注意力机制的多模态特征融合模块用于融合脑电信号与眼动信号两类模态特征,具体包括:

A)多尺度时频特征计算模块,用于提取公开多模态情感识别数据集中脑电信号的时频域关键信息,其具体结构如图2所示,包括:

A1)首先,针对时域层面,利用具有不同大小卷积核尺寸的多个卷积层单元从脑电信号中初步提取时间域特征。脑电信号时域特征提取部分总共使用了U个不同尺寸的时域卷积(Temporal Convolution,T-Conv)单元,在本发明的一个优选实施例中U取值为5,从而有效地捕捉到多尺度的时域信息;由此,各时域卷积单元产生具有不同尺寸的多尺度时域特征x

其中:

C为脑电通道数目,在本发明的一个优选实施例中等于62,

T

L为单位时间窗口下脑电信号长度,在本发明的一个优选实施例中单位时间窗为1s,采样频率为256Hz,因此L值为256。进一步将这些特征拼接起来,得到时域角度的整体特征图:

A2)接着,计算脑电信号的时频图以生成不同频段下的显著特征,即δ频段[0~4Hz]、θ频段[4~8Hz]、α频段[8~12Hz]、β频段[12~30Hz]和γ频段[30~50Hz]。针对频域角度,采用功率谱密度(PSD)来刻画脑电信号的频谱特征,按照频率维度进行积分计算;在本发明的一个优选实施例中使用以下公式计算:

S(X)=E[X

其中,X表示来自单个脑电通道的一定频率信号段,S(X)表示信号对应的功率谱密度特征,E[·]表示对变量进行频率维度积分。由于不同情绪状态下,大脑半球间存在明显的不对称性,因此通过左右脑区特征相除进行数据不对称性增强操作,使频谱特征更具判别性。使用增强后的特征

B)双分支动态图卷积网络,用于从空间维度层面挖掘脑电信号通道间的关联信息,捕捉更深层次时-空-频特征,具体包括:

在初步提取的时频域特征的基础上,引入具备稀疏性的动态邻接矩阵,用于构建不同脑电通道之间的连接关系,包括:

首先,由随机初始化邻接矩阵A∈R

然后,用一个稀疏编码单元中对上述邻接矩阵施加Tanh非线性激活函数,以增强不同通道之间的方向依赖性与特征稀疏性,该稀疏编码单元定义如下:

(每个

其中:

是从A进行向量化得到的,

和/>

δ(·)和σ(·)是ELU和Tanh函数,用于提供非线性激活功能,r为衰减率,在本发明的一个优选实施例里设定为64。

由此,通过将

其中,

C)多维度眼动信号特征编码模块,用于提取眼动信号数据中四类指标的融合特征,具体包括:

C1)眼动信号刻画指标筛选部分,用于选取多维度眼动信号刻画指标,,以提取眼动信号的关键特征,其具体包括:

眼球运动轨迹提取部分,用于提取和记录被试者在观看过程中的眼球运动轨迹。这些轨迹以二维坐标的形式表示,可以提供有关受试者的注视路径和视觉扫视行为的信息。

眼动瞳孔直径提取部分,用于提取受试者在观看过程中的眼动瞳孔直径(及瞳孔直径的大小变化)。这种变化可以用于评估受试者的认知负荷和情绪状态。

眼动注视点提取部分,用于提取和记录眼动注视点即受试者在屏幕上停留的特定区域和时间段,这些注视点通常与感兴趣的目标或特定任务相关,可以提供有关被试者的视觉注意力和注意分配的信息。

眼动扫视提取部分,用于提取眼动扫视数据被试者在不同目标之间进行快速的眼球运动的时间和位置,这种扫视行为可以提供有关被试者的视觉搜索和注意力转移的信息。

C2)眼动信号特征编码模块,应用基于注意力机制的全连接层对这些眼动信号指标进行编码。注意力机制允许模型自动关注重要的信号特征,并加权整合它们的信息;该基于注意力机制的全连接层通过将这些加权特征映射到更高维度的表示,更好地捕捉了眼动信号的特征模式和关联性;最后,利用该基于注意力机制的全连接层将将C1步骤筛选得到的眼球运动轨迹、眼动瞳孔直径、眼动注视点、眼动扫视数据四类指标进行通道映射操作从而得到与受试者脑电信号时频域特征

D)基于门控跨注意力机制的多模态特征融合模块(具体结构如图3所示),用于捕捉并融合双分支动态图卷积网络输出的脑电信号时频域特征与眼动信号特征编码模块输出的眼动特征,其中

上述脑电信号时频域特征

其中LN(·)表示层归一化,

其中:如图3所示,

门控跨注意力机制单元包括跨注意力头和门控融合单元,其中:

跨注意力头为每类模态特征分别引入三个不同的权重矩阵:查询权重矩阵

在本发明的一个优选实施例中,三种类型矩阵分别定义为:

跨注意力头的输出Z

门控融合单元的输出x′

h=W·Concat(Z

(g

x′

其中Concat(·)代表特征拼接操作,W,b代表全连接层的权重参数,h代表全连接层的输出隐藏特征,g

然后根据公式(7)得到基于门控跨注意力机制的多模态特征融合模块的输出即多模态融合特征x

E)情感状态识别分类器,用于输出4分类情感识别结果,具体如下:

对基于门控跨注意力机制的多模态特征融合模块输出的多模态融合特征x

根据本发明的一个进一步的实施例,所述基于门控跨注意力机制的多模态特征融合情感识别方法进一步包括:

步骤S3:将步骤S1中预处理后的训练集分别输入构建好的基于门控跨注意力机制的多模态特征融合情感识别网络模型,更新模型参数,生成最终训练模型,具体包括:

模型通过最小化模型预测与标签之间的交叉熵损失J来进行训练,其定义为:

其中,p

将步骤S1中预处理后的测试集分别输入训练好的基于门控跨注意力机制的多模态特征融合情感识别网络模型中,获取多模态情感识别分类性能指标,具体包括如下:

可将分类结果可以分为四类:真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。我们通过准确率(Acc)、AUC和F1-Score来评估所提出方法的有效性,其中Acc和F1指标定义如下:

为验证所提方法的有效性,本发明人在公开多模态情感识别数据集SEEDIV的15名受试者数据上分别进行了性能测试,评估方式为五折交叉验证。为了与提出的方法进行性能比较,在相同的实验环境下,使用了三个基准模型,并对这些模型在SEEDIV数据集上进行了重新测试,对三个基准模型的简要介绍如下:

1)DGCNN(T.Song et al.,EEG emotion recognition using dynamical graphconvolutional neural networks,2018):该方法利用动态邻接矩阵来模拟浅层微分熵特征中的脑电通道关系,已经展示出在脑电特征提取方面的能力。

2)4D-CRNN(F.Shen et al.,EEG-based emotion recognition using 4Dconvolutional recurrent neural network,2020):这是一个基于卷积神经网络的模型,同时还结合了循环神经网络和微分熵特征,以融合空间和时间信息。

3)resHGCN(Y.Liet al.,Spatio-temporal-spectral hierarchical graphconvolutional network with semi supervised active learning for patient-specific seizure prediction,2021):这是一个深度学习模型,采用层级残差架构和编码邻接矩阵,使用多个全连接层,保留了部分预处理脑电信号的时频域特征,从而实现模型效果的提升。

表1列出了在SEEDIV数据集上的分类结果,图4展现了基于模型测试过程得到的不同情绪状态下脑区通道拓扑分析结果图。从表1中可以看到,提出的基于门控跨注意力机制的多模态特征融合情感识别网络模型在平均准确率、F1值和AUC三个指标中都可达到最高水平。就准确率而言,基于门控跨注意力机制的多模态特征融合情感识别网络方法达到了89.97%,分别比基线方法高出1.18%、2.22%和6.16%。显著提高的准确率表明我们提出的方法能够更好地融合多源信息特征,同时表明其对高级特征提取具有鲁棒性,可以提供更好的分类性能,满足了人机情感交互对识别精度的要求。

以上对本发明所提供的基于门控跨注意力机制的多模态特征融合情感识别方法进行了详细的说明,但显然本发明的范围并不局限于此。在不脱离所附权利要求书所限定的保护范围的情况下,对上述实施例的各种改变都在本发明的范围之内。

表1基于门控跨注意力机制的多模态特征融合情感识别方法性能对比

相关技术
  • 一种用于汽车零部件的冲压装置及其使用方法
  • 用于对热冲压部件进行冲孔和修剪的装置和方法
  • 一种用于含油污泥预处理的铰刀破碎工艺、控制方法和装置
  • 一种用于秸秆沼气化的黄贮预处理方法及装置
  • 用于预处理冲压过程中检测到的状态变量的装置和方法
  • 检体搬运装置、检体分析系统和检体预处理系统及检体搬运方法
技术分类

06120116567155