掌桥专利:专业的专利平台
掌桥专利
首页

一种基于置信度融合的多模态情绪识别方法及系统

文献发布时间:2024-04-18 20:00:50


一种基于置信度融合的多模态情绪识别方法及系统

技术领域

本发明属于人工智能技术领域,具体涉及一种基于置信度融合的多模态情绪识别方法及系统。

背景技术

情绪识别正受到越来越多的关注,由于其在人机交互系统的感知和决策提供了关键信息,使这些系统能够对用户的情绪状态做出适当的反应。在生理情绪特征中,脑电图具有无创、低成本和高时间分辨率等优点。不仅如此,由于EEG信号与高级认知过程直接相关,基于EEG的情绪识别在近年来受到越来越多的关注。此外,情绪数据的收集和识别过程往往受到不同程度的不确定性影响。因此,开发能够有效提取情感内在状态的鲁棒识别模型仍然是一项具有挑战性的任务。

许多基于机器学习或深度学习的方法已被用于基于EEG的情绪识别。HSAN能够联合建模EEG特征的局部和全局时间信息。MNSEP通过学习EEG脑网络中的判别图拓扑,能够使用多个与情绪相关的空间网络拓扑模式进行多类别情绪识别。OGSSL将自适应图学习和情绪识别统一为一个目标。然而上述方法依赖于单模态分析,不能完全反映情绪状态,难以达到令人满意的准确性和稳定性。得益于多模态之间的互补信息,整合生理信号和行为信号可以提高情绪识别的表现。ETF基于注意力机制融合EEG和眼动数据,以实现较高的情绪识别精度。MMResLSTM能够学习EEG与外围生理信号的潜在相关性,从而提高识别性能。EmotionMeter通过将EEG和眼动结合,整合了内部认知和外部潜意识行为,探索了多模态表征能力的互补特征。然而,情绪的复杂生理特性使得不确定性成为情绪识别中的一个重要因素。具体来说,多模态数据中各种形式不确定性的存在增加了准确识别情绪的难度。

近年来,研究者提出了一些基于不确定性学习的情绪识别方法。例如,EMENet通过采用深度集成模型从多个情绪描述符中捕获不确定性,并应用迭代自蒸馏来提高情绪识别和不确定性估计的性能。IQI能够用来描述不同频段信号强度的不确定性,从而精确提取和选择脑电情绪特征。SCN通过自注意力机制对训练中的每个样本进行加权。值得注意的是,这些不确定性分析方法都是针对单模态情绪预测而开发的,并不能环节多模态情绪数据和融合模型中更多的不确定性。多模态情绪数据和模型中的不确定性归结为以下三个方面:首先,多模态情绪数据通常具有不同的语义表示,并且由于情绪产生的机制不同,每个时间窗口对情绪状态的重要性也不同,这反映了时间层面的不确定性。其次,不同模态所产生的决策模糊性导致了融合层面的不确定性。第三,同一模型识别来自不同主体或轨迹的情绪样本的难度或置信度不同,反映了样本层面的不确定性。上述不确定性共同给多模态情感识别带来了挑战。因此,迫切需要开发有效的融合方法来缓解上述不确定性,提高多模态情感识别的性能。

发明内容

发明目的:针对单模态脑电情绪识别方法存在的不足问题,本发明的第一目的是提供一种基于置信度融合的多模态情绪识别方法,它能够系统地对多模态情绪数据中的不确定性进行建模,通过不确定性估计揭示情绪的动态变化。基于该方法的应用,本发明第二目的是提供一种基于置信度融合的多模态情绪识别系统。

技术方案:一种基于置信度融合的多模态情绪识别方法,该方法针对多模态情绪数据中的不确定性进行建模,通过不确定性估计揭示情绪的动态变化,包括如下步骤:

S1、获取多模态情绪序列数据,对该数据进行预处理,得到预处理后的同步多模态序列矩阵;

S2、基于步骤1中得到的经过预处理的数据,将数据输入共享权重的多通道LSTM进行多模态特征对齐以及时间特征提取,挖掘多模态序列数据中的潜在相关性;

将EEG信号和面部表情数据分别定义为

式中,

S3、使用自注意力机制来建模时间层面的不确定性,识别出更可靠的时间段内的序列数据,最后得到两个模态的嵌入特征;

由多通道LSTM产生的X'

式中,查询Q

S4、基于真类概率设计置信度回归网络来获得模态的置信度,同时为了保持多模态数据之间的共同特征,采用KL-divergence来约束不同模态的相似性;

其中,所述真类概率使用真实标签对应的SoftMax输出概率作为预测置信度,每个模态的TCP表示为:

TCP

式中,x

S5、基于置信度作为多模态融合的指导,实现可信多模态融合,通过自注意力机制提取EEG和面部表情模态特征,分别表示为f

S6、基于融合后的多模态特征进行分类,实现情绪识别,其中包括使用交叉熵损失来监督多模态学习;

S7、在优化阶段采用自步学习对样本层面不确定性进行建模,为了学习多模态输入的鲁棒表示,采用自定节奏学习,基于低到高不确定性的样本来训练上述模型,由此提高模型鲁棒性。

进一步的,步骤S1具体过程包括:

S1.1、基于Python的MNE工具包和基于MATLAB的OPENFACE工具箱对所使用的数据集进行预处理,对于数据集中的EEG信号执行下采样,将信号下采样到128Hz;

S1.2、使用mne.filter()对EEG信号进行带通滤波器滤波,以过滤EEG信号中与情绪激活不相关的频率范围;

S1.3、通过Welch方法提取EEG中t秒非重叠时间窗口的功率频谱密度特征;

S1.4、对于数据集中的面部表情数据,将数据集中原始的视频数据导入OPENFACE工具箱的GUI界面中;

S1.5、使用OPENFACE提取面部视频的特征,其中包括相对于摄像头的面部位置,头部位置,眼睛凝视方向和面部动作单元;

S1.6、根据t秒非重叠滑动窗口,取时间窗各特征的平均值作为最终使用的特征。

所述方法中,步骤S3所述的模型的嵌入特征提取如下:

通过计算Q

式中,d代表归一化参数,它与K

所述方法中,步骤S4对于模态m,通过一个置信回归网络g

这里的c

进一步的,步骤S4中通过KL-divergence来约束不同模态的相似性,不仅可以学习置信度c

其中,由模态间KL散度计算的KD-loss表示为:

这里

所述方法中,步骤S5还包括通过赋予较高的权重,增强不确定性较低的模态的破坏性;通过赋予较低的权重,可以抑制不确定性较高的模态,数学表示如下:

这里c

所述方法中,步骤S6通过交叉熵损失来监督多模态学习,避免模型的过渡拟合,计算表达式如下:

式中,

所述方法中,步骤S7所述自定节奏学习,基于低到高不确定性的样本来训练过程如下:

引入样本权变量v=[v

这里n代表训练样本的数量,y

上式中的自步学习正则化项f(v

f(v

则可得到上述目标对应的近似解:

其中,初始化λ的值为1,λ随训练的递增步长为1.15。

更进一步的,在初始阶段,随机选择一小部分训练数据来训练模型;随着训练的进行,根据样本的训练损失将更多的样本加入到训练过程中,直到包括所有样本,这使得模型能够学习到更鲁棒的多模态特征表示。

通过实施上述方法及步骤,相应的可得到一种基于置信度融合的多模态情绪识别系统,该系统包括基于时间不确定性的多模态特征对齐模块、基于模态不确定性的置信度感知融合模块、分类模块和基于样本不确定性的模型鲁棒性优化模块。

该系统中,所述的置信度感知融合模块由多通道LSTM、自注意力机制、置信度回归模块和自步学习机制组成;

所述的多通道LSTM用于对异构多模态情绪数据进行跨模态对齐,从而更好地解决模态异质性对融合造成的负面影响;

所述的自注意力机制用于挖掘序列数据在时间上的不确定性,进一步学习有效的特征表示;

所述的置信度回归模块用于获取不同模态特征的模态置信度,以作为多模态融合的加权指导,从而提升多模态融合的可靠性和情绪识别的准确性;

所述的自步学习机制用于让模型逐步将不确定性样本加入到模型训练过程中,从而更好地建模样本层面的不确定性,提高模型的鲁棒性和泛化能力。

有益效果:与现有技术相比,本发明显著的效果和实质性的特点主要在于:

(1)本发明提出了一种新型的自动化多模态情绪识别方法,该方法能够系统地建模多模态情绪识别中的不确定性,实现了多模态情绪数据的可信融合,并且明确地揭示了情绪地动态变化。

(2)开发了一个具有注意力机制地多通道LSTM特征提取网络,该网络可以同时校准异构多模态数据并自适应地预测时间层面上的情绪不确定性。

(3)提出了一种基于真类概率的置信度回归模块来估计情绪预测在模态层面上的不确定性,通过置信度加权实现了更好的融合可解释性和更可靠的多模态情绪识别表现。

(4)在模型的优化过程中,采用自步学习来提高所提出模型的鲁棒性。在多个多模态情绪数据集上的实验结果表明,该方法的表现优于当前最先进的情绪识别算法,并通过消融研究验证了该方法的有效性。

附图说明

图1是本发明所述方法的工作流程图;

图2是本发明中所述的数据预处理流程图;

图3是本发明所述方法应用的系统整体框架图;

图4是本发明中的置信度回归模块框架图。

具体实施方式

为详细的说明本发明所公开的技术方案,下面结合说明书附图做进一步的介绍。

现有的单模态脑电情绪识别方法难以反映受试者的情绪状态,且无法利用多模态数据中的互补信息,从而使其准确性和稳定性难以令人满意。同时,情绪的复杂生理特性使得不确定性成为情绪识别中的一个重要因素,多模态情绪识别中各种形式的不确定性增加了准确识别的难度。

本发明所提供的是一种基于置信度融合的多模态情绪识别方法,结合图1所示的流程,实施例采用完全连接的神经网络层,其中共享权重的多通道LSTM网络的隐藏层为256个节点,层数为1,自注意力的线性变换层为256个节点,前馈网络的隐藏层为512个节点,并在最后一层使用softmax作为激活函数,在整个模型中,使用RELU作为激活函数。下面进一步的介绍本发明所述方法的实施步骤:

S1:获取多模态情绪序列数据,对该数据进行预处理,得到预处理后的同步多模态序列矩阵。

结合图2所示,步骤S1所述的数据预处理具体如下:

借助基于Python的MNE工具包和基于MATLAB的OPENFACE工具箱对所使用的数据集进行预处理。

对于数据集中的EEG信号,首先将信号下采样到128Hz。

使用mne.filter()对EEG信号进行带通滤波器滤波,以过滤EEG信号中与情绪激活不相关的频率范围。

接着使用mne.time_frequency.psd_welch,即采取Welch方法提取EEG中t秒非重叠时间窗口的功率频谱密度特征。

对于数据集中的面部表情数据,首先打开OPENFACE工具箱的GUI界面,将数据集中原始的视频数据导入。

接着使用OPENFACE提取面部视频的特征,其中包括3个相对于摄像头的面部位置,3个头部位置,6个眼睛凝视方向和17个面部动作单元。

最后,与EEG信号类似,根据t秒非重叠滑动窗口,取时间窗各特征的平均值作为最终使用的特征。

S2、基于步骤1中得到的经过预处理的数据,将数据输入共享权重的多通道LSTM进行多模态特征对齐以及时间特征提取,挖掘多模态序列数据中的潜在相关性。

将EEG信号和面部表情数据分别定义为

这里

步骤3:使用自注意力机制来建模时间层面的不确定性,识别出更可靠的时间段内的序列数据,最后得到两个模态的嵌入特征。

由于情绪模式的差异,即使在长时间和连续的刺激中,也很难保证在不同模式之间进行一致的情绪预测,这导致生理或非生理序列的某些时间段存在潜在的不确定性。为了克服这一局限性,增强时间信息的特异性,本发明采用自注意力机制,在序列数据中识别更可靠的时间段,对由多通道LSTM产生的X'

这里的查询Q

然后,通过注意力系数与V

这里d代表归一化参数,它与K

步骤4:基于真类概率设计置信度回归网络来获得模态的置信度。

得益于多模态信息之间的互补性,虽然多模态融合通常能够增强情绪识别的性能,但不同模态的决策不一致可能对多模态融合产生负面影响。为了有效整合多模态信息,对每个模态的预测置信度进行估计是至关重要的。模态的预测置信度越高,对模型预测的不确定性就越低。因此,本发明引入了真类概率(TCP)来作为衡量模态置信度的标准。

TCP使用真实标签对应的SoftMax输出概率作为预测置信度。形式上,每个模态的TCP可以表示为:

TCP

这里x

对于模态m,本发明设计了一个置信回归网络g

这里的c

这里

步骤5:基于置信度作为多模态融合的指导,实现可信多模态融合。

该方法利用自注意力机制提取EEG和面部表情模态特征,分别表示为f

这里c

步骤6:基于融合后的多模态特征进行分类,实现情绪识别。

对于多模态任务,现有技术通常使用二元交叉熵(BCE)来监督每个分支的学习,但它会严重惩罚无法从特定模态分类的样本。在这种情况下,模型可能会过度拟合数据中的偏差,从而导致模型的过度拟合。因此,基于由置信度感知融合得到的联合特征表示,本发明使用交叉熵(CE)损失来监督多模态学习:

这里P(f

步骤7:在优化阶段采用自步学习对样本层面不确定性进行建模,提高模型鲁棒性。

如果在训练过程中较早地引入具有较高训练学习损失的样本,则它们更有可能对模型的鲁棒性产生负面影响。为了学习多模态输入的鲁棒表示,该方法采用自定节奏学习,基于低到高不确定性的样本来训练上述模型。

具体来说,引入了样本权变量v=[v

这里n代表训练样本的数量,y

f(v

则可得到上述目标对应的近似解:

初始化λ的值为1,λ随训练的递增步长为1.15。在初始阶段,本发明随机选择一小部分训练数据来训练模型。随着训练的进行,根据样本的训练损失将更多的样本加入到训练过程中,直到包括所有样本,这使得模型能够学习到更鲁棒的多模态特征表示。

进一步的结合图3和图4,本发明所提出的多模态情绪识别模型包括基于时间不确定性的多模态特征对齐模块、基于模态不确定性的置信度感知融合模块、分类模块和基于样本不确定性的模型鲁棒性优化模块。所提出系统的整体框架结构如图1所示,其中置信度回归模块的框架结构如图4所示。它由多通道LSTM、自注意力机制、置信度回归模块和自步学习机制组成。其中,多通道LSTM的作用是对异构多模态情绪数据进行跨模态对齐,从而更好地解决模态异质性对融合造成的负面影响。自注意力机制能够挖掘序列数据在时间上的不确定性,进一步学习有效的特征表示。置信度回归模块的作用是获取不同模态特征的模态置信度,以作为多模态融合的加权指导,从而提升多模态融合的可靠性和情绪识别的准确性。自步学习机制能够让模型逐步将不确定性样本加入到模型训练过程中,从而更好地建模样本层面的不确定性,提高模型的鲁棒性和泛化能力。Confidence Regression Loss(L

综上所述,本发明所提供的方法中,多通道LSTM的作用是对异构多模态情绪数据进行跨模态对齐,从而更好地解决模态异质性对融合造成的负面影响。自注意力机制能够挖掘序列数据在时间上的不确定性,进一步学习有效的特征表示。置信度回归模块的作用是获取不同模态特征的模态置信度,以作为多模态融合的加权指导,从而提升多模态融合的可靠性和情绪识别的准确性。自步学习机制能够让模型逐步将不确定性样本加入到模型训练过程中,从而更好地建模样本层面的不确定性,提高模型的鲁棒性和泛化能力,L

技术分类

06120116541443