掌桥专利:专业的专利平台
掌桥专利
首页

一种多模态情绪识别方法、系统、设备及介质

文献发布时间:2024-04-18 20:01:30


一种多模态情绪识别方法、系统、设备及介质

技术领域

本发明涉及情绪识别领域,特别是涉及一种多模态情绪识别方法、系统、设备及介质。

背景技术

智能驾驶车辆或自动驾驶车辆是一个集成了感知、运算、决策等功能的综合系统,它集合了汽车工程、传感器、自动化、人工智能、自动驾驶等技术。目前智能驾驶车辆的两个主要方向是智能座舱和智能驾驶。自动驾驶主要是车辆和外部的感知、交互和决策,而智能座舱则主要是车辆和内部的感知、交互和决策。相对而言,智能座舱较容易实现,目前已在很多智能汽车上使用,其中,情绪识别是智能座舱系统的典型功能之一,可以通过情绪识别功能判定出驾驶人员的情绪特征,然后可以针对性的自动调节座舱的音乐、灯光、温度、气味等场景,从而提升驾驶体验感以及安全性能,比如对“路怒症”加以预防。

现有技术中,针对驾驶员情绪识别的研究中,根据模式的不同,大致可以分为如下四类:基于语音的情绪识别、基于面部图像的情绪识别、基于驾驶员生理信号的情绪识别和基于驾驶行为的情绪识别。由于语音中并不能及时的反应驾驶员的情绪变化,一般该方法仅可作为辅助手段而不能作为主要的识别方法。基于驾驶行为的识别主要是通过驾驶员与车辆各模块的交互,如方向盘或脚踏板的交互力度来识别情绪,一般也仅能作为辅助手段。基于驾驶员生理信号,如脑电灯,可以比较精确的识别驾驶员情绪,但脑电信号比较微弱,且容易受驾驶员动作或驾驶环境的影响,在真实环境中很难作为唯一的方法去检测情绪。基于面部图像进行情绪识别是目前最为广泛应用的方法,一般通过提取面部的特征识别情绪。但面部特征容易被掩饰,并不能准确的识别情绪。当前智能座舱系统一般采用单一模态进行情绪识别,导致情绪识别准确率不高。

随着深度学习技术的发展,情绪识别模型使用神经网络等技术可以显著提高识别精度。但在驾驶中,采集的数据量有限,一般需要经过较长时间的数据积累,才能使深度学习识别模型有较高的识别精度,非常影响情绪识别的响应速率。

因此,如何提高情绪识别的准确率和响应速率,以满足智能座舱的需求,至关重要。

发明内容

本发明的目的是提供一种多模态情绪识别方法、系统、设备及介质,能够提高情绪识别的准确率和响应速率。

为实现上述目的,本发明提供了如下方案:

一种多模态情绪识别方法,所述方法包括:

获取驾驶员的多模态数据;所述多模态数据包括:脑电信息数据和人脸图像数据;所述脑电信息数据是采用布设在驾驶员头部的电极,采集的脑电信号;

对所述脑电信息数据进行分帧处理并进行特征提取,得到脑电特征向量;

对所述人脸图像数据进行灰度转换以及特征检测,得到人脸特征向量;

对所述脑电特征向量和所述人脸特征向量进行拼接,得到多模态融合向量;

采用对抗网络对所述多模态融合向量进行数据增强处理,得到增强特征融合向量;

将所述多模态融合向量和所述增强特征融合向量输入至情绪识别模型,输出情绪识别结果;所述情绪识别模型是采用学习算法构建的;所述情绪识别结果为愤怒情绪或者非愤怒情绪。

可选地,对所述脑电信息数据进行分帧处理并进行特征提取,得到脑电特征向量,具体包括:

采用带通滤波器和盲源分离技术对所述脑电信息数据进行预处理,得到处理后的脑电信息数据;所述预处理包括:去除噪声和去除伪迹;

采用滑动窗口方法按照设定步长对处理后的脑电信息数据进行分帧处理,得到多个窗口数据;

对每个所述窗口数据进行特征提取,得到对应的特征向量;

将所有的特征向量确定为所述脑电特征向量。

可选地,所述设定步长为0-2秒。

可选地,对所述人脸图像数据进行灰度转换以及特征检测,得到人脸特征向量,具体包括:

对所述人脸图像数据进行裁剪,得到人脸图像裁剪数据;

对所述人脸图像裁剪数据进行灰度转化,得到灰度人脸图像数据;

采用定向梯度方图和局部二进制模式特征方法,对所述灰度人脸图像数据进行特征检测,得到所述人脸特征向量。

可选地,所述情绪识别模型的确定方法,具体包括:

获取训练数据;所述训练数据包括:训练的多模态数据和标签数据;所述标签数据为训练的多模态数据对应的情绪识别结果;

对训练的多模态数据中的脑电信息数据进行分帧处理并进行特征提取,得到训练脑电特征向量;

对训练的多模态数据中的人脸图像数据进行灰度转换以及特征检测,得到训练人脸特征向量;

对所述训练脑电特征向量和所述训练人脸特征向量进行拼接,得到训练多模态融合向量;

采用对抗网络对所述训练多模态融合向量进行数据增强处理,得到训练增强特征融合向量;

将融合向量划分为训练集和测试集;所述融合向量包括:所述训练增强特征融合向量和所述训练多模态融合向量;

构架学习神经网络;

将所述训练集输入至所述学习神经网络,以目标函数最小为目标,对所述学习网络的参数进行训练,得到训练后的学习神经网络;所述目标函数是根据所述学习神经网络的输出结果与所述训练集对应的标签数据之间的误差确定的;

将所述测试集和所述测试集对应的标签数据输入至训练后的学习神经网络,对训练后的学习神经网络的参数进行调整,得到调整后的学习神经网络;

将调整后的学习神经网络确定为所述情绪识别模型。

可选地,所述方法还包括:

根据所述情绪识别结果,对驾驶员进行情绪调节处理。

一种多模态情绪识别系统,所述系统包括:

数据获取模块,用于获取驾驶员的多模态数据;所述多模态数据包括:脑电信息数据和人脸图像数据;所述脑电信息数据是采用布设在驾驶员头部的电极,采集的脑电信号;

提取模块,用于对所述脑电信息数据进行分帧处理并进行特征提取,得到脑电特征向量;

检测模块,用于对所述人脸图像数据进行灰度转换以及特征检测,得到人脸特征向量;

融合模块,用于对所述脑电特征向量和所述人脸特征向量进行拼接,得到多模态融合向量;

增强处理模块,用于采用对抗网络对所述多模态融合向量进行数据增强处理,得到增强特征融合向量;

识别模块,用于将所述多模态融合向量和所述增强特征融合向量输入至情绪识别模型,输出情绪识别结果;所述情绪识别模型是采用学习算法构建的;所述情绪识别结果为愤怒情绪或者非愤怒情绪。

一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述所述的多模态情绪识别方法。

一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的多模态情绪识别方法。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明提供了一种多模态情绪识别方法、系统、设备及介质,通过获取驾驶员的多模态数据;对脑电信息数据进行分帧处理并进行特征提取,得到脑电特征向量;对人脸图像数据进行灰度转换以及特征检测,得到人脸特征向量;对脑电特征向量和人脸特征向量进行拼接,得到多模态融合向量;采用对抗网络对多模态融合向量进行数据增强处理,得到增强特征融合向量;将增强特征融合向量输入至情绪识别模型,输出情绪识别结果;由于情绪识别模型是采用学习算法构建的,并且对多模态融合向量进行了数据增强处理,因此,本发明能够提高情绪识别的准确率和响应速率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多模态情绪识别方法的流程图;

图2为本发明实施例提供的多模态情绪识别方法在实际应用中的操作步骤;

图3为本发明实施例提供的多模态融合向量的处理过程的示意图;

图4为本发明实施例提供的多模态融合向量的过程示意图;

图5为本发明实施例提供的对抗网络处理过程示意图;

图6为本发明实施例提供的情绪识别和情绪干预的示意图;

图7为本发明实施例提供的多模态情绪识别系统的结构图。

符号说明:

数据获取模块-1、提取模块-2、检测模块-3、融合模块-4、增强处理模块-5、识别模块-6。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种多模态情绪识别方法、系统、设备及介质,能够提高情绪识别的准确率和响应速率。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示,本发明实施例提供了一种多模态情绪识别方法,该方法包括:

步骤100:获取驾驶员的多模态数据。其中,多模态数据包括:脑电信息数据和人脸图像数据;脑电信息数据是采用布设在驾驶员头部的电极,采集的脑电信号。

步骤200:对脑电信息数据进行分帧处理并进行特征提取,得到脑电特征向量。

其中,对脑电信息数据进行分帧处理并进行特征提取,得到脑电特征向量,具体包括:

采用带通滤波器和盲源分离技术对脑电信息数据进行预处理,得到处理后的脑电信息数据;预处理包括:去除噪声和去除伪迹。

采用滑动窗口方法按照设定步长对处理后的脑电信息数据进行分帧处理,得到多个窗口数据。设定步长为0-2秒。

对每个窗口数据进行特征提取,得到对应的特征向量。

将所有的特征向量确定为脑电特征向量。

在实际应用中,可以在驾驶员的头部布置的所有电极中,挑选与情绪识别相关的电极,可以消除脑电信号样本的计算复杂度,例如选择FP1、FP2、F3、C4等电极。

将选择通道的脑电数据进行分帧处理,使用汉宁窗、汉明窗、或三角窗等技术将脑电数据以0-2秒的窗口分成多帧,以每帧提取特征,形成脑电特征向量。

脑电特征向量包括时域特征、频域特征和时频相关特征对应的向量。本发明优选脑电的微分熵(Differential Entropy,DE)特征向量。

步骤300:对人脸图像数据进行灰度转换以及特征检测,得到人脸特征向量。

其中,对人脸图像数据进行灰度转换以及特征检测,得到人脸特征向量,具体包括:

对人脸图像数据进行裁剪,得到人脸图像裁剪数据;对人脸图像裁剪数据进行灰度转化,得到灰度人脸图像数据;采用定向梯度方图和局部二进制模式特征方法,对灰度人脸图像数据进行特征检测,得到人脸特征向量。

在实际应用中,对人脸图像数据进行裁剪,以消除与人脸区域无关的信息。人脸图像数据可以从视频序列中提取得到。

可以利用Viola-Jones技术对图像中的人脸进行检测,对检测到的人脸进行裁剪并转化为尺寸一定的灰度图像,并从图像中进行特征提取。

Viola-Jones技术是一种实时处理的物体检测方法,主要用在人脸检测方面。它的过程包括提取图片的特征矩阵,使用AdaBoost机器算法来选择特征并训练分类器,使用级联架构快速并蒂漏检/误检率的识别人脸区域。

对灰度人脸图像数据进行特征检测,是人脸图像数据中可能与情绪识别相关的信息或特征。在进行裁剪以及转换为灰度图后,所有像素的灰度范围就是0-255,不同情绪下,人脸上不同结构,比如眼睛脸颊眉毛鼻子嘴等会呈现出不同的结构。通过对这些结构的灰度变化,就能得到对应的特征,可以用来识别情绪。

步骤400:对脑电特征向量和人脸特征向量进行拼接,得到多模态融合向量。

在实际应用中,是每0-2秒帧中提取的脑电特征向量和从每0-2秒帧中提取的人脸特征向量进行拼接,得到多模态融合向量。

步骤500:采用对抗网络对多模态融合向量进行数据增强处理,得到增强特征融合向量。

基于多模态融合向量,通过深度学习的方法生成更多高质量的特征融合数据。在特征融合阶段后做数据增强,而不是针对原始的数据增强,可以对多模态融合向量都可以进行增强的同时,大幅减少整体的数据量,显著提升数据增强的速率。

优选使用生成对抗网络(Generative Adversarial Networks,GAN),及其衍生模型,例如Wasserstein生成对抗网络(WGAN)。

GAN是新兴的深度学习结构,常用于生成类似真实的数据。一个标准的GAN由两个相互竞争的深度神经网络组件组成,分别是生成器和判别器。生成器G在给定输入噪声变量的情况下,生成类似真实的数据,而判别器要尝试识别一个样本是来自生成数据或真实数据。生成器和判别器之间对抗性训练,过程可以表示为一个极大极小问题:

其中θ

通过与判别器的对抗,生成器能够生成大量高质量的特征融合向量。如图5所示。生成数据的质量可以使用生成器和判别的损失条件进行选择。

步骤600:将多模态融合向量和增强特征融合向量输入至情绪识别模型,输出情绪识别结果。其中,情绪识别模型是采用学习算法构建的;情绪识别结果为愤怒情绪或者非愤怒情绪。

其中,情绪识别模型的确定方法,具体包括:

获取训练数据;训练数据包括:训练的多模态数据和标签数据;标签数据为训练的多模态数据对应的情绪识别结果。

对训练的多模态数据中的脑电信息数据进行分帧处理并进行特征提取,得到训练脑电特征向量。

对训练的多模态数据中的人脸图像数据进行灰度转换以及特征检测,得到训练人脸特征向量。

对训练脑电特征向量和训练人脸特征向量进行拼接,得到训练多模态融合向量。

采用对抗网络对训练多模态融合向量进行数据增强处理,得到训练增强特征融合向量。

将融合向量划分为训练集和测试集;所述融合向量包括:训练增强特征融合向量和训练多模态融合向量。

构架学习神经网络;将训练集输入至学习神经网络,以目标函数最小为目标,对学习网络的参数进行训练,得到训练后的学习神经网络;目标函数是根据学习神经网络的输出结果与训练集对应的标签数据之间的误差确定的。

将测试集和测试集对应的标签数据输入至训练后的学习神经网络,对训练后的学习神经网络的参数进行调整,得到调整后的学习神经网络。

将调整后的学习神经网络确定为情绪识别模型。

如图6所示,在实际应用中,还可以将特征融合Pr和生成的高质量特征融合Pg一起输入到情绪识别模型中。情绪识别模型中使用深度学习算法或机器学习算法,如支持向量机(Support Vector Machine,SVM)、随机森林(Random forest,RF)和K邻近(K-NearestNeighbor,KNN)等,识别特征融合数据,输出情绪识别结果。

在一种实施例中,该方法还包括:根据情绪识别结果,对驾驶员进行情绪调节处理。

在实际应用中,可以采用座舱系统根据情绪识别模型输出的结果,做出干预动作。例如检测出驾驶员情绪异常时,可以及时发出预警信号,并通过多种方法调节驾驶员情绪。常用的情绪调节方法包括视频、音乐、灯光、温度和气味等。

在实际应用中,如图2所示,为多模态情绪识别方法的操作步骤,通过获取驾驶员或者乘客的多模态原始数据,然后对原始数据进行预处理,然后进行多模态数据增强,进而通过情绪识别模型得到情绪识别结果,并进行干预。

关于多模态融合向量的处理过程,如图3所示。分别对脑电信息数据和人脸图像数据进行预处理以及特征提取的操作,最终进行特征融合Pr,得到多模态融合向量。

图4为对脑电特征向量和人脸特征向量进行拼接,得到多模态融合向量的过程示意图。

关于进行人脸特征向量检测,优选采用定向梯度方图(Histogram of OrientedGradients,HOG)和局部二进制模式(Local Binary Patterns)特征方法。

实施例2

如图7所示,本发明实施例提供了一种多模态情绪识别系统,该系统包括:数据获取模块1、提取模块2、检测模块3、融合模块4、增强处理模块5和识别模块6。

数据获取模块1,用于获取驾驶员的多模态数据;多模态数据包括:脑电信息数据和人脸图像数据;脑电信息数据是采用布设在驾驶员头部的电极,采集的脑电信号。

提取模块2,用于对脑电信息数据进行分帧处理并进行特征提取,得到脑电特征向量。

检测模块3,用于对人脸图像数据进行灰度转换以及特征检测,得到人脸特征向量。

融合模块4,用于对脑电特征向量和人脸特征向量进行拼接,得到多模态融合向量。

增强处理模块5,用于采用对抗网络对多模态融合向量进行数据增强处理,得到增强特征融合向量。

识别模块6,用于将多模态融合向量和增强特征融合向量输入至情绪识别模型,输出情绪识别结果;情绪识别模型是采用学习算法构建的;情绪识别结果为愤怒情绪或者非愤怒情绪。

实施例3

本发明实施例提供了一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例1中的多模态情绪识别方法。

作为一种可选地实施方式,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时实现实施例1中的多模态情绪识别方法。

本发明通过获取多模态数据采集、数据预处理和特征提取、特征融合、特征融合增强,以及搭建多模态网络的情绪识别模型,输出情绪识别结果,最终智能座舱提供情绪干预手段。由于情绪识别模型对数据量的要求较高,为了快速识别情绪,本发明使用对抗网络等神经网络生成高质量的增强特征融合向量,可以与原始融合特征一起输入到情绪识别模型中,能增加识别模型的情绪识别精度和速度。本发明提出的驾驶员情绪识别方法可以显著提高情绪的识别精度和响应速度,可以为智能座舱中驾驶员的情绪识别和情绪干预做出贡献。

简而言之,本发明提出了多模态的特征提取和融合方法,通过深度学习算法对特征融合做了数据增强处理,并通过情绪识别模型快速识别驾驶员情绪,为智能座舱的情绪调节提供基础。本发明能够精确的识别情绪,并能够在短时间内多模态数据较少的情况下,通过多模态同时的数据增强,提高了识别精度和响应速度。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种复合面料及其制备方法和基于其的汽车内饰面料
  • 一种多功能户外运动面料的加工方法
  • 一种基于双面异色数码印花的防辐射保温复合面料的制备方法
  • 一种基于SBS/聚氨酯复合的高粘改性沥青及其制备方法
  • 一种基于改性黑色素纳米颗粒的紫外屏蔽复合材料及其制备方法
  • 一种基于高弹力改性复合面料运动户外服及其加工方法
  • 一种高弹力改性复合面料的织针衫研发用尺寸测量尺
技术分类

06120116562540