掌桥专利:专业的专利平台
掌桥专利
首页

微表情识别方法、装置、微表情识别模型的训练方法

文献发布时间:2023-06-19 19:28:50


微表情识别方法、装置、微表情识别模型的训练方法

技术领域

本申请属于人工智能领域,具体而言,涉及一种微表情识别方法、装置、微表情识别模型的训练方法、电子设备及存储介质。

背景技术

微表情由于持续时间段,肌肉起伏低,对自动识别技术提出了巨大的挑战。传统微表情识别方法一般基于手工特征,如局部二值模式、光流直方图、梯度直方图等,以此实现微表情分析,但是这些方法过分依赖先验知识,且提取的信息大多浮于表面,缺乏表征微表情的抽象特征。

近年来,基于卷积神经网络的方法得到普及,并被应用于自动识别人脸微表情,但是这类方法需要海量数据来训练模型,而微表情数据往往数量相对较少,导致无法精准识别微表情,此外,卷积神经网络的全局建模能力较弱,无法根据全局面部肌肉运动来感知微表情变化。

发明内容

为解决上述技术问题,本申请的实施例提供了一种微表情识别方法、装置、微表情识别模型的训练方法、电子设备、计算机可读存储介质。

根据本申请实施例的一个方面,提供了一种微表情识别方法,包括:获取待识别图像的多个图像块;基于多头自注意力机制,分别提取所述多个图像块的自注意力特征,得到所述多个图像块的特征图;基于双通道分别学习所述特征图的注意力权重,以对所述特征图进行调整,得到目标特征图;基于所述目标特征图进行所述待识别图像的微表情识别。

在一实施例中,所述基于多头自注意力机制,分别提取所述多个图像块的自注意力特征,得到所述多个图像块的特征图,包括:

将所述多个图像块划分为不同的图像块集合;

针对不同的图像块集合分别提取各图像块集合的集合自注意力特征;

将所述各图像块集合的集合自注意力特征进行特征拼接,得到所述多个图像块的特征图。

在一实施例中,所述多个图像块包括含有人脸关键点的第一集合以及不含人脸关键点的第二集合;所述基于双通道分别学习所述特征图的注意力权重,以对所述特征图进行调整,得到目标特征图,包括:

基于双通道分别学习所述第一集合的特征图以及所述第二集合的特征图,对应得到第一注意力权重和第二注意力权重;

基于所述第一注意力权重调整所述第一集合的特征图,并基于所述第二注意力权重调整所述第二集合的特征图;

将经调整的第一集合的特征图和经调整的第二集合的特征图进行拼接,得到所述目标特征图。

在一实施例中,在所述基于双通道分别学习所述第一集合的特征图以及所述第二集合的特征图,对应得到第一注意力权重和第二注意力权重之前,所述方法还包括:

定位所述待识别图像中的人脸关键点;

将所述多个图像块中包含所述人脸关键点的图像块作为所述第一集合,并将所述多个图像块中不包含所述人脸关键点的图像块作为所述第二集合。

在一实施例中,所述定位所述待识别图像中的人脸关键点,包括:

获取所述待识别图像中的初始人脸关键点;

在所述初始人脸关键点中去除面部轮廓相关的关键点,得到第一关键点;

基于所述第一关键点,定位所述待识别图像中的脸颊所在位置,得到第二关键点;

将所述第一关键点与所述第二关键点作为所述人脸关键点。

在一实施例中,所述基于所述第一关键点,定位所述待识别图像中的脸颊所在位置,得到第二关键点,包括:

在所述第一关键点中选取目标关键点集合;

计算所述目标关键点集合中关键点之间的中心点;

将所述中心点进行固定偏移,并将进行固定偏移后的中心点以及所述中心点作为第二关键点。

根据本申请实施例的一个方面,提供了一种微表情识别模型的训练方法,包括:将待训练图像输入至初始的微表情识别模型,以在所述初始的微表情识别模型,将所述待训练图像的多个训练图像块进行随机蒙版失活处理,以基于多头自注意力机制,得到进行随机蒙版失活处理的多个训练图像块的训练特征图,并基于双通道对所述训练特征图进行调整,得到目标训练特征图,以及基于所述目标训练特征图得到训练预测结果;根据预先训练的教师模型针对所述待训练图像所输出的预测结果,以及所述训练预测结果对所述初始的微表情识别模型进行训练。

根据本申请实施例的一个方面,提供了一种微表情识别装置,包括:图像块获取模块,配置为获取待识别图像的多个图像块;特征图获取模块,配置为基于多头自注意力机制,分别提取所述多个图像块的自注意力特征,得到所述多个图像块的特征图;目标特征图模块,配置为基于双通道分别学习所述特征图的注意力权重,以对所述特征图进行调整,得到目标特征图;微表情识别模块,配置为基于所述目标特征图进行所述待识别图像的微表情识别。

根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的微表情识别方法或微表情识别模型的训练方法。

根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的微表情识别方法或微表情识别模型的训练方法。

根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的微表情识别方法或微表情识别模型的训练方法。

在本申请的实施例所提供的技术方案中,多头自注意力机制深度挖掘待识别图像的特征,并通过双元通道感知单元自适应学习特征向量不同通道的重要性,以此精准实现微表情识别。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是本申请涉及的一种实施环境的示意图;

图2是本申请的一示例性实施例示出的微表情识别方法流程图;

图3是本申请的一示例性实施例示出的微表情识别模型的结构图;

图4是图2中所示实施例的步骤S230在一示例性实施例中的流程图;

图5是图2中所示实施例的步骤S250在一示例性实施例中的流程图;

图6是本申请的一示例性实施例示出的双元通道感知单元的结构图;

图7是本申请的另一示例性实施例示出的微表情识别方法流程图;

图8是本申请的一示例性实施例示出的微表情识别模型的训练方法流程图;

图9是本申请的另一示例性实施例示出的微表情识别模型的训练方法流程图;

图10是本申请的一示例性实施例示出的硬蒸馏过程图;

图11是本申请的一示例性实施例示出的微表情识别装置的结构示意图;

图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

现有微表情识别方法的优缺点:

基于传统方法识别微表情优点:

通过手工设计的特征提取器提取图像纹理、边缘等特征,易于实现,模型可解释性强。

基于传统方法识别微表情缺点:

过分依赖先验知识,且提取的信息大多浮于表面,缺乏表征微表情的抽象特征;需要复杂的实验设计和烦琐的参数调整才能获得理想的结果模型。

基于神经网络识别微表情优点:

神经网络强大的特征提取能力能有效提取面部特征,以完全智能化的方式识别微表情。

基于神经网络识别微表情缺点:

模型依赖海量的微表情训练数据,卷积神经网络的全局关系建模能力较弱,无法根据全局面部肌肉运动来感知微表情变化。

以下将对本申请实施例提出的微表情识别方法、装置、微表情识别模型的训练方法、电子设备、存储介质进行详细说明。

首先请参阅图1,图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端100和服务器端200,终端100和服务器端200之间通过有线或者无线网络进行通信。

终端100用于接收待识别图像,该待识别图像中应包含有任务的面部形象,以基于该面部形象进行微表情识别,且该待识别图像可以是一段视频中的图像帧,当需对一段视频中的成员进行微表情识别时,则可看对对视频的图像帧进行微表情识别。

终端100还将待识别图像发送至服务器端200,服务器端200中设置有预先训练好的微表情识别模型,以使服务器端200中的微表情识别模型对待识别图像中成员的微表情进行识别,得到识别结果,最后可通过终端100自带的显示模块可视化展示识别结果。

示例性的,终端100在收到待识别图像后,会将待识别图像发送至服务器端200;服务器端200中在收到待识别图像后,获取待识别图像的多个图像块;基于多头自注意力机制,分别提取多个图像块的自注意力特征,得到多个图像块的特征图;基于双通道分别学习特征图的注意力权重,以对特征图进行调整,得到目标特征图;基于目标特征图进行待识别图像的微表情识别。

其中,终端100可以是智能手机、平板、笔记本电脑、计算机等任意能够实现数据可视化的电子设备,本处不进行限制。服务器端200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,其中多个服务器可组成一区块链,而服务器为区块链上的节点,服务器端200还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处也不对此进行限制。

当然,本实施例中提出的微表情识别方法也可单独在终端100中完成。

图2是根据一示例性实施例示出一种微表情识别方法的流程图。该微表情识别方法可应用于图1所示的实施环境,并由该实施环境中的服务器端200具体执行,应该理解的是,该方法也可以是用于其他的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。

如图2所示,在一示例性实施例中,该方法可以包括步骤S210至步骤S270,详细介绍如下:

步骤S210:获取待识别图像的多个图像块。

本实施例中的微表情识别在预先训练好的微表情识别模型中完成,该微表情识别模型的结构可参考图3,其包括预处理模块、Transformer模块(Transformer:一种机器学习模型)以及预测模块,其中Transformer模块中还包括多头自注意力单元以及双元通道感知单元。

在一具体实施例中,待识别图像先进入预处理模块,预处理模块对待识别图像进行分割,得到多个图像块。

步骤S230:基于多头自注意力机制,分别提取多个图像块的自注意力特征,得到多个图像块的特征图。

多个图像块到达Transformer模块中,首先,其多头自注意力单元会对该多个图像块进行编码,得到二维图像块序列,然后引入两个可以学习的向量x

该多头自注意力单元中包括多个头,将拼接二维图像块序列中的图像块依次分配值不同的头,分别进行自注意力特征提取,即每个头可得到对应的特征序列,随后将每个头计算得到的特征序列拼接后再经过线性映射得到与输入(即拼接二维图像块序列)大小相同的特征图。

本实施例中的多头自注意力单元中的多头,可视为多个通道,即通过分割拼接二维图像块序列,将分割后得到的多个图像块分别送入不同的通道进行自注意力特征获取,最后将每个通道的特征序列拼接,即可得到拼接二维图像块序列的特征图。

步骤S250:基于双通道分别学习特征图的注意力权重,以对特征图进行调整,得到目标特征图。

当然,在Transformer模块中还存在一些单元结构在图3中暂未示出,如LN层(用于归一化操作)、残差连接单元,在多头自注意力单元输出特征图后,LN层会对输出的特征图进行归一化操作,残差连接单元则将输出的特征图和输入多头自注意力单元的数据进行拼接,并将拼接后的特征图发送至双元通道感知单元。

本实施例中,待识别图像的多个图像块包括含有人脸关键点的图像块构成的第一集合以及不含人脸关键点的图像块构成的第二集合,而双元通道感知单元则分别从第一集合和第二集合自适应学习输入特征序列的通道注意力权重。

即相当于双元通道感知单元中包含两个通道,一个通道学习第二集合对应的特征图,另一个集合学习第一集合对应的特征,该第一集合对应的特征图即为含有人脸关键点的图像块经过如步骤S230所示步骤所得到的特征图。

如此,则两个通道对应会输出第一注意力权重和第二注意力权重,此时,则通过第一注意力权重调整第一集合的特征图,并基于第二注意力权重调整第二集合的特征图,将经调整的第一集合的特征图和经调整的第二集合的特征图按输入双元通道感知单元时的位置还原,得到与输入双元通道感知单元大小相同的目标特征图。

步骤S270:基于目标特征图进行待识别图像的微表情识别。

与多头自注意力单元输出特征图后的处理过程相同的,在双元通道感知单元大小相同的目标特征图后,也通过LN层对输出的目标特征图进行归一化操作,残差连接单元则将输出的目标特征图和输入双元通道感知单元的数据进行拼接,并将拼接后的目标特征图发送至预测单元,以通过预测单元进行微表情识别,该目标特征图中向量x

本实施例中,该预测单元可以为MLP Head分类器,以通过MLP Head来进行微表情的识别。

本实施例中设置多头自注意力机制深度挖掘待识别图像的特征,为后续进行微表情识别提供更丰富的特征数据;另一方面基于人脸关键点将图像块分为不同的集合,并通过双元通道感知单元基于不同的集合,自适应学习特征向量不同通道的重要性,然后根据重要性数值重新权衡特征向量,以使模型能适应各种微表情识别场景,达到了精准识别面部微表情变化的效果。

本实施例中的微表情识别发方法能应用于面试沟通、在线教育、疲劳驾驶等场景,可实时捕捉被识别者无意识展现出的“微表情”,感知其内心的真实感受和情绪冲突,进而可帮助观察者或系统做出有效干预措施,或提升自身的沟通技能,如在疲劳驾驶场景,通过实时检测司机的面部微表情,准确判断是否存在疲劳驾驶、走神等非正常驾驶状态,减少交通事故的发生,加快智慧安全城市建设的步伐。

图4是针对图2中所示实施例的步骤S230在一示例性实施例中的流程图。如图4所示,在一示例性实施例中,步骤S230基于多头自注意力机制,分别提取多个图像块的自注意力特征,得到多个图像块的特征图的过程可以包括步骤S410至步骤S450,详细介绍如下:

步骤S410:将多个图像块划分为不同的图像块集合。

本实施例中,对于输入大小为x∈R

对于x

步骤S430:针对不同的图像块集合分别提取各图像块集合的集合自注意力特征。

每个头对对应的图像块集合进行处理,即可得到对应的集合自注意力特征。

在一具体实施例中,每个头中包含三个全连接层,通过三个全连接层对输入的图像块集合分别计算得到q,k,v,如对第一个头而言,其计算过程为[q,k,v]=x

其中d

步骤S450:将各图像块集合的集合自注意力特征进行特征拼接,得到多个图像块的特征图。

本实施例中,将每个头计算得到的特征序列(集合自注意力特征)拼接后再经过线性映射得到与输入大小相同的特征图O

O

其中,W

当然,以上为示例性的提出可设置8个头,在其他实施例中,还可设置其他数值的头,以多个图像块的自注意力特征,此处不进行具体限制。

本实施例中提出一种基于多头自注意力机制进行自注意力特征的方式,直接对所有图像块进行全局关系建模,促使模型从不同图像块的差异信息子空间提取微表情特征,通过设置多头,分别提取图像块的特征,以得到更丰富准确的特征,为后续进行微表情的精准识别提供参考数据。

图5是针对图2中所示实施例的步骤S250在一示例性实施例中的流程图。如图5所示,在一示例性实施例中,多个图像块包括含有人脸关键点的第一集合以及不含人脸关键点的第二集合;步骤S250基于双通道分别学习特征图的注意力权重,以对特征图进行调整,得到目标特征图的过程可以包括步骤S510至步骤S550,详细介绍如下:

步骤S510:基于双通道分别学习第一集合的特征图以及第二集合的特征图,对应得到第一注意力权重和第二注意力权重。

对于多个图像块,通过人脸关键点可分为第一集合和第二集合,双元通道感知单元分别从第一集合和第二集合自适应学习输入特征图的通道注意力权重,然后动态调整特征图中的数值,该过程可参考图6,针对x

其中,第一集合和第二集合的dropout(dropout是让某些神经元以一定的概率不工作)概率不同,第一集合的dropout概率为0.2,第二集合的dropout概率为0.1,注意力权重的计算公式为:

z

其中,z

步骤S530:基于第一注意力权重调整第一集合的特征图,并基于第二注意力权重调整第二集合的特征图。

在得到注意力权重后,则可基于注意力权重调整特征图对应位置的数值:

z

其中,z

步骤S550:将经调整的第一集合的特征图和经调整的第二集合的特征图进行拼接,得到目标特征图。

本实施例中,将经调整的第一集合的特征图和经调整的第二集合的特征图进行拼接融合(merqe),即还原到与输入双元通道感知单元的数据相同大小的目标特征图:

其中,z

本实施例中,通过双元通道感知单元自适应学习特征图不同通道的重要性,然后根据重要性数值重新权衡特征图,以便于后续得到精准的预测结果。

图7是根据另一示例性实施例示出一种微表情识别方法的流程图。该方法可运行于图5的步骤S510之前,具体地,该方法可在图2中的步骤S210中完成,即在预处理模块中完成,该过程可以包括步骤S710至步骤S730,详细介绍如下:

步骤S710:定位待识别图像中的人脸关键点。

本实施例中,在预处理模块中,即会先确定第一集合与第二集合。

具体地,先通过2D-FAN(基于人体姿态估计架构)在待识别图像上定位68个初始人脸关键点,并丢弃面部轮廓的18个关键点,保留剩下的50个初始人脸关键点,即50个第一关键点。

为了有效表征脸颊区域的肌肉变化,需增加四个关键点来标定脸颊所在位置,该脸颊所在位置的关键点可以通过人工标定得到,也可通过第一关键点进行计算得到,如在第一关键点中选取目标关键点集合;计算目标关键点集合中关键点之间的中心点,即得到左/右脸各一个的关键点;将左/右脸的中心点进行固定偏移,又得到固定偏移的两个关键点。

如在一具体实施例中,在左右脸分别选择眉弓与嘴唇上的某一关键点,得到目标关键点集合,该目标关键点集合中包括4个关键点,2个关键点在待识别图像中的左脸,另外两个关键点在待识别图像的右脸。

针对左脸的2个关键点而言,一个关键点在左脸的眉弓处,另一关键点在左脸的嘴唇处,如在眉弓处的关键点为待识别图像眉弓处的第二个关键点,在左脸的嘴唇处的关键点为左下嘴唇的第一个关键点,然后根据这两个左脸的关键点计算中心点,即得到左脸的一个标定脸颊所在位置的关键点。

对于右脸的2个关键点,同样可以参考左脸标定脸颊所在位置的关键点的获取过程,如此,也得到右脸的一个标定脸颊所在位置的关键点。

随后,根据左右嘴角点的固定偏移(x,y)

将得到的4个关键点和50个第一关键点统称为待识别图像中的人脸关键点。

步骤S730:将多个图像块中包含人脸关键点的图像块作为第一集合,并将多个图像块中不包含人脸关键点的图像块作为第二集合。

对于输入大小为

集合。

本实施例中提出一种图像块划分为第一集合和第二集合的方式,通过将存在人脸关键点和不存在人脸关键点的图像块划分,以便于后续通过多通道对图像块进行处理,提高后续微表情识别的准确性。

基于图2至图7中的微表情识别方法,图8是根据一示例性实施例示出一种微表情识别模型的训练方法的流程图。如图8所示,在一示例性实施例中,该方法可以包括步骤S810至步骤S830,详细介绍如下:

步骤S810:将待训练图像输入至初始的微表情识别模型,以在初始的微表情识别模型,将待训练图像的多个训练图像块进行随机蒙版失活处理,以基于多头自注意力机制,得到进行随机蒙版失活处理的多个训练图像块的训练特征图,并基于双通道对训练特征图进行调整,得到目标训练特征图,以及基于目标训练特征图得到训练预测结果。

本实施例中微表情识别模型的训练方法可参考图9,首先,在初始的微表情识别模型中输入待训练图像,初始的微表情识别模型对输入的输入数据进行预处理:如数据增强:输入图像中心裁剪为R

同样地,在初始的微表情识别模型的预处理模块中,也将待训练图像的多个训练图像块分为含有人脸关键点的第一训练集合以及不含人脸关键点的第二训练集合,不同的是,在训练阶段,预处理模块还分别对第一训练集合以及第二训练集合进行随机蒙版失活处理。

在训练阶段,设置蒙版失活机制来解决神经网络在微表情任务中的过拟合问题,该问题可以分为两类,一是神经网络倾向于通过少部分显著区域来分类微表情;二是神经网络的特征提取器间存在相互依赖,相互作用的关系,泛化能力差。

具体地,每次以1/8的比例分别在第一训练集合以及第二训练集合中随机失活图像块(失活为将该部分图像块像素置0),其中第一训练集合以高失活率0.5失活图像块,而第二训练集合则以低失活率0.3失活图像块,不同图片失活不同图像块可以迫使模型更为全面地学习面部整体特征,而不是只依赖局部区域输出判别结果。

随后,进行随机蒙版失活处理的多个训练图像块会进入初始的微表情识别模型的Transformer模块中,其在Transformer模块中的处理过程与微表情识别模型在实际应用的过程相同,具体可参考图2至图7。

此时,Transformer模块会输出目标训练特征图,该目标训练特征图种包含有学习好的向量x

步骤S830:根据预先训练的教师模型针对待训练图像所输出的预测结果,以及训练预测结果对初始的微表情识别模型进行训练。

自注意力网络中的自注意力机制并不具备归纳偏置能力,但是卷积神经网络却天然具备强大的归纳偏置能力:局部相似性和平移等变性,这也使得卷积神经网络可以使用更少的数据取得更好的结果。本实施例中引入了知识蒸馏模块,使得初始的微表情识别模型学习预先训练的教师模型(RegNetY 16GF,一种机器学习模型)的归纳偏置能力,减少对数据量的依赖,并证明在本任务中,硬蒸馏可以取得更好的结果。

蒸馏机制包括软蒸馏机制和硬蒸馏机制,软蒸馏是通过最小化教师模型和学生模型的softmax结果的KL散度来实现的。其计算公式如下:

其中,Z

本实施例中在训练过程中使用硬蒸馏,硬蒸馏的过程可参考图10,其直接将教师模型的判别结果作为另一个真实标签,其公式如下:

其中,y

本实施例中,学生网络即为初始的微表情识别模型,而与微表情识别模型不同的是,在蒸馏时,学生网络输出的预测结果并不是针对目标训练特征图中的向量x

图10中,patch tokens为图像按照16*16拼接裁剪后经过线性层编码得到的768维度特征,classtoken和distillationtoken分别是一个和patchtokens相同维度的可学习嵌入向量,其中classtoken用于生成最终与真实标签求损失函数的判别层,distillationtoken用于生成最终与教师网络输出求损失函数的判别层。L

本实施例中,初始的微表情识别模型在ImageNet1K上进行预训练,使用AdamW调优算法,训练最小批处理量为64,迭代周期为200轮,初始学习率为0.0005,学习率衰减使用余弦退火策略,每隔30轮衰减一次,衰减率为0.05,损失函数为

针对本实施例中提出的初始的微表情识别模型的训练方法,本实施例中还进行了相关训练方法的对比分析,首先,第一类方法为图8中的对初始的微表情识别模型进行随机蒙版失活处理和硬蒸馏处理的训练方法,第二类方法为仅仅使用硬蒸馏处理的训练方法,第三类方法为随机蒙版失活处理和硬蒸馏处理的训练方法,但将初始的微表情识别模型的双元通道感知单元替换为MLP层进行替代,第四类方法为仅使用随机蒙版失活处理的训练方法,第五类为使用随机蒙版失活处理处理和软蒸馏处理的训练方法,得到如表1所示的准确率指标(ACC):

表1

由表1可知,进行随机蒙版失活处理、硬蒸馏机制以及增加双元通道感知单元可以大幅度提高微表情识别模型的准确率,硬蒸馏机制也证明了微表情识别模型学习到了教师模型的归纳偏置能力。

另一方面,为了验证模型效果,训练后的微表情识别模型选取视联网平台2000+的成员的数据进行抽样验证,共计抓拍20000张人脸图像,并将微表情划分为7类:开心、愤怒、中性、惊讶、厌恶、害怕、悲伤,对20000张人脸图像,按照7类表情对其进行了逐个标注,并选取16000张作为训练集,4000张作为测试集,将测试数据输入模型验证,经验证,微表情识别模型在准确率和召回率方面均有较大提升,各算法模型在测试集上的表现如下表2

表2

其中,Resnet 50、RegNetY 16GF、ViT-B/16、DeiT-B均为机器学习模型。

图11是根据一示例性实施例示出的一种微表情识别装置的结构示意图。如图11所示,在一示例性实施例中,该装置包括:

图像块获取模块1110,配置为获取待识别图像的多个图像块;

特征图获取模块1130,配置为基于多头自注意力机制,分别提取多个图像块的自注意力特征,得到多个图像块的特征图;

目标特征图模块1150,配置为基于双通道分别学习特征图的注意力权重,以对特征图进行调整,得到目标特征图;

微表情识别模块1170,配置为基于目标特征图进行待识别图像的微表情识别。

本实施例所提出的微表情识别装置可用于精准的微表情识别。

在一实施例中,特征图获取模块包括:

集合划分单元,配置为将多个图像块划分为不同的图像块集合;

自注意力特征获取单元,配置为针对不同的图像块集合分别提取各图像块集合的集合自注意力特征;

特征图获取单元,配置为将各图像块集合的集合自注意力特征进行特征拼接,得到多个图像块的特征图。

在一实施例中,多个图像块包括含有人脸关键点的第一集合以及不含人脸关键点的第二集合;目标特征图模块包括:

注意力权重获取单元,配置为基于双通道分别学习第一集合的特征图以及第二集合的特征图,对应得到第一注意力权重和第二注意力权重;

特征调整单元,配置为基于第一注意力权重调整第一集合的特征图,并基于第二注意力权重调整第二集合的特征图;

目标特征图单元,配置为将经调整的第一集合的特征图和经调整的第二集合的特征图进行拼接,得到目标特征图。

在一实施例中,微表情识别装置还包括:

关键点定位模块,配置为定位待识别图像中的人脸关键点;

集合划分模块,配置为将多个图像块中包含人脸关键点的图像块作为第一集合,并将多个图像块中不包含人脸关键点的图像块作为第二集合。

在一实施例中,关键点定位模块包括:

初始关键点定位单元,配置为获取待识别图像中的初始人脸关键点;

轮廓去除单元,配置为在初始人脸关键点中去除面部轮廓相关的关键点,得到第一关键点;

脸颊定位单元,配置为基于第一关键点,定位待识别图像中的脸颊所在位置,得到第二关键点;

人脸关键点获取单元,配置为将第一关键点与第二关键点作为人脸关键点。

在一实施例中,脸颊定位单元包括:

集合确定板块,配置为在第一关键点中选取目标关键点集合;

中心点获取板块,配置为计算目标关键点集合中关键点之间的中心点;

脸颊定位板块,配置为将中心点进行固定偏移,并将进行固定偏移后的中心点以及中心点作为第二关键点。

需要说明的是,上述实施例所提供的微表情识别装置与上述实施例所提供的微表情识别方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。

本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现上述各个实施例中提供的微表情识别方法。

图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。

需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的微表情识别方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的微表情识别方法。

上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

相关技术
  • 基于混合时空卷积模型的微表情识别方法与装置
  • 微表情识别方法、装置与存储介质
  • 多视角微表情识别方法、装置、存储介质和计算机设备
  • 一种人脸表情识别模型训练方法、装置及设备
  • 识别模型训练方法、微表情识别方法、装置、设备及介质
  • 表情识别方法、表情识别模型训练方法及装置
技术分类

06120115928758