导航：首页> 染料；涂料；抛光剂；天然树脂；黏合剂；其他类目不包含的组合物；其他类目不包含的材料的应用>表情识别方法、装置、设备及计算机存储介质

表情识别方法、装置、设备及计算机存储介质

文献发布时间：2023-06-19 10:24:22

技术领域

本申请涉及计算机技术领域，尤其涉及计算机视觉、深度学习等人工智能技术领域。

背景技术

随着图像处理技术的发展，通过图像可以获得很多信息，比如人脸识别信息、表情识别信息等。

表情识别是指从给定的静态图像或动态视频序列中分离出特定的表情状态，从而确定被识别对象的心理情绪。表情识别技术可以应用于多种领域，具有广阔的发展前景。如何更为准确地识别表情、快速得到表情识别结果，是表情识别技术的一个重要的研究方向。

发明内容

本申请提供了一种表情识别方法、装置、设备以及计算机存储介质。

根据本申请的一方面，提供了一种表情识别方法，包括：

根据包含人脸图像的目标图像获得输入数据；

将所述输入数据输入表情识别模型，获得识别结果，所述表情识别模型包括至少一层时序偏移模块(TSM，Time Shift Module)和二维(2D)卷积神经网络结合的特征提取层；

根据所述表情识别模型的识别结果，确定所述目标图像的人脸表情类型。

根据本申请的另一方面，提供了一种表情识别的装置，包括：

输入数据获得模块，用于根据包含人脸图像的目标图像获得输入数据；

识别模块，用于将所述输入数据输入表情识别模型，获得识别结果，所述表情识别模型包括至少一层时序偏移模块和二维卷积神经网络结合的特征提取层；

表情类型确定模块，用于根据所述表情识别模型的识别结果，确定所述目标图像的人脸表情类型。

根据本申请的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意一项实施例所提供的方法。

根据本申请的又一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述方法。

根据本申请提供的技术方案，将目标图像输入表情识别模型的时序转偏移模块和2D卷积神经网络，首先采用时序偏移模块对输入数据进行时序偏移操作，然后采用2D卷积神经网络进行空间维度的特征提取，从而使得输入数据的时空信息都能够被提取到，提高了表情识别结果的准确性。同时，时序偏移模块和2D卷积神经网络的数据处理量都不大，计算速度较快，保证了表情识别的时效性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的表情识别方法示意图；

图2是根据本申请一实施例的表情识别方法数据处理过程示意图；

图3是根据本申请一示例的脸部特征点示意图；

图4是根据本申请一实施例的表情识别装置示意图；

图5是根据本申请另一实施例的表情识别装置示意图；

图6是根据本申请另一实施例的表情识别装置示意图；

图7是根据本申请另一实施例的表情识别装置示意图；

图8是用来实现本申请实施例的表情识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例首先提供一种表情识别方法，如图1所示，包括：

步骤S101：根据包含人脸图像的目标图像获得输入数据；

步骤S102：将所述输入数据输入表情识别模型，获得识别结果，所述表情识别模型包括至少一层时序偏移模块和二维卷积神经网络结合的特征提取层；

步骤S103：根据所述表情识别模型的识别结果，确定所述目标图像的人脸表情类型。

在一种实施方式中，所述表情识别模型可以为视觉几何小组VGG模型，所述VGG模型包含多层所述特征提取层。

本申请实施例中，根据包含人脸图像的目标图像获得输入数据，可以是将包含人脸图像的目标图像进行转换，生成适宜于输入表情识别模型的数据。

包含人脸图像的目标图像，可以是从视频中提取出的帧图像，也可以是图像拍摄装置拍摄获得的图像。

目标图像中包含的人脸，可以是完整的人脸，也可以是被遮挡的部分人脸。

将所述输入数据输入表情识别模型，获得识别结果，具体可以是将输入数据输入表情识别模型，采用表情识别模型的至少一个二维卷积神经网络和时序偏移模块结合的特征提取层进行处理，得到识别结果。

本实施例中，针对特征提取层，输入数据首先经过时序偏移模块进行时序偏移处理，然后经过二维卷积神经网络进行二维卷积处理。

在表情识别模型包括多个特征提取层的情况下，将输入数据依次输入第1个特征提取层、第2个特征提取层……第n个特征提取层。

在表情识别模型包括多个特征提取层的情况下，将输入数据依次输入第1个特征提取层的时序偏移模块、第1个特征提取层的二维卷积神经网络层、第2个特征提取层的时序偏移模块、第2个特征提取层的二维卷积神经网络层……第n个特征提取层的时序偏移模块、第n个特征提取层的二维卷积神经网络层。

根据识别结果，确定目标图像的人脸表情类型，具体可以包括将识别结果依次输入表情识别模型的全连接层等处理层，获得目标图像中的人脸表情分类结果。

人脸表情类型，具体可以包括人脸表情属于各表情分类的概率。比如，表情识别模型能够识别喜、怒、哀、乐四种表情分类，表情识别模型输出的人脸表情类型具体可以是人脸表情属于喜、怒、哀、乐四种表情的概率，比如：喜10％、怒10％、哀10％、乐70％。

本申请实施例中，将目标图像首先经过表情识别模型的特征提取层的时序偏移模块进行处理，然后经过二维卷积神经网络进行处理，从而，输入数据经过时序偏移模块处理后，会在时序上产生偏移，从而后续在二维卷积神经网络中处理，进行空间信息的提取时，能够以较快的速度进行卷积计算，同时保留输入数据的时间信息。从而在保证目标图像的时空信息都能够提取的情况下，提高了图像的处理速度。

在一种实施方式中，所述表情识别模型为视觉几何小组VGG(Visual GeometryGroup)模型，所述VGG模型包含多层所述特征提取层。

本实施例中，VGG模型可以选择VGG11为架构，将其中任意二维卷积神经网络层替换为二维卷积神经网络和时序偏移模块结合的特征提取层。比如，将VGG11的后三个二维卷积神经网络层替换为特征提取层。或者，将VGG11的所有二维卷积神经网络层替换为特征提取层。

VGG模型还可以选择其他VGG为架构，例如，可选择VGG16为架构，将其中任意一个或多个二维卷积神经网络层替换为二维卷积神经网络和时序偏移模块结合的特征提取层。

在其它实施例中，表情识别模型的架构还可以采用Resnet(Residual net，残差网络)模型。

本申请实施例中，采用VGG模型作为表情识别模型的框架，能够在获得目标图像的多个特征的同时，减少处理数据量，具有较高的处理速度。

在一种实施方式中，所述目标图像包括多个帧图像；所述根据包含人脸图像的目标图像获得输入数据之前，还包括：

从视频中提取包括人脸图像的所述多个帧图像；

对所述多个帧图像进行人脸识别，得到所述多个帧图像的人脸区域；

对所述多个帧图像的人脸区域进行关键点检测，得到人脸关键点的坐标；

根据所述人脸关键点的坐标，进行人脸区域对齐。

多个图像帧，为视频中的多个连续图像帧。多个连续图像帧在较短的时间间隔范围内进行提取，确保多个连续图像帧中的人脸表情为同一种表情。

在其它实施方式中，还可以直接将目标图像进行尺寸重新调整，然后将调整后的目标图像作为输入数据，输入表情识别模型。

本实施例中，从视频中提取多个帧图像作为目标图像，从而能够在其中一个帧图像存在光线遮挡等情况下，从其它连续的帧图像中获得同样的表情信息，提高了表情识别的准确性。

在一种实施方式中，所述根据包含人脸图像的目标图像获得输入数据，还包括：

根据所述人脸关键点的坐标，将所述多个帧图像的人脸区域调整至同样大小；

获得调整后的人脸区域所包括的人脸关键点的新坐标；

根据调整后的人脸区域以及所述新坐标，获得所述输入数据。

由于表情是一个连续性动作，仅用单帧图像很难准确的识别人脸表情，同时人脸大姿态、大遮挡、光线不均匀、图片质量参差不齐、表情特征不明显等问题，增大了识别的难度。本实施例中，使用视频连续帧图像代替单帧图像生成输入数据，可以使模型更容易学习表情动作的连续信息；从中提取人脸区域以及人脸关键点的坐标，从而输入数据中能够保留确定人脸表情所需要的所有数据，为准确获得输出结果提供了充分的信息。

在一种实施方式中，所述将所述目标图像输入表情识别模型，获得识别结果，包括：

采用所述时序偏移模块对所述输入数据进行时序偏移操作；

采用所述二维卷积神经网络对所述时序偏移操作处理后的输入数据进行空间维度的卷积操作；

根据所述卷积操作处理后的输入数据，获得识别结果。

本实施例中，采用特征提取层的时序偏移模块对输入数据进行时序偏移操作，从而经过时序偏移的数据，能够保留时序信息，在后续经过二维卷积神经网络进行空间维度的卷积操作时，能够在提取空间信息的同时，获取输入数据的时间信息，从而特征提取层提取了输入数据的时空信息。由于时序偏移操作耗时非常少，而二维卷积神经网络进行二维卷积计算时，消耗的时间也较少，因此，本实施例在保证提取到时空信息、提高表情识别的准确度的同时，也保证了表情识别的效率。

本发明应用在视觉交互、智能控制、辅助驾驶、远程教育、广告精准投放等领域。

参照图2，本申请一种示例包括下述数据处理转换流程：

将现实场景视频表情数据，依次拆解成多个帧图像，每个帧图像包含人脸表情的RGB图像。本示例中，人脸表情根据人脸肌肉的变化分为7类基本表情，生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral)。

对每张帧图像进行图像预处理，首先得到包含人脸的RGB图像，可通过人脸检测模型对人脸进行检测，得到人脸的大致位置区域；其中，可以检测模型为已有人脸检测模型，可以检测到人脸位置。

其次根据人脸的大致位置区域，通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值。其中，人脸关键点检测模型为已有模型，调用已有模型，输入已检测到人脸的图像，得到72个人脸关键点，如图3所示，72个关键点的坐标可以分别为(x1,y1)…(x72,y72)。

根据人脸的关键点坐标值对目标人脸进行人脸对齐，同时通过仿射变换截取仅包含人脸的图像区域并调整到相同尺寸128×128，人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标。

在本示例中，将得到的包含人脸的图像区域进行图像归一化处理。可以将图像中的每一个像素依次进行归一化处理，归一化处理的方法具体可以包括：每个像素的像素值减128再除以256，使每个像素的像素值在[-0.5,0.5]之间。将归一化处理后的图像进行随机数据增强处理，将数据增强后的图像作为表情识别模型的输入。

本示例中，选择用VGG11作为卷积神经网络的backbone(框架)，每一个2D卷积都由2D卷积结合TSM模块进行替换，提取连续帧图像的时空信息，最后通过一个全连接层得到人脸7分类表情结果。

本示例中采用的TSM是为高效的空间和时间建模而设计的。TSM通过引入非常有限的额外计算成本，提取出丰富的时空特征，可以显著提高与时间相关的动作识别性能。给定一个图像作为输入数据，首先进行reshape(重塑形状)操作，之后在时间维度上执行channel-wise(通道维度)的1D卷积操作。其中，通道，可以认为图像的矩阵中的每一个矩阵元素拥有的值的个数。

考虑到对于图像的特征数据，不同通道的语义信息通常不相同，所以其时序信息的结合方式应该具有差异性，因此采用channel-wise使得每个通道有不同的卷积核；同时，相对于普通卷积计算成本可以降低组卷积参数G倍，在此G设置为输入的通道数，因此相当于是一维卷积中的depthwise convolution(深度维度卷积)。其中深度，可以认为是每一个像素的位数。

本申请实施例还提供一种表情识别的装置，如图4所示，包括：

输入数据获得模块401，用于根据包含人脸图像的目标图像获得输入数据；

识别模块402，用于将所述输入数据输入表情识别模型，获得识别结果，所述表情识别模型包括至少一层时序偏移模块和二维卷积神经网络结合的特征提取层；

表情类型确定模块403，用于根据所述表情识别模型的识别结果，确定所述目标图像的人脸表情类型。

在一种实施方式中，所述表情识别模型为视觉几何小组VGG模型，所述VGG模型包含多层所述特征提取层。

在一种实施方式中，如图5所示，所述目标图像包括多个帧图像；所述装置还包括：

图像提取模块501，用于从视频中提取包括人脸图像的所述多个帧图像；

图像识别模块502，用于对所述多个帧图像进行人脸识别，得到所述多个帧图像的人脸区域；

关键点坐标获得模块503，用于对所述多个帧图像的人脸区域进行关键点检测，得到人脸关键点的坐标；

人脸区域对齐模块504，用于根据所述人脸关键点的坐标，进行人脸区域对齐。

在一种实施方式中，如图6所示，所述输入数据获得模块还包括：

人脸区域调整单元601，用于根据所述人脸关键点的坐标，将所述多个帧图像的人脸区域调整至同样大小；

调整计算单元602，用于获得调整后的人脸区域所包括的人脸关键点的新坐标；

调整数据处理单元603，用于根据调整后的人脸区域以及所述新坐标，获得所述输入数据。

在一种实施方式中，如图7所示，所述识别模块包括：

偏移单元701，用于采用所述时序偏移模块对所述输入数据进行时序偏移操作；

卷积单元702，用于采用所述二维卷积神经网络对所述时序偏移操作处理后的输入数据进行空间维度的卷积操作；

卷积识别单元703，用于根据所述卷积操作处理后的输入数据，获得识别结果。

本公开实施例各数据处理装置中的各单元、模块或子模块的功能可以参见上述数据处理方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的表情识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的表情识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的表情识别方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的表情识别方法对应的程序指令/模块(例如，附图4所示的输入数据获得模块401、识别模块402和表情类型确定模块403)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的表情识别方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据表情识别电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至表情识别电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

表情识别方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与表情识别电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，采用2D卷积集合TSM模块的卷积神经网络对连续帧图像特征进行提取，TSM模块可以在时间维度上进行偏移，使2D卷积同时提取时序信息和空间信息，可以大大降低模型的体积和复杂度，同时提高复杂环境下人脸表情识别的准确率和鲁棒性。

本申请实施例在实际应用中，表情识别精度的提高有利于提高诸多应用的服务质量。例如在广告投放方面，有利于辅助推荐更符合用户需求的搜索结果和精准广告投放；在远程教育方面，有利于识别学生的情绪来改善教学内容，提高远程教育质量；在驾驶员监控场景中，有利于识别驾驶员的情绪，对驾驶员进行相应提示，以保证驾驶员的安全。

本申请实施例可以应用于深度学习、计算机视觉等人工智能领域。具体还可以应用于视觉交互、智能控制、辅助驾驶、远程教育、广告精准投放等领域。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王珂尧;
专利申请人：北京百度网讯科技有限公司;

上一篇：问题识别及查询方法、装置、电子设备及存储介质
下一篇：一种重金属污染土壤的修复剂及其制备方法和应用