掌桥专利:专业的专利平台
掌桥专利
首页

一种口型识别方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:53:33


一种口型识别方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域,尤其涉及一种口型识别方法、装置、电子设备及存储介质。

背景技术

表情识别中的口型识别技术是人机交互领域的重要支撑技术,通过对不同口型动作的识别,实现细微的口型动作识别和展现,有助于推动扩展现实(Extended Reality,XR)领域的数字人表情识别、唇语识别等方向的进一步发展。目前口型识别方法一般分为下面几步完成:一、使用RGB相机,采集人脸的完整彩色图像;二、利用深度学习人脸关键点检测模型,得到脸部的关键点的图像坐标;三、将属于唇部的关键点提取出来,通过向量计算,进行不同口型动作的分类。上述方法,使用RGB图像,易受到背景环境的干扰,影响识别精度;向量计算方法运算复杂,可以表示的口型种类少,控制粗糙;关键点的稳定性差,抖动大,也影响识别精度。

发明内容

本发明提供了一种口型识别方法、装置、电子设备及存储介质,以实现更准确的口型识别。

第一方面,本发明实施例提供了一种口型识别方法,包括:

采集嘴部图像;

将嘴部图像输入至口型识别模型,得到口型识别结果,口型识别结果包括嘴部图像对应的表情分量,表情分量用于表示嘴部指定关键点的动作幅度。

第二方面,本发明实施例提供了一种口型识别装置,包括:

图像采集模块,用于采集嘴部图像;

口型识别模块,用于将嘴部图像输入至口型识别模型,得到口型识别结果,口型识别结果包括嘴部图像对应的表情分量,表情分量用于表示嘴部指定关键点的动作幅度。

第三方面,本发明实施例提供了一种电子设备,包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行如第一方面所述的口型识别方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的口型识别方法。

本发明实施例提供了一种口型识别方法、装置、电子设备及存储介质,该方法包括:采集嘴部图像;将嘴部图像输入至口型识别模型,得到口型识别结果,口型识别结果包括嘴部图像对应的表情分量,表情分量用于表示嘴部指定关键点的动作幅度。上述技术方案,通过口型识别模型识别嘴部图像,确定带有嘴部图像对应的表情分量的口型识别结果,通过口型识别模型端到端的学习表情分量,能更细腻稳定、高效、高准确性地识别口型。

应当理解,本部分所描述的内容并非旨在标识本发明实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其他特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。

图1为本发明实施例一提供的一种口型识别方法的流程图;

图2为本发明实施例一提供的一种嘴部图像的示意图;

图3为本发明实施例一提供的一种嘴部图像呈现的示意图;

图4为本发明实施例一提供的一种口型识别的示意图;

图5为本发明实施例二提供的一种口型识别装置的结构示意图;

图6为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

需要注意,本发明实施例中提及的“第一”、“第二”等概念仅用于对不同的装置、模块、单元或其他对象进行区分,并非用于限定这些装置、模块、单元或其他对象所执行的功能的顺序或者相互依存关系。

实施例一

图1为本发明实施例一提供的一种口型识别方法的流程图,本实施例可适用于更准确地识别口型的情况。具体的,该口型识别方法可以由口型识别装置执行,该口型识别装置可以通过软件和/或硬件的方式实现,并集成在电子设备中。进一步的,电子设备包括但不限定于:台式计算机、笔记本电脑、智能手机以及服务器等电子设备。

如图1所示,该方法具体包括如下步骤:

S110、采集嘴部图像。

具体的,可以通过一种硬件治具采集嘴部图像,可以采集包含嘴部所有轮廓的嘴部图像,保证其在相机中能够清晰完整成像,以采集到尽可能多且清晰的口型特征或信息,进而有助于提高口型识别的准确率。其中,硬件治具可以包括相机;相机可以是红外相机。

S120、将嘴部图像输入至口型识别模型,得到口型识别结果,口型识别结果包括嘴部图像对应的表情分量,表情分量用于表示嘴部指定关键点的动作幅度。

本实施例中,口型识别模型可以理解为由深度学习模型构成的模型。其中,深度学习网络可为机器学习网络的一种特殊形式,它模拟了人脑中的神经网络,可以自动学习和识别模式,深度学习网络使用多层神经网络,可以自动地提取和组合特征,从而实现对复杂模式的自动学习和推理。表情分量可用于表示嘴部指定关键点的动作幅度,以区分不同口型。动作幅度可指嘴部指定关键点随口型变化而移动的距离,可预设嘴部指定关键点的动作幅度的取值范围为[0,1]。指定关键点可为嘴部图像中能够重点反映口型信息的关键点,指定关键点的数量可以有多个。

具体的,将嘴部图像作为口型识别模型的输入,经过口型识别模型对嘴部图像进行特征提取和特征融合,推理输出带有嘴部图像对应的表情分量的口型识别结果,实现了高效、准确和稳定的口型识别。

本发明实施例一提供的一种口型识别方法,该方法包括:采集嘴部图像;将嘴部图像输入至口型识别模型,得到口型识别结果,口型识别结果包括嘴部图像对应的表情分量,表情分量用于表示嘴部指定关键点的动作幅度。上述技术方案,通过口型识别模型识别嘴部图像,确定带有嘴部图像对应的表情分量的口型识别结果,通过口型识别模型端到端的学习表情分量,能更细腻稳定、高效、高准确性地识别口型。

可选的,采集嘴部图像,包括:

调整红外相机的位置,使得红外相机的成像画面中包括嘴部的轮廓区域。

一实施例中,红外相机可为一种利用红外光学技术捕捉图像的相机,可在没有可见光源的情况下工作,使用红外感知周围环境,可在夜间或低照度环境中,依然可以获得清晰的图像,红外相机可以是头戴式的红外相机。

具体的,调整红外相机的位置,使红外相机对准嘴部位置,使红外相机的成像画面中尽量只包括嘴部的全部轮廓区域,可以减少图像中背景对口型识别效果的干扰,有助于提高口型识别的准确率。

示例性的,图2为本发明实施例一提供的一种嘴部图像的示意图。如图2所示,通过调整头戴式红外相机,将其对谁嘴部位置,启动头戴式红外相机工作,采集了包括嘴部全部轮廓区域的嘴部图像。

可选的,所述方法还包括:

通过三维引擎根据表情分量控制三维人物模型呈现相应的口型。

一实施例中,三维引擎可指用于创建和渲染三维图形的软件框架,可提供图形处理、物理模拟、光照、碰撞检测等功能,帮助用户构建逼真的三维场景和交互体验,例如可以为Direct3D、OpenGL、Unreal Engine、Unity。三维人物模型可为一种三维的计算机图形,可以模拟展示人体的外形、动作和运动,比如可以模拟展示相应的口型。

具体的,可将口型识别模型部署到个人电脑(Personal Computer,PC)端,通过口型识别模型得到带有嘴部图像对应的表情分量的口型识别结果之后,将嘴部图像对应的表情分量直接输入至三维引擎中,三维引擎根据输入的表情分量可以控制三维人物模型展示出表情分量的相应的口型,即实现了实时口型还原控制。通过三维引擎展示或呈现相应的口型,方法简单,可展示的口型种类多,且展示的更细致,有助于提升用户体验。

示例性的,图3为本发明实施例一提供的一种嘴部图像呈现的示意图。如图3所示,左上角的嘴部图像为采集的原图,口型为“O”型,经口型识别模型识别出“O”型后,三维引擎根据“O”型的表情分量控制三维人物模型(如图3右边)呈现相应的“O”型。

可选的,口型识别模型包括:主干网络和解码网络;

主干网络用于提取输入的嘴部图像的特征向量。

解码网络用于根据特征向量确定对应的表情分量。

一实施例中,主干网络可为用于特征提取的架构或网络,可指构成口型识别模型中的核心部分,例如可以包括轻量级卷积神经框架MobileNetV3、MobileNetV2、MobileNetV1或ShuffleNet等。其中,轻量级卷积神经框架可指框架的规模或参数量较少的卷积神经框架。特征向量可指嘴部图像的属性的集合。解码网络可用于给特征向量做特征解码,以得到嘴部图像对应的表情分量。

具体的,将采集的嘴部图像输入至主干网络,经过特征提取融合,输出嘴部图像的特征向量,特征向量通过解码网络做特征解码,确定嘴部图像对应的表情分量。需要说明的是,特征提取融合可以通过将不同特征组合在一起,有助于提高口型识别模型识别口型的准确率;使用多个特征可以使口型识别模型更加鲁棒,比如当某些特征失效时,其他特征可以弥补其不足,从而提高口型识别模型的鲁棒性;通过使用多个特征,可以减少口型识别模型的过拟合风险,因为不同的特征可以提供更多的信息,从而使口型识别模型更加泛化;总之,特征提取融合可以帮助口型识别模型更好地理解数据(如嘴部图像),从而提高口型识别模型的性能和泛化能力,进而提高口型识别的准确率。

可选的,所述口型识别模型的训练过程包括:

获取多个样本嘴部图像;

对于各样本嘴部图像,通过三维引擎标注对应的表情分量,作为相应样本嘴部图像的标签;

根据各样本嘴部图像对应的表情分量以及相应标签训练口型识别模型。

一实施例中,样本嘴部图像可通过多种方法得到,比如通过相机直接拍摄、通过网页下载和通过图像数据库获取等,可用于训练口型识别模型。

具体的,可通过不断训练口型识别模型得到高精度的口型识别模型,首先获取多个样本嘴部图像,进而通过三维引擎标注样本嘴部图像对应的表情分量,作为相应样本嘴部图像的真值标签,可看作为真实值,将多个样本嘴部图像分别输入至口型识别模型中,得到各样本嘴部图像对应的表情分量的预测值,计算预测值和真实值的损失函数,通过口型识别模型反向传播计算,使预测值更接近真实值,使口型识别模型的学习精度更高、稳定性更高,进而有助于提高口型识别的准确性。需要说明的是,口型识别模型的训练过程可以通过其他电子设备实现。

可选的,各样本嘴部图像对应的表情分量与相应标签之间的损失基于L2损失函数计算。

一实施例中,损失可指衡量口型识别模型预测值与真实值之间差距的一种度量。损失函数可为衡量口型识别模型预测值与真实值之间差距程度的运算函数。L2损失函数可指口型识别模型预测值与真实值之间差值平方的平均值。

示例性的,L2损失函数可由如下公式表示,Loss=∑

示例性的,图4为本发明实施例一提供的一种口型识别的示意图。如图4所示,首先采集嘴部图像,将嘴部图像输入至口型识别模型的主干网络中,进行嘴部图像的特征提取融合,得到嘴部图像的特征向量,将其输入至口型识别模型的解码网络中,将特征向量解码,得到嘴部图像对应的表情分量,送入Loss层,通过L2损失函数计算预测值和标签值的损失误差,通过网络反向传播计算,使预测值更接近真实值,最后得到嘴部图像相应的表情分量,确定了口型识别结果。其中,Loss层即目标函数,目标函数(如L2损失函数)可用于计算口型识别模型在训练收敛过程中,嘴部图像对应的表情分量的损失的均值。

可选的,三维引擎包括Unity;三维引擎基于blendshape组件控制三维人物模型呈现相应的口型。

一实施例中,blendshape组件可为一种在三维引擎中使用的技术,可用于实现人体动画(如口型)的细致表达。

示例性的,将口型识别模型部署到PC端,通过口型识别模型得到带有嘴部图像对应的表情分量的口型识别结果之后,将嘴部图像对应的表情分量直接输入至三维引擎中blendshape组件,如直接输入至Unity blendshape组件中,三维引擎根据输入的表情分量可以控制三维人物模型展示出表情分量的相应的口型,即实现了实时口型还原控制。

实施例二

图5为本发明实施例二提供的一种口型识别装置的结构示意图,该装置可以执行本发明实施例所提供的口型识别方法。本实施例提供的口型识别装置包括:

图像采集模块210,用于采集嘴部图像;

口型识别模块220,用于将嘴部图像输入至口型识别模型,得到口型识别结果,口型识别结果包括嘴部图像对应的表情分量,表情分量用于表示嘴部指定关键点的动作幅度。

本发明实施例二提供的一种口型识别装置,该装置包括:采集嘴部图像;将嘴部图像输入至口型识别模型,得到口型识别结果,口型识别结果包括嘴部图像对应的表情分量,表情分量用于表示嘴部指定关键点的动作幅度。上述技术方案,通过口型识别模型识别嘴部图像,确定带有嘴部图像对应的表情分量的口型识别结果,通过口型识别模型端到端的学习表情分量,能更细腻稳定、高效、高准确性地识别口型。

可选的,图像采集模块210包括:

位置调整单元,用于调整红外相机的位置,使得红外相机的成像画面中包括嘴部的轮廓区域。

可选的,所述装置还包括:

口型呈现模块,用于通过三维引擎根据表情分量控制三维人物模型呈现相应的口型。

可选的,口型识别模型包括:主干网络和解码网络;

主干网络用于提取输入的嘴部图像的特征向量。

解码网络用于根据特征向量确定对应的表情分量。

可选的,所述口型识别模型的训练过程包括:

获取多个样本嘴部图像;

对于各样本嘴部图像,通过三维引擎标注对应的表情分量,作为相应样本嘴部图像的标签;

根据各样本嘴部图像对应的表情分量预测值以及相应标签训练口型识别模型。

可选的,各样本嘴部图像对应的表情分量预测值与相应标签之间的损失基于L2损失函数计算。

可选的,三维引擎包括Unity;三维引擎基于blendshape组件控制三维人物模型呈现相应的口型。

本发明实施例二提供的口型识别装置可以用于执行上述任意实施例提供的口型识别方法,具备相应的功能和有益效果。

实施例三

图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备10旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备10还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、用户设备、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络、无线网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如口型识别方法。

在一些实施例中,口型识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行口型识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备10上实施此处描述的系统和技术,该电子设备10具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备10。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 基于反三角函数的时钟偏差数字校准系统及方法
  • 一种基于FPGA的反三角函数实现方法
技术分类

06120116337030