掌桥专利:专业的专利平台
掌桥专利
首页

一种复杂背景下的手势识别方法

文献发布时间:2023-06-19 11:26:00


一种复杂背景下的手势识别方法

技术领域

本发明涉及目标分割识别技术,尤其涉及一种复杂背景下的手势识别方法。

背景技术

自古以来,人类就一直在使用手语进行交流。手势就像人类文明本身一样古老。手势对于表达任何要交流的词或感觉特别有用。因此,尽管制定了书写惯例,但世界各地的人们仍在不断使用手势进行表达。

近年来,随着机器视觉的发展,人机交互与人们的日常生活的联系更加紧密。手势作为人们进行交流的常用方式,对于实现人机之间的自然交流至关重要,并为操作员提供了更舒适的体验。特别是,手势可用于提供与计算机的更直观的交互,这引起了研究人员的注意。

手势用于传达信息,手势识别一直是机器视觉的重要研究领域。手势识别可以为特殊群体提供服务,例如聋哑人或听力受损的人。另外,它在智能驾驶,机器控制和虚拟现实等领域也具有广阔的应用前景。

在实际应用中,手势的不同角度、不同大小、肤色、光照强度以及手势周围的环境给手势识别带来巨大的挑战。因此手势图像的背景可分为简单背景和复杂背景,简单背景是指不包含任何噪声的背景,而复杂的背景是指包含噪声的背景。在实际场景中仍然缺乏针对复杂背景下手势识别的高精度解决方案。因此,实现复杂背景下手势的高精度识别具有重大的现实意义。

发明内容

本发明的目的在于提供一种复杂背景下的手势识别方法,实现在复杂背景下准确识别手势的类别,减少人工识别成本。

为了达到上述目的,本发明提供一种复杂背景下的手势识别方法,包含:

采用基于编解码结构的语义分割网络对含有复杂背景的手势图片数据集进行特征提取,输出手部分割图;

采用基于双通道分类网络对手部分割图和原手势图片数据集进行特征提取,识别出手势类别。

所述所含有复杂背景的手势图片数据集符合预设实验要求,所述预设实验要求包含:数据集的图像都带有对应的地表真值图像,每一组图像都由不同的受试者完成;数据集的图像都是在非常具有挑战性的情况下采集的。

所述基于编解码结构的语义分割网络包含:一个3×3卷积层,四个瓶颈残差模块、空洞空间池化金字塔ASPP、以及解码器模块;

所述一个3×3卷积层、四个瓶颈残差模块和空洞空间池化金字塔ASPP依次连接;

所述第二个瓶颈残差模块的输出通过上采样后的特征与空洞空间池化金字塔ASPP输出的特征进行融合,融合后的特征作为解码器模块的输入。

所述瓶颈残差模块包含三个瓶颈残差单元,每个瓶颈残差单元依次连接;

第二个瓶颈残差模块和第三个瓶颈残差模块用于下采样操作,以捕捉语义信息;

所述第二个瓶颈残差模块输出的特征通过上采样操作以获得浅层细节特征;

第四个瓶颈残差模块应用不同大小的空洞卷积,以获得更多上下文信息。

所述瓶颈残差单元包含:两个1×1卷积层和一个深度可分离卷积结构;

所述深度可分离卷积结构包含:逐通道卷积Depthwise Conv和逐点卷积1×1Conv,逐通道卷积和逐点卷积后都紧跟着批量归一化操作Batch Normalization和Relu激活函数。

所述空洞空间池化金字塔模块ASPP通过四个并行的空洞卷积和一个全局池化操作以捕获多尺度语义信息,每一个并行层提取的特征都通过级联模块融合在一起,获得深层语义特征。

所述解码器模块将浅层细节特征与深层语义特征融合在一块,融合后的特征通过两个卷积层来细化特征,最后经过上采样操作以输出具有清晰轮廓的手部分割图。

所述双通道分类网络包含:两个相同的浅层卷积神经网络,一个级联网络层以及一个分类网络层;

所述语义分割网络输出的手部分割图和原手势图像作为双通道分类网络两个相同的浅层卷积神经网络的输入,通过两个并行的浅层卷积神经网络获得手部的形状特征和颜色特征,通过级联网络层将提取的特征融合在一起作为最终分类网络层的输入,通过分类网络层实现最终的手势识别。

对语义分割网络的损失采用如下公式进行计算:

式中,N是所有样本的数量,y

对双通道分类网络的损失采用如下公式进行计算:

式中,N是所有样本的数量,K代表所有手势类别的数量,y

采用预设的评估标准对所述手部分割结果进行评估;所述预设的评估标准包含:平均交并比mIOU、模型大小Model Size、每秒浮点运算次数FLOPS;

所述平均交并比mIOU定义为:

式中,k+1表示图像中的类别数目,有两个类别,分别为手部区域和非手部区域,p

所述模型大小ModelSize和每秒浮点运算次数FLOPS用来进一步评估模型的可行性;

采用预设的评估标准对所述手势识别结果进行评估;所述预设的评估标准包含:准确率Accuracy、宏观F1-分数Macro-F1、模型大小ModelSize和每秒浮点运算次数FLOPS;

所述准确率Accuracy被定义为:

式中,TP表示真实标签为正例,预测为正例的样本数目;TN表示真实标签为负例,预测为负例的样本数目;total表示所有样本的数目;

所述宏观F1-分数Macro-F1定义为所有手势类别对应F1-分数(F1-Score)的平均值:

式中,C表示所有的手势类别,F1-Score

本发明通过基于编解码结构的语义分割网络融合浅层细节特征和深层语义特征,在适用于正确定位手部区域的同时,分割出具有清晰轮廓的手部;采用双通道分类网络分别提取手部分割图和原手势图像的特征,对融合后的特征进行分类识别,提高了手势的识别精度。本发明在编解码结构的语义分割网络中加入了多尺度上下文信息,提高了语义分割的性能,同时分割网络中引入深度可分离卷积,大大减少了计算成本,降低了模型对硬件设备的要求,使整个手势识别网络更加轻量。

附图说明

图1为本发明提供的一种复杂背景下手势的识别方法的总体流程示意图。

图2为本发明提出一种复杂背景下手势的识别方法中所采用的网络的框架示意图。

图3为本发明提供的深度可分离卷积模块的示意图。

图4为本发明提供的带有深度可分离卷积的瓶颈残差单元的示意图。

图5为本发明提供的空洞空间池化金字塔(ASPP)的示意图。

图6为本发明提供的手部分割结果与其它算法结果对比示意图。

具体实施方式

以下根据图1~图6,具体说明本发明的较佳实施例。

本实施例提供一种复杂背景下手势的识别方法,如图1所示,本实施例提供的一种复杂背景下的手势识别方法包含以下步骤:

步骤S1、收集用于复杂背景下手势识别的数据集。

具体的,所收集的识别复杂背景下手势的图像数据集符合预设实验要求,所述预设实验要求包含:每一所述待识别数据集的图像都带有对应的地表真值图像,每一组图像都由不同的受试者完成;每一所述待识别数据集的图像都是在非常具有挑战性的情况下采集的,例如照明的变化、背景中含有与肤色相近的物体以及不同形状和大小的手与脸部的相互遮挡。

步骤S2、采用基于编解码结构的语义分割网络对所述数据集进行特征提取,输出手部分割图。

如图2所示,所述基于编解码结构的语义分割网络为图中(a)部分,具体包含:一个3×3卷积层、四个瓶颈残差模块、空洞空间池化金字塔(ASPP)以及简单的解码器模块。

如图3所示,将深度可分离卷积结构(DepS Conv)应用于所述基于编解码结构的语义分割网络中,以简化模型的计算成本,在有限的计算资源中也能实现复杂背景下手部的分割。深度可分离卷积结构由逐通道卷积(Depthwise Conv)和逐点卷积(1×1Conv)构成。两个卷积后面都紧跟着批量归一化操作(Batch Normalization)和Relu激活函数。批量归一化操作有利于加快网络学习速率,同时减少梯度消失。

所述一个3×3卷积层和四个瓶颈残差模块依次连接构成残差网络,以提取图像的特征信息。具体结构如表1所示,ResBlock_1表示第一个瓶颈残差模块,每个瓶颈残差模块由三个瓶颈残差单元级联组成。所述瓶颈残差单元的结构如图4所示,该结构由两个1×1卷积层和一个深度可分离卷积结构组成,1×1卷积层的作用在于加入非线性以提升网络的表达能力,同时能够起到降维的作用。

第二个和第三个瓶颈残差模块应用下采样操作,以捕捉语义信息。所述最后一个瓶颈残差模块的每个残差单元应用不同的空洞卷积,以捕获更多上下文信息。

表1

如图5所示,所述的空洞空间池化金字塔模块(ASPP)通过四个并行的空洞卷积和一个全局池化操作(Image Pooling)以捕获多尺度语义信息,每一个并行层提取的特征都通过级联模块融合在一起。所述全局池化操作是为了获得更大感受野的上下文信息。

如图2(a)部分,解码器模块(Decoder)将浅层细节特征与深层语义特征融合在一块,融合后的特征通过两个卷积层来细化特征,最后经过上采样操作以输出具有清晰轮廓的手部分割图;所述第二个瓶颈残差模块输出的特征通过上采样操作以获得所述的浅层细节特征;所述深层语义特征为空洞空间池化金字塔(ASPP)模块的融合特征。

步骤S3、采用基于双通道分类网络对手部分割图和原图进行特征提取,识别出手势类别。

如图2(b)部分,所述的双通道分类网络包含:两个并行的浅层神经网络(CNNs)、一个级联层、一个分类层。两个并行的浅层卷积神经网络分别提取手部分割图和原手势图像的特征,级联网络层将提取的特征融合在一起,通过分类网络层实现最终的手势识别。

所述浅层神经网络(CNNs)的结构如表2所示,该结构由四个3×3卷积层、四个池化层、两个全连接层构成。池化层主要是用来实现下采样操作,扩大感受野;同时可以加快网络计算速度,减少过拟合现象的发生。

表2

本实施例中对基于编解码结构的语义分割网络和双通道分类网络的训练基于tensorflow框架,硬件为GeForce RTX 3080GPU的服务器。网络训练从一开始训练,没有采用预先训练的权重,训练的图片预先设置为320×320的尺寸,并采用水平/垂直翻转和缩放等操作来增强数据,所有的实验由Adam optimizer训练,初始学习率设为0.001,权重衰减(Decay)为0,批量(Batch_size)为8。

本实施例对语义分割网络的损失采用如下公式进行计算:

式中,N是所有样本的数量,y

对双通道分类网络的损失采用如下公式进行计算:

式中,N是所有样本的数量,K代表所有手势类别的数量,y

优选地,采用预设的评估标准对所述手部分割结果进行评估;所述预设的评估标准包含:平均交并比(mIOU)、模型大小(Model Size)、每秒浮点运算次数(FLOPS);

所述平均交并比(mIOU)定义为:

式中,k+1表示图像中的类别数目,这里有两个类别,分别为手部区域和非手部区域,p

所述模型大小(ModelSize)和每秒浮点运算次数(FLOPS)用来进一步评估模型的可行性。

采用预设的评估标准对所述手势识别结果进行评估;所述预设的评估标准包含:准确率(Accuracy)、宏观F1-分数(Macro-F1)、模型大小(ModelSize)和每秒浮点运算次数(FLOPS);

所述准确率(Accuracy)被定义为:

式中,TP表示真实标签为正例,预测为正例的样本数目;TN表示真实标签为负例,预测为负例的样本数目;total表示所有样本的数目

所述宏观F1-分数(Macro-F1)定义为所有手势类别对应F1-分数(F1-Score)的平均值:

式中,C表示所有的手势类别,F1-Score

如表3所示,是本实施例提供的复杂背景下手部分割与其它算法各项指标结果对比。表中效果最佳方法对应的数值均已加粗。从表中不难看出选择的三个评价指标中,性能都有显著提高,尤其是模型大小和每秒浮点运算次数这两个指标。可见本发明中提供的基于编解码结构的语义分割网络的手部分割性能优于其他算法,同时模型很小,对硬件设备的要求也较低。

表3

如图6所示,是本实施例提供的复杂背景下手部分割结果与其它算法结果对比图。图中,第一列和第二列展示的图像分别为原始的输入图像和对应的手部掩码图,第三列的是本文提出的算法的结果,其他列展示的图像为对比算法的结果。该图提供了直观的分割结果,不难看出,即使手势周围的环境很复杂,本实例提供的手部分割方法也有良好的分割效果。

如表4所示,是本实施例提供的复杂背景下手部识别与其它算法各项指标结果对比。表中效果最佳方法对应的数值均已加粗。从表中不难看出选择的四个评价指标中,性能都有显著提高。可见本发明中提供的复杂背景下手势的识别方法性能优于其他算法,同时模型很小,对硬件设备的要求也较低。

表4

本实施例所提供的识别方法是通过基于编解码结构的语义分割网络融合浅层细节特征和深层语义特征,在适用于正确定位手部区域的同时,分割出具有清晰轮廓的手部;采用双通道分类网络分别提取手部分割图和原始手势图像的特征,对融合后的特征进行分类识别,提高了手势的识别精度。

本实施例在编解码结构的语义分割网络中加入了多尺度上下文信息,提高语义分割的性能,同时分割网络中引入深度可分离卷积,大大减少了计算成本,降低了模型对硬件设备的要求,是整个手势识别网络更加轻量。

综上所述,本发明公开了一种基于语义分割和双通道分类网络的复杂背景下手势的识别方法。语义分割网络利用残差网络提取手部区域的特征图后,加入空洞空间池化金字塔(ASPP)和解码器模块获得更好的手部分割效果图;构建双通道分类网络,融合从手部分割图和原手势图像中提取的特征,提高了复杂背景下手势的识别精度。本发明中提供的复杂背景下手势的识别方法与其他算法的结果进行对比,结果表明本发明在复杂背景下手势识别中能够保持更好的性能。同时模型很小,对硬件设备的要求也较低。

本发明通过基于编解码结构的语义分割网络融合浅层细节特征和深层语义特征,在适用于正确定位手部区域的同时,分割出具有清晰轮廓的手部;采用双通道分类网络分别提取手部分割图和原手势图像的特征,对融合后的特征进行分类识别,提高了手势的识别精度。本发明在编解码结构的语义分割网络中加入了多尺度上下文信息,提高了语义分割的性能,同时分割网络中引入深度可分离卷积,大大减少了计算成本,降低了模型对硬件设备的要求,使整个手势识别网络更加轻量。

需要说明的是,在本发明的实施例中,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述实施例,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

相关技术
  • 一种复杂背景下的手势识别方法
  • 一种复杂背景下的复合卷积神经网络手势图像识别方法
技术分类

06120112922568