掌桥专利:专业的专利平台
掌桥专利
首页

基于动态融合机制的手势图像特征提取方法

文献发布时间:2023-06-19 11:05:16


基于动态融合机制的手势图像特征提取方法

技术领域

本发明涉及一种手势图像特征提取方法,具体涉及了一种基于动态融合机制的手势图像特征提取方法。

背景技术

手势特征提取主要应用于人机交互以及模式识别等领域,已成为当今时代人机交互的研究热点之一。但如何在现实应用中对复杂背景中的多样化手势进行精确的特征提取成为了一大难点。目前手势特征提取方法主要分为基于机器视觉的手势特征提取方法以及基于深度学习的手势特征提取方法两大类。

基于机器视觉的手势特征提取方法主要是通过图像检测、图像处理、图像分割等方法处理图像并检测肤色区域从而实现对手势部分的分割,再通过一系列的特征算法提取图像特征。

基于轮廓信息的特征提取方法通过从图像中提取出目标物体光滑连续的轮廓等方式将手势区域分割出来,进而获得手势轮廓特征;基于肤色分割的手势特征提取方法通过构建肤色模型来排除非肤色目标的干扰,将手势部分从背景中分割出来,从而获得手势的轮廓特征。基于多特征融合的手势特征提取方法则是提取梯度直方图(HOG)和局部二值模式(LBP)等特征,并进行融合,进而得到更加全面的手势特征信息;基于深度学习的特征提取方法使用卷积神经网络通过卷积层自动提取手势的轮廓肤色等特征。

虽然基于机器视觉的手势特征提取方法也能在一定程度上实现复杂手势的特征提取,但易受复杂背景下光照和背景的影响,且提取速度较慢。目前基于深度学习的手势特征提取方法逐渐成为主流。

发明内容

针对传统手势图像特征提取方法准确率较低且速度较慢的问题,本发明的目的在于提出一种快速准确的手势图像特征提取方法,能够满足复杂背景下的实时性手势识别的需求。本发明利用基于深度可分离卷积结构的Xception-Net神经网络对手势图像进行特征提取,再利用SE-Ne结构对提取到的高阶特征进行特征重标定,强化主要特征同时抑制次要特征。本发明提出的方法成功的完成了对手势图像的特征提取,能实现复杂背景下手势图像快速准确的特征提取。

本发明的技术方案如下:

本发明包括如下步骤:

1)对原始手势图像进行尺寸归一化处理,获得手势图像;

2)将手势图像输入到预训练的Xception-Net卷积神经网络,预训练的Xception-Net卷积神经网络提取手势图像的特征信息并输出原始特征向量;

3)将原始特征向量输入空间特征动态融合机制结构,空间特征动态融合机制结构输出动态融合后的手势图像特征向量;

4)原始特征向量和动态融合后的手势图像特征向量输入到SE-Net结构(Squeeze-and-Exciation Networks)中,获得重标定后的特征向量,将重标定后的特征向量输入到Softmax分类器进行分类,获得手势图像的分类结果。

所述步骤2)具体为:

Xception-Net卷积神经网络主要由深度可分离卷积结构和除深度可分离卷积结构以外的模块组成,深度可分离卷积结构包括Depthwise卷积模块和Pointwise卷积模块,手势图像经过除深度可分离卷积结构以外的模块后输出中间手势图像,中间手势图像中存在多个特征通道,将每个特征通道单独输入Depthwise卷积模块中,Depthwise卷积模块提取每个特征通道中的空间特征,提取的每个特征通道中的空间特征输入到Pointwise卷积模块中,Pointwise卷积模块提取空间特征中的通道信息后获得通道特征并将空间特征和通道特征进行卷积,卷积后获得一个包含手势图像特征信息的原始特征向量。

所述步骤3)具体为:

空间特征动态融合机制结构包括下采样模块(Down-sampling)、第一特征压缩模块(Compress)、特征权重提取模块(Extract)、上采样模块(Up-sampling)和权重相乘层;原始特征向量输入下采样模块,下采样模块依次经第一特征压缩模块、特征权重提取模块后与上采样模块相连,上采样模块的输出与原始特征向量同时输入权重相乘层,权重相乘层输出动态融合后的手势图像特征向量。

所述下采样模块主要由最大池化层(MaxPooling)组成,原始特征向量输入最大池化层;

第一特征压缩模块包括全局最大池化层和第一全局平均池化层,下采样模块的最大池化层的输出同时分别输入全局最大池化层和第一全局平均池化层,全局最大池化层和全局平均池化层的输出进行融合后输出,融合后的输出作为第一特征压缩模块的输出;

特征权重提取模块包括一个卷积层,第一特征压缩模块的输出输入到卷积层,卷积层输出特征权重向量;

上采样模块包括一个上采样层,卷积层输出的特征权重向量输入到上采样层,上采样层的输出和原始特征向量共同输入到权重相乘层,权重相乘层的输出作为动态融合后的手势图像特征向量。

所述步骤4)具体为:

SE-Net结构包括第二特征压缩模块(Squeeze)、特征激励模块(Excitation)和特征重标定模块(Reweight);第二特征压缩模块经特征激励模块后与特征重标定模块相连,原始特征向量输入到第二特征压缩模块,第二特征压缩模块的输出输入到特征激励模块,特征激励模块的输出和动态融合后的手势图像特征向量输入到特征重标定模块,特征重标定模块输出到Softmax分类器进行分类,获得手势图像的分类结果。

所述第二特征压缩模块包括第二全局平均池化层(Global Average Pooling),原始特征向量输入到第二全局平均池化层;

特征激励模块主要由第一全连接层、第一激活层、第二全连接层和第二激活层依次连接组成;第二全局平均池化层的输出输入到第一全连接层,第二激活层的输出作为特征激励模块的输出;

特征重标定模块具体为重标定相乘,第二激活层的输出和动态融合后的手势图像特征向量经过相乘后输出到Softmax分类器进行分类,获得手势图像的分类结果。

本发明的有益效果:

本发明采用了基于深度可分离卷积结构(Depth separable convolution)的Xception-Net网络模型,减少了模型的参数,提高了特征提取速度,具有更好的实时性。

本发明使用了SE-Net结构对特征向量进行特征重标定,有效的增强了主要特征并抑制了次要特征,提高了特征提取的准确率。

本发明提出了空间特征动态融合机制,利用特征权重强化特征向量的空间特征,动态增强主要特征并弱化次要特征,进而使高阶特征对特征向量的进一步特征提取进行指导。增强了特征提取的准确性,能够更准确的提取主要特征,使提取到的特征更具代表性。

附图说明

图1为本发明的技术方案流程图。

图2为本发明中手语数据集的部分手势图像。

图3为本发明所使用的深度可分离卷积结构的结构示意图。

图4为本发明中Xception-Net卷积神经网络的顶层卷积提取到的手势特征图像。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明的技术方案流程图如图1所示。

本发明的数据集采用ASL(American sign language)开源手语数据集,ASL(American sign language)开源手语数据集的部分数据如图2所示。ASL开源手语数据集包含了不同角度、不同光照、不同大小以及不同背景环境下的手势图像,共包含28种手势类别以及非手势类别,共29个分类类别,手语数据集中的手势图像作为原始手势图像。

本发明包括如下步骤:

1)对原始手势图像进行尺寸归一化处理,获得手势图像;由于所用的Xception-Net卷积神经网络对输入手势图像的尺寸有一定要求,因此将原始手势图像处理为256×256×3的三通道RGB彩色图像,再对三通道RGB彩色图像进行标准化(BatchNormalization)后获得预处理后的图像,标准化具体为:将三通道RGB彩色图像从0~255之间的整数映射到0~1之间的浮点数,防止在训练过程中出现梯度消失或梯度爆炸。预处理后的图像作为手势图像输入到Xception-Net卷积神经网络中。

2)将手势图像输入到预训练的Xception-Net卷积神经网络,预训练的Xception-Net卷积神经网络提取手势图像的特征信息并输出原始特征向量;

步骤2)具体为:

Xception-Net卷积神经网络主要由深度可分离卷积结构和除深度可分离卷积结构以外的模块组成,深度可分离卷积结构将空间特征和通道特征处理过程完全分开,如图3所示,深度可分离卷积结构包括Depthwise卷积模块和Pointwise卷积模块,手势图像经过除深度可分离卷积结构以外的模块后输出中间手势图像,中间手势图像中存在多个特征通道,将每个特征通道单独输入Depthwise卷积模块中,空间特征中包含通道信息,Depthwise卷积模块提取每个特征通道中的空间特征,提取的每个特征通道中的空间特征输入到Pointwise卷积模块中,Pointwise卷积模块提取空间特征中的通道信息后获得通道特征并将空间特征和通道特征进行卷积,卷积后获得一个包含手势图像特征信息的原始特征向量。

深度可分离卷积结构将手势图像的空间信息和通道信息分别进行处理,Depthwise卷积模块对每个特征通道都进行卷积操作,假设一个特征通道的特征图数量为a,Depthwise卷积模块中卷积层的卷积核大小为3×3,都会有一个独立的3×3卷积核对每一个特征图并行进行卷积操作,最终输出a个空间特征。

Pointwise卷积模块采用标准1×1卷积层来提取通道特征并关联不同特征通道上的特征信息,得到不同通道上的关联性输出特征。

使用深度可分离卷积结构可以在保留较高准确率的情况下减少大量的模型参数和计算量,提高了训练和特征提取的速度,且分类效果较好。最终顶层卷积提取到部分手势特征图像如图4所示,深度可分离卷积结构能够准确的提取出手势图像的轮廓肤色等高级特征。

3)将原始特征向量输入空间特征动态融合机制结构,空间特征动态融合机制结构输出动态融合后的手势图像特征向量;

步骤3)具体为:

空间特征动态融合机制结构提取带有空间注意力的高阶特征权重向量,并对原始特征向量包含的主要特征进行空间特征增强,进而对原始特征向量的进一步特征提取进行指导。空间特征动态融合机制结构包括下采样模块(Down-sampling)、第一特征压缩模块(Compress)、特征权重提取模块(Extract)、上采样模块(Up-sampling)和权重相乘层(guide);原始特征向量输入下采样模块,下采样模块依次经第一特征压缩模块、特征权重提取模块后与上采样模块相连,上采样模块的输出与原始特征向量同时输入权重相乘层,权重相乘层输出动态融合后的手势图像特征向量。

下采样模块主要由最大池化层(MaxPooling)组成,原始特征向量输入最大池化层,最大池化层扩大感受野,用于后续提取原始特征向量空间维度的高阶特征;

第一特征压缩模块包括全局最大池化层和第一全局平均池化层,下采样模块的最大池化层的输出同时分别输入全局最大池化层和第一全局平均池化层,全局最大池化层和第一全局平均池化层对最大池化层的输出在通道维度上进行压缩,全局最大池化层和全局平均池化层的输出进行融合后输出,融合后的输出作为第一特征压缩模块的输出,融合具体为在通道维度上进行组合;

特征权重提取模块包括一个卷积层,第一特征压缩模块的输出输入到卷积层,卷积层输出特征权重向量,卷积层的卷积核尺寸为7×7,卷积层对第一特征压缩模块压缩后的特征向量进行进一步的特征提取,获得特征向量在每个空间位置上的对应权重,用于指导原始特征向量进一步提取为高阶特征。

上采样模块包括一个上采样层,卷积层输出的特征权重向量输入到上采样层,上采样层将卷积层输出的特征权重向量放缩为与原始特征向量相同的尺寸,使得到的特征权重向量能够指导原始特征向量进行特征提取;上采样层的输出和原始特征向量共同输入到权重相乘层,权重相乘层具体为将上采样层的输出和原始特征向量相乘后输出,权重相乘层的输出作为动态融合后的手势图像特征向量。上采样层输出的特征权重向量对原始特征向量中的主要空间特征进行增强,权重相乘层用于加强原始特征向量的主要特征在后续过程中的贡献并弱化原始特征向量的次要特征,最终特征向量在对识别任务贡献最大的方向上不断提取高阶特征。

具体实施中,原始特征向量尺寸为2W×2H×C,首先使用最大池化层对原始特征向量进行下采样,最大池化层扩大感受野以便获得高阶特征,并得到尺寸为W×H×C的特征向量;然后分别采用全局最大池化层和第一全局平均池化层压缩W×H×C的特征向量在通道维度上的特征,得到两个尺寸为W×H×1的特征向量;将两个尺寸为W×H×1的特征向量在通道维度上进行合并得到尺寸为W×H×2的特征向量;尺寸为W×H×2的特征向量输入到一个卷积核尺寸为7×7的卷积层,获得一个尺寸为W×H×1的特征权重向量,尺寸为W×H×1的特征权重向量的物理意义为W×H×C的特征向量对应的高阶空间权重信息;通过上采样将尺寸为W×H×1的特征权重向量放缩为2W×2H×1的特征权重向量;最后将得到的2W×2H×1的特征权重向量与原始特征向量相乘,获得动态融合后的手势图像特征向量。

4)原始特征向量和动态融合后的手势图像特征向量输入到SE-Net结构(Squeeze-and-Exciation Networks)中,获得重标定后的特征向量,将重标定后的特征向量输入到Softmax分类器进行分类,获得手势图像的分类结果。具体实施中,Softmax分类器映射为29个类别的概率值,取概率值最大的类别作为该手势图像的分类类别。

步骤4)具体为:

SE-Net结构包括第二特征压缩模块(Squeeze)、特征激励模块(Excitation)和特征重标定模块(Reweight);第二特征压缩模块经特征激励模块后与特征重标定模块相连,原始特征向量输入到第二特征压缩模块,第二特征压缩模块的输出输入到特征激励模块,特征激励模块的输出和动态融合后的手势图像特征向量输入到特征重标定模块,特征重标定模块输出到Softmax分类器进行分类,获得手势图像的分类结果。高阶特征是指经多个卷积层进行卷积后得到的高度抽象化的特征。

第二特征压缩模块包括第二全局平均池化层(Global Average Pooling),原始特征向量输入到第二全局平均池化层,第二全局平均池化层在空间维度上对原始特征向量进行特征压缩,将原始特征向量压缩为一维特征向量,第二特征压缩模块通过以下公式进行设置:

其中,F

具体实施中,原始特征向量包含C个通道上的二维特征图,第二全局平均池化层在宽度和高度的维度上对在二维特征图进行压缩,获得只保留通道维度的特征向量,只保留通道维度的特征向量为包含C个实数的一维特征向量,C个实数表示每个通道上的特征,即通道特征;

特征激励模块主要由第一全连接层、第一激活层、第二全连接层和第二激活层依次连接组成;第二全局平均池化层的输出输入到第一全连接层,第二激活层的输出作为特征激励模块的输出;特征激励模块通过以下公式进行设置:

F

其中,F

具体实施中,第一激活层的激活函数为ReLU函数,第二激活层的激活函数为Sigmoid函数,通过第一全连接层对一维特征向量进行压缩,抑制某些次要特征,达到筛选主要特征过滤次要特征的目的;通过第二全连接层对压缩后的一维特征向量进行扩增,增强主要特征,第二全连接层的输出的通道数和原始特征向量的通道数相同。

特征重标定模块具体为重标定相乘,第二激活层的输出和动态融合后的手势图像特征向量经过相乘后输出到Softmax分类器进行分类,获得手势图像的分类结果。

特征重标定模块通过以下公式进行设置:

F

公式中:F

在同一设备上使用Xception-Net、SE-Xception-Net以及本文提出的基于动态融合机制的特征提取方法对ASL开源手语数据集进行对比实验,得到如下表所示的结果。

表1:本发明与其他方法的结果对比表

本文所提出的方法是在Xception-Net基础上进行改进,加入了SE-Net进行对通道特征进行特征重标定;同时加入空间特征动态融合机制对主要空间特征进行特征增强,其参数较少,不会减慢特征提取的速度,并且能够提高特征提取的准确率。

上述具体技术流程用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

相关技术
  • 基于动态融合机制的手势图像特征提取方法
  • 电子设备及其基于宽动态范围的图像特征提取方法和介质
技术分类

06120112792332