导航：首页> 流体压力执行机构；一般液压技术和气动技术>一种手部检测方法、装置、存储介质和设备

一种手部检测方法、装置、存储介质和设备

文献发布时间：2023-06-19 11:14:36

技术领域

本申请涉及图像处理领域，尤其涉及一种手部检测方法、装置、存储介质和设备。

背景技术

如何检测图像中的手部，为当前市面上研究手势识别的团队和企业所重点关注的问题。目前，通常利用深度学习网络实现手部检测，然而，由于图像中所包含的多个手部，各自的尺寸大小差别较大，为了保证手部检测结果的准确性，现有的深度学习网络通常会大量增加自身网络结构的卷积层数和感受野。卷积层数的增加会令深度学习网络的计算速度下降，从而导致手部检测的效率大大降低。此外，随着卷积层数和感受野的增加，计算过程还会消耗大量的计算资源，使得硬件成本增加，难以适用于大多数个体和团队，不利于手势识别工作的研究发展。

发明内容

本申请提供了一种手部检测方法、装置、存储介质和设备，用于在确保手部检测结果准确的情况下，提高手部检测的效率。

为了实现上述目的，本申请提供了以下技术方案：

一种手部检测方法，包括：

获取用户输入的图像；

将所述图像输入至预先构建的目标检测网络中，得到所述目标检测网络的输出结果；所述输出结果包括候选框和第一数值，所述第一数值用于指示所述候选框中所框定的目标为手部的概率；

对所述候选框进行难例挖掘和非极大值抑制，得到特征图张量；

判断所述第一数值是否大于预设阈值；

在所述第一数值大于所述预设阈值的情况下，向所述用户发送所述特征图张量；

在所述第一数值不大于所述预设阈值的情况下，重复执行预设步骤，对所述输出结果进行迭代处理，直至迭代处理后的所述输出结果所指示的第一数值大于所述预设阈值，并向所述用户发送迭代处理后所得到的新的特征图张量；其中，所述预设步骤包括：将所述特征图张量输入至所述目标检测网络中，得到新的输出结果，并对所述新的输出结果所包含的候选框进行难例挖掘和非极大值抑制，得到所述新的特征图张量。

可选的，所述目标检测网络包括：

第一降采样结构，用于对所述图像进行降维，得到降维后的图像，并对所述降维后的图像进行下采样，得到第一特征图像；

第二降采样结构，用于对所述第一特征图像进行降维，得到降维后的第一特征图像，并对所述降维后的第一特征图像进行下采样，得到第二特征图像；

目标捕获结构，用于对所述第二特征图像进行目标捕获，得到所述候选框和所述第一数值。

可选的，所述第一降采样结构包括：

标准卷积层、归一化层、激活层、下采样层、以及1×1卷积层。

可选的，所述第二降采样结构包括：

标准卷积层、归一化层、激活层、以及下采样层。

可选的，所述目标捕获结构包括：

深度卷积层、归一化层、激活层、三维点云操作层、以及标准卷积层。

可选的，所述目标检测网络还包括：

中间结构，用于增强所述第一特征图像的边缘信息。

可选的，所述中间结构包括：

可分离通道卷积层和逐点卷积模块；

其中，所述可分离通道卷积层包括通道合并层，所述逐点卷积模块包括标准卷积层、归一化层、以及激活层。

一种手部检测装置，包括：

获取单元，用于获取用户输入的图像；

检测单元，用于将所述图像输入至预先构建的目标检测网络中，得到所述目标检测网络的输出结果；所述输出结果包括候选框和第一数值，所述第一数值用于指示所述候选框中所框定的目标为手部的概率；

预处理单元，用于对所述候选框进行难例挖掘和非极大值抑制，得到特征图张量；

判断单元，用于判断所述第一数值是否大于预设阈值；

发送单元，用于在所述第一数值大于所述预设阈值的情况下，向所述用户发送所述特征图张量；

迭代单元，用于在所述第一数值不大于所述预设阈值的情况下，重复执行预设步骤，对所述输出结果进行迭代处理，直至迭代处理后的所述输出结果所指示的第一数值大于所述预设阈值，并向所述用户发送迭代处理后所得到的新的特征图张量；其中，所述预设步骤包括：将所述特征图张量输入至所述目标检测网络中，得到新的输出结果，并对所述新的输出结果所包含的候选框进行难例挖掘和非极大值抑制，得到所述新的特征图张量。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的手部检测方法。

一种手部检测设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的手部检测方法。

本申请提供的技术方案，获取用户输入的图像，将图像输入至预先构建的目标检测网络中，得到目标检测网络的输出结果。输出结果包括候选框和第一数值，第一数值用于指示候选框中所框定的目标为手部的概率。对候选框进行难例挖掘和非极大值抑制，得到特征图张量。判断第一数值是否大于预设阈值，在第一数值大于预设阈值的情况下，向用户发送特征图张量。在第一数值不大于预设阈值的情况下，重复执行预设步骤，对输出结果进行迭代处理，直至迭代处理后的输出结果所指示的第一数值大于预设阈值，并向用户发送迭代处理后所得到的新的特征图张量。其中，预设步骤包括：将特征图张量输入至目标检测网络中，得到新的输出结果，并对新的输出结果所包含的候选框进行难例挖掘和非极大值抑制，得到新的特征图张量。通过比较第一数值和预设阈值，可以规划目标检测网络的输出结果的迭代处理次数，即实现对手部检测的效果的指标量化(该量化指标即为预设阈值，由预设阈值规划输出结果的迭代处理次数)，避免进行多余的计算。可见，相较于现有技术，本申请所述方法所花费的计算时间明显得到有效减少，从而提升了手部检测的效率。此外，基于目标检测网络的网络结构可知，目标检测网络对硬件资源要求不高，能够广泛适用于绝大多数个体和团队，具有较高的适用性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种手部检测方法的示意图；

图2a为本申请实施例提供的一种目标检测网络的网络结构示意图；

图2b为本申请实施例提供的另一种目标检测网络的网络结构示意图；

图3为本申请实施例提供的一种手部检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请实施例提供的一种手部检测方法的示意图，包括如下步骤：

S101：获取用户输入的图像。

其中，图像包括但不限于为彩色图像、红外图像、以及深度图像等。

S102：将图像输入至预先构建的目标检测网络中，得到目标检测网络的输出结果。

其中，目标检测网络的输出结果包括候选框和第一数值，第一数值用于指示候选框中所框定的目标为手部的概率。

在本申请实施例中，目标检测网络包括第一降采样结构、中间结构、第二降采样结构、以及目标捕获结构。

具体的，按照图2a所示的网络结构，目标检测网络处理图像的流程包括：

1、图像输入至第一降采样结构中，得到第一特征图像。

需要说明的是，第一降采样结构的作用为：对对图像进行降维，得到降维后的图像，并对降维后的图像进行下采样，得到第一特征图像。第一降采样结构包括标准卷积层(俗称为标准Conv)、归一化层(俗称为BN层)、激活层(俗称为swish)、下采样层(俗称为pooling)、以及1×1卷积层(俗称为1×1Conv)。在本申请实施例中，标准卷积层的数量、以及卷积核的大小，可由技术人员根据实际情况进行设置。

2、第一特征图像输入至中间结构中，得到第一结果。

需要说明的是，中间结构的作用为：增强第一特征图像的边缘信息。中间结构包括可分离通道卷积层和逐点卷积模块，可分离通道卷积层包括通道合并层(俗称为concat)，逐点卷积模块包括标准卷积层、归一化层、以及激活层。在本申请实施例中，逐点卷积模块的数量可由技术人员根据实际情况进行设置。

3、第一结果输入至第二降采样结构中，得到第二特征图像。

需要说明的是，第二降采样结构的作用为：对第一特征图像进行降维，得到降维后的第一特征图像，并对降维后的第一特征图像进行下采样，得到第二特征图像。第二降采样结构包括标准卷积层、归一化层、激活层、以及下采样层。

4、第二特征图像输入至目标捕获结构中，得到候选框和第一数值。

需要说明的是，目标捕获结构的作用为：对第二特征图像进行目标捕获，得到候选框和第一数值。目标捕获结构包括深度卷积层(俗称为DepthConv)、归一化层、激活层、三维点云操作层(俗称为PointConv)、以及标准卷积层。

需要强调的是，上述提及的第一降采样结构、中间结构、第二降采样结构、以及目标捕获结构，还可以参见图2b所示。在图2b中，各个下采样层的采样倍数可由技术人员根据实际情况进行设置，这里不再赘述。

S103：对候选框进行难例挖掘和非极大值抑制，得到特征图张量。

其中，对候选框进行难例挖掘和非极大值抑制的具体实现原理，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S104：判断第一数值是否大于预设阈值。

若第一数值大于预设阈值，则执行S105，否则执行S106。

S105：向用户发送特征图张量。

其中，若第一数值大于预设阈值，则确定手部检测的效果满足预设要求，即能够确保手部检测结果的准确性。

S106：重复执行预设步骤，对输出结果进行迭代处理，直至迭代处理后的输出结果所指示的第一数值大于预设阈值，并向用户发送迭代处理后所得到的新的特征图张量。

其中，预设步骤包括：将特征图张量输入至目标检测网络中，得到新的输出结果，并对新的输出结果所包含的候选框进行难例挖掘和非极大值抑制，得到新的特征图张量。

需要说明的是，每次对输出结果进行迭代处理，所对应得到的新的特征图张量，相较于上一次迭代处理所得到的特征图张量，其手部检测的效果更为优秀(即当前迭代处理得到的第一数值，比前一次迭代处理得到的第一数值更大)。

具体的，以图2b所示的目标检测网络为例，目标检测网络的网络结构类比于特征金字塔结构，每次处理图像均将特征图像的尺度缩小至原来的1/4(具体缩小比例可由技术人员设置)，从而满足图像中不同尺寸大小的目标(即手部)的检测，检测过程较为动态灵活，针对某一张图像，可能处理两次就检测得到包含有手部的候选框(即说明图像中各个手部的尺寸大小差别较小)，也有可能处理n(n为大于1的正整数)次就检测得到包含有手部的候选框(即说明图像中各个手部的尺寸大小差别较大)，并且n的数值受限于预设阈值，避免花费较长时间进行无效运算，不仅提高手部检测的运算速度，还能够减少计算资源的浪费。

综上所述，通过比较第一数值和预设阈值，可以规划目标检测网络的输出结果的迭代处理次数，即实现对手部检测的效果的指标量化(该量化指标即为预设阈值，由预设阈值规划输出结果的迭代处理次数)，避免进行多余的计算。可见，相较于现有技术，本实施例所述方法所花费的计算时间明显得到有效减少，从而提升了手部检测的效率。此外，基于目标检测网络的网络结构可知，目标检测网络对硬件资源要求不高，能够广泛适用于绝大多数个体和团队，具有较高的适用性。

与上述本申请所述的手部检测方法相对应，本申请实施例还提供了一种手部检测装置。

如图3所示，为本申请实施例提供的一种手部检测装置的结构示意图，包括：

获取单元100，用于获取用户输入的图像。

检测单元200，用于将图像输入至预先构建的目标检测网络中，得到目标检测网络的输出结果，输出结果包括候选框和第一数值，第一数值用于指示候选框中所框定的目标为手部的概率。

其中，目标检测网络包括：第一降采样结构，用于对图像进行降维，得到降维后的图像，并对降维后的图像进行下采样，得到第一特征图像；第二降采样结构，用于对第一特征图像进行降维，得到降维后的第一特征图像，并对降维后的第一特征图像进行下采样，得到第二特征图像；目标捕获结构，用于对第二特征图像进行目标捕获，得到候选框和第一数值。

在本申请实施例中，第一降采样结构包括标准卷积层、归一化层、激活层、下采样层、以及1×1卷积层。第二降采样结构包括标准卷积层、归一化层、激活层、以及下采样层。目标捕获结构包括深度卷积层、归一化层、激活层、三维点云操作层、以及标准卷积层。

此外，目标检测网络还包括中间结构，用于增强第一特征图像的边缘信息。其中，中间结构包括可分离通道卷积层和逐点卷积模块，可分离通道卷积层包括通道合并层，逐点卷积模块包括标准卷积层、归一化层、以及激活层。

预处理单元300，用于对候选框进行难例挖掘和非极大值抑制，得到特征图张量。

判断单元400，用于判断第一数值是否大于预设阈值。

发送单元500，用于在第一数值大于预设阈值的情况下，向用户发送特征图张量。

迭代单元600，用于在第一数值不大于预设阈值的情况下，重复执行预设步骤，对输出结果进行迭代处理，直至迭代处理后的输出结果所指示的第一数值大于预设阈值，并向用户发送迭代处理后所得到的新的特征图张量。其中，预设步骤包括：将特征图张量输入至目标检测网络中，得到新的输出结果，并对新的输出结果所包含的候选框进行难例挖掘和非极大值抑制，得到新的特征图张量。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的手部检测方法。

本申请还提供了一种手部检测设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的手部检测方法，包括如下步骤：

获取用户输入的图像；

对所述候选框进行难例挖掘和非极大值抑制，得到特征图张量；

判断所述第一数值是否大于预设阈值；

在所述第一数值大于所述预设阈值的情况下，向所述用户发送所述特征图张量；

可选的，所述目标检测网络包括：

第一降采样结构，用于对所述图像进行降维，得到降维后的图像，并对所述降维后的图像进行下采样，得到第一特征图像；

第二降采样结构，用于对所述第一特征图像进行降维，得到降维后的第一特征图像，并对所述降维后的第一特征图像进行下采样，得到第二特征图像；

目标捕获结构，用于对所述第二特征图像进行目标捕获，得到所述候选框和所述第一数值。

可选的，所述第一降采样结构包括：

标准卷积层、归一化层、激活层、下采样层、以及1×1卷积层。

可选的，所述第二降采样结构包括：

标准卷积层、归一化层、激活层、以及下采样层。

可选的，所述目标捕获结构包括：

深度卷积层、归一化层、激活层、三维点云操作层、以及标准卷积层。

可选的，所述目标检测网络还包括：

中间结构，用于增强所述第一特征图像的边缘信息。

可选的，所述中间结构包括：

可分离通道卷积层和逐点卷积模块；

其中，所述可分离通道卷积层包括通道合并层，所述逐点卷积模块包括标准卷积层、归一化层、以及激活层。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：古迎冬;李骊;
专利申请人：北京华捷艾米科技有限公司;