掌桥专利:专业的专利平台
掌桥专利
首页

手势识别实时交互方法、网络设备及存储介质

文献发布时间:2023-06-19 18:46:07


手势识别实时交互方法、网络设备及存储介质

技术领域

本申请涉及通讯设备技术领域,尤其涉及手势识别实时交互方法、网络设备及存储介质。

背景技术

手势操控可实现无接触操作,应用越来越广泛,通过手势识别进行人工交互的操作更是逐渐成为了一种主流操控方式。现有的手势交互方案大多都存在手势无法实时追踪的问题。

发明内容

为了克服相关技术中存在的问题,本申请提供了手势识别实时交互方法、网络设备及存储介质。

根据本申请实施例第一方面手势识别实时交互方法,包括:

获取手势操作图像;

在判断有缓存的操作者信息情况下,对缓存的操作者手部检测感兴趣区域进行比例放大,并将放大区域设定为旧待检测的手部区域;

获取的手势操作图像通过手部检测模型获取到新待检测的手部区域;

将旧待检测的手部区域与新待检测的手部区域取交集,确定矫正后的待检测手部区域;

矫正后的待检测手部区域通过关键点识别模型识别手部关键点信息;

通过手部关键点信息得到手势类别和手势移动位置信息。

优选的,判断没有缓存的操作者信息情况下,通过人形检测模型从手势操作图像获取多个人形感兴趣区域;

通过手部检测模型从人形感兴趣区域获取人形感兴趣区域对应的手部感兴趣区域;

手部感兴趣区域通过关键点识别模型获取手部的关键点信息;

通过手部关键点信息识别手势类别;

根据预设的手势类别确定操作者。

优选的,判断是否有缓存的操作者信息为上一次操作者信息。

优选的,手部检测感兴趣区域以线性方式进行比例放大。

优选的,在矫正后的当前待检测的手部区域通过关键点识别模型识别手部关键点信息后,对手部关键点信息进行平滑处理。

优选的,将旧待检测的手部区域与新待检测的手部区域取交集,确定矫正后的待检测手部区域,包括:

若交集区域>0,则以新待检测的手部区域为设定的矫正后的当前待检测的手部区域;

若交集区域≤0,则以旧待检测的手部区域为设定的矫正后的当前待检测的手部区域。

优选的,的关键点识别模型为轻量级特征提取网络模型,所选择的模型需同时满足:

模型样本训练数量在万数量级以内;

模型占用的数据空间在兆级以内。

优选的,的手部关键点信息包括若干个手部关键点坐标(x,y,z),通过计算若干个手部关键点坐标每个维度的平均值得到手部移动位置坐标(x

进一步地,平滑处理包括通过低通滤波器对手部关键点信息进行低通滤波处理。

网络设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行包括上述手势识别实时交互方法。

存储介质,其上存储有计算机程序指令,程序指令被处理器执行时用于实现上述手势识别实时交互方法。

本申请实施例提供的技术方案可以包括以下有益效果:

本申请实施例中可实现手势交互实时性强,满足手势快速移动跟踪的要求。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入申请中并构成本申请的一部分,示出了符合本申请的实施例,并与申请一起用于解释本申请的原理。

图1是本申请实施例一方法流程示意图;

图2是本申请实施例二方法流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为解决背景技术存在的问题,本申请实施例一提供了手势识别实时交互方法,包括如下步骤:

101:获取手势操作图像;

可以通过安装的摄像头实时采集用户进行手势操作图像。摄像头可以是集成在例如智慧屏等网络设备上,也可以是独立的外接设备。

102:判断是否缓存有操作者信息;

通常将缓存的操作者信息缓存在系统中,且缓存的操作者信息以确认的上一次操作者信息为好。因为与操作者当前状态最为接近。

103:在判断有缓存的操作者信息情况下,对缓存的操作者手部检测感兴趣区域进行比例放大,并将放大区域设定为旧待检测的手部区域;

主要通过线性方式对缓存的操作者手部检测感兴趣区域进行比例放大,这样有利于后续与新待检测的手部区域进行取交集。由于该操作者已经被追踪,所以可以缩小手部区域的检测范围,减少其他环境的干扰,同时也提高了远距离手部检测的精度。

104:获取的手势操作图像通过手部检测模型获取到新待检测的手部区域;

这里的手部检测模型会检测多个手部区域。而手部检测模型需要进行大量手势图片样本进行学习训练。可以在例如pytorch、Tensorflow等深度学习框架下训练从而得到一个实时手部检测的深度学习模型。考虑到手部会存在多种角度、模糊等情况,我们会使用图像旋转、高斯模糊、马斯阿克增强等图像增强方式增加训练样本。

105:将旧待检测的手部区域与新待检测的手部区域取交集,确定矫正后的待检测手部区域;

可设定交集区域的预设值,当超过预设值,则判断旧待检测的手与新待检测的手为同一个手。因此可以以新待检测的手部区域为设定的矫正后的当前待检测的手部区域。若小于或等于预设值,则认为交集区域过小,那么可能是手部检测模型误检测导致的,可能不是同一个的手部或者是一个人的不同手。因此可以以旧检测的手部区域为设定的矫正后的当前待检测的手部区域。对旧检测的手部区域进行线性比例放大。这里的旧可以指上一次的,也可以是当前以外的其他几次中某次的。

例如:若交集区域>0,则以新待检测的手部区域为设定的矫正后的当前待检测的手部区域;

若交集区域≤0,则以旧待检测的手部区域为设定的矫正后的当前待检测的手部区域。

106:矫正后的待检测手部区域通过关键点识别模型识别手部关键点信息;

这里的关键点识别模型为轻量级特征提取网络模型,比如shufflenet、mobileone等。

关键点识别的数量可以是21个、15个等。根据不同模型来识别。需要考虑平衡后续数据处理能力以及手势类别识别精度两方面的问题。

识别的手部关键点信息包括若干个手部关键点坐标(x,y,z)。因为手部追踪移动过程中会存在抖动、模糊等情况,因此需要对手部关键点数据进行平滑处理,比如通过低通滤波器来进行处理。

107:通过手部关键点信息得到手势类别和手势移动位置信息。

手部关键点坐标通过手势分类的深度学习模型识别出手势的类别。为了识别的高效性,以适应手势移动的快速,可采用多层卷积神经网络进行手部关键点的分类,以识别出多个手势类别。

可以通过计算若干个手部关键点坐标每个维度的平均值得到手部移动位置坐标(x

通过多次检测的手部移动位置坐标可以得到手部移动轨迹。

上述实施例中提到的“轻量级”指的是模型需要同时满足下述条件:

(1)模型样本训练数量在万数量级以内;

(2)模型占用的数据空间在兆级以内。

本申请的步骤并非是按所举例子从时间顺序上执行方法的,例如102步骤除了实施例中的顺序执行外,还可以在101步骤之前,也可以与101步骤同时进行。

本申请在上述实施例的基础上,还提供了实施例二,在102步骤:判断是否缓存有操作者信息之后,包括:

201:判断没有缓存的操作者信息情况下,通过人形检测模型从手势操作图像获取多个人形感兴趣区域;

通过人形检测模型检测出多个人形目标的位置,并提取出其中多个人形的感兴趣区域。为了提高远距离的手部检测,首先检测出人形,然后基于人形的感兴趣区域检测出手部。考虑到人形检测算法的实时性,同样考虑采用轻量级的深度学习目标检测模型,比如ssd系列、yolo系列的目标检测模型。这里对于人形目标位置同样可通过低通滤波器对目标位置进行平滑处理,以消除人形移动、晃动等问题。

202:通过手部检测模型从人形感兴趣区域获取人形感兴趣区域对应的手部感兴趣区域;

为了能解决远距离手部识别的问题,首先从获取的手势图像中获取人形感兴趣区域,然后可通过线性比例放大等方式,从比例放大后获取手部感兴趣区域。

这里的手部检测模型同样需要进行大量手势图像样本进行学习训练。可以在例如pytorch、Tensorflow等深度学习框架下训练,从而得到一个实时手部检测的深度学习模型。考虑到手部会存在多种角度、模糊等情况,我们会使用图像旋转、高斯模糊、马斯克增强等图像增强方式增加训练样本。

203:手部感兴趣区域通过关键点识别模型获取手部的关键点信息;

与步骤106相同,在此不再赘述。

204:通过手部关键点信息识别手势类别;

同步骤107手势类别识别的部分,在此也不再赘述。

205:根据预设的手势类别确定操作者。

系统内预设有确定操作者的手势,通过比较识别的手势是否符合预设的手势判断,当前用户是否是操作者。比如举起五个手指。

上述两个实施例中提到的深度学习模型为现有的深度学习模型,因此不做详细阐述。

本申请实施例还提供了网络设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行包括上述手势识别实时交互方法。这里的网络设备可以是智慧屏。

本申请实施例还提供了存储介质,其上存储有计算机程序指令,程序指令被处理器执行时用于实现上述手势识别实时交互方法。

其中,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

技术分类

06120115687390