掌桥专利:专业的专利平台
掌桥专利
首页

手部姿态识别方法、存储介质以及车辆

文献发布时间:2023-06-19 18:30:43


手部姿态识别方法、存储介质以及车辆

技术领域

本发明涉及车辆技术领域,特别涉及一种手部姿态识别方法、存储介质以及车辆。

背景技术

随着汽车的发展,传统座舱进化成为现今的智能座舱,智能座舱的设计诉求主要是用于提升用户的驾乘体验,同时还要保证用户驾乘的安全性和舒适性。智能座舱的设计要求是多样的,其主要体现在功能体验与交互感知的整合上,并使其更加的符合人机工程学。

手势交互作为一种可以充分在智能座舱提升人机交互体验的一种途径,其一般是利用传感器采集图像,并使用神经网络在找到手部之后对手部进行分类得到对应的手势类别,该方案简单且直观,但是在实际应用中却没有办法得到很好的识别率,导致用户体验感受较差。主要体现在:

1)图像分类任务容易因为样本数量、质量影响,导致识别准确率不够高。比如一个比二的手势虽然看似简单,但容易因为实际用户比划的角度问题导致图像与基准样本不匹配导致误识别;

2)对动态手势不友好。基于图像分类的手势识别利用的是单纯的空间信息,以这种方式通常仅能做到用户做出对应的手势而输出单一的结果,比如向后滑动可能是开闭天窗,无法控制开闭多少;

3)通常仅能做到单帧分类。如要判断动态手势,则需要需要多帧综合判断,设计非常复杂,容易因为一个环节的考量不全导致识别错误;

4)拓展性差。仅能实现简单的车内控制(如切换驾驶模式、车内拍照、接听电话等),无法拓展到更多的应用程序。

发明内容

本发明的目的在于提出一种手部姿态识别方法、存储介质以及车辆,以识别更多样性的手势(包括动态手势),利于更多手势交互功能的实现,且计算资源消耗少,在有新增手势时有较大的成本优势。

为达到上述目的,本发明第一方面实施例提出了一种手部姿态识别方法,所述方法包括:获取时序手部3D图像;对所述时序手部3D图像中的各手部3D图像进行特征提取,得到时序手部三维骨骼关键点;将所述时序手部三维骨骼关键点输入至预先训练好的手部姿态识别模型,识别得到手部姿态。

另外,本发明上述实施例的手部姿态识别方法还可以具有如下附加的技术特征:

根据本发明的一个实施例,所述方法还包括:判断所述时序手部三维骨骼关键点对应的图像帧是否连续;若连续,则判断所述时序手部三维骨骼关键点对应的时长是否达到预设时间;若是,则执行所述将所述时序手部三维骨骼关键点输入至预先训练好的手部姿态识别模型的步骤。

根据本发明的一个实施例,所述预先训练好的手部姿态识别模型具有M个输入端,M为大于1的整数,在将所述时序手部三维骨骼关键点输入至所述预先训练好的手部姿态识别模型之前,所述方法还包括:对所述时序手部三维骨骼关键点进行抽帧处理,得到M组不同速度下的手部三维骨骼关键点;其中,分别将M组不同速度下的手部三维骨骼关键点一一对应输入至所述M个输入端,识别得到所述手部姿态。

根据本发明的一个实施例,所述对所述时序手部三维骨骼关键点进行抽帧处理,包括:获取所述时序手部三维骨骼关键点对应手部3D图像的帧数N,并确定抽帧次数为M-1或者M,其中,N为大于等于4的整数;根据所述抽帧次数和所述N确定每次抽帧的间隔帧数,其中,速度与间隔帧数负相关;在进行第i次抽帧时,每间隔Ci个帧抽取一次手部三维骨骼关键点,得到一组手部三维骨骼关键点,其中,1≤i≤(M-1或者M)。

根据本发明的一个实施例,M的取值为2时,所述时序手部三维骨骼关键点分为慢速帧手部三维骨骼关键点和快速帧手部三维骨骼关键点,其中,

将间隔n个帧的手部3D图像对应的手部三维骨骼关键点作为所述快速帧手部三维骨骼关键点,并将间隔m个帧的手部3D图像对应的手部三维骨骼关键点作为所述快速帧手部三维骨骼关键点,其中,n为大于等于0的整数,m为大于等于1的整数,n小于m。

根据本发明的一个实施例,所述预先训练好的手部姿态识别模型执行如下处理:对所述慢速帧手部三维骨骼关键点进行特征提取得到第一特征信息,并对所述快速帧手部三维骨骼关键点进行特征提取得到第二特征信息;利用向量拼接对所述第一特征信息和所述第二特征信息进行融合处理,得到第三特征信息;根据所述第三特征信息识别得到所述手部姿态。

根据本发明的一个实施例,所述方法还包括:将所述时序手部三维骨骼关键点映射至基于车辆座舱的三维坐标系,并将映射结果封装为SDK文件,以便车载应用程序调用。

根据本发明的一个实施例,所述手部3D图像包括RGB-IR图像和/或手部深度图像。

为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的手部姿态识别方法。

为达到上述目的,本发明第三方面实施例提出了一种车辆,包括车载控制器,所述车载控制器包括存储器、处理器和存储在所述存储器上的计算机程序,所述计算机程序被所述处理器执行时,实现上述的手部姿态识别方法。

本发明实施例的手部姿态识别方法、存储介质以及车辆,能够识别出更多样性的手势(包括动态手势),有利于更多手势交互功能的实现,同时且需要的计算资源少,适用性强,在有新增手势时有较大的成本优势。

附图说明

图1是本发明第一个实施例的手部姿态识别方法的流程图;

图2是本发明第二个实施例的手部姿态识别方法的流程图;

图3是本发明第三个实施例的手部姿态识别方法的流程图;

图4是本发明第四个实施例的手部姿态识别方法的流程图;

图5是本发明一个实施例的识别模型所用神经网络的结构框图;

图6是本发明一个实施例的手部姿态模型图;

图7是本发明一个实施例的手部检测器神经网络的架构图;

图8是本发明一个实施例的手部姿态神经网络的架构图;

图9是本发明一个实施例的车载控制器的结构框图;

图10是本发明一个实施例的车辆的结构框图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例提出的手部姿态识别方法、存储介质以及车辆。

图1是本发明一个实施例的手部姿态识别方法的流程图。如图1所示,该方法包括:

S11,获取时序手部3D图像。

具体地,可通过摄像头(如车内座舱安装的摄像头)采集连续的手部3D图像,得到时序手部3D图像。其中,摄像头可以是RGB-IR传感器,其分辨率可大于等于1920*1080,帧率大于等于30fps,采集的手部3D图像为RGB-IR图像;摄像头也可以是深度传感器(如IToF)。可选地,还可以通过由多个图像传感器组成的架构采集手部3D图像,如RGB传感器+深度传感器。

S12,对时序手部3D图像中的各手部3D图像进行特征提取,得到时序手部三维骨骼关键点。

S13,将时序手部三维骨骼关键点输入至预先训练好的手部姿态识别模型,识别得到手部姿态。

由此,该方法利基于多帧手部3D图像,进行手部三维骨骼关键点识别,可识别出更多样化的手部姿态(如手势),且能降低后续软件升级开发成本。

在一些实施例中,如图2所示,方法还包括:

S21,判断时序手部三维骨骼关键点对应的图像帧是否连续。

S22,若连续,则判断时序手部三维骨骼关键点对应的时长是否达到预设时间。

S23,若是,则执行将时序手部三维骨骼关键点输入至预先训练好的手部姿态识别模型的步骤。

具体地,由于每个人对同一个手势动作的比划时间不尽相同,同一个人对同一个手势比划多次,每次比划的时长以帧数来计算也会有不同的差异,因此需要先判断比划时长是否满足用户正在执行手势的条件。方法如下:A,将当前帧手部3D图像放入存储模块;B,对存储模块当前已保存的图像数量进行判别;C,若满足连续图像数量达到一定数量(连续帧图像时长达到预设时间),则基于时序手部3D图像进行识别;D,若不满足前述条件,则继续检测并存储手部3D图像。当然,若发现手部3D图像累积数量未达到设置的帧数条件时,不再能获取到手部3D图像,则表示用户无意图比划手势,此时可将之前已存储的图像清除。

在一些实施例中,预先训练好的手部姿态识别模型具有M个输入端,M为大于1的整数,在将时序手部三维骨骼关键点输入至预先训练好的手部姿态识别模型之前,方法还包括:对时序手部三维骨骼关键点进行抽帧处理,得到M组不同速度下的手部三维骨骼关键点。分别将M组不同速度下的手部三维骨骼关键点一一对应输入至M个输入端,识别得到手部姿态。

在一些实施例中,如图3所示,对时序手部三维骨骼关键点进行抽帧处理,包括:

S31,获取时序手部三维骨骼关键点对应手部3D图像的帧数N,并确定抽帧次数为M-1或者M,其中,N为大于等于4的整数。

S32,根据抽帧次数和N确定每次抽帧的间隔帧数,其中,速度与间隔帧数负相关。

S33,在进行第i次抽帧时,每间隔Ci个帧抽取一次手部三维骨骼关键点,得到一组手部三维骨骼关键点,其中,1≤i≤(M-1或者M)。

在一些实施例中,M的取值为2时,时序手部三维骨骼关键点分为慢速帧手部三维骨骼关键点和快速帧手部三维骨骼关键点,其中,将间隔n个帧的手部3D图像对应的手部三维骨骼关键点作为快速帧手部三维骨骼关键点,并将间隔m个帧的手部3D图像对应的手部三维骨骼关键点作为快速帧手部三维骨骼关键点,其中,n为大于等于0的整数,m为大于等于1的整数,n小于m。

具体地,为了满足用户比划手势有快慢之分,预先在训练识别模型(该识别模型可采用神经网络结构,其输入为时序手部三维骨骼关键点,输出为手部姿态)时,可将训练数据进行抽帧处理,抽帧方式如下公式所示:

其中,K为总手势的帧数(即时序数),比划越慢读取的帧数越多,M

相应地,在实际使用时,可将待识别的数据分为快速数据和慢速数据,并将快速数据和慢速数据输入至训练好的识别模型进行识别。

在一些实施例中,如图4所示预先训练好的手部姿态识别模型执行如下处理:

S41,对慢速帧手部三维骨骼关键点进行特征提取得到第一特征信息,并对快速帧手部三维骨骼关键点进行特征提取得到第二特征信息。

S42,利用向量拼接对第一特征信息和第二特征信息进行融合处理,得到第三特征信息。

S43,根据第三特征信息识别得到手部姿态。

具体地,识别模型所用神经网络可如图5所示,将慢速和快速两部分的信息分别输入相同的主干网络(Backbone-1,Backbone-2),由于数据量少,因此每个Backbone可仅使用3层的CNN神经网络即可有效学习,两个分支输出的信息相互整合,使用向量拼接(concatenation)进行信息融合。之后,使用Backbone-3对融合后的特征进行学习,最后得到模型输出结果,如图6所示,图中球状点为手部骨骼关键点。

在一些实施例中,对时序手部3D图像中的各手部3D图像进行特征提取,包括:从时序手部3D图像中的各手部3D图像中检测出手部区域,并裁剪得到手部区域图像,以及对各手部区域图像进行特征提取。

具体地,可采用手部检测器神经网络从时序手部3D图像中的各手部3D图像中检测出手部区域,进而可采用手部姿态神经网络对各手部区域图像进行特征提取。其中,手部检测器神经网络的架构如图7所示,手部姿态神经网络的架构如图8所示。

在一些实施例中,图7中的backbone结构可利用单步多框目标检测器SSD、YOLO检测器或者FasterRCNN检测器检测出各手部3D图像中的手部区域,以将手部区域从复杂的背景信息中隔离开。

具体地,参见图7,手部3D图像经backbone结构后,可得到多个位置框position和各position对应的分类概率,之后可经非极大抑制nms方法从各position中确定出手部区域对应的position,得到手部区域图像。

作为一个示例,为实现高效识别,且满足车辆座舱计算平台资源,可优选以SSD轻量级检测网络为基础的检测器,将SSD的主干网络VGG16替换为轻量网络mobileNetV2。需要说明的是,由于座舱环境单一,不需要参数量较高的网络,同时手部在整体图像中不算小目标,因此不需要采用类似FPN(Feature pyramid Network,特征金字塔网络)的结构将大小不同的语义信息进行结合。

在一些实施例中,图8中的Hourgalss backbone结构可利用沙漏型结构网络(Stacked Hourglass Networks)对各手部区域图像进行特征提取,得到各手部区域图像的手部二维关键点(即图8中的uv heatmap)和深度信息(即图8中的Depth heatmap),并利用向量拼接(concatentation)将手部二维关键点和深度信息进行特征融合得到对应的手部三维骨骼关键点,其中,沙漏型结构网络采用高斯热图法训练得到。可选地,参见图8,在进行向量拼接之后,还可利用一backbone结构进行特征整合,之后得到手部三维骨骼关键点。

其中,沙漏型结构网络的特点在于结合不同尺度之间的信息,能有效的从手部这种角度多变的图像中学习到有效的特征信息。在训练的过程中可利用高斯热图法(Gaussian heatmap)为模型产生真实值进行学习,训练样本可采用32*32分辨率大小的特征图,优势在于真实值包括原来二维空间坐标的信息,相较于直接使用全连接层输出的更为精准。在利用高斯热图法时,将输出分为手部二维关键点及深度信息两个分支单独进行学习。

在一些实施例中,方法还包括:将时序手部三维骨骼关键点映射至基于车辆座舱的三维坐标系,并将映射结果封装为SDK文件,以便车载应用程序调用。

其中,车载应用程序可以是影音娱乐应用程序、空调控制应用程序、车窗调节应用程序等,这些应用程序可通过手势与用户进行交互。将映射结果封装为SDK文件之后,各车载应用程序可直接调用,由此可满足座舱娱乐实时利用手进行人机交互的体验。

综上,本发明实施例的手部姿态识别方法,能够识别更多样性的手势(包括动态手势),有利于更多手势交互功能的实现,且需要计算资源少,在有新增手势时有较大的成本优势。

基于上述的手部姿态识别方法,本发明实施例还提出了一种计算机可读存储介质。

在该实施例中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现上述手部姿态识别方法。

图9是本发明一个实施例的车载控制器的结构框图。

如图9所示,车载控制器900包括:处理器901和存储器903。其中,处理器901和存储器903相连,如通过总线902相连。可选地,车载控制器900还可以包括收发器904。需要说明的是,实际应用中收发器904不限于一个,该车载控制器900的结构并不构成对本发明实施例的限定。

处理器901可以是CPU(CentralProcessingUnit,中央处理器),通用处理器,DSP(DigitalSignalProcessor,数据信号处理器),ASIC(ApplicationSpecificIntegratedCircuit,专用集成电路),FPGA(FieldProgrammableGateArray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框、模块和电路。处理器901也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线902可包括一通路,在上述组件之间传送信息。总线902可以是PCI(PeripheralComponentInterconnect,外设部件互连标准)总线或EISA(ExtendedIndustryStandardArchitecture,扩展工业标准结构)总线等。总线902可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器903用于存储与本发明上述实施例的手部姿态识别方法对应的计算机程序,该计算机程序由处理器901来控制执行。处理器901用于执行存储器903中存储的计算机程序,以实现前述方法实施例所示的内容。图8示出的车载控制器900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

图10是本发明一个实施例的车辆的结构框图。

如图10所示,车辆1000包括车载控制器900。

本发明实施例的车辆,通过上述的车载控制器,能够识别更多样性的手势(包括动态手势),有利于更多手势交互功能的实现,且需要计算资源少,在有新增手势时有较大的成本优势。。

需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 车辆信息自动识别方法、装置、系统、设备及存储介质
  • 基于深度CNN的车辆位置识别方法、装置及存储介质
  • 车辆套牌识别方法、装置、识别设备及存储介质
  • 一种无人驾驶车辆内物体识别方法、系统、终端和存储介质
  • 车辆识别方法、装置、设备及存储介质
  • 一种手部姿态识别方法、系统、设备和存储介质
  • 一种手部姿态识别方法、系统、设备和存储介质
技术分类

06120115594211