掌桥专利:专业的专利平台
掌桥专利
首页

一种低成本实时骨骼关键点识别方法和装置

文献发布时间:2023-06-19 11:22:42


一种低成本实时骨骼关键点识别方法和装置

技术领域

本发明涉及计算机视觉技术领域,尤其涉及一种低成本实时骨骼关键点识别方法和装置。

背景技术

骨骼关键点识别技术是计算机视觉的基础技术之一。该技术通过传感器(摄像头,红外线等设备),在图像/视频数据中检测人体的关节、五官,通过关键点描述人体骨骼信息。

然而,现有基于深度学习的骨骼关键点识别算法大多在低成本硬件平台上难以实时运行,需要搭配高成本的硬件(如GPU或高端摄像头)才能达到实时。当前发明基于一系列软硬件优化技术,可以实现在低成本硬件平台上,完成骨骼关键点的实时识别。在保证精确性的前提下,相比于主流方法引入的约50毫秒的识别时延,当前发明技术可以达到最低3毫秒的识别时延。

传统的骨骼关键点算法在几何先验的基础上基于模版匹配的思路来进行,精确性较差。而现有的基于深度学习的骨骼关键点识别算法由于硬件性能的限制,在低成本硬件平台上(如移动端手机、平板)的识别速度较慢,算法联动应用会造成应用卡顿、丢帧等情况,非常影响用户体验。

发明内容

基于上述不足,本发明主要面向于移动端/嵌入式设备的骨骼关键点识别,采用轻量级的深度学习算法并应用神经网络加速技术进行优化,硬件仅需采用CPU和单目摄像头,即可完成对骨骼关键点的低成本实时识别,无需GPU或高端摄像头(kinect)。

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种低成本实时骨骼关键点识别装置,所述识别装置包括图像采集模块、核心计算单元、轻量级神经网络算法模块、神经网络加速引擎和骨骼关键点输出模块,其中,所述图像采集模块对图像进行采集,将获取的图像信息发送至核心计算单元;所述核心计算单元对获取的图像进行图像处理,轻量级神经网络算法模块采用改进型的SqueezeNet作为基础骨干网络,结合特征金字塔网络对图像进行多尺度特征提取,通过所述神经网络加速模块对网络进行加速,最后通过骨骼关键点输出模块进行骨骼关键点输出,图像采集模块采用任意单目摄像头,核心计算单元采用移动端CPU。

更进一步地,所述神经网络加速模块进一步包括:输入图像首先进入改进的SqueezeNet骨干网络进行计算,所述SqueezeNet骨干网络由两个卷积层,八个Fire层和三个池化层组成,其中卷积层conv1层经过96组7x7的卷积核,卷积层conv10经过1000组1x1的卷积核;池化层maxpool1、maxpool2、maxpool3大小均为3x3;fire层结构统一,其中Squeeze部分由连续的1x1卷积组成,Expand部分由连续的1x1卷积和3x3卷积连接组成。

更进一步地,若Squeeze部分的通道数记为S1x1,而Expand部分的1x1的卷积数和3x3的卷积数分别记为e1x1和e3x3,则以上三者的关系满足下面公式:S1×1

更进一步地,所述神经网络加速模块还在fire3、fire5、fire7和fire9层之间都增加了网络捷径(short-cut)以提高训练期间鲁棒性,防止过拟合,所述改进的SqueezeNet骨干网络输出一系列卷积特征图至特征金字塔网络进行下一步计算。

更进一步地,抽取骨干网络SqueezeNet中的fire2、fire6、fire5和conv10四个尺度以构建特征金字塔网络,经过特征金字塔网络处理后,在每一个尺度上分别输出预测的结果。

更进一步地,所述特征金字塔网络进一步包括:所述预测的结果包含两个部分:热图(heatmap)和向量场(paf),综合多个尺度的heatmap和paf的预测结果,模型最终得出骨骼关键点的输出结果。若最终有n个尺度的预测结果,则heatmap和paf的最终预测结果Fheatmap和Fpaf分别如下公式表示:

其中,vh_i和vp_i分别为每一个尺度输出的heatmap和paf值。

更进一步地,所述神经网络加速模块进一步包括:量化和加速引擎,其中,所述量化为对于模型训练过程中采用FP32格式的数据在推理过程中将FP32格式的数据转化为INT8格式,所述加速引擎为在模型推理过程基于OpenCL框架进行加速进一步提升了骨骼关键点识别过程的实时性。

本申请还公开了一种低成本实时骨骼关键点识别的方法,采用上述的装置,对图像数据进行采集,对获取的图像信息进行图像处理,通过采用改进型的SqueezeNet作为基础骨干网络,结合特征金字塔网络对图像进行多尺度特征提取,经过特征金字塔网络处理后,在每一个尺度上分别输出预测的结果,通过对数据在推理过程中的量化和加速,最后实时输出采集图像的骨骼关键点信息。

本发明与现有技术相比,有益效果为:发明主要面向于移动端/嵌入式设备的骨骼关键点识别,采用轻量级的深度学习算法并应用神经网络加速技术进行优化,硬件仅需采用CPU和单目摄像头,即可完成对骨骼关键点的低成本实时识别,无需GPU或高端摄像头,采用了量化和推理网络的加速引擎,在保证精确性的前提下,相比于主流方法引入的约50毫秒的识别时延,当前发明技术可以达到最低3毫秒的识别时延。在降低硬件成本的同时,通过上述技术保证了识别速度的实时性。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。

图1是本发明的实时骨骼识别方法和装置的核心模块的模块图;

图2是本发明一实施例中的轻量级网络整体结构的结构图;

图3是本发明一实施例中的SqueezeNet骨干网络的结构图;

图4是本发明一实施例中的fire层结构的结构图;

图5是本发明一实施例中的特征金字塔网络结构的结构图。

具体实施方式

实施例一

本发明所提供的低成本实时骨骼识别方法和装置的核心模块如图1所示,其中包括图像采集模块、核心计算单元、轻量级神经网络算法模块、神经网络加速引擎和骨骼关键点输出模块。其中图像采集模块采用任意单目摄像头,核心计算单元采用移动端CPU。本发明的核心设计为轻量级神经网络算法模块和神经网络加速模块,采用这两个模块用来保证本系统在低成本硬件上的实时性能。

其中,轻量级神经网络算法模块:

该轻量级神经网络算法模块采用改进型的SqueezeNet作为基础骨干网络,结合特征金字塔网络(Feature Pyramid Networks,FPN)进行多尺度特征提取,以提高精度和速度。该轻量级网络整体结构如图2所示。

输入图像首先进入改进的SqueezeNet骨干网络进行计算,该SqueezeNet骨干网络由两个卷积层,八个Fire层和三个池化层组成,如图3所示。其中卷积层conv1层经过96组7x7的卷积核(步长为2),卷积层conv10经过1000组1x1的卷积核(步长为1);池化层maxpool1、maxpool2、maxpool3大小均为3x3,步长为2;fire层结构统一,其结构如图四所示,其中Squeeze部分由连续的1x1卷积组成,而Expand部分由连续的1x1卷积和3x3卷积连接组成。若Squeeze部分的通道数记为S

S

除此之外,该改进型的SqueezeNet骨干网络还在fire3、fire5、fire7和fire9层之间都增加了网络捷径(short-cut),以提高训练期间鲁棒性,防止过拟合。最终,该骨干网络输出一系列卷积特征图至特征金字塔网络进行下一步计算。

特征金字塔网络结构如图五所示,本方法中抽取骨干网络SqueezeNet中的fire2、fire6、fire5和conv10四个尺度以构建特征金字塔网络。经过特征金字塔网络处理后,在每一个尺度上分别输出预测的结果。预测的结果包含两个部分:热图(heatmap)和向量场(paf)。综合多个尺度的heatmap和paf的预测结果,模型最终得出骨骼关键点的输出结果。若最终有n个尺度的预测结果,则heatmap和paf的最终预测结果F

其中vh_i和vp_i分别为每一个尺度输出的heatmap和paf值。

其中,神经网络加速模块:

该识别方法中,采用神经网络加速模块对网络进行加速。该模块分为两个部分:量化和采用加速引擎。量化是指,模型训练过程中数据采用FP32的格式,而在推理过程中则将FP32格式的数据转化为INT8格式,在基本保证模型精度的前提下大幅提升模型的推理速度,以获取更好的实时性能。采用加速引擎是指本方法的模型推理过程基于OpenCL框架进行加速,进一步提升了骨骼关键点识别过程的实时性。

实施例二

本实施例提供了一种低成本实时骨骼关键点识别装置,所述识别装置包括图像采集模块、核心计算单元、轻量级神经网络算法模块、神经网络加速引擎和骨骼关键点输出模块,其中,所述图像采集模块对图像进行采集,将获取的图像信息发送至核心计算单元;所述核心计算单元对获取的图像进行图像处理,轻量级神经网络算法模块采用改进型的SqueezeNet作为基础骨干网络,结合特征金字塔网络对图像进行多尺度特征提取,通过所述神经网络加速模块对网络进行加速,最后通过骨骼关键点输出模块进行骨骼关键点输出,图像采集模块采用任意单目摄像头,核心计算单元采用移动端CPU。

更进一步地,所述神经网络加速模块进一步包括:输入图像首先进入改进的SqueezeNet骨干网络进行计算,所述SqueezeNet骨干网络由两个卷积层,八个Fire层和三个池化层组成,其中卷积层conv1层经过96组7x7的卷积核,卷积层conv10经过1000组1x1的卷积核;池化层maxpool1、maxpool2、maxpool3大小均为3x3;fire层结构统一,其中Squeeze部分由连续的1x1卷积组成,Expand部分由连续的1x1卷积和3x3卷积连接组成。

更进一步地,若Squeeze部分的通道数记为S1x1,而Expand部分的1x1的卷积数和3x3的卷积数分别记为e1x1和e3x3,则以上三者的关系满足下面公式:S1×1

更进一步地,所述神经网络加速模块还在fire3、fire5、fire7和fire9层之间都增加了网络捷径(short-cut)以提高训练期间鲁棒性,防止过拟合,所述改进的SqueezeNet骨干网络输出一系列卷积特征图至特征金字塔网络进行下一步计算。

更进一步地,抽取骨干网络SqueezeNet中的fire2、fire6、fire5和conv10四个尺度以构建特征金字塔网络,经过特征金字塔网络处理后,在每一个尺度上分别输出预测的结果。

更进一步地,所述特征金字塔网络进一步包括:所述预测的结果包含两个部分:热图(heatmap)和向量场(paf),综合多个尺度的heatmap和paf的预测结果,模型最终得出骨骼关键点的输出结果。若最终有n个尺度的预测结果,则heatmap和paf的最终预测结果Fheatmap和Fpaf分别如下公式表示:

其中,vh_i和vp_i分别为每一个尺度输出的heatmap和paf值。

更进一步地,所述神经网络加速模块进一步包括:量化和加速引擎,其中,所述量化为对于模型训练过程中采用FP32格式的数据在推理过程中将FP32格式的数据转化为INT8格式,所述加速引擎为在模型推理过程基于OpenCL框架进行加速进一步提升了骨骼关键点识别过程的实时性。

本申请还公开了一种低成本实时骨骼关键点识别的方法,采用上述的装置,对图像数据进行采集,对获取的图像信息进行图像处理,通过采用改进型的SqueezeNet作为基础骨干网络,结合特征金字塔网络对图像进行多尺度特征提取,经过特征金字塔网络处理后,在每一个尺度上分别输出预测的结果,通过对数据在推理过程中的量化和加速,最后实时输出采集图像的骨骼关键点信息。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

相关技术
  • 一种低成本实时骨骼关键点识别方法和装置
  • 一种基于骨骼关键点的人体姿态识别方法、装置、存储介质及终端
技术分类

06120112900108