掌桥专利:专业的专利平台
掌桥专利
首页

实时姿态估计运动分析方法、系统、计算机设备及存储介质

文献发布时间:2023-06-19 09:38:30


实时姿态估计运动分析方法、系统、计算机设备及存储介质

技术领域

本发明涉及一种实时姿态估计运动分析方法、系统、计算机设备及存储介质,属于计算机视觉领域。

背景技术

随着全民健身计划推行,参与各类体育运动的人越来越多,人体运动分析显得尤为重要。近年来,随着大数据与人工智能技术的高速发展,利用手机视频、应用等作为指导,加以穿戴各式各样的高额设备来帮助自身校正运动姿态的人群越来越多,但类似的分析不能更好的表现动作的质量,因而提出姿态估计的方法对运动视频进而分析动作标准程度,为运动分析的发展提供更大的空间和可能性。

姿态估计属于计算机视觉的范畴,特指计算机利用分析人体关键点及连接关系后通过数据计算得出运动表现的“智能”技术。其研究范围包含图像采集、特征表示、关键点连接、运动数据分析等过程。近些年来随着卷积姿态机CPM的引入,姿态估计的准确率得以飞跃式式提升。但由于关键点的误判、连接交叉、多人遮挡重叠、图像质量等难题,使得姿态估计技术成为计算机视觉研究的之一。Wei等人将深度学习应用于人体姿态分析中,基于序列化的全卷积网络结构,学习空间信息和纹理信息,获得二维单人的姿态估计信息;Fang等人采用自上而下的多人姿态估计方法,提出区域多人姿态估计(RMPE)框架来处理人物不准确的边界框和冗余检测;Jain等人提出使用卷积网络架构在视频中阐明人体姿势估计,其结合了颜色和运动特征,提高了姿态检测系统的性能;Luo等人将卷积位姿机(CPM)与LSTM网络联合应用于单个图像的人体姿态估计中,利用卷积神经网络输出的置信图与下一环节长短记忆单元进行高斯图连接,加强了在帧间的几何一致性,有助于视频姿态估计预测;Alejandro等人提出“堆叠沙漏”(SHM)利用多尺度特征来识别姿态,在沙漏网络中间层加入监督环节,以预测的值和真实标定多次计算损失,经多次返回获取更为精准的姿态估计。目前算法及现状存在的缺点:(1)需要精密度高的传感器采集运动信息,导致运动成本增加;(2)算法仅能完成单人的位姿估计,不能同时分析多人,多种运动类别;(3)无法满足实时性的动作分析。

传统的教练、穿戴式运动设备、教学视频指导等运动分析方式,一方面有可能增加运动成本,另一方面只能进行一对一地分析,无法同时分析多人且准确性大多不高。随着DeepPose、MoDeep、DeepCut、DeeperCut等姿态估计算法的提出,针对图像中单人姿态估计技术的研究已经日趋成熟,由于视频中存在多人重叠部分,上述算法几乎都无法正确对不同人的关节进行连接且人体姿态估计结合到视频人体运动数据的分析中的研究仍偏少,因此如何实现多人姿态估计及结合估计数据进行运动分析是需要解决的关键问题。

发明内容

有鉴于此,本发明提供了一种实时姿态估计运动分析方法、系统、计算机设备及存储介质,其构建了基于实时视频的二维姿态估计框架,针对多人姿态估计的复杂性,使用双分支深度网络提取人体的关节点热图及关节点之间的亲和区域,使用双分支深度网络,引入感受野思想,可以更有效地保留图像空间特征,消除了建立关节点之间寻找最优连接时不必要的影响。

本发明的第一个目的在于提供一种实时姿态估计运动分析方法。

本发明的第二个目的在于提供一种实时姿态估计运动分析系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到:

一种实时姿态估计运动分析方法,所述方法包括:

获取用户的实时视频;

将视频帧输入训练好的双分支深度网络中进行特征采集,得到人体的关节点热图以及关节点之间的亲和区域;

对关节点热图多峰值采取非极大值抑制,选取得到一系列候选关节点,将候选关节点之间相互连接构成二分图,并对二分图进行优化;

根据优化后的二分图,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,并计算肢体角度信息,得到四肢运动数据;

在接收到用户发送的咨询指令后,对四肢运动数据进行运动分析,输出运动分析结果。

进一步的,所述双分支深度网络采用VGG网络,VGG网络的上分支用于采集人体的关节点位置,VGG网络的下分支用于采集关节点之间的亲和区域。

进一步的,所述将视频帧输入训练好的双分支深度网络中进行特征采集,得到人体的关节点热图以及关节点之间的亲和区域,具体包括:

在第一阶段,以视频帧作为双分支深度网络的输入,对于输入特征采用3×3大小的卷积核连续进行三次卷积,再用1×1大小的卷积核连续进行三次卷积,输出人体的关节点热图S

在后续的每一阶段,将前一阶段的预测结果和视频帧的特征F进行融合,作为当前阶段的输入,经过卷积操作分别预测出人体的关节点热图以及关节点之间的亲和区域,如下式:

其中,ρ

后续的每一阶段的卷积操作是将融合特征输入至7×7大小的卷积核进行连续五次的卷积,随后用1×1大小的卷积核连续进行三次卷积,目的是为了增大特征图的感受野,提升所提取特征维度。

进一步的,在每个阶段添加损失函数,如下式:

其中,损失函数的参数由双分支深度网络在标注的数据集上训练得到;t表示阶段,J表示关节点,C表示肢体,一个肢体对应两个关节点,

进一步的,所有候选关节点的集合用

所述对二分图进行优化,具体为:在所有边中选择一组边使得最终二分图的总权重最大,目标函数如下式:

其中,E

进一步的,所述对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,具体包括:

通过畸变坐标获取矫正图像中所有像素点,真实图像像素点为:

x'=(u-c

y'=(v-c

其中,f

畸变后的坐标如下:

x"=x'·(1+k

y"=y'·(1+k

即:u

v

其中,r

根据畸变系数,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正;

所述计算肢体角度信息,得到四肢运动数据,具体包括:

根据左肩关节点、左手肘关节点、左手腕关节点的二维坐标,计算左上臂与左下臂之间的夹角;

根据右肩关节点、右手肘关节点、右手腕关节点的二维坐标,计算右上臂与右下臂之间的夹角;

根据左髋关节点、左膝关节点、左脚踝关节点的二维坐标,计算左大腿与左小腿之间的夹角;

根据右髋关节点、右膝关节点、右脚踝关节点的二维坐标,计算右大腿与右小腿之间的夹角。

进一步的,所述对四肢运动数据进行运动分析,输出运动分析结果,具体包括:

基于专家知识库对四肢运动数据进行运动分析;其中,所述专家知识库存储了键为运动数据区间,值为运动类型及对应专家意见的字典;

若四肢运动数据在专家知识库的某一个运动数据区间,则输出四肢运动数据的规范性和具体修正姿态的运动分析结果。

本发明的第二个目的可以通过采取如下技术方案达到:

一种实时姿态估计运动分析系统,所述系统包括:

视频获取模块,用于获取用户的实时视频;

特征采集模块,用于将视频帧输入训练好的双分支深度网络中进行特征采集,得到人体的关节点热图以及关节点之间的亲和区域;

肢体连接模块,用于对关节点热图多峰值采取非极大值抑制,选取得到一系列候选关节点,将候选关节点之间相互连接构成二分图,并对二分图进行优化;

姿态矫正模块,用于根据优化后的二分图,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,并计算肢体角度信息,得到四肢运动数据;

运动分析模块,用于在接收到用户发送的咨询指令后,对四肢运动数据进行运动分析,输出运动分析结果。

本发明的第三个目的可以通过采取如下技术方案达到:

一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的实时姿态估计运动分析方法。

本发明的第四个目的可以通过采取如下技术方案达到:

一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的实时姿态估计运动分析方法。

本发明相对于现有技术具有如下的有益效果:

1、本发明综合运用机器学习、计算机视觉等相关理论结合实时视频大数据,探索新型深度学习网络,设计肢体关节点与特征提取算法,对关节点热图进行多峰值分析,构建基于实时视频的二维姿态估计框架。针对多人环境对运动个体进行姿态估计,采用双分支思想对输入视频帧进行两个特征的提取,分别为关节点热图及关节点之间的亲和区域,使用双分支深度网络,引入感受野思想,可以更有效地保留图像空间特征,消除了建立关节点之间寻找最优连接时不必要的影响。

2、本发明设计深度学习网络与角度计算方法,采用VGG-19网络主干骨架,引入匈牙利算法优化网络输出,提取神经网络结构化特征通过二分图思想寻得人体各肢体的连接关系,避免了出现多人重叠躯干的错误连接,更为精确地对多人进行姿态估计,结合像素点绝对坐标实行运动数据列表的生成,随后专家知识库及推理机制,归纳数据实现运动的分析过程,更精准快速地对运动规范化进行判断。

3、本发明高效地实现同时对视频画面中多人进行姿态估计及运动分析,大大地提高了运动指导的效率;通过单目摄像头获取人体运动姿态并加以矫正,结合专家知识库进行决策,用于在线视频分析中的多种运动数据分析及判断,减少运动成本同时提升运动分析的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的实时姿态估计运动分析方法的流程图。

图2为本发明实施例1的双分支深度网络的框架图。

图3为本发明实施例1的人体的关节点热图。

图4为本发明实施例1的运动分析流程图。

图5为本发明实施例1的实时姿态估计运动分析界面图。

图6为本发明实施例2的实时姿态估计运动分析系统的结构框图。

图7为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1:

如图1所示,本实施例提供了一种实时姿态估计运动分析方法,该方法包括以下步骤:

S101、获取用户的实时视频。

本实施例通过单目摄像头获取用户的实时视频。

S102、将视频帧输入训练好的双分支深度网络中进行特征采集,得到人体的关节点热图以及关节点之间的亲和区域。

本实施例的双分支深度网络采用VGG网络,具体采用VGG-19网络,其结构如图2所示,VGG-19网络的上分支用于采集人体的关节点位置,VGG-19网络的下分支用于采集关节点之间的亲和区域,前一阶段的预测结果进行特征融合视频帧特征并作为下一阶段的输入,经过反复迭代以提高关节点预测精度。

该步骤S102,具体包括:

1)在第一阶段,以视频帧作为双分支深度网络的输入,对于输入特征采用3×3大小的卷积核连续进行三次卷积,再用1×1大小的卷积核连续进行三次卷积,输出人体的关节点热图S

2)在后续的每一阶段,将前一阶段的预测结果和视频帧的特征F进行融合,作为当前阶段的输入,经过卷积操作分别预测出人体的关节点热图以及关节点之间的亲和区域,如下式:

其中,ρ

后续的每一阶段的卷积操作是将融合特征输入至7×7大小的卷积核进行连续五次的卷积,随后用1×1大小的卷积核连续进行三次卷积,目的是为了增大特征图的感受野,提升所提取特征维度。

进一步地,在每个阶段添加损失函数,起到中继监督作用,损失函数的具体公式如下:

其中,损失函数的参数由VGG-19网络在标注的COCO数据集上训练得到;t表示阶段,J表示关节点,C表示肢体,一个肢体对应两个关节点,

S103、对关节点热图多峰值采取非极大值抑制,选取得到一系列候选关节点,将候选关节点之间相互连接构成二分图,并对二分图进行优化。

经过特征采集后,得到关节点热图以及关节点之间的亲和区域,关节点热图如图3所示,对关节点热图多峰值采取非极大值抑制,选取得到一系列候选关节点,这些候选关节点之间的连接构成二分图,引入匈牙利算法寻得二分图中的增广路最优连接,具体如下:

所有候选关节点的集合用

对二分图进行优化,即在所有边中选择一组边使得最终二分图的总权重最大,目标函数如下式:

其中,E

扩展到多人情况下的关节点连接的最优化问题,将其转化为多个较容易求解的二分图最优化,可以有效逼近全局最优解,同时降低算法复杂度,提高算法的运行效率,达到多人二维姿态估计的目的。

S104、根据优化后的二分图,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,并计算肢体角度信息,得到四肢运动数据。

由于单目视觉处理的是物体的三维信息在二维平面上的投影,而这导致了所获得的图像不能真实反映运动个体本身的视场信息。

本实施例通过实时运动时相邻帧间像素点畸变矫正解决上述问题,即同一个动作垂直于摄像点拍摄的为真实图像imgR,发生位移便作为畸变图像imgD,它们的关系为:imgR(u,v)=imgD(u

对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,具体包括:

已知非畸变图像的坐标(u,v),要求畸变图像中的坐标(u

x'=(u-c

y'=(v-c

其中,f

畸变后的坐标如下:

x"=x'·(1+k

y"=y'·(1+k

即:u

v

其中,r

根据畸变系数,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正;

人在运动过程中主要计算角度的关节点是左手肘关节点、右手肘关节点、左膝关节点和右膝关节点,即图3中的(3,6,9,12),因此计算肢体角度信息,得到四肢运动数据,具体包括:

1)根据左肩关节点、左手肘关节点、左手腕关节点的二维坐标,计算左上臂与左下臂之间的夹角。

2)根据右肩关节点、右手肘关节点、右手腕关节点的二维坐标,计算右上臂与右下臂之间的夹角。

3)根据左髋关节点、左膝关节点、左脚踝关节点的二维坐标,计算左大腿与左小腿之间的夹角。

4)根据右髋关节点、右膝关节点、右脚踝关节点的二维坐标,计算右大腿与右小腿之间的夹角。

以左手肘关节点(即关节点3)为例,设左肩关节点、左手肘关节点、左手腕关节点的二维坐标分别为B(x

通过反函数获取∠A的角度,同理,右上臂与右下臂之间的夹角、左大腿与左小腿之间的夹角、右大腿与右小腿之间的夹角也采用同样的计算方式。

通过上述步骤1)~步骤4)得到的四肢运动数据存储在运动数据库中。

S105、在接收到用户发送的咨询指令后,对四肢运动数据进行运动分析,输出运动分析结果。

如图4所示,在接收到用户(运动对象)发送的咨询指令后,结合其运动数据库存储信息,以及专家知识库信息,获取专家解释决策方案输出到界面;其中,专家知识库存储了键为运动数据区间,值为运动类型及对应专家意见的字典。

基于专家知识库对四肢运动数据进行运动分析,若四肢运动数据在专家知识库的某一个运动数据区间,则输出四肢运动数据的规范性和具体修正姿态的运动分析结果。

图6为实时姿态估计运动分析的界面图,点击相机开启单目摄像头,先进行姿态估计后点击运动分析,随后在空白栏返回专家解释。

本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。

应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

实施例2:

如图6所示,本实施例提供了一种实时姿态估计运动分析系统,该系统包括视频获取模块601、特征采集模块602、肢体连接模块603、姿态矫正模块604和运动分析模块605,各个模块的具体功能如下:

视频获取模块601,用于获取用户的实时视频;

特征采集模块602,用于将视频帧输入训练好的双分支深度网络中进行特征采集,得到人体的关节点热图以及关节点之间的亲和区域。

肢体连接模块603,用于对关节点热图多峰值采取非极大值抑制,选取得到一系列候选关节点,将候选关节点之间相互连接构成二分图,并对二分图进行优化。

姿态矫正模块604,用于根据优化后的二分图,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,并计算肢体角度信息,得到四肢运动数据。

运动分析模块605,用于在接收到用户发送的咨询指令后,对四肢运动数据进行运动分析,输出运动分析结果。

本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

实施例3:

本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图7所示,其通过系统总线701连接的处理器702、存储器、输入装置703、显示器704和网络接口705,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质706和内存储器707,该非易失性存储介质706存储有操作系统、计算机程序和数据库,该内存储器707为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器702执行存储器存储的计算机程序时,实现上述实施例1的实时姿态估计运动分析方法,如下:

获取用户的实时视频;

将视频帧输入训练好的双分支深度网络中进行特征采集,得到人体的关节点热图以及关节点之间的亲和区域;

对关节点热图多峰值采取非极大值抑制,选取得到一系列候选关节点,将候选关节点之间相互连接构成二分图,并对二分图进行优化;

根据优化后的二分图,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,并计算肢体角度信息,得到四肢运动数据;

在接收到用户发送的咨询指令后,对四肢运动数据进行运动分析,输出运动分析结果。

实施例4:

本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的实时姿态估计运动分析方法,如下:

获取用户的实时视频;

将视频帧输入训练好的双分支深度网络中进行特征采集,得到人体的关节点热图以及关节点之间的亲和区域;

对关节点热图多峰值采取非极大值抑制,选取得到一系列候选关节点,将候选关节点之间相互连接构成二分图,并对二分图进行优化;

根据优化后的二分图,对用户实时运动时相邻视频帧间的关节像素点进行畸变矫正,并计算肢体角度信息,得到四肢运动数据;

在接收到用户发送的咨询指令后,对四肢运动数据进行运动分析,输出运动分析结果。

需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

综上所述,本发明综合运用机器学习、计算机视觉等相关理论结合实时视频大数据,探索新型深度学习网络,设计肢体关节点与特征提取算法,对关节点热图进行多峰值分析,构建基于实时视频的二维姿态估计框架。针对多人环境对运动个体进行姿态估计,采用双分支思想对输入视频帧进行两个特征的提取,分别为关节点热图及关节点之间的亲和区域,使用双分支深度网络,引入感受野思想,可以更有效地保留图像空间特征,消除了建立关节点之间寻找最优连接时不必要的影响。此外,本发明设计深度学习网络与角度计算方法,采用VGG-19网络主干骨架,引入匈牙利算法优化网络输出,提取神经网络结构化特征通过二分图思想寻得人体各肢体的连接关系,避免了出现多人重叠躯干的错误连接,更为精确地对多人进行姿态估计,结合像素点绝对坐标实行运动数据列表的生成,随后专家知识库及推理机制,归纳数据实现运动的分析过程,更精准快速地对运动规范化进行判断。

以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

相关技术
  • 实时姿态估计运动分析方法、系统、计算机设备及存储介质
  • PET-CT扫描设备的运动信号分析方法、系统及计算机可读存储介质
技术分类

06120112242282