掌桥专利:专业的专利平台
掌桥专利
首页

一种基于CNN和LSTM的人体连续性动作相似度评分方法

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及视频数据分析领域,具体涉及一种基于卷积神经网络和循环神经网络的人体连续性动作相似度评分方法。

背景技术

在很多体育、健身、舞蹈赛事和教学领域中,其中一部分项目是需要运动员或学员依据标准动作来进行表演,裁判员或者教员需要根据其一套连续性动作的完成情况进行评分。在实际情况中,裁判员需要一定的专业知识,并且需要靠肉眼和大脑的记忆来对比标准连续性动作和表演者的一套连续性动作进行对比评分。其难度在于一个具有专业知识的裁判员需要对多个运动员逐一进行评分,效率不高。

再加上近几年,运动教学软件的中视频教学更加普及,学员需要了解自身运动动作的相关测评情况,裁判员无法直接对网上的海量用户的运动动作进行评分。

发明内容

本发明提供了一种基于卷积神经网络和循环神经网络的人体连续性动作相似性评分方法,将标准动作视频和待测动作视频的二维图像信息与动作连贯性的时序信息进行结合,可以很好的辅助或代替具有专业知识的裁判员完成运动动作评分。

本发明基于CNN和LSTM的人体连续性动作相似度评分方法,包括数据准备阶段、人体关键信息提取阶段、连续性动作特征向量提取阶段与评分阶段。

所述数据准备阶段对标准动作视频和待测动作视频进行关键帧对齐,生成标准动作序列帧集合和待测动作序列帧集合。

所述人体关键信息提取阶段通过训练好的卷积神经网络,来提取动作帧中人体动作关键点坐标,并将人体关键点坐标信息转换为人体关键夹角信息,得到标准动作序列人体关键夹角集合和待测动作序列人体关键夹角集合。

所述连续性动作特征向量提取阶段通过训练好的循环神经网络LSTM,来提取一个视频的特征向量。

所述评分阶段建立距离评分映射关系;同时对标准动作视频特征向量与待测动作视频特征向量进行距离计算,根据距离评分映射关系,完成距离到评分的最终映射,完成评分。

本发明的优点在于:

(1)本发明通过智能化和自动化的方式,可以只需要输入标准动作视频和待测试动作视频,即可完成人体连续性动作相似度评分。其优势在于,可以有效减轻裁判人员的任务量,具有效率高,降低人工成本的作用。

(2)本发明不受时间、地域的限制,即可完成人体连续性动作相似度评分。其优势在于,不仅可以适用于线下运动测评场景,还适用于线上运动测评场景,使用局限性小。

(3)本发明将人体关键点坐标信息转换为人体关键夹角信息。其优势在于,人体关键夹角信息相比人体关键点坐标信息而言,不受人体体型的影响,信息更加精准,可以有效提高评分的准确性。

(4)本发明将人体关键夹角序列信息送入循环神经网络进行特征提取。其优势在于,可以有效的融合运动动作的连贯性信息,来进一步提高评分的准确性。

附图说明

图1为本发明人体连续性动作相似度评分方法的整体流程图;

图2为本发明中提取人体关键夹角信息流程图;

图3为本发明中将人体关键点坐标信息转换为人体关键夹角信息示意图;

图4为本发明中提取连续性动作特征向量流程图;

图5为本发明中评分阶段流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

如图1所示,本发明基于卷积神经网络和循环神经网络的人体连续性动作相似度评分方法的整体流程分为四个阶段,分别为数据准备阶段、人体关键信息提取阶段、连续性动作特征向量提取阶段与评分阶段。

所述数据准备阶段将待测动作视频根据标准动作视频的帧数进行关键帧对齐处理,具体方法如下:

a、令待测动作视频帧数为N

N

若帧数差N

若帧数差N

若帧数差N

最终,对经上述处理后的待测动作视频与标准动作视频中各帧按序列分别保存为动作序列帧集合即可。

所述人体关键信息提取阶段,如图2所示,具体方法如下:

A、将上述数据准备阶段中处理好的标准动作序列帧集合和待测动作序列帧集合送入训练好的卷积神经网络。

B、卷积神经网络对标准动作序列帧集合和待测动作序列帧集合中的每一帧都会提取出单人的人体关键点坐标信息,将每帧的人体关键点坐标信息按帧序列保存,分别获得标准动作序列人体关键点坐标集合和待测动作序列人体关键点坐标集合。所述人体关键点设定为头顶、上颈、下颈、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、盆骨、左膝、右膝、左踝、右踝。

上述卷积神经网络采用SimplePose单人人体关键点提取网络。这种卷积神经网络模型采用Encode-Decode结构。Encode阶段采用ResNet网络结构进行特征编码,ResNet是一种残差结构的卷积神经网络,ResNet对于图像方面的特征提取有很好的效果。Decode阶段采用3 层转置卷积对Encode阶段得到的特征图进行上采样,来获取每个像素点是人体关键的概率,最终得到人体关键点坐标位置。

C、将步骤B中得到的每帧的16个人体关键点坐标转换为11个关键夹角(∠1~∠11) 信息,具体转换方法是,根据三个点坐标确定一个夹角和两条边,利用反三角函数即可求得夹角的弧度。由此即可得到标准动作序列人体关键夹角集合和待测动作序列人体关键夹角集合;如图3所示,左图中包含人体关键点坐标信息,右图中包含转换后人体关键点夹角信息。

如图4所示,所述连续性动作特征向量提取阶段,具体方法如下:

a、将上述处理好的标准动作序列人体关键夹角集合和待测动作序列人体关键夹角集合中每一帧信息依照序列次序输入给LSTM模型;

b、循环神经网络对标准动作序列人体关键夹角集合和待测动作序列人体关键夹角集合中每一帧的关键夹角信息都会输出一个32维的特征向量,该特征向量将会包含前面帧的信息,并将每一帧的关键夹角信息输出的32维特征向量依次进行拼接,得到标准动作序列特征向量和待测动作序列特征向量,完成了对连续性动作的特征提取。

上述LSTM模型是一种特殊的循环神经网络结构。LSTM模型中的一个LSTM模块的输入包含当前时刻的输入、上一时刻的隐藏层输出状态、上一时刻的细胞状态,同时会输出当前时刻的输出、当前时刻的隐藏层输出状态,当前层的细胞状态。其中隐藏层的输出状态主要负责传递短时信息,细胞状态负责传递长时间状态信息,所有LSTM被称为长短时记忆网络。一个LSTM模块中由遗忘门、输入门、输出门来控制信息在时间序列方面的传递。遗忘门主要负责丢弃掉上一时刻细胞状态的哪些信息。输入门决定有多少当前输入的信息需要被加入到当前细胞状态中。输出门决定当前时刻应该输出哪些信息。

其中,对LSTM模型的训练使用自制数据集。数据集的具体制作方式是:图3所示的11 个关键角度作为一个样本,其中的每个角度按范围进行类别划分;如∠2以每π/6角度(步长) 为一个类别,即将∠2以[0,π/6)、[π/6,2π/6)、[2π/6,3π/6)、[3π/6,4π/6)、[4π/6,5π/6)、 [5π/6,6π/6)、[6π/6,7π/6)、[7π/6,8π/6)、[8π/6,9π/6)、[9π/6,10π/6)、[10π/6,11π/6)、 [11π/6,12π/6)划分为12个区间,每个区间为一个角度类别,共包含2π/(π/6)=12种类别。每个角度的类别数都是可自由配置的令a

其中,a

根据训练数据集每种类别各角度的取值范围,每种类别随机生成一定数量的训练样本数据;如:对于其中一条样本[θ

使用上述自制数据集对LSTM模型进行训练,具体为:对LSTM模型的输出加上一层全连接层,使训练模型具有能够完成分类的功能,此处分类是指对数据集中的某一样本[θ

所述评分阶段对通过上述方法得到的标准动作序列特征向量和待测动作序列特征向量求欧式距离,再根据提前设定的距离评分映射关系,完成上述距离到两个视频最终评分的映射,获得评分分数,如图5所示

其中,两个向量的欧式距离确定方法为:将得到的标准动作序列特征向量和待测动作序列特征向量带入欧式距离计算公式,求得两个向量之间的欧式距离即可。

距离评分映射关系为两个动作视频的欧式距离到评分之间的映射关系。具体方法是:给出X组视频,每组视频包含一个标准动作视频和待测动作视频,如n套标准动作需要被评分,则需给出n个该动作的标准动作视频,并且每个标准动作再给出其对应的m个待测动作视频,则产生X=n*m组视频,分别为:[标准动作视频1,待测视频1_1],[标准动作视频1,待测视频1_2],…,[标准动作视频i,待测视频i_j],…,[标准动作视频n,待测视频n_m],其中i∈[1,n];j∈[1,m]。由视频中运动项目的专家对该X组视频的动作相似度进行1~100的评分,再通过上述流程求得这X组视频的欧式距离。找出专家评分为100分的几组视频对应的欧式距离,对欧式距离求平均,该均值称为满分截断距离。再找出专家评分为0分的几组视频对应的欧式距离,对欧式距离求平均,该均值称为零分截断距离。对应剩下的几组视频的专家评分与欧式距离数据,采用最小二乘法来拟合一个一元二次方程。具体的评分映射关系为:

式中,A,B,C分别是一元二次方程的二次项、一次项、零次项参数;d为欧式距离;score 为评分结果,score∈[0,100]。

相关技术
  • 一种基于CNN和LSTM的人体连续性动作相似度评分方法
  • 人体动作相似度匹配评分方法、装置及可读存储介质
技术分类

06120114691636