基于联合注意力机制的人体行为识别方法

文献发布时间：2024-04-18 19:52:40

技术领域

本发明涉及行为识别领域，具体而言，主要涉及一种基于联合注意力机制的人体行为识别方法。

背景技术

人类行为识别因其在许多领域的潜在应用而备受关注，如智能视频监控、人体运动检测分析、人机交互和医疗保健。人类行为识别的关键问题是如何提取出健壮性的行为特征，以充分描述人体的空间结构及其随时间的动态变化。

与用于人体动作识别的其他数据模式(如RGB视频、深度图像和光流)相比，人体骨架数据更加直观简洁，可以有效观察人体姿态的动态变化。人体骨架的每个关节都由关节类型、帧索引和三维坐标位置表示，常通过分析3D人体骨架序列中关节点位置或运动方向等的变化来描述人体行为。此外，基于骨架的行为识别对身体比例、视点变化、光照条件和其他背景变化具有很强的适应性。因此，基于骨架的人体行为识别值得深入研究。

随着图卷积网络的深入研究以及骨架数据的不断丰富，针对人体骨骼数据的行为识别算法取得了多方面进展。然而，人体关节动作建模存在不充分性问题，而且，当前算法中的注意力机制未对骨架空间、时间帧、通道三个方面的注意力进行充分探索。

发明内容

基于此，本发明的目的在于提供一种基于联合注意力机制的图卷积网络，充分利用人体骨架序列中空间、时间和通道三个维度的信息并有效融合，以提高对人体骨架动作识别能力。

为了实现上述方案，本发明提供了一种基于联合注意力机制的人体行为识别方法，其特征在于，包括如下步骤：

获取用于训练的人体三维骨骼关节点位置数据集，并定义算法目标；

建立图卷积网络模型对骨架数据集进行学习；

所述图卷积网络模型由九层网络堆叠而成，每层网络由自适应图卷积模块、联合注意模块和时间卷积模块组成；

所述自适应图卷积模块用于学习骨架空间维度特征；

所述时间卷积模块用于探索骨架序列连续帧的骨架动态变化；

所述联合注意模块通过对通道、空间和时间维度施加注意力，探索重要特征；

通过所述图卷积网络模型对人体三维骨架图进行时空特征提取，然后通过池化和Softmax分类操作根据提取特征预测动作类别。

所述自适应图卷积模块包括：

将全局图(B

其中f

所述全局图是学习所述数据集中基于人体的图的邻接矩阵得到的，用于表述数据集中两个节点间的连接关系。

所述独立图用于建立人体两个关节点之间的连接关系；采用上下文编码网络，以整个特征映射为输入，沿着关节、时间和特征维度探索上下文信息，以产生更灵活和表达性更强的图拓扑。

在每一层的自适应图卷积模块后面插入一个所述联合注意力模块，所述联合注意模块把傲寒通道注意模块、空间注意模块和时间注意模块，以联合处理通道、空间和时间注意。

所述通道注意模块用于增强模型对辨别特征的识别能力；通过全局平均池化操作，将分布在空间和时间上的特征信息聚合到通道维度，并通过两个全连接层，得到如下注意力图：

其中，f

所述空间注意模块主要针对骨架关节点施加不同层度的注意，其计算公式如下：

其中，输入特征图在所有帧上取平局值，g

所述时间注意模块与所述空间注意模块相似，其计算公式如下：

其中M

所述联合注意模块，以f

其中C

所述时间卷积模块通过一个L×1的卷积层聚合嵌入到相邻帧中的上下文特征，其中L是时间维度的核大小。

通过所述图卷积网络模型对人体三维骨架图进行时空特征提取，然后通过池化和Softmax分类操作根据提取特征预测动作类别。

与现有技术相比，本发明能够带来以下至少一种有益效果：

1.联合注意力机制不仅考虑了空间和时间方面的关键信息，还引入了通道注意力，增强了模型对判别特征的识别能力。

2.联合注意力机制以联合但分解的方式学习对应的注意力图，使模型在时间帧、空间关节点和特征维度具有更强的识别能力，从而提高识别精度。

3.空间图卷积采用上下文编码网络，以整个特征映射为输入，沿着关节、时间和特征维度探索上下文信息，产生的图拓扑更灵活且表达性更强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的总体组成结构示意图；

图2为本发明的自适应图卷积模块示意图；

图3为本发明的联合注意模块示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，本发明第一实施例，一种基于联合注意力机制的人体行为识别方法，包括以下步骤：

S1、获取用于训练的人体三维骨骼关节点位置数据集，并定义算法目标。

该步骤所述数据集可以是公开数据集，也可以是通过深度摄像头与姿态估计算法结合得到人体的各个骨架关节节点坐标集。

S2、建立图卷积网络模型对骨架数据集进行学习；

所述图卷积网络模型由九层网络堆叠而成，每层网络由自适应图卷积模块AGCB、联合注意模块CST-JointAtt和时间卷积模块TCB组成；骨架自适应图卷积模块用于学习骨架图空间维度特征。联合注意模块对通道、空间和时间维度施加注意力，探索重要特征。时间卷积模块用来探索骨架序列连续帧的骨架动态变化。此外，为每个模块添加一个残差连接res。

S3、自适应图卷积模块

参考图2，将全局图(B

其中f

全局图是学习所述数据集中基于人体的图的邻接矩阵得到的，用于表述数据集中两个节点间的连接关系。B

独立图用于建立人体两个关节点之间的连接关系；采用上下文编码网络，以整个特征映射为输入，沿着关节、时间和特征维度探索上下文信息，以产生更灵活和表达性更强的图拓扑。给定中间层的特征图

res为残差模块,用于保证原模型的稳定性，当C

S4、注意力模块

参考图3，在每一层的自适应图卷积模块后面插入一个所述联合注意力模块，所述联合注意模块包含通道注意模块、空间注意模块和时间注意模块。

其中，f

所述空间注意模块主要针对骨架关节点施加不同层度的注意，其计算公式如下：

其中，输入特征图在所有帧上取平局值，g

所述时间注意模块与所述空间注意模块相似，其计算公式如下：

其中M

所述联合注意模块，以f

其中C

S5、时间卷积模块

时间卷积模块通过一个L×1的卷积层聚合嵌入到相邻帧中的上下文特征，其中L是时间维度的核大小。

通过所述图卷积网络模型对人体三维骨架图进行时空特征提取，然后通过池化和Softmax分类操作根据提取特征预测动作类别。

通过以上技术方案，本发明实施基于深度学习技术提供了一种基于联合注意力机制的人体行为识别方法。本发明可以在各类人体骨架行为识别序列中，根据输入动态地学习时空图结构，充分提取骨架图特征，从而得到更加准确、鲁棒地预测结果。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载