掌桥专利:专业的专利平台
掌桥专利
首页

一种基于局部图卷积网络的排球群体行为识别方法

文献发布时间:2023-06-19 12:19:35


一种基于局部图卷积网络的排球群体行为识别方法

技术领域

本发明属于计算机视觉群体行为识别领域,具体涉及一种基于局部图卷积网络的排球群体行为识别方法。

背景技术

随着互联网技术的飞速发展,视频数据的数量迎来爆炸式增长。大部分视频的主体都是人,实际场景中的视频往往包括多人,群体行为识别任务是使计算机能够自动分析多人场景视频中发生的行为,不仅需要描述每个个体在场景中的个体行为,还需要推断他们的群体行为。群体行为识别在体育视频分析、监控视频分析、社交视频理解以及视频检索等方面有广泛的应用。因此,群体行为识别成为了最近的研究热点之一。

早期的群体行为识别方法主要利用方向直方图HOG、尺度不变特征变换SIFT等手工设计的描述子来对个体以及场景信息进行描述,但是这样的低级图像特征难以很好的表达个体特征以及挖掘出个体之间复杂的关系表示,因此并没有取得很好的行为识别效果。近年来,随着深度卷积网络在图像分类、语义分割和目标检测等计算机视觉领域获得了巨大的成功,很多研究者开始尝试使用深度网络来处理视频行为识别问题。2018年,Qi等人使用个体行为的词语标签和视觉信息建立语义图,利用Structural-RNN来融合个体时域上下文信息。Wang等人在2018年提出一种非局部神经网络,利用非局部操作来捕获长距离依赖关系,在行为识别领域取得了很好的效果。Wu等人在2019年提出一种基于图卷积网络的群体行为识别方法,将个体作为图的结点,利用视觉和位置关系进行边的构建,利用图卷积来推理个体间关系。2020年,Gavrilyuk等人使用Transformer模型来探究个体之间的交互关系信息,利用Self-Attention机制自适应地提取对于群体行为重要的信息,进一步提高了群体行为识别的准确率。

上述的一些研究成果激发了我们的灵感。最近的一些群体行为识别方法大体可以总结为三个步骤:1)根据目标跟踪得到的轨迹提取每个个体在全连接层输出的特征向量作为个体视觉特征;2)根据个体视觉特征探究个体间的交互信息,得到每个个体的关系特征表示;3)融合个体特征信息为最终的群体行为特征,并进行分类。这样的一个方案是切实有效的,但是它忽略了人体局部区域这一更细层级的特征信息。现有的方法都是通过全连接层得到人体全局特征向量,这种方式会损失掉人体的局部细节特征,然而局部细节特征对于关系的建模以及识别个体行为和群体行为是很重要的,这也导致了其模型具有局限性、性能提升有限。在此基础上,我们设计了一种基于局部图卷积网络的群体行为识别方法,提取特征时保留个体的局部细节特征和空间模式,利用图卷积模型探究了个体局部区域间的交互关系,充分挖掘个体的交互上下文信息,使得群体行为识别准确率得到提升。

发明内容

本发明的目的是设计一种基于局部图卷积网络的群体行为识别方法,其框架图如图1所示。

针对现有研究方法存在的问题,我们在提取特征时不使用全连接层提取个体全局视觉特征,而是提取个体的深度特征图,保留个体特征的空间模式和局部区域的细节特征。通过嵌入空间点乘的计算方式进行建图,为了探究每个个体内各局部区域的交互信息,建立了个体自连接图;为了探究个体间的各局部区域的交互信息,建立了个体间连接图,利用图卷积模型在两种图上推理局部区域间的关系特征,并与原始视觉外观特征相结合,挖掘出丰富的高级语义特征,提高了群体行为识别的准确率。

本发明的具体步骤如下:

步骤1,提取个体局部特征:使用Inception-v3深度卷积神经网络来提取视频帧的特征图,使用RoI Algin根据输入的个体候选框位置提取个体视觉外观特征图。特征图上每一个位置的特征作为一个局部区域的特征。

步骤2,建立个体自连接图:以所有个体的所有局部区域特征集合作为图的节点集合,使用嵌入空间点乘的方式计算各节点之间边的权重,对得到的邻接矩阵施加个体自连接约束,令每个个体内各局部区域间存在相连的边,个体间的局部区域间不存在相连的边,建立个体自连接图。

步骤3,建立个体间连接图:个体间连接图的节点集合和边的权重计算方式与步骤2中建立个体自连接图的方式相同,区别在于对于邻接矩阵施加个体间连接约束,令每个个体间各局部区域存在相连的边,个体内的局部区域间不存在相连的边,建立个体间连接图。

步骤4,提取交互关系特征:在步骤2和步骤3中建立的个体自连接图和个体间连接图上进行图卷积运算来推理节点间的关系特征,通过最大池化运算来融合两种图输出的结果,完成关系特征图的提取。

步骤5,建立分类层:将深度卷积神经网络模型Inception-v3输出的原始视觉外观特征图和步骤4中得到的关系特征图相加进行融合,输入到全连接层输出个体分类特征进行个体行为的分类,将所有个体的分类特征通过最大池化计算得到群体特征进行群体行为的分类。

步骤6,训练模型:采用时域稀疏采样策略,在训练的时候将视频分为K个片段,然后从K个片段中各采样1帧,将K帧图像经过缩放进行预处理后,输入到网络模型中,网络同时处理K帧图像并将K帧的结果进行融合。使用Adam梯度下降方法进行优化,利用交叉熵函数评价模型性能并对模型参数进行学习。

步骤7,预测群体行为和个体行为:在测试的时候采用与步骤5相同的预处理方式,将视频帧输入到步骤4训练好的模型中,对每个视频帧预测个体行为和群体行为类别的得分,将所有帧的得分进行均匀池化来构成整段视频的预测得分。

本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:

本发明提出了一种新型的基于局部图卷积网络的群体行为识别方法,针对现有方法无法建模更细粒度的局部区域间的关系特征,设计了个体自连接图和个体间连接图,分别探究个体内局部区域间的交互信息和个体间局部区域间的交互信息,在高级视觉特征的基础上增加了丰富的交互上下文特征,使得个体特征和群体特征表示更具判别力,获得更好的群体行为识别效果。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明:

图1为训练基于本方法的群体行为识别卷积神经网络的架构图。

图2为基于本方法进行群体行为识别的整体流程图。

具体实施方式

本发明提出了一种基于局部图卷积网络的群体行为识别方法。本发明的整体结构如图1所示。本发明在Windows10和PyCharm环境下进行仿真。本发明的具体实现流程如图2所示,具体实现步骤如下:

步骤1,提取个体局部特征:使用Inception-v3深度卷积神经网络来提取视频帧的特征图,使用RoI Algin根据输入的个体候选框位置提取个体视觉外观特征图。特征图上每一个位置的特征作为一个局部区域的特征。

步骤2,建立个体自连接图:以所有个体的所有局部区域特征集合作为图的节点集合,使用嵌入空间点乘的方式计算各节点之间边的权重,对得到的邻接矩阵施加个体自连接约束,令每个个体内各局部区域间存在相连的边,个体间的局部区域间不存在相连的边,建立个体自连接图。

步骤3,建立个体间连接图:个体间连接图的节点集合和边的权重计算方式与步骤2中建立个体自连接图的方式相同,区别在于对于邻接矩阵施加个体间连接约束,令每个个体间各局部区域存在相连的边,个体内的局部区域间不存在相连的边,建立个体间连接图。

步骤4,提取交互关系特征:在步骤2和步骤3中建立的个体自连接图和个体间连接图上进行图卷积运算来推理节点间的关系特征,通过最大池化运算来融合两种图输出的结果,完成关系特征图的提取。

步骤5,建立分类层:将深度卷积神经网络模型Inception-v3输出的原始视觉外观特征图和步骤4中得到的关系特征图相加进行融合,输入到全连接层输出个体分类特征进行个体行为的分类,将所有个体的分类特征通过最大池化计算得到群体特征进行群体行为的分类。

步骤6,训练模型:采用时域稀疏采样策略,在训练的时候将视频分为K个片段,然后从K个片段中各采样1帧,将K帧图像经过缩放进行预处理后,输入到网络模型中,网络同时处理K帧图像并将K帧的结果进行融合。使用Adam梯度下降方法进行优化,利用交叉熵函数评价模型性能并对模型参数进行学习。

步骤7,预测群体行为和个体行为:在测试的时候采用与步骤5相同的预处理方式,将视频帧输入到步骤4训练好的模型中,对每个视频帧预测个体行为和群体行为类别的得分,将所有帧的得分进行均匀池化来构成整段视频的预测得分。

在所述步骤1中,设计了局部特征的提取方法:

本方法可以用于多人对抗类体育项目排球视频的群体行为识别,故在本实例中选取“Volleyball”公开数据集,该数据集收集于排球比赛的广播视频,具有数据规模大,个体间交互复杂的特点。

给出一帧图像和N个个体的候选框

在这一步骤中,可能存在个别图像帧中的个体数目不一致的现象,为此设计了补齐的方法,即在个体数目少于N的图像中,使用已有目标按照位置坐标从左到右顺序依次复制补齐,在Volleyball数据集中N为12。提取个体的特征图大小H=W=3,此参数的确定是通过实验不同的参数设置取获得最好结果时的参数设置。每个个体一共有M=9个局部区域,局部区域特征维度D=732,最终实现了每张图片中(H*W*N)×D维度的局部特征提取。

在所述步骤2中,设计了建立个体自连接图模型的方法:

在个体自连接图中,节点为所有个体的所有局部特征的集合

G

其中f

为了探究每个个体内不同局部特征之间的交互,我们设计了个体自连接约束

G

在这一步骤中,个体数目N=12,个体局部区域数目M=9,d=732表示每个局部区域的输入特征维度,d

在所述步骤3中,设计了建立个体间连接图模型的方法:

在这一步骤中,构建初始图G的方式与步骤2相同,为了探究个体间不同局部特征之间的交互,我们对初始图G施加个体间连接约束

G

在所述步骤4中,提取交互关系特征:

利用GCN模型提取关系特征。使用单层GCN结构,GCN的一层运算方式可以表达为如下公式,其中当前层k的输入特征X

X

其中G是图的邻接矩阵,X

这里对步骤2和步骤3建立的个体自连接图G

R

最终在这一步骤中输出N个个体的关系特征图

在所述步骤5中,建立分类层:

将步骤4最终得到的个体关系特征图R

在所述步骤6中,通过数据预处理、数据输入、计算损失函数等操作实现模型的训练:

我们采用时域稀疏采样策略来融合时域上下文信息。在训练的时候我们将视频划分为K个片段,然后每个片段中均随机采样1帧,采样出的K帧作为一个训练样本,在本例中K=3。针对每一帧图像,我们将其放缩到1280*720大小,按固定大小为一批次,输入到网络模型中,在本实例中固定批次的大小设置为4。通过最后的分类层,得到每帧图像的预测得分,将每个训练样本的K帧图像结果进行平均作为训练样本的预测结果,并将预测结果与输入的训练集标签进行自动比对,统计正确样本数量占整体训练样本的比例记为训练集在此轮的准确率。同时在得到预测得分时,利用下文所示损失函数可以计算得到当前模型的损失值,损失值将反馈给优化器处理后进行反向传播更新模型中各个参数。

整个模型能够以端到端的方式进行训练,使用标准的交叉熵损失函数,最终的损失函数表示如下:

其中

出于对收敛速度和收敛效果的考虑,本方法中的优化器选取Adam梯度下降方法作为优化方法。优化器的参数设置主要有指数衰减率β

在每两轮训练样本训练完成后,固定模型的参数并采用Volleyball数据集中的验证集数据进行验证。将一个视频的T帧关键帧视作一个测试样本,将T帧图像经放缩传入到网络模型中,本实例中放缩参数设置为1280*720,网络输出T帧图像的预测得分并取平均得到测试视频的预测得分,在本实例中T=10,将预测结果与样本的标签进行对比并统计正确样本所占比例即验证集准确率,如果当前轮数的验证集群体行为分类准确率比先前最高的验证集群体行为分类准确率要高就保存当前准确率为最高的验证集准确率,并保存当前轮数训练的模型。当所有轮次训练完毕后,最终保存的最高验证集准确率下的模型,即为训练好的最优模型。

在所述步骤7中,预测群体行为和个体行为类别:

将Volleyball数据集中的测试集数据或任意视频按同步骤6中验证集视频一样经稀疏采样以及固定大小放缩的预处理步骤后输入模型即可。本实例中固定大小放缩的参数设置为1280*720。经过模型处理,将个体行为分类器和群体行为分类器后的输出结果与样本的标签进行对比并统计正确样本所占比例即测试集的个体行为和群体行为准确率。输出结果得分最高的对应的行为类别即为该模型判断的行为类别。

在Volleyball数据集中的测试集经过本实例中的模型测试,准确率结果为92.7%,高于目前同样使用图卷积来进行关系建模的同类方法研究内容中的最好效果:发表在2019年计算机视觉领域顶级会议Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition上的

相关技术
  • 一种基于局部图卷积网络的排球群体行为识别方法
  • 一种基于关系图分析的群体行为识别方法
技术分类

06120113255063