掌桥专利:专业的专利平台
掌桥专利
首页

基于阵型引导行为交互学习的群体行为识别方法及系统

文献发布时间:2024-04-18 19:59:31


基于阵型引导行为交互学习的群体行为识别方法及系统

技术领域

本发明属于人工智能、群体行为识别技术领域,尤其涉及基于阵型引导行为交互学习的群体行为识别方法及系统。

背景技术

现代社会,随着图像、视频采集设备的普及,每日产生的海量图像、视频数据催生了对计算机辅助视频分析的需要。群体行为识别旨在从一个视频片段中识别出由多个行为者组成的群体所共同进行的行为,该技术在安防、运动分析场景有着广泛的应用潜力。

目前的群体行为识别方法主要集中在如何对行为者之间的交互关系进行准确建模。对于群体行为识别而言,挖掘出场景中多个参与者之间的有效交互关系是精准识别的关键。

现有群体行为识别方法通常基于行为者的表观特征进行子群体划分,随后进行多层级的交互建模。该类方法通常首先利用行为者表观特征的相似度,将行为者划分为多个不重叠的子群体,每个子群体拥有相似的特征语义。随后,分别对每个子组内和子组间进行交互。然而,依赖于表观特征划分的行为者子组对于群体行为识别任务而言并不总是最优的,在群体行为场景中,行为者之间存在的交互关系与行为者的位置分布同样紧密相关。现在的一个问题是:如何协同利用行为者的表观特征与位置信息,使得群体行为识别网络能够更精确地建模行为者之间存在的时空交互关系。

发明内容

针对现有技术中存在的技术问题,本发明提供基于阵型引导行为交互学习的群体行为识别方法及系统,在建模行为者之间关系的过程中,首先基于行为者的空间位置信息得到行为者空间阵型特征,随后利用行为者空间阵型特征引导行为者的关系交互,协同应用行为者的空间位置与表观特征进行群体行为识别推理。用以缓解了现有方法在划分多层级交互子群体时没有充分考虑到行为者空间坐标关联的问题。

根据本发明的第一方面,本发明提供基于阵型引导行为交互学习的群体行为识别方法,包括以下步骤:

输入视频数据,其中,视频数据包括:多段视频序列,每段视频序列提供标注信息,包括该段视频序列中行为者正在进行的群体行为与每帧中每个个体行为者的位置信息;

从视频数据提取视频帧的图像特征,得到每一帧视频画面的内容和结构信息,在提取的视频帧图像特征上裁剪出每个个体行为者对应区域的表观特征,得到个体行为者外观上的可见特征;

从视频数据所提供的行为者位置标注中得到行为者的空间信息,对行为者的空间信息进行编码、交互与特征聚合,生成隐含行为者关系的空间阵型特征;

利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模,得到交互后的不同阵型引导的群体行为特征,使用跨阵型的自注意力机制对群体行为特征之间进行交互,得到融合了多种不同的空间阵型关系的群体行为表征;

构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异,并进行迭代训练和优化网络参数,使定义的损失函数达到最小;

将测试数据集的视频片段通过训练好的网络进行推理,产生测试集视频片段对应的群体行为类别分数,并和对应真实标注的群体行为进行比较,得到分类精度。

在上述技术方案的基础上,本发明还可以作出如下改进。

可选的,所述多段视频序列中,其中每段视频序列的内容为多个行为者共同进行一项群体行为。

可选的,所述从视频数据中提取视频帧的图像特征,得到每一帧视频画面的内容和结构信息,在提取的视频帧图像特征上裁剪出对应行为者区域的个体行为者表观特征具体包括:

(2a)对于每一段输入的视频序列中,随机筛选出视频帧,利用在ImageNet数据集上预训练的卷积神经网络VGG-16作为特征提取器,提取视频帧的图像特征,

(2b)在提取的视频帧特征上裁剪出对应行为者区域的行为者表观特征;

(2c)将裁剪出的视频帧中每一帧上的N个行为者的个体级别表观特征进行拼接,并进行嵌入,投射到D维的空间得到整合后的个体行为者表观特征。

可选的,所述空间信息描述个体行为者在视频帧中的位置与行为者在整体场景中的分布情况。

可选的,所述从视频数据中提取行为者的空间信息,对行为者的空间信息进行编码、交互与特征聚合,生成隐含行为者空间关系的阵型特征包括:

(3a)采用个体行为者的边界框标注的左上角点与右下角点的坐标代表行为者的位置信息,首先利用位置嵌入,将行为者的坐标嵌入到D维的特征空间中得到行为者空间信息特征;

(3b)将行为者的位置特征依次送入行为者间多层感知机与行为者内多层感知机中,探索行为者位置特征之间的潜在关系,得到行为者彼此交互后的空间特征;

(3c)在对输入的空间特征反复进行(3b)步骤之后,采用一个含有M个节点的行为者间多层感知机对此前学习到的空间特征进行聚合,得到行为者的空间阵型特征。

可选的,所述行为者间多层感知机与行为者内多层感知机的操作的公式如下:

I=I-MLP(E)=σ(W

其中,I-MLP表示行为者间多层感知机,

S=S-MLP(I)=σ(W

其中,S-MLP代表行为者内多层感知机,

可选的,所述利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模,得到交互后的不同阵型引导的群体行为特征;使用跨阵型的自注意力机制对群体行为特征之间进行交互,得到融合了多种不同的空间阵型关系的群体行为表征包括:

(4a)利用阵型引导的跨注意力机制,计算每一帧上行为者空间阵型与行为者表观特征之间的相似度矩阵,并利用该矩阵再次对行为者表观特征再次进行加权融合,得到不同阵型引导下行为者交互特征;

(4b)利用步骤(4a)得到的单个阵型引导后的行为者交互特征,采用自注意力机制进行跨阵型的行为者交互特征交互,得到交互后的群体行为表征;

(4c)在得到的每一帧上的群体行为表征的基础上,采用全局平均池化操作将T帧上的群体行为表征进行聚合得到最终的群体行为表征。

可选的,所述构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异包括:

(5a)根据得到的个体行为特征预测每一帧上每一个行为者的个体行为;

(5b)根据得到的群体行为特征预测每段视频数据的群体行为类别;

(5c)利用步骤(5a)与(5b)得到的预测结果,采用交叉熵构成的损失函数与真实标注进行损失计算,其中,损失函数整体公式如下:

式中,

可选的,所述进行迭代训练和优化网络参数,使定义的损失函数达到最小包括:

通过使用梯度下降与反向传播算法优化网络参数,利用Adam优化器,通过使定义的损失函数最小来迭代训练网络参数。

根据本发明的第二方面,提供基于阵型引导行为交互学习的群体行为识别系统,包括:

视频数据获取模块,用于输入视频数据,其中,视频数据包括:多段视频序列,每段视频序列提供标注信息,包括该段视频序列中行为者正在进行的群体行为与每帧中每个个体行为者的位置信息;

行为者的表观特征提取模块,用于从视频数据提取视频帧的图像特征,得到每一帧视频画面的内容和结构信息,在提取的视频帧图像特征上裁剪出每个个体行为者对应区域的表观特征,得到个体行为者外观上的可见特征;

行为者的空间阵型特征生成模块,用于从视频数据所提供的行为者位置标注中得到行为者的空间信息,对行为者的空间信息进行编码、交互与特征聚合,生成隐含行为者关系的空间阵型特征;

空间阵型引导的行为者交互关系建模模块,用于利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模,得到交互后的不同阵型引导的群体行为特征;使用跨阵型的自注意力机制对群体行为特征之间进行交互,得到融合了多种不同的空间阵型关系的群体行为表征;

网络模型训练优化模块,用于构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异,并进行迭代训练和优化网络参数,使定义的损失函数达到最小;

群体行为的推理模块,用于将测试数据集的视频片段通过训练好的网络进行推理,产生测试集视频片段对应的群体行为类别分数,并和对应真实标注的群体行为进行比较,得到分类精度。

本发明的技术效果和优点:

本发明提供的基于阵型引导行为交互学习的群体行为识别方法及系统,通过行为者的空间位置能够给行为者的交互关系建模提供有效线索。和通过利用行为者的空间位置信息捕获有效的空间阵型特征,能够更充分地利用隐藏在行为者位置信息下的潜在交互联系。

与此同时,本发明考虑到行为者的位置信息和表观特征对群体行为识别的作用。通过协同行为者的视觉表观特征一起进行行为者的交互关系建模,相对于仅利用行为者表观特征引导行为者交互建模的方法,能够更精确的得到群体行为识别精度。

附图说明

图1是本发明实施例提供的基于阵型引导行为交互学习的群体行为识别方法的流程示意图;

图2是本发明实施例提供的基于阵型引导行为交互学习的群体行为识别方法的整体模型结构示意图;

图3是本发明实施例提供的行为者空间阵型提取模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例主要缓解了现有方法在划分多层级交互子群体时没有充分考虑到行为者空间坐标关联的问题。具体地,本发明的目的在于改善以下几个方面:

1.基于行为者表观特征的子群体划分方法可能会将表观相似,行为意图相悖的行为者划分到同一个子组之中;

2.现有基于行为者表观特征的子群体划分方法没有充分考虑到群体行为场景中参与者的空间位置联系的作用。

可以理解的是,基于上述背景技术中的缺陷,本发明实施例提出了一种基于阵型引导行为交互学习的群体行为识别方法,参照如图1所示,本发明的群体行为识别方法步骤如下:

首先,输入视频数据;其中,视频数据包括:多段视频序列,其中每段视频序列的内容为多个行为者共同进行一项群体行为;此外每段视频序列提供标注信息,包括该段视频序列中行为者正在进行的群体行为与每帧中每个个体行为者的位置信息;

图2为基于阵型引导行为交互学习的群体行为识别方法的整体模型结构示意图,具体如图2所示,对于输入的数据,分成并行的两个分支分别用于提取行为者的空间阵型特征与行为者的个体表观特征。对于视频输入,首先利用在ImageNet上预训练好的VGG16网络作为骨干网络进行视频帧图像特征提取,随后利用个体行为者的边界框(bounding box,bbox)标注与ROIAlign(兴趣区域对齐)方法提取个体行为者的表观特征。对于坐标输入,送入行为者空间阵型提取模块得到空间阵型特征。随后,将空间阵型特征与行为者表观特征共同送入空间阵型引导的交互模块,利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模,得到交互后的不同阵型引导的群体行为特征并送入跨阵型的交互模块,使用跨阵型的自注意力机制对群体行为特征之间进行交互,得到能够学习到多种不同的空间阵型关系的群体行为表征,用于群体行为类别的识别。

其次,从视频数据提取视频帧的图像特征,得到每一帧视频画面的内容和结构信息,在提取的视频帧图像特征上裁剪出每个个体行为者对应区域的表观特征,得到个体行为者外观上的可见特征,用于识别和理解不同的个体行为。

所述从视频数据中提取视频帧的图像特征,得到每一帧视频画面的内容和结构信息,在提取的视频帧图像特征上裁剪出对应行为者区域的个体行为者表观特征具体包括:

(2a)对于每一段输入的视频,随机挑选其中的T帧。使用在ImageNet上预训练好的VGG16网络作为特征提取器,逐一提取每一帧的图像特征

v={v

(2b)基于个体行为者的边界框(bounding box,bbox)标注,利用ROIAlign(兴趣区域对齐)模块提取个体行为者的表观特征,计算公式为:

{x

其中每一帧有N个个体行为者,提取出来的特征维度为C维,即

(2c)将T帧中,每一帧上的N个行为者的个体级别表观特征进行拼接,并进行嵌入,投射到D维的空间得到整合后的个体行为者表观特征,即:

然后,从视频数据所提供的行为者位置标注中得到行为者的空间信息,对行为者的空间信息进行编码、交互与特征聚合,生成隐含行为者空间关系的阵型特征;

上述技术方案中,所述空间信息描述个体行为者在视频帧中的位置与行为者在整体场景中的分布情况。

图3是本发明实施例提供的行为者空间阵型提取模块示意图,具体如图3所示,对于输入的位置信息,首先经过位置信息嵌入得到位置特征,将位置信息的维度从4维扩张到D维,随后将位置特征送入阵型特征编码器中,该编码器中依次对行为者的位置特征进行多次行为者间多层感知机(inter-actor MLP,I-MLP)与行为者内多层感知机(single-actorMLP,S-MLP)操作,最终采用一个含有M个节点的I-MLP对此前学习到的空间特征进行聚合,得到M*D维的空间阵型特征。

进一步地,从视频数据中提取行为者的空间信息,对行为者的空间信息进行编码、交互与特征聚合,生成隐含行为者空间关系的阵型特征具体包括:

(3a)采用个体行为者的边界框(bounding box)标注的左上角点与右下角点的坐标{(x

E=PositionEmbedding(P)

(3b)为了探索嵌入后的行为者位置特征之间的潜在关系,将行为者的位置特征依次送入本发明设计的行为者间多层感知机(inter-actor MLP,I-MLP)与行为者内多层感知机(single-actor MLP,S-MLP),这两个操作的公式如下:

I=I-MLP(E)=σ(W

其中,I-MLP表示行为者间多层感知机,

S=S-MLP(I)=σ(W

其中,S-MLP代表行为者内多层感知机,

(3c)在对输入的空间特征反复进行(2b)步骤之后,采用一个含有M个节点的I-MLP对此前学习到的空间特征进行聚合,得到行为者空间阵型特征

随后,利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模,得到交互后的不同阵型引导的群体行为特征,使用跨阵型的自注意力机制对群体行为特征之间进行交互,得到能够学习到多种不同的空间阵型关系的群体行为表征;

进一步地,利用阵型引导的跨注意力机制协同利用行为者空间阵型特征与表观特征进行协同建模,使用跨阵型的自注意力机制对群体行为特征之间进行交互得到群体行为表征具体包括:

(4a)利用阵型引导的跨注意力机制,计算每一帧上行为者空间阵型与行为者表观特征之间的相似度矩阵,并利用该矩阵再次对行为者表观特征再次进行加权融合,得到不同阵型引导下行为者交互特征。表示为

其中t=1…T,ψ(·)和θ(·)代表线性嵌入操作,

(4b)跨阵型的自注意机制交互建模。利用步骤(4a)得到的单个阵型引导后的行为者交互特征,进行跨阵型的行为者交互特征交互,具体采用自注意力机制进行,得到交互后的群体行为表征

(4c)在步骤(4b)处理之后得到的每一帧上的群体行为表征的基础上,进一步在时序维度上采用全局平均池化操作(Global Average Pooing,GAP)将T帧上的群体行为表征进行聚合得到最终的群体行为表征

之后,构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异,并进行迭代训练和优化网络参数,使定义的损失函数达到最小;

上述技术方案中,通过使用梯度下降与反向传播算法优化网络参数,利用Adam优化器,通过使定义的损失函数最小来迭代训练网络参数。

进一步地,所述构建损失函数用于衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异包括:

(5a)利用步骤(2c)得到的个体行为特征预测每一帧上每一个行为者的个体行为,可表示如下:

(5b)利用步骤(4c)得到的群体行为特征预测每段视频数据的群体行为类别,可表示如下:

(5c)利用步骤(5a)与(5b)得到的预测结果,与真实标注进行计算,由于群体行为识别是一项多分类任务,采用交叉熵来计算损失,整体公式如下:

其中

最后,将测试数据集的视频片段通过训练好的网络进行推理,产生测试集视频片段对应的群体行为类别分数,并和对应真实标注的群体行为进行比较,得到分类精度。

进一步地,该步骤具体包括:将测试数据中的视频片段输入到训练得到的网络模型中,得到相应测试视频片段的预测群体行为类别,然后和相应真实群体行为标注计算相关指标,并记录实验数据。

本发明的效果可以通过以下实验做进一步的说明。

实验条件

本发明是在中央处理器为

实验中使用的数据集为Volleyball Dataset和Collective Activity Dataset。

实验内容

首先用训练数据训练网络,在测试集上进行测试。随后将网络预测出的群体行为识别类别与测试集标注中真实类别进行对比,计算出评价指标。

为了证明本发明的有效性,本发明在两个公开的群体行为识别数据集(排球数据集和群体行为数据集)中验证了网络性能。

本发明采用多类别精度(MCA)与多类别平均精度(MPCA)来量化各方法的性能,与数个基于深度学习的群体行为识别方法进行比较。对比结果如表1和表2所示,‘-’代表相应方法没有提供该指标。

表1:不同方法在排球数据集上群体行为识别精度对比

表2:不同方法在群体行为数据集上群体行为识别精度对比

从表1与表2数据可以看出,本发明由于充分利用行为者位置信息作为引导行为者交互的线索,能够有效提高群体行为识别的准确率。此外,这两个数据集属于不同的群体行为场景(运动场景与日常生活场景),在两个数据集上都能得到精度提升,说明本发明方法可以适用于不同类型的群体行为。

综上所述,本发明实施例所提供的基于阵型引导行为交互学习的群体行为识别方法,通过行为者的空间位置能够给行为者的交互关系建模提供有效线索。通过利用行为者的空间位置信息捕获有效的空间阵型特征,能够更充分地利用隐藏在行为者位置信息下的潜在交互联系。

同时考虑到行为者的位置信息和表观特征对群体行为识别的作用,通过协同行为者的视觉表观特征一起进行行为者的交互关系建模,相对于仅利用行为者表观特征引导行为者交互建模的方法,能够更精确的得到群体行为识别精度。

根据本发明的第二方面,提供基于阵型引导行为交互学习的群体行为识别系统,包括:

视频数据获取模块,用于输入视频数据,其中,视频数据包括:多段视频序列,每段视频序列提供标注信息,包括该段视频序列中行为者正在进行的群体行为与每帧中每个个体行为者的位置信息;

行为者的表观特征提取模块,用于从视频数据提取视频帧的图像特征,得到每一帧视频画面的内容和结构信息,在提取的视频帧图像特征上裁剪出每个个体行为者对应区域的表观特征,得到个体行为者外观上的可见特征;

行为者的空间阵型特征生成模块,用于从视频数据所提供的行为者位置标注中得到行为者的空间信息,对行为者的空间信息进行编码、交互与特征聚合,生成隐含行为者关系的空间阵型特征;

空间阵型引导的行为者交互关系建模模块,用于利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模,得到交互后的不同阵型引导的群体行为特征;使用跨阵型的自注意力机制对群体行为特征之间进行交互,得到融合了多种不同的空间阵型关系的群体行为表征;

网络模型训练优化模块,用于构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异,并进行迭代训练和优化网络参数,使定义的损失函数达到最小;

群体行为的推理模块,用于将测试数据集的视频片段通过训练好的网络进行推理,产生测试集视频片段对应的群体行为类别分数,并和对应真实标注的群体行为进行比较,得到分类精度。

可以理解的是,本发明提供的基于阵型引导行为交互学习的群体行为识别系统与前述各实施例提供的基于阵型引导行为交互学习的群体行为识别方法相对应,基于阵型引导行为交互学习的群体行为识别系统的相关技术特征可参考基于阵型引导行为交互学习的群体行为识别方法的相关技术特征,在此不再赘述。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120116521083