行为事件识别方法、装置、设备及计算机存储介质

文献发布时间：2024-04-18 20:01:23

技术领域

本申请属于图像识别技术领域，尤其涉及一种行为事件识别方法、装置、设备及计算机存储介质。

背景技术

目前，传统的目标检测和行为分析方法大多是基于单目摄像场景而言，主要针对的是目标对象在所在场景下的基本行为，通常不涉及意图行为识别和行为类别分析，而在目标对象较多且行为较为复杂的场景下，可以利用双目摄像头获取目标对象的正面、侧面或背面等不同维度的视觉特征，从而识别目标对象的行为类别。

但由于不同位置摄像头拍摄角度和拍摄距离的限制，导致目标对象的视觉特征不够清晰，从而影响了对目标对象的识别检测和行为分析的准确性，进而为识别目标对象的行为事件增加了难度。因此，如何更为准确的识别目标对象的行为事件也是本领域人员面临的挑战之一。

发明内容

本申请实施例提供了一种行为事件识别方法、装置、设备及计算机存储介质，能够更为全面的反映人物对象的视觉特征，将运动轨迹信息和席位变化信息进行融合，避免了由于视频存在遮挡或图像叠加所造成的识别影响，在解决信息融合的同时，提高了行为事件识别的准确性。

第一方面，本申请实施例提供了一种行为事件识别方法，该方法包括：

获取多个拍摄设备在同一时刻从不同角度拍摄同一会议场景的多个视频数据；

分别对每个视频数据中目标时段的视频片段进行对象识别，得到位于目标区域中人物对象的落席席位的席位坐标，落席席位包括初始落席席位和目标落席席位；

基于初始落席席位的席位坐标和目标落席席位的席位坐标，确定人物对象的席位变化信息；

对视频片段中的人物对象进行跟踪，得到人物对象的运动轨迹信息；

融合运动轨迹信息和席位变化信息，确定人物对象的行为事件。

在第一方面的一些可实现方式中，视频数据包括多个视频帧，分别对每个所述视频数据中目标时段的视频片段进行对象识别，得到位于目标区域中人物对象的落席席位的席位坐标，包括：

利用目标检测模型对视频帧中的目标区域的图像进行识别，确定目标区域中人物对象的落席席位的席位坐标以及人物对象与落席席位重叠位置的坐标；

基于人物对象的落席席位的席位坐标以及人物对象与落席席位重叠位置的坐标，确定人物对象与落席席位的重叠面积；

基于人物对象与落席席位的重叠面积，确定人物对象的落席席位。

在第一方面的一些可实现方式中，若落席席位的识别结果不唯一时，该方法还包括：

分别获取人物对象与第一席位的第一重叠面积，以及与第二席位的第二重叠面积，第一席位和第二席位为相邻席位；

比较第一重叠面积、第二重叠面积以及预设重叠面积阈值的大小；

在第一重叠面积均大于第二重叠面积和预设重叠面积阈值的情况下，将第一席位确定为落席席位；

在第二重叠面积均大于第一重叠面积和预设重叠面积阈值的情况下，将第二席位确定为落席席位。

在第一方面的一些可实现方式中，对视频片段中的人物对象进行跟踪，得到人物对象的运动轨迹信息，包括：

在会议场景的第二目标时段内，利用目标跟踪模型对人物对象进行跟踪，确定第二目标时段内不同视频帧中人物对象的目标点坐标；

基于第二目标时段内每个视频帧中人物对象的目标点坐标，得到人物对象的运动轨迹信息。

在第一方面的一些可实现方式中，基于第二目标时段内每个视频帧中人物对象的目标点坐标，得到人物对象的运动轨迹信息之前，该方法还包括：

利用特征编码算法对第二目标时段内每个视频帧中人物对象的人体特征进行编码；

计算第二目标时段内不同视频帧中相同人体特征的编码距离；

将编码距离与预设阈值进行对比，判断不同视频帧中的人物对象是否为同一人物对象；

在不同视频帧中的人物对象为同一人物对象的情况下，确定人物对象的运动轨迹信息。

在第一方面的一些可实现方式中，当行为事件为多个时，该方法还包括：

确定每相邻两个行为事件的开始时刻；

在每相邻两个行为事件的开始时刻的时间差小于预设值的情况下，将相邻两个行为事件合并为一个行为事件。

在第一方面的一些可实现方式中，融合运动轨迹信息和席位变化信息，确定人物对象的行为事件，包括：

将运动轨迹信息和席位变化信息按预设权重进行加权融合，确定人物对象的行为事件。

第二方面，本申请实施例提供了一种行为事件识别装置，该装置包括：

获取模块，用于获取多个拍摄设备在同一时刻从不同角度拍摄同一会议场景的多个视频数据；

识别模块，用于分别对每个所述视频数据中目标时段的视频片段进行对象识别，得到位于目标区域中人物对象的落席席位的席位坐标，所述落席席位包括初始落席席位和目标落席席位；

第一确定模块，用于基于所述初始落席席位的席位坐标和所述目标落席席位的席位坐标，确定所述人物对象的席位变化信息；

跟踪模块，用于对视频片段中的人物对象进行跟踪，得到人物对象的运动轨迹信息；

第二确定模块，用于融合运动轨迹信息和席位变化信息，确定人物对象的行为事件。

第三方面，本申请实施例提供了一种电子设备，该设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现如第一方面任意一项所述的行为事件识别方法。

第四方面，本申请实施例提供了一种计算机存储介质，该计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面任意一项所述的行为事件识别方法。

第五方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品中的指令由电子设备的处理器执行时，电子设备能够执行第一方面任意一项所述的行为事件识别方法。

本申请实施例的行为事件识别方法、装置、设备及计算机存储介质，获取多个拍摄设备在同一时刻从不同角度拍摄同一会议场景的多个视频数据，分别对每个视频数据中目标时段的视频片段进行对象识别，得到位于目标区域中人物对象的落席席位的席位坐标，落席席位包括初始落席席位和目标落席席位，然后基于初始落席席位和目标落席席位的席位坐标，确定人物对象的席位变化信息，进而对视频片段中的人物对象进行跟踪，得到人物对象的运动轨迹信息，从而融合运动轨迹信息和席位变化信息，确定人物对象的行为事件。在此过程中，视频数据是从不同角度拍摄的，能够更为全面的反映人物对象的视觉特征，在确定人物对象的行为事件时，是将运动轨迹信息和席位变化信息进行融合，避免了由于视频存在遮挡或图像叠加所造成的识别影响，在解决信息融合的同时，提高了行为事件识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种行为事件识别方法的流程示意图；

图2是步骤S102具体实现方式的流程示意图；

图3是本申请实施例提供的一种确定初始席位方法的流程示意图；

图4是本申请实施例提供的一种重叠席位的示意图；

图5是步骤S104具体实现方式的流程示意图；

图6是本申请实施例提供的一种人物对象识别方法的流程示意图；

图7是本申请实施例提供的一种行为事件合并方法的流程示意图；

图8是本申请实施例提供的一种行为事件识别装置的结构示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前，传统的目标检测和行为分析方法大多是基于单目摄像场景而言，主要针对的是目标对象在所在场景下的基本行为，通常不涉及意图行为识别和行为类别分析，而在双目摄像场景下，由于涉及到跨境头，增加了双目场景的复杂性，视频中往往存在遮挡或图像叠加的现象，对信息融合和校准技术都带来了巨大的挑战。例如由于两个不同位置摄像头拍摄角度和拍摄距离的局限性，获取到视频中人员正面、侧面、背面等不同维度视觉特征通常是不够清晰的，从而导致图像匹配难度较大，直接影响人员信息的融合。

为了解决现有技术问题，本申请实施例提供了一种行为事件识别方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的行为事件识别方法进行介绍。

图1示出了本申请实施例提供的一种行为事件识别方法的流程示意图。如图1所示，该方法具体包括如下步骤：

S101、获取同一时刻从不同角度拍摄同一会议场景的多个视频数据；

S102、分别对每个视频数据中目标时段的视频片段进行对象识别，得到位于目标区域中人物对象的落席席位的席位坐标，落席席位包括初始落席席位和目标落席席位；

S103、基于初始落席席位的席位坐标和目标落席席位的席位坐标，确定人物对象的席位变化信息；

S104、对视频片段中的人物对象进行跟踪，得到人物对象的运动轨迹信息；

S105、融合运动轨迹信息和席位变化信息，确定人物对象的行为事件。

由此，根据本申请实施例提供的行为事件识别方法，获取多个拍摄设备在同一时刻从不同角度拍摄同一会议场景的多个视频数据，分别对每个视频数据中目标时段的视频片段进行对象识别，得到位于目标区域中人物对象的落席席位的席位坐标，落席席位包括初始落席席位和目标落席席位，然后基于初始落席席位和目标落席席位的席位坐标，确定人物对象的席位变化信息，进而对视频片段中的人物对象进行跟踪，得到人物对象的运动轨迹信息，从而融合运动轨迹信息和席位变化信息，确定人物对象的行为事件。在此过程中，视频数据是从不同角度拍摄的，能够更为全面的反映人物对象的视觉特征，在确定人物对象的行为事件时，是将运动轨迹信息和席位变化信息进行融合，避免了由于视频存在遮挡或图像叠加所造成的识别影响，在解决信息融合的同时，提高了行为事件识别的准确性。

在一些实施例中，在S101中，示例性的，视频数据可以是基于对角安装的双目摄像头，采用倒挂俯拍模式采集同一时刻同一会议场景获得的。由于摄像头安装角度的限制，如基于对角安装的摄像头所采集的两个视频数据，视频数据中所拍摄到的人物对象的特征是不相同的。

在一些实施例中，在S102中，根据会场共识经验，一段会议视频可分为准备时段、落席时段、进行时段和结束时段。示例性的，会议开始之前即默认为准备阶段，参会人员离席即默认为结束阶段，会议开始后的某段时间设定为落席时段，例如三分钟左右，会议开始三分钟之后到结束阶段设定为进行时段。其中，目标时段即指落席时段。结合会议场景，视频片段中的对象可以包括人物或桌椅等实物，目标区域指以会议桌椅所在区域划定的区域，以此对视频片段进行对象识别，从而得到目标区域中人物对象的落席席位的席位坐标，其中，落席席位包括初始落席席位和目标落席席位。

作为一种示例，视频片段包括多个视频帧，如图2所示，上述S102具体可以包括如下步骤：

S1021、利用目标检测模型对视频帧中的目标区域的图像进行识别，确定目标区域中人物对象的落席席位的席位坐标以及人物对象与落席席位重叠位置的坐标；

S1022、基于人物对象的落席席位的席位坐标以及人物对象与落席席位重叠位置的坐标，确定人物对象与落席席位的重叠面积；

S1023、基于人物对象与落席席位的重叠面积，确定人物对象的落席席位。

示例性的，在S1031中，目标检测模型可以为yolov5模型，主要基于卷积神经网络(Convolutional Neural Networks，CNN)进行目标检测，从而得到目标区域中人物对象的落席席位的席位坐标以及人物对象与落席席位重叠位置的坐标，目标区域中存在多个席位，落席席位是指人物对象落座的席位。在S1032中，受拍摄角度的影响，可能会导致人物对象的落席席位的识别结果不唯一，所以需要确定人物对象与落席席位的重叠面积，进而判断人物对象的落席席位。

示例性的，在S1033中，若落席席位的识别结果不唯一时，为了确定人物对象的初始席位，如图3所示，该方法具体还可以包括如下步骤：

S301、分别获取人物对象与第一席位的第一重叠面积，以及与第二席位的第二重叠面积，第一席位和第二席位为相邻席位；

S302、比较第一重叠面积、第二重叠面积以及预设重叠面积阈值的大小；

S303、在第一重叠面积均大于第二重叠面积和预设重叠面积阈值的情况下，将第一席位确定为落席席位；

S304、在第二重叠面积均大于第一重叠面积和预设重叠面积阈值的情况下，将第二席位确定为落席席位。

作为一种示例，如图4所示，第一区域表示人物对象与第一席位的第一重叠面积，第二区域表示人物对象与第二席位的第二重叠面积。示例性的，以1代表整体，预设重叠面积阈值可以设置为0.75，即表示在人物对象与席位的重叠面积大于席位面积的75％的情况下，可以认为该席位为人物对象的落席席位。若落席席位的识别结果不唯一时，则通过比较第一重叠面积、第二重叠面积以及预设重叠面积阈值的大小确定人物对象的落席席位。

由此，通过设置重叠面积阈值，并在落席席位识别结果不唯一时，比较人物对象与第一席位的第一重叠面积，与第二席位的第二重叠面积以及预设重叠面积阈值的大小，从而准确确定出人物对象的落席席位。

在一些实施例中，在S103中，初始落席席位指人物对象原来的落席席位，目标落席席位指人物对象发生运动轨迹变化之后的落席席位，确定初始落席席位的席位坐标和目标落席席位的席位坐标，即可得到人物对象的席位变化信息。

在一些实施例中，在S104中，对人物对象进行跟踪的过程中，可能存在所跟踪的人物对象离开摄像头拍摄范围，也可能会有新的人物对象进入摄像头拍摄范围，或者在对角安装的摄像头拍摄视频中，第一角度拍摄的视频数据中能够识别到人物对象，而在第二角度拍摄的视频数据中识别不到人物对象，所以在此过程中涉及到人物对象的跨境行为跟踪，跨境即指人物对象进入摄像头拍摄范围或离开摄像头拍摄范围。作为一种示例，如图5所示，上述S104具体可以包括如下步骤：

S1041、在会议场景的第二目标时段内，利用目标跟踪模型对人物对象进行跟踪，确定第二目标时段内不同视频帧中人物对象的目标点坐标；

S1042、基于第二目标时段内每个视频帧中人物对象的目标点坐标，得到人物对象的运动轨迹信息。

示例性的，在S1041中，第二目标时段指会议的进行时段，目标点为可以体现人物对象产生行为动作的检测点，例如人物对象的头部等，目标点及目标点的数量可以根据需求进行设置，以便对人物对象的轨迹进行跟踪。

目标跟踪模型可以是基于核相关滤波算法(Kernel Correlation Filter，KCF)搭建的KCF模型，然后利用KCF模型对人物对象进行跟踪，示例性的，在S1042中，在会议进行时段中，基于设置的目标点的坐标，利用KCF模型进行轨迹跟踪，作为一种示例，如图6所示，为了提高确定人物对象的行为事件的准确性，在S1042之前，该方法还包括如下步骤：

S601、利用特征编码算法对第二目标时段内每个视频帧中人物对象的人体特征进行编码；

S602、计算第二目标时段内不同视频帧中相同人体特征的编码距离；

S603、将编码距离与预设阈值进行对比，判断不同视频帧中的人物对象是否为同一人物对象；

S604、在不同视频帧中的人物对象为同一人物对象的情况下，确定人物对象的运动轨迹信息。

在会议进行时段，对人物对象进行跟踪的过程中，为了准确确定人物对象的运动轨迹信息，还需要对不同视频片段中同一人物对象的身份进行一致性判定。示例性的，在S601中，利用人体特征编码算法对每个视频片段的不同视频帧中人物对象的人体特征进行编码，即矢量化处理，获取同一人物对象在不同视频数据中的矢量信息，以便对人物对象的人体特征进行编码，并利用编码距离对矢量信息进行相似度判断，从而判断不同视频数据中的人物对象是否为同一人物对象，进而为基于多个视频数据所得到的运动轨迹信息和席位变化信息的信息融合奠定基础。

示例性的，在S602中，计算不同视频帧中人物对象相同人体特征的编码距离，编码距离可以是余弦距离，利用余弦相似度表征两个视频中人物对象的相似度，如下公式(1)所示，利用向量空间中两个向量夹角的余弦值作为衡量差异大小的度量：

其中，cosθ表示两个向量夹角的余弦值，A

在S603中，预设阈值可设置为0.4，当两个向量的夹角θ趋向于0时，cosθ越接近于1，表示两个向量越接近，人物对象的差异就越小，说明两个视频中人物对象的相似度越高。

由此，在对人物对象的跟踪过程中，结合人物对象的席位变化，利用KCF模型跟踪人物对象的运动轨迹，并对不同视频片段中的人物对象进行身份验证，在确定为同一人物对象的前提下，基于人物对象的运动轨迹和席位变化信息确定人物对象的行为事件，由于目标跟踪模型本身是经过训练的分类器，具有较高的置信度和较强的响应，能基于不同视频帧跟踪到更为准确的特征信息，能够有效提高行为事件识别的准确性。

在一些实施例中，如图7所示，若第二目标时段内有多个行为事件产生时，该方法还包括如下步骤：

S701、确定每相邻两个行为事件的开始时刻；

S702、在每相邻两个行为事件的开始时刻的时间差小于预设值的情况下，将相邻两个行为事件合并为一个行为事件。

作为一种示例，一个行为事件的发生通常伴随着一系列的短事件，尤其是同一事件通常同时发生在双目摄像头中，或者部分时间段同时发生在双目摄像头中，所以在时间维度上，同一个人在同一时间内只产生一个异常行为事件，而不同的人，在相同时间段内，允许存在多个行为事件，由此可以根据行为事件的开始时间、结束时间对相邻两个行为事件进行合并，具体为，每相邻两个行为事件的开始时刻的时间差小于预设值，即相邻两个行为事件发生的时间间隔小于预设值，则可以将这两个相邻事件合并为一个行为事件。

示例性的，在空间维度上，可以对人物对象产生的行为事件进行标识跟踪，标识可以为ID，若检测到事件标识是相同的，则认为行为事件是由同一人物对象产生的，而且若存在未跟踪到的事件标识，即可以表明人物对象已离开视频检测范围。

由此，在相邻行为事件发生时间间隔小于预设值的情况下对行为事件进行合并，能够得到视频片段时间内完整的行为事件序列，有效避免行为事件的重复输出。

在一些实施例中，在S105中，相比于单目摄像场景，由于双目摄像场景中摄像头拍摄角度的不同，得到的多个视频数据中人物对象的特征不同，所以对人物对象进行跟踪识别后得到的运动轨迹信息和席位变化信息也会有所不同。由此，需要将运动轨迹信息和席位变化信息按预设权重进行加权融合，以便基于融合后的信息，更为准确的确定人物对象的行为事件。预设权重可以设置为运动轨迹信息和席位变化信息各占一半，基于加权求平均的方式进行加权融合

作为一种示例，行为事件可以包括以下任意一项：进入、离开、落座、离座，席位变化信息可以包括以下任意一项：人物对象进入会议为徘徊状态、落席、换座、缺席。其中，进入是指人物对象出现在摄像检测区，即进入视频片段中，导致视频画面中人数增加，且在人物对象进入会议室后为徘徊状态，若进入会议后立即发生其他目标行为则也有可能进入其他状态；离开是指人物对象从视频画面中消失，导致画面中人数减少；落座是指人物对象落座到落席时段识别出的席位，若人物对象落座到非落席时段识别出的席位，则视为没有行为事件发生；离座是指人物对象冲落席时段识别出的座位离开，离座后若发生其他行为事件则也可能进入其他状态。

由此，在对人物对象的跟踪识别过程中，即便涉及到跨境行为，也可以借助人物对象的生物特征以及会议场景中的席位坐标，对人物对象的运动轨迹进行综合识别，融合不同视频数据中人物对象的运动轨迹信息和席位变化信息，从而从多维度实现信息交叉的加权融合，完成跨镜头行为事件的识别。

需要说明的是，上述本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。本领域技术人员可知，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题同样适用。

基于相同的发明构思，本申请提供了一种行为事件识别装置，具体结合图8进行详细说明。

图8示出了本申请实施例提供的一种行为事件识别装置，如图8所示，该装置800可以包括：

获取模块801，用于获取多个拍摄设备在同一时刻从不同角度拍摄同一会议场景的多个视频数据；

识别模块802，用于分别对每个视频数据中目标时段的视频片段进行对象识别，得到位于目标区域中人物对象的落席席位的席位坐标，落席席位包括初始落席席位和目标落席席位；

第一确定模块803，用于基于初始落席席位的席位坐标和目标落席席位的席位坐标，确定人物对象的席位变化信息；

跟踪模块804，用于对视频片段中的人物对象进行跟踪，得到人物对象的运动轨迹信息；

第二确定模块805，用于融合运动轨迹信息和席位变化信息，确定人物对象的行为事件。

由此，根据本申请实施例提供的一种行为事件识别装置，获取同一时刻从不同角度拍摄同一会议场景的多个视频数据，从每个视频数据中选取目标时段的视频片段，并对视频片段进行对象识别，得到目标区域中的席位坐标和人物对象的初始席位，进而对人物对象进行跟踪，得到人物对象的运动轨迹信息和席位变化信息，从而融合运动轨迹信息和席位变化信息，确定人物对象的行为事件。在此过程中，视频数据是从不同角度拍摄的，能够更为全面的反映人物对象的视觉特征，在确定人物对象的行为事件时，是将运动轨迹信息和席位变化信息进行融合，避免了由于视频存在遮挡或图像叠加所造成的识别影响，在解决信息融合的同时，提高了行为事件识别的准确性。

在一些实施例中，视频数据包括多个视频帧，为了确定位于目标区域中的席位坐标以及人物对象的初始席位，上述识别模块802可以包括以下子模块：

识别子模块，用于利用目标检测模型对视频帧中的目标区域的图像进行识别，确定目标区域中人物对象的落席席位的席位坐标以及人物对象与落席席位重叠位置的坐标；

第一确定子模块，用于基于人物对象的落席席位的席位坐标以及人物对象与落席席位重叠位置的坐标，确定人物对象与落席席位的重叠面积；

第二确定子模块，用于基于人物对象与落席席位的重叠面积，确定人物对象的落席席位。

在一些实施例中，若落席席位的识别结果不唯一时，上述识别子模块还可以包括以下单元：

获取单元，用于分别获取人物对象与第一席位的第一重叠面积，以及与第二席位的第二重叠面积，第一席位和第二席位为相邻席位；

比较单元，用于比较第一重叠面积、第二重叠面积以及预设重叠面积阈值的大小；

第一确定单元，用于在第一重叠面积均大于第二重叠面积和预设重叠面积阈值的情况下，将第一席位确定为落席席位；

第二确定单元，用于在第二重叠面积均大于第一重叠面积和预设重叠面积阈值的情况下，将第二席位确定为落席席位。

在一些实施例中，上述跟踪模块804可以包括以下子模块：

第三确定子模块，用于在会议场景的第二目标时段内，利用目标跟踪模型对人物对象进行跟踪，确定第二目标时段内不同视频帧中人物对象的目标点坐标；

第四确定子模块，用于基于第二目标时段内每个视频帧中人物对象的目标点坐标，得到人物对象的运动轨迹信息。

在一些实施例中，为了确定人物对象的运动轨迹信息，上述第四确定子模块还可以包括以下单元：

编码单元，用于利用特征编码算法对第二目标时段内每个视频帧中人物对象的人体特征进行编码；

计算单元，用于计算第二目标时段内不同视频帧中相同人体特征的编码距离；

对比单元，用于将编码距离与预设阈值进行对比，判断不同视频帧中的人物对象是否为同一人物对象；

第三确定单元，用于在不同视频帧中的人物对象为同一人物对象的情况下，确定人物对象的运动轨迹信息和席位变化信息。

在一些实施例中，当行为事件为多个时，上述跟踪模块804还可以包括以下子模块：

第五确定子模块，用于确定每相邻两个行为事件的开始时刻；

合并子模块，用于在每相邻两个行为事件的开始时刻的时间差小于预设值的情况下，将相邻两个行为事件合并为一个行为事件。

在一些实施例中，上述第二确定模块805可以包括以下子模块：

加权子模块，用于将运动轨迹信息和席位变化信息按预设权重进行加权融合，确定人物对象的行为事件。

图9示出了本申请实施例提供的一种电子设备的硬件结构示意图。

该电子设备900可以包括处理器901以及存储有计算机程序指令的存储器902。

具体地，上述处理器901可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器902可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器902可在综合网关容灾设备的内部或外部。在特定实施例中，存储器902是非易失性固态存储器。

存储器902可包括只读存储器(ROM)，随机存取存储器(RA M)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器902包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本申请的第一方面的行为事件识别方法所描述的操作。

处理器901通过读取并执行存储器902中存储的计算机程序指令，以实现上述实施例中的任意一种行为事件识别方法。

在一个示例中，电子设备900还可包括通信接口903和总线904。其中，如图9所示，处理器901、存储器902、通信接口903通过总线904连接并完成相互间的通信。

通信接口903，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线904包括硬件、软件或两者，将电子设备900的部件彼此耦接在一起。举例来说而非限制，总线904可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线904可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备900可以实现结合图1和图8描述的行为事件识别方法和装置。

另外，结合上述实施例中的行为事件识别方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种行为事件识别方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中移动信息技术有限公司;中国移动通信集团有限公司;

上一篇：一种钢铁加工用废屑回收装置
下一篇：一种基于改进Dijistra算法单舵轮机器人路径规划方法