暴力分拣行为的检测方法、装置及设备

文献发布时间：2023-06-19 10:16:30

技术领域

本发明实施例涉及视频监控技术领域，尤其涉及一种暴力分拣行为的检测方法、装置及设备。

背景技术

在物流配送领域，分拣人员需要对大量的包裹进行分拣。分拣是将包裹按品种、出入库先后顺序、或者运输目的地进行分门别类地堆放的作业。包裹分拣的效率将直接影响物流配送的效率。实际应用中，分拣人员在对包裹进行分拣过程中，存在暴力分拣行为。暴力分拣行为是指采用暴力行为对包裹进行分拣，例如：对包裹进行抛、扔、摔、砸等动作。

现有技术中，为了对分拣人员的暴力分拣行为进行监督，通常采用基于计算机视觉的方法对暴力分拣行为进行检测。具体的，采用深度摄像机采集训练数据，从训练数据中提取分拣人员的人体三维姿态，并进一步提取人体三维姿态的相对时空特征，通过递归神经网络对提取的相对时空特征进行学习并得到暴力分拣识别模型。基于该识别模型，对固定分拣场所内的暴力分拣行为进行识别。

然而，上述现有技术中，由于分拣人员在分拣作业时频繁出现较大的动作，其中，大部分情况不属于暴力分拣动作，采用上述的识别方法导致的误判较多。

发明内容

本发明实施例提供一种暴力分拣行为的检测方法、装置及设备，用以提高暴力分拣行为的检测准确率。

第一方面，本发明实施例提供一种暴力分拣行为的检测方法，包括：

获取待检测的视频，所述视频为分拣人员对包裹进行分拣的视频；

从所述视频包括的视频帧中，获取目标物体对应的图像序列，其中，所述图像序列包括至少一个图像，每个图像对应一个视频帧，每个图像为对应的视频帧中的至少部分区域，每个图像中均包括所述目标物体，且所述目标物体在各所述图像中的位置不同；

根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹。

可选的，所述从所述视频包括的视频帧中，获取目标物体对应的图像序列，包括：

针对所述视频中的每个当前视频帧，执行标注操作，其中，所述标注操作为：根据目标物体在当前视频帧中的位置与所述目标物体在参考视频帧中的位置，确定所述目标物体为运动物体，并在所述当前视频帧中采用标注框对所述目标物体的位置进行标注；

重复执行所述标注操作，直至根据所述目标物体在当前视频帧中的位置与所述目标物体在参考视频帧中的位置，确定所述目标物体为静止物体，其中，所述参考视频帧位于所述当前视频帧之前；

根据各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

可选的，所述根据各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列，包括：

根据各所述标注框在各自对应的视频帧中的位置，确定出目标区域的位置，所述目标区域为能够覆盖所有所述标注框的区域；

根据所述目标区域的位置，从包括所述标注框的每个所述视频帧中截取出所述目标区域对应的图像，将截取得到的多个图像作为所述目标物体对应的图像序列。

可选的，所述视频中包括多个目标物体；所述在所述当前视频帧中采用标注框对所述目标物体的位置进行标注之后，还包括：

获取所述标注框内的目标物体的特征，并根据所述目标物体的特征，判断所述标注框中的目标物体是否为已标注的目标物体；

若所述标注框中的目标物体不是已标注的目标物体，则为所述标注框内的目标物体分配新的标识，并将所述标注框与所述新的标识进行关联；

若所述标注框中的目标物体是已标注的运动物体，则将所述标注框与所述已标注的目标物体的标识进行关联；

所述根据各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列，包括：

在确定所述目标物体为静止物体后，根据所述目标物体对应的标识关联的各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

可选的，所述根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹，包括：

将所述目标物体对应的图像序列输入暴力分拣包裹识别模型中，获取所述暴力分拣包裹识别模型的输出结果，所述输出结果用于指示所述图像序列中的目标物体为被暴力分拣的包裹的概率；

根据所述输出结果，确定所述目标物体是否为被暴力分拣的包裹。

可选的，所述根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹之后，还包括：

若所述目标物体是被暴力分拣的包裹，则根据所述目标物体对应的图像序列，确定所述暴力分拣行为在所述视频中的位置。

可选的，所述根据所述目标物体对应的图像序列，确定所述暴力分拣行为在所述视频中的位置，包括：

根据所述目标物体对应的图像序列，确定所述图像序列在所述视频中对应的起始帧和结束帧；

根据所述起始帧和所述结束帧，确定所述暴力分拣行为在所述视频中的位置，并对所述起始帧和所述结束帧之间的视频帧进行存储。

可选的，所述对所述起始帧和所述结束帧之间的视频帧进行存储之后，还包括：

通过显示屏对所述起始帧和所述结束帧之间的视频帧进行显示；

生成用于指示检测到暴力分拣行为的报警信息，通过报警装置对所述报警信息进行报警。

第二方面，本发明实施例提供一种暴力分拣行为的检测装置，包括：

第一获取模块，用于获取待检测的视频，所述视频为分拣人员对包裹进行分拣的视频；

第二获取模块，用于从所述视频包括的视频帧中，获取目标物体对应的图像序列，其中，所述图像序列包括至少一个图像，每个图像对应一个视频帧，每个图像为对应的视频帧中的至少部分区域，每个图像中均包括所述目标物体，且所述目标物体在各所述图像中的位置不同；

识别模块，用于根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹。

可选的，所述第二获取模块具体用于：

根据各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

可选的，所述第二获取模块具体用于：

根据各所述标注框在各自对应的视频帧中的位置，确定出目标区域的位置，所述目标区域为能够覆盖所有所述标注框的区域；

可选的，所述视频中包括多个目标物体；所述第二获取模块具体用于：

获取所述标注框内的目标物体的特征，并根据所述目标物体的特征，判断所述标注框中的目标物体是否为已标注的目标物体；

若所述标注框中的目标物体不是已标注的目标物体，则为所述标注框内的目标物体分配新的标识，并将所述标注框与所述新的标识进行关联；

若所述标注框中的目标物体是已标注的运动物体，则将所述标注框与所述已标注的目标物体的标识进行关联；

在确定所述目标物体为静止物体后，根据所述目标物体对应的标识关联的各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

可选的，所述识别模块具体用于：

根据所述输出结果，确定所述目标物体是否为被暴力分拣的包裹。

可选的，所述装置还包括：处理模块，所述处理模块用于：若所述目标物体是被暴力分拣的包裹，则根据所述目标物体对应的图像序列，确定所述暴力分拣行为在所述视频中的位置。

可选的，所述处理模块具体用于：

根据所述目标物体对应的图像序列，确定所述图像序列在所述视频中对应的起始帧和结束帧；

根据所述起始帧和所述结束帧，确定所述暴力分拣行为在所述视频中的位置，并对所述起始帧和所述结束帧之间的视频帧进行存储。

可选的，所述处理模块还用于：

通过显示屏对所述起始帧和所述结束帧之间的视频帧进行显示；

生成用于指示检测到暴力分拣行为的报警信息，通过报警装置对所述报警信息进行报警。

第三方面，本发明实施例提供一种暴力分拣行为的检测设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

本实施例提供的暴力分拣行为的检测方法、装置及设备，该方法包括：获取待检测的视频，从所述视频包括的视频帧中，获取目标物体对应的图像序列，其中，所述图像序列包括至少一个图像，每个图像对应一个视频帧，每个图像为对应的视频帧中的至少部分区域，每个图像中均包括所述目标物体，且所述目标物体在各所述图像中的位置不同；根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹。本实施例中，由于是根据包裹的运动特性进行识别，而不是根据分拣人员的分拣动作特征进行识别，避免了由于分拣人员在分拣作业中频繁出现大动作导致的误判较多的问题，提高了暴力分拣行为的检测准确率。另外，由于无需采用高精度的深度摄像机，规避了对摄像机要求较高的问题，使得本实施例的暴力分拣行为的检测方法具有较高的普适性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例适用的应用场景示意图；

图2为本发明实施例提供的暴力分拣行为的检测方法的流程示意图；

图3为本发明一实施例提供的获取目标物体对应的图像序列的流程示意图；

图4为本发明实施例提供的标注框的示意图；

图5为本发明实施例提供的目标区域的示意图；

图6为本发明另一实施例提供的获取目标物体对应的图像序列的流程示意图；

图7A为本发明实施例提供的标注框的示意图；

图7B和图7C为本发明实施例提供的目标区域的示意图；

图8为本发明实施例提供的暴力分拣行为的检测装置的结构示意图；

图9为本发明实施例提供的暴力分拣行为的检测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例适用的应用场景示意图。如图1所示，该应用场景包括摄像机和服务器。摄像机是指具有图像采集功能的装置，摄像机也可以称为相机、摄像头等。摄像机安装于分拣场所中，用于采集分拣人员对包裹进行分拣的视频。每个分拣场所可以安装一个或者多个摄像机，同一个分拣场所的多个摄像机可以从不同角度进行拍摄，或者，同一个分拣场所的多个摄像机可用于拍摄不同分拣人员。参见图1，各摄像机与服务器连接。服务器中可以设置有数据库，摄像机将采集的视频上传到服务器，以存储到数据库中。某些场景中，服务器还可以对视频进行分析处理等。

其中，本实施例的摄像机可以为多种形式的摄像机，包括但不限于：重载云台、球机、枪机等，无需采用深度摄像机，也无需对摄像机进行特殊标定。本实施例的方法适用于多种包裹分拣场所中，包括但不限于月台、分拣中心等。

可选的，本实施例提供的暴力分拣行为的检测方法，可以由图1中的摄像机执行。示例性的，摄像机采集到视频后，对该视频进行实时的检测，确定该视频中是否存在暴力分拣行为。

可选的，本实施例提供的暴力分拣行为的检测方法，还可以由图1中的服务器执行。示例性的，摄像机采集到视频后，将视频传输给服务器，由服务器对该视频进行检测，确定该视频中是否存在暴力分拣行为。服务器具有多路视频处理能力，能够对多个摄像机采集的视频进行分析处理。

可选的，当本实施例的暴力分拣行为的检测方法由服务器执行时，服务器还可以采用离线检测的方式。摄像机采集到视频后，将该视频上传到服务器侧的数据库中进行存储。当服务器需要进行离线检测时，从数据库中读取历史视频数据，对该历史视频进行离线检测，确定该历史视频中是否存在暴力分拣行为。

本实施例提供的暴力分拣行为的检测方法，是通过对视频中的运动物体进行检测，并根据运动物体的运动特性，判断该运动物体是否为被暴力分拣的包裹，从而确定视频中是否存在暴力分拣行为。由于是根据包裹的运动特性进行识别，而不是根据分拣人员的分拣动作特征进行识别，避免了由于分拣人员在分拣作业中频繁出现大动作导致的误判较多的问题，提高了暴力分拣行为的检测准确率。另外，由于无需采用高精度的深度摄像机，规避了对摄像机要求较高的问题，使得本实施例的暴力分拣行为的检测方法具有较高的普适性。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的暴力分拣行为的检测方法的流程示意图。如图2所示，本实施例的方法包括：

S201：获取待检测的视频，所述视频为分拣人员对包裹进行分拣的视频。

一种可能的实施方式中，本实施例的执行主体为摄像机，则S201可以具体为：摄像机对分拣场所进行视频采集，将采集到的视频作为待检测视频。

一种可能的实施方式中，本实施例的执行主体为服务器，则S201可以具体为：服务器从摄像机接收视频，并将接收到的视频作为待检测视频；或者，服务器从数据库中读取历史视频，并将读取到的历史视频作为待检测视频。

S202：从所述视频包括的视频帧中，获取目标物体对应的图像序列，其中，所述图像序列包括至少一个图像，每个图像对应一个视频帧，每个图像为对应的视频帧中的至少部分区域，每个图像中均包括所述目标物体，且所述目标物体在各所述图像中的位置不同。

本实施例是现有技术不同的是，现有技术是根据分拣人员的动作识别是否存在暴力分拣行为，而本实施例中是根据视频中的运动物体的运动特性识别是否存在暴力分拣行为。具体的，本实施例中采用两阶段法对暴力分拣进行检测。第一阶段初步识别出视频中的运动物体，并获取该运动物体对应的图像序列。第二阶段再根据运动物体对应的图像序列，进一步确定该运动物体是否为被暴力分拣的包裹。其中，S202对应上述的第一阶段，S203对应上述的第二阶段。

可以理解的，由于包裹在分拣过程中是处于运动状态的，因此本实施例S202中首先对视频进行运动物体检测，初步识别出视频中的目标物体。其中，目标物体是指视频中处于运动状态的物体。可以理解的，目标物体可能是处于运动状态的包裹，还可能是其他的物体，例如：飞行的小鸟、飘落的树叶等。当然，目标物体还可能是由于光影、闪烁等导致的误判。

示例性的，在视频中的各个视频帧中，对目标物体的位置进行标注，得到目标物体对应的图像序列。其中，图像序列是指记录了该目标物体整个运动过程的一系列图像。例如：假设待检测视频记录的是分拣人员对包裹A进行分拣的过程，包括：包裹A在第一位置被分拣人员捡起、包裹A被分拣人员扔出、包裹A在空中运动、包裹A在第二位置落地等。

假设视频中的第10帧记录的是包裹A在第一位置被分拣人员捡起，第40帧记录的是包裹A在第二位置落地，则本实施例中，包裹A对应的图像序列则是指视频中记录了包裹A的运动过程的一系列图像。图像序列中的每个图像可以对应第10-40帧中的一个视频帧。每个图像中均包括包裹A，且包裹A在各个图像中的位置不同。其中，每个图像可以是其对应的视频帧的完整图像，也可以是其对应的视频帧中的部分图像，只要该图像中包括包裹A即可。可以理解的，图像序列中的图像的数量小于或者等于目标物体的运动过程所对应的视频帧的数量。

S203：根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹。

本实施例中的暴力分拣行为是指采用暴力行为对包裹进行分拣，例如：对包裹进行抛、扔、摔、砸等动作。可以理解的，当存在上述的暴力分拣行为时，对应的包裹的运动特征具有一系列特点，例如：运动快速、运动轨迹长、运动过程中的垂直落差大等。

由于目标物体对应的图像序列中记录了目标物体的运动过程，根据图像序列，可以确定出目标物体的运动特征。其中，目标物体的运动特征包括：目标物体运动速度的快与慢、目标物体运动的高与低、目标物体的运动轨迹的长短、形状等。示例性的，针对图像序列中的每个图像，可以确定出目标物体在该图像中的位置，进而，根据图像序列中的各图像中的目标物体的位置以及各图像对应的采集时刻，可以得到目标物体的位置与时间的关系曲线。进而可以根据该关系曲线可以确定出目标物体的运动速度以及运动轨迹。因此，可以根据目标物体的运动特征，确定该目标物体是否为被暴力分拣的包裹。示例性的，当目标物体的运动速度大于第一阈值时，则说明目标物体的运动速度过快，将该目标物体确定为被暴力分拣的包裹。当目标物体的运动轨迹所指示的目标物体的运动高度高于第二阈值时，则说明目标物体可能被高高抛起，将该目标物体确定为被暴力分拣的包裹。需要说明的是，上述列举的两种判断方式仅为示例性的说明。实际应用中，还可以结合运动速度和运动轨迹两个因素进行综合判断，当然，还可以结合其他的多种因素进行综合判断。

作为一种可能的实施方式，本实施例在判断目标物体是否为被暴力分拣的包裹时，还可以采用基于机器学习的分类方法。示例性的，对非暴力分拣行为和各种暴力分拣行为进行视频采集，得到训练样本，并对训练样本进行标签标注，标签为：非暴力分拣行为或者暴力分拣行为。采用训练样本对暴力分拣包裹识别模型进行训练，得到训练后的暴力分拣包裹识别模型。其中，暴力分拣包裹识别模型可以采用但不限于如下模型：基于深度学习的卷积神经网络模型、循环神经网络模型、以及卷积神经网络模型和循环神经网络的混合模型等。

进而，在S203中进行识别时，将所述目标物体对应的图像序列输入暴力分拣包裹识别模型中，获取所述暴力分拣包裹识别模型的输出结果，所述输出结果用于指示所述图像序列中的目标物体为被暴力分拣的包裹的概率；根据所述输出结果，确定所述目标物体是否为被暴力分拣的包裹。示例性的，若目标物体为被暴力分拣的包裹的概率达到预设阈值(例如：90％)，则确定该目标物体为被暴力分拣的包裹。

在一种可能的实施方式中，如图2所示，在S203中确定出目标物体是否为被暴力分拣的包裹之后，还可以包括：

S204：若所述目标物体是被暴力分拣的包裹，则根据所述目标物体对应的图像序列，确定所述暴力分拣行为在所述视频中的位置。

示例性的，根据所述目标物体对应的图像序列，确定所述图像序列在所述视频中对应的起始帧和结束帧；根据所述起始帧和所述结束帧，确定所述暴力分拣行为在所述视频中的位置，并对所述起始帧和所述结束帧之间的视频帧进行存储。

示例性的，上述举例中，在确定出包裹A为被暴力分拣的包裹之后，将第10帧作为暴力分拣行为对应的起始帧，将第40帧作为暴力分拣行为对应的结束帧。并将第10-40帧之间的视频帧进行存储，以保留证据，并方便管理人员进一步确认该暴力分拣行为，并根据存储的视频帧，快速确定出实施暴力分拣行为的分拣人员。

一种可能的实施方式中，S204之后，还可以包括：

通过显示屏对所述起始帧和所述结束帧之间的视频帧进行显示。

生成用于指示检测到暴力分拣行为的报警信息，通过报警装置对所述报警信息进行报警。

示例性的，本实施例的执行主体与显示屏连接，在确定暴力分拣行为对应的起始帧和结束帧之后，在显示屏中显示起始帧和结束帧之间的视频帧。同时，本实施例的执行主体中还可以设置报警装置，或者与报警装置连接，当确定出视频中存在暴力分拣行为时，生成报警信息并进行实时报警。可选的，报警装置可以为声光报警装置。

通过对暴力分拣行为对应的视频帧进行实时显示，以及对暴力分拣行为进行实时报警，可以方便管理人员及时发现暴力分拣行为，同时，也便于分拣人员及时发现并纠正暴力分拣行为。

本实施例提供的暴力分拣行为的检测方法，包括：获取待检测的视频，从所述视频包括的视频帧中，获取目标物体对应的图像序列，其中，所述图像序列包括至少一个图像，每个图像对应一个视频帧，每个图像为对应的视频帧中的至少部分区域，每个图像中均包括所述目标物体，且所述目标物体在各所述图像中的位置不同；根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹。本实施例中，由于是根据包裹的运动特性进行识别，而不是根据分拣人员的分拣动作特征进行识别，避免了由于分拣人员在分拣作业中频繁出现大动作导致的误判较多的问题，提高了暴力分拣行为的检测准确率。另外，由于无需采用高精度的深度摄像机，规避了对摄像机要求较高的问题，使得本实施例的暴力分拣行为的检测方法具有较高的普适性。

图3为本发明一实施例提供的获取目标物体对应的图像序列的流程示意图。本实施例的方法是对图2所示实施例中的S202的进一步细化。

如图3所示，本实施例的方法包括：

S301：针对所述视频中的每个当前视频帧，执行标注操作，其中，所述标注操作具体为：根据目标物体在当前视频帧中的位置与所述目标物体在参考视频帧中的位置，确定所述目标物体为运动物体，并在所述当前视频帧中采用标注框对所述目标物体的位置进行标注；其中，所述参考视频帧位于所述当前视频帧之前。

S302：重复执行所述标注操作，直至根据所述目标物体在当前视频帧中的位置与所述目标物体在参考视频帧中的位置，确定所述目标物体为静止物体。

示例性的，根据视频中的前后两帧图像，采用运动物体检测技术得到视频帧中的运动物体。其中，运动物体检测技术可以采用现有方法，例如：帧差法、背景建模法、光流法等，本实施例对此不作赘述。运动物体检测技术的原理为：视频中的各视频帧具有连续性，如果场景内没有运动物体，则连续的视频帧之间的像素变化很微弱，如果存在运动物体，则连续的视频帧之间的像素变化很明显。因此，可以利用前后连续的视频帧之间的差异性，确定连续的视频帧中是否存在运动物体，并确定出运动物体的位置。

可以理解的，由于在包裹分拣场景中，包裹和分拣人员均处于运动状态，因此，在采用运动物体检测技术进行检测时，得到的检测结果中可能会同时包括处于运动状态的包裹和处于运动状态的分拣人员。一种可能的实施方式中，可以先对检测结果进行预处理，将其中的分拣人员去掉。示例性的，可以根据人员的关节特征和肢体特点确定出视频帧中的分拣人员的位置，进而将检测结果中与分拣人员的位置对应的结果去掉。

下面结合举例说明目标物体的标注过程。示例性的，根据第2个视频帧与第1个视频帧，采用运动物体检测技术检测出第2个视频帧处于运动状态的物体，并在第2个视频帧中采用标注框对该物体的位置进行标注。图4为本发明实施例提供的标注框的示意图。如图4所示，在视频帧中采用矩形框对物体的位置进行标注，矩形框能够覆盖该物体的边缘。需要说明的是，实际应用中，还可以采用其他形状的框进行标注，图4所示仅为示例，本实施例并不局限于此。

类似的，根据第3个视频帧与第2个视频帧，采用运动物体检测技术检测出第3个视频帧中处于运动状态的物体，并在第3个视频帧中对该物体的位置进行标注。类似的，对视频中的各个视频帧均进行上述的标注处理，直至根据第n+1个视频帧与第n个视频帧，采用运动物体检测技术检测出第n+1个视频帧中不存在处于运动状态的物体，则说明该物体在第n帧时停止运动。因此，可以将第2至n个视频帧作为该物体对应的图像序列。

需要说明的是，上述举例中是对视频中的每个视频帧均进行检测。可选的，为了提高计算效率，还可以对视频中的部分视频帧进行检测，例如：对视频中的奇数帧进行检测，或者，对视频帧中的偶数帧进行检测，或者，对视频帧中的间隔k个帧的视频帧进行检测。

S303：根据各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

结合上述举例，由于第2至n个视频帧中被标注了该目标物体的标注框，因此，可选的，可以直接将第2至n个视频帧作为该目标物体对应的图像序列。

可以理解的，由于一个视频帧中包括的内容通常较多，而包裹在视频帧图像中仅占较小的面积。为了避免视频帧中的其他内容对后续的识别过程造成干扰，可以在使图像序列中保留该目标物体的运动轨迹的前提下，尽量减少图像序列中的无关内容。

一种可能的实施方式中，S303可以具体包括：根据各所述标注框在各自对应的视频帧中的位置，确定出目标区域的位置，所述目标区域为能够覆盖所有所述标注框的区域；根据所述目标区域的位置，从包括所述标注框的每个所述视频帧中截取出所述目标区域对应的图像，将截取得到的多个图像作为所述目标物体对应的图像序列。

示例性的，图5为本发明实施例提供的目标区域的示意图。如图5所示，小矩形框示例的是目标物体在各个视频帧中的位置，即各个视频帧中标注的矩形框的位置。为了尽可能保留目标物体的运动轨迹，可以将覆盖所有矩形框的外接矩形框作为目标区域，例如图5中的阴影区域。这样，在包括该目标物体的各个视频帧中，截取出目标区域对应的图像，将截取得到的多个图像作为该目标物体对应的图像序列。这样，既保证了图像序列中保留了目标物体的运动轨迹，又减少了图像序列中的无关内容，从而能够提高暴力分拣识别模型的识别准确率。

图3至图5所示的实施例中，是以视频帧中仅包括1个目标物体为例进行描述的。有些场景下，视频帧中可能会同时存在多个处于运动状态的物体。例如：分拣人员在分拣包裹A的同时，有只小鸟在周围飞过，使得包裹A和小鸟同时并被采集到视频中。或者，分拣人员在分拣包裹B的同时，有片树叶从空中飘落，使得包裹B和树叶同时被采集到视频中。下面结合图6对该场景的检测过程进行描述。

图6为本发明另一实施例提供的获取目标物体对应的图像序列的流程示意图。本实施例的方法可以作为S202的另一种细化方式。如图6所示，本实施例的方法，包括：

S601：针对所述视频中的每个当前视频帧，执行标注操作，其中，所述标注操作具体为：根据目标物体在当前视频帧中的位置与所述目标物体在参考视频帧中的位置，确定所述目标物体为运动物体，并在所述当前视频帧中采用标注框对所述目标物体的位置进行标注；其中，所述参考视频帧位于所述当前视频帧之前。

S602：获取所述标注框内的目标物体的特征，并根据所述目标物体的特征，判断所述标注框中的目标物体是否为已标注的目标物体。

其中，目标物体的特征包括但不限于：目标物体的位置特征、形状特征、颜色特征、运动特征等。

S603：若所述标注框中的目标物体不是已标注的目标物体，则为所述标注框内的目标物体分配新的标识，并将所述标注框与所述新的标识进行关联。

S604：若所述标注框中的目标物体是已标注的运动物体，则将所述标注框与所述已标注的目标物体的标识进行关联。

本实施例S601的实施方式与上述实施例中的S301类似，此处不再赘述。其不同之处在于，针对一个视频帧中包括多个运动物体的场景，本实施例S601中，一个视频帧中会检测到多个运动物体，因此，在该视频帧中会被标注多个标注框。图7A为本发明实施例提供的标注框的示意图。如图7A所示，包裹对应一个标注框，小鸟对应一个标注框。该情况下，需要对各个标注框所对应的物体进行关联。示例性的，假设包裹的标识为1，小鸟的标识为2，则将包裹对应的标注框与标识1关联，将小鸟对应的标注框与标识2进行关联。

通过上述的S602至S604，可以实现对不同的目标物体进行连续性跟踪，保证目标物体的运动连贯性，同时，还可以过滤短时间出现的运动噪声。

S605：重复执行所述标注操作，直至根据所述目标物体在当前视频帧中的位置与所述目标物体在参考视频帧中的位置，确定所述目标物体为静止物体。

S606：在确定所述目标物体为静止物体后，根据所述目标物体对应的标识关联的各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

当跟踪到某个目标物体停止运动时，即由运动状态变为静止状态时，从历史视频帧中获取该目标物体的标识关联的标注框对应的视频帧，并根据这些视频帧确定该目标物体对应的图像序列。具体实施方式可以参见S303的详细描述。

图7B和图7C为本发明实施例提供的目标区域的示意图。图7B示例的是包裹对应的目标区域，参见图7B，可以将与包裹的标识1关联的各标注框的外接矩形作为包裹对应的目标区域。进而，从包括包裹的各个视频帧中出截取出该目标区域作为包裹对应的图像序列。图7C示例的是小鸟对应的目标区域，参见图7C，可以将与小鸟的标识2关联的各标注框的外接矩形作为小鸟对应的目标区域。进而，从包括小鸟的各个视频帧中出截取出该目标区域作为小鸟对应的图像序列。

本实施例中，由于是根据包裹的运动特性进行识别，而不是根据分拣人员的分拣动作特征进行识别，避免了由于分拣人员在分拣作业中频繁出现大动作导致的误判较多的问题，提高了暴力分拣行为的检测准确率。另外，由于无需采用高精度的深度摄像机，规避了对摄像机要求较高的问题，使得本实施例的暴力分拣行为的检测方法具有较高的普适性。

图8为本发明实施例提供的暴力分拣行为的检测装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。本实施例的装置可以设置在摄像机中，还可以设置于服务器中。如图8所示，本实施例提供的暴力分拣行为的检测装置800，包括：第一获取模块801、第二获取模块802和识别模块803。

其中，第一获取模块801，用于获取待检测的视频，所述视频为分拣人员对包裹进行分拣的视频；

第二获取模块802，用于从所述视频包括的视频帧中，获取目标物体对应的图像序列，其中，所述图像序列包括至少一个图像，每个图像对应一个视频帧，每个图像为对应的视频帧中的至少部分区域，每个图像中均包括所述目标物体，且所述目标物体在各所述图像中的位置不同；

识别模块803，用于根据所述目标物体对应的图像序列，判断所述目标物体是否为被暴力分拣的包裹。

可选的，所述第二获取模块802具体用于：

针对所述视频中的每个当前视频帧，执行标注操作，其中，所述标注操作具体为：根据目标物体在当前视频帧中的位置与所述目标物体在参考视频帧中的位置，确定所述目标物体为运动物体，并在所述当前视频帧中采用标注框对所述目标物体的位置进行标注；

根据各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

可选的，所述第二获取模块802具体用于：

根据各所述标注框在各自对应的视频帧中的位置，确定出目标区域的位置，所述目标区域为能够覆盖所有所述标注框的区域；

可选的，所述视频中包括多个目标物体；所述第二获取模块802具体用于：

获取所述标注框内的目标物体的特征，并根据所述目标物体的特征，判断所述标注框中的目标物体是否为已标注的目标物体；

若所述标注框中的目标物体不是已标注的目标物体，则为所述标注框内的目标物体分配新的标识，并将所述标注框与所述新的标识进行关联；

若所述标注框中的目标物体是已标注的运动物体，则将所述标注框与所述已标注的目标物体的标识进行关联；

在确定所述目标物体为静止物体后，根据所述目标物体对应的标识关联的各所述标注框对应的所述视频帧，确定出所述目标物体对应的图像序列。

可选的，所述识别模块803具体用于：

根据所述输出结果，确定所述目标物体是否为被暴力分拣的包裹。

可选的，如图8所示，本实施例的装置还可以包括处理模块804；处理模块804用于：若所述目标物体是被暴力分拣的包裹，则根据所述目标物体对应的图像序列，确定所述暴力分拣行为在所述视频中的位置。

可选的，所述处理模块804具体用于：

根据所述目标物体对应的图像序列，确定所述图像序列在所述视频中对应的起始帧和结束帧；

根据所述起始帧和所述结束帧，确定所述暴力分拣行为在所述视频中的位置，并对所述起始帧和所述结束帧之间的视频帧进行存储。

可选的，所述处理模块804还用于：

通过显示屏对所述起始帧和所述结束帧之间的视频帧进行显示；

生成用于指示检测到暴力分拣行为的报警信息，通过报警装置对所述报警信息进行报警。

本实施例提供的暴力分拣行为的检测装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9为本发明实施例提供的暴力分拣行为的检测设备的结构示意图。本实施例提供的暴力分拣行为的检测设备可以为摄像机，还可以作为服务器。如图9所示，本实施例的暴力分拣行为的检测设备900，包括：处理器901以及存储器902；其中，存储器902，用于存储计算机程序；处理器901，用于执行存储器存储的计算机程序，以实现上述实施例中的暴力分拣行为的检测方法。具体可以参见前述方法实施例中的相关描述。

可选地，存储器902既可以是独立的，也可以跟处理器901集成在一起。

当所述存储器902是独立于处理器901之外的器件时，所述暴力分拣行为的检测设备900还可以包括：总线903，用于连接所述存储器902和处理器901。

本实施例提供的暴力分拣行为的检测设备，可用于执行上述任一方法实施例中的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序用于实现如上任一方法实施例中的技术方案。

本发明实施例还提供一种芯片，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行上述任一方法实施例中的技术方案。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陆韶琦;陈晓;童俊艳;
专利申请人：杭州海康威视数字技术股份有限公司;

上一篇：一种控制变量值的确定方法、装置及设备
下一篇：一种物联网数据处理系统及数据处理方法