物品违规抛扔检测方法、装置、服务器及存储介质

文献发布时间：2023-06-19 11:42:32

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种物品违规抛扔检测方法、装置、服务器及存储介质。

背景技术

近年来，随物流行业的发展，为了追求时效性，物品分拣人员在对物品分拣的过程中，可能会出现暴力分拣的行为，例如会出现扔或者踢物品的现象，这些行为容易对物品造成损害，从而导致快递公司承受巨额的赔偿。为此，现有技术提出一种通过监控视频检测技术，通过目标检测技术对监控视频中的目标区域进行回归分类，以判断监控视频中的物品分拣人员是否存在违规抛扔物品的行为，但是，这种检测技术的准确度较低，无法满足业务需求。

发明内容

本发明实施例提供一种物品违规抛扔检测方法、装置、服务器及存储介质，旨在对物品违规抛扔检测方法进行改进，从而更加准确的判断出监控视频中的物品分拣人员是否存在违规抛扔物品的行为。

本发明实施例提供一种物品违规抛扔检测方法，所述方法包括：

获取物品分拣的监控视频；

对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像；

从所述抛扔图像中确定所述物品的抛扔方向；

根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域；

对所述抛扔区域中的物品抛扔类型进行检测，以确定所述物品是否为违规抛扔。

在本发明的一些实施例中，所述多帧监控图像为YUV图像，所述对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像，包括：

从多帧所述监控图像中分别提取出Y通道图像；

将多张所述Y通道图像融合形成一张三通道图像；

将所述三通道图像和第一张所述Y通道图像合并形成四通道图像；

将所述四通道图输入预设的语义分割神经网络，得到包含有人的第一二值图像和包含有物品抛扔轨迹的第二二值图像，作为所述抛扔图形。

在本发明的一些实施例中，所述将多张所述Y通道图像融合形成一张三通道图像，包括：

根据第一张至第一数量张的所述Y通道图像融合成所述三通道图像的第一通道图像；

根据第一数量张后至第二数量张的所述Y通道图像融合成所述三通道图像的第二通道图像；

根据第二数量张后至最后一张的所述Y通道图像融合成所述三通道图像的第三通道图像。

在本发明的一些实施例中，将所述四通道图输入预设的语义分割神经网络，得到包含有人的第一二值图像和包含有物品抛扔轨迹的第二二值图像，作为所述抛扔图形，包括：

对所述第一二值图像进行腐蚀和膨胀处理，得到处理后的第一二值图像；

对所述处理后的第一二值图像进行连通域分析，得到面积最大的第一连通域；

对所述第二二值图像进行腐蚀和膨胀处理，得到处理后的第二二值图像；

对所述处理后的第二二值图像进行连通域分析，得到面积最大的第二连通域；

根据所述第一连通域和所述第二连通域得到所述抛扔图形。

在本发明的一些实施例中，所述从所述抛扔图像中确定所述物品的抛扔方向，包括：

获取所述三通道图像的第一通道图像和第三通道图像；

根据所述第二二值图像和所述第一通道图像，确定所述物品的抛扔起点；

根据所述第二二值图像和所述第三通道图像，确定所述物品的抛扔终点；

根据所述抛扔起点和所述抛扔终点确定所述物品的抛扔方向。

在本发明的一些实施例中，所述根据所述第二二值图像和所述第一通道图像，确定所述物品的抛扔起点，包括：

根据所述第二二值图像确定所述第一通道图像与物品抛扔轨迹对应的部分，作为第一标记块；

计算所述第一标记块中各像素的第一平均像素值；

计算所述第一标记块中像素值大于所述第一平均像素值的像素的平均坐标，作为所述物品的抛扔起点。

在本发明的一些实施例中，所述根据所述第二二值图像和所述第三通道图像，确定所述物品的抛扔终点，包括：

根据所述第二二值图像确定所述第三通道图像与物品抛扔轨迹对应的部分，作为第二标记块；

计算所述第二标记块中各像素的第二平均像素值；

计算所述第二标记块中像素值大于所述第二平均像素值的像素的平均坐标，作为所述物品的抛扔终点。

在本发明的一些实施例中，根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域，包括：

根据所述抛扔起点、所述抛扔终点和所述第一二值图像，确定多张所述Y通道图像中的关注区域，作为所述抛扔区域。

在本发明的一些实施例中，所述根据所述抛扔起点、所述抛扔终点和所述第一二值图像，确定多帧所述Y通道图像中的关注区域，包括：

在所述第一二值图像中确定人的最小外接矩形区域的左上角坐标和右下角坐标；

根据所述抛扔起点、所述抛扔终点、所述左上角坐标和所述右下角坐标，确定所述抛扔区域的对角坐标；

根据所述对角坐标确定每个所述Y通道图像中的关注区域；

将每个所述Y通道图像中的关注区域提取出来，作为所述抛扔区域。

在本发明的一些实施例中，所述对所述抛扔区域中的物品抛扔类型进行检测，以确定所述物品是否为违规抛扔，包括：

将所述抛扔区域输入预设的抛扔分类神经网络，得到所述物品的抛扔类型与违规抛扔类型的相似度；

若所述相似度大于或等于预设值，则确定所述物品被违规抛扔。

本发明实施例还提供一种物品违规抛扔检测装置，包括：

获取模块，用于获取监控视频；

分割模块，用于对所述监控视频中的多帧监控图像进行语义分割处理，得到包含有物品和人的抛扔图像；

第一确定模块，用于从所述抛扔图像中确定所述物品的抛扔方向；

第二确定模块，用于根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域；

检测模块，用于对所述抛扔区域中的物品抛扔轨迹进行检测，以确定所述物品是否为违规抛扔。

在本发明的一些实施例中，所述多帧监控图像为YUV图像，所述分割模块包括：

第一提取模块，用于从多帧所述监控图像中分别提取出Y通道图像；

融合模块，用于将多张所述Y通道图像融合形成一张三通道图像；

合并模块，用于将所述三通道图像和第一张所述Y通道图像合并形成四通道图像；

图像生成模块，用于将所述四通道图输入预设的语义分割神经网络，得到包含有人的第一二值图像和包含有物品抛扔轨迹的第二二值图像，作为所述抛扔图形。

在本发明的一些实施例中，所述融合模块包括：

第一子融合模块，用于根据第一张至第一数量张的所述Y通道图像融合成所述三通道图像的第一通道图像；

第二子融合模块，用于根据第一数量张后至第二数量张的所述Y通道图像融合成所述三通道图像的第二通道图像；

第三子融合模块，用于根据第二数量张后至最后一张的所述Y通道图像融合成所述三通道图像的第三通道图像。

在本发明的一些实施例中，所述图像生成模块包括：

第一处理模块，用于对所述第一二值图像进行腐蚀和膨胀处理，得到处理后的第一二值图像；

第一分析模块，用于对所述处理后的第一二值图像进行连通域分析，得到面积最大的第一连通域；

第二处理模块，用于对所述第二二值图像进行腐蚀和膨胀处理，得到处理后的第二二值图像；

第二分析模块，用于对所述处理后的第二二值图像进行连通域分析，得到面积最大的第二连通域；

抛扔图形生成模块，用于根据所述第一连通域和所述第二连通域得到所述抛扔图形。

在本发明的一些实施例中，所述第一确定模块包括：

通道获取模块，用于获取所述三通道图像的第一通道图像和第三通道图像；

起点确定模块，用于根据所述第二二值图像和所述第一通道图像，确定所述物品的抛扔起点；

终点确定模块，用于根据所述第二二值图像和所述第三通道图像，确定所述物品的抛扔终点；

第一子确定模块，用于根据所述抛扔起点和所述抛扔终点确定所述物品的抛扔方向。

在本发明的一些实施例中，所述起点确定模块包括：

第二子确定模块，用于根据所述第二二值图像确定所述第一通道图像与物品抛扔轨迹对应的部分，作为第一标记块；

第一计算模块，用于计算所述第一标记块中各像素的第一平均像素值；

第二子确定模块，用于计算所述第一标记块中像素值大于所述第一平均像素值的像素的平均坐标，作为所述物品的抛扔起点。

在本发明的一些实施例中，所述终点确定模块包括：

第三子确定模块，用于根据所述第二二值图像确定所述第三通道图像与物品抛扔轨迹对应的部分，作为第二标记块；

第二计算模块，用于计算所述第二标记块中各像素的第二平均像素值；

第四子确定模块，用于计算所述第二标记块中像素值大于所述第二平均像素值的像素的平均坐标，作为所述物品的抛扔终点。

在本发明的一些实施例中，所述第二确定模块用于根据所述抛扔起点、所述抛扔终点和所述第一二值图像，确定多张所述Y通道图像中的关注区域，作为所述抛扔区域。

在本发明的一些实施例中，所述第二确定模块包括：

第一坐标确定模块，用于在所述第一二值图像中确定人的最小外接矩形区域的左上角坐标和右下角坐标；

第二坐标确定模块，用于根据所述抛扔起点、所述抛扔终点、所述左上角坐标和所述右下角坐标，确定所述抛扔区域的对角坐标；

关注区域确定模块，用于根据所述对角坐标确定每个所述Y通道图像中的关注区域；

第二提取模块，用于将每个所述Y通道图像中的关注区域提取出来，作为所述抛扔区域。

在本发明的一些实施例中，所述检测模块包括：

子检测模块，用于将所述抛扔区域输入预设的抛扔分类神经网络，得到所述物品的抛扔类型与违规抛扔类型的相似度；

违规确定模块，用于若所述相似度大于或等于预设值，则确定所述物品被违规抛扔。

本发明实施例还提供一种服务器，所述服务器包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现如上所述的物品违规抛扔检测方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行如上所述的物品违规抛扔检测方法中的步骤。

本发明实施例在现有技术中直接通过回归分类方式检测违规抛扔物品准确度较低的基础上，通过对监控视频中的帧监控图像进行语义分割处理，能够准确的得到抛扔图像，然后根据该抛扔图像确定物品的抛扔方向和抛扔区域，通过抛扔方向与抛扔区域结合，对抛扔区域中的物品抛扔轨迹进行检测，能够更加准确的检测出物品是否被违规抛扔，提高了物品违规抛扔检测方法的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中物品违规抛扔检测方法的一个实施例流程示意图；

图2是本发明实施例中得到抛扔图像的一个实施例流程示意图；

图3是本发明实施例中确定物品的抛扔方向的一个实施例流程示意图；

图4是本发明实施例中物品违规抛扔检测装置的一个实施例的结构示意图；

图5是本发明实施例提供的服务器的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本发明实施例提供一种物品违规抛扔检测方法、装置、服务器及存储介质。以下分别进行详细说明。

首先，本发明实施例中提供一种物品违规抛扔检测方法，所述物品违规抛扔检测方法包括：获取物品分拣的监控视频；对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像；从所述抛扔图像中确定所述物品的抛扔方向；根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域；对所述抛扔区域中的物品抛扔轨迹进行检测，以确定所述物品是否为违规抛扔。

如图1所示，为本发明实施例中物品违规抛扔检测方法的一个实施例流程示意图，该物品违规抛扔检测方法应用于物品违规抛扔检测装置，该物品违规抛扔检测方法包括：

101、获取物品分拣的监控视频。

在本发明一些实施例中，可以在物品分拣场合设置摄像头，并通过摄像头对物品分拣人员的物品分拣行为进行监控，以获取物品分拣的监控视频。其中，物品分拣视频中包括物品，以及对物品进行分拣的人。

具体的，摄像头采集到的视频图像后，输出的监控视频为YUV格式的图像，以便于对监控视频进行进一步的处理。其中，“Y”表示明亮度(Luminance或Luma)，也就是灰阶值；而“U”和“V”表示的则是色度(Chrominance或Chroma)，作用是描述影像色彩及饱和度，用于指定像素的颜色。

在本发明一些实施例中，摄像头采集到的视频图像后进行解压缩，并分解成YUV格式的图像。

或者，摄像头采集到的视频图像后输出RGB格式的图像，然后将该RGB格式的图像转换成YUV格式的图像。

102、对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像。

在本发明一些实施例中，对监控视频中多帧监控图像，根据其要识别的目标前景，进行对应的语义分割处理。即，该语义分割处理可以与要识别的目标前景具有对应关系。例如，要对监控图像中的物品或分拣物品的人进行识别，则需要识别的目标前景即为物品或分拣物品的人，该语义分割处理则可以为针对物品或分拣物品的人的语义分割处理。

语义分割处理可以将从监控图像分割为若干个具有某种特定语义含义的像素区域等，并识别出每个区域的类别，进而便于对监控图像的目标前景进行识别。例如，要对监控图像中的物品或分拣物品的人进行识别，则需要识别的目标前景即为物品或分拣物品的人，则该语义分割处理则可以将监控图像中的物品或分拣物品的人识别出来。

在本发明一些实施例中，所述多帧监控图像为YUV图像，所述对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像的步骤具体可以包括如下步骤：

在本发明一些实施例中，监控视频中的多帧监控图像为连续的多帧监控图像，以提高对多帧监控图像进行语义分割处理后，得到的抛扔图像的精度。

当然，当摄像头为高速摄像头时，监控视频中的多帧监控图像为间隔的多帧监控图像，以提高对监控视频中的多帧监控图像进行语义分割处理的速度。

如图2所示，为本发明实施例中得到抛扔图像的一个实施例流程示意图，在一些实施例中，对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像具体可以包括步骤201至步骤204，详细说明如下：

201、从多帧所述监控图像中分别提取出Y通道图像。

对于摄像头输出的YUV格式的图像，一般为平面(planar)格式或打包(packed)格式，其中，平面(planar)格式的监控图像先存储所有Y分量，紧接着是U分量，随后是V分量(如YYYYUUVV)；打包(packed)格式的监控图像为Y分量、U分量和V分量交叉存储(如YUYVYUYV)，对于不同型号的摄像头，其输出的监控图像中的Y分量、U分量和V分量的比例不同。

在本发明一些实施例中，可以将其中的U通道图像和V通道图像丢弃，仅将其中的Y通道图像提取出来，从而得到每帧监控图像的Y通道图像。通过从多帧监控图像中分别提取出Y通道图像，能够更加方便的对监控视频中的多帧监控图像进行语义分割处理。

202、将多张所述Y通道图像融合形成一张三通道图像。

在本发明一些实施例中，将从多帧监控图像中分别提取出Y通道图像融合形成一张三通道图像后，能够更加准确的在三通道图像中显示出物品的抛扔轨迹，以及分拣物品的人。

其中，所述将多张所述Y通道图像融合形成一张三通道图像具体可以包括如下步骤：

1)、根据第一张至第一数量张的所述Y通道图像融合成所述三通道图像的第一通道图像。

在一些实施例中，第一数量张的Y通道图像为多张Y通道图像中，第一张Y通道图像和倒数第二张Y通道图像之间的某一张通道图像(不包括倒数第二张Y通道图像)。其中，第一通道图像的各像素的像素值为第一张至第一数量张的Y通道图像中对应像素的平均像素值。也即，第一通道图像中某位置处像素的像素值为第一张至第一数量张的Y通道图像中同一位置处像素的平均像素值。为了计算方便，可以对平均像素值进行取整。

2)、根据第一数量张后至第二数量张的所述Y通道图像融合成所述三通道图像的第二通道图像。

在一些实施例中，第二数量张后的Y通道图像为，多张Y通道图像中，位于第一数量张的Y通道图像和最后一张Y通道图像之间的某一张通道图像(不包括第一数量张的Y通道图像)。其中，第二通道图像的各像素的像素值为第一数量张后至第二数量张的Y通道图像中对应像素的平均像素值。也即，第二通道图像中某位置处像素的像素值为第一数量张后至第二数量张的Y通道图像中同一位置处像素的平均像素值。为了计算方便，可以对平均像素值进行取整。

3)、根据第二数量张后至最后一张的所述Y通道图像融合成所述三通道图像的第三通道图像。

在一些实施例中，第三通道图像的各像素的像素值为第二数量张后至最后一张的Y通道图像中对应像素的平均像素值。也即，第三通道图像中某位置处像素的像素值为第二数量张后至最后一张的Y通道图像中同一位置处像素的平均像素值。为了计算方便，可以对平均像素值进行取整。

下面通过具体实施例，对多张Y通道图像融合形成一张三通道图像的过程进行说明。

监控视频中的多帧监控图像的具体数量为n，从n帧监控图像分别提取出了n张Y通道图像，第一数量为a1，第二数量为a1+a2，a3＝n-a1-a2；其中，a3为n除以3后取整，a2＝n-2*a3；a1＝n-a1-a3。当n的值确定后，可以按照上述公式确定a1、a2和a3的具体数值，具体例如：n＝10，则a1＝3、a2＝4、a3＝3。

根据第一张至第a1张的Y通道图像融合成三通道图像的第一通道图像，也即第一通道图像中某位置处像素的像素值为第一张至第a1张的Y通道图像中同一位置处像素的平均像素值。

根据第a1+1张至第a1+a2张的Y通道图像融合成三通道图像的第二通道图像，也即第二通道图像中某位置处像素的像素值为第a1+1张至第a1+a2张的Y通道图像中同一位置处像素的平均像素值。

根据第a1+a2+1张至最后一张的Y通道图像融合成三通道图像的第三通道图像，也即第三通道图像中某位置处像素的像素值为第a1+a2+1张至最后一张的Y通道图像中同一位置处像素的平均像素值。

203、将所述三通道图像和第一张所述Y通道图像合并形成四通道图像。

在一些实施例中，从第一张监控图像中提取出的Y通道图像为第一张Y通道图像，可以将三通道图像的第一通道图像、第二通道图像和第三通道图像作为四通道图像的三个通道图像，将第一张Y通道图像作为四通道图像的另一个通道图像，以合并形成四通道图像。

204、将所述四通道图输入预设的语义分割神经网络，得到包含有人的第一二值图像和包含有物品抛扔轨迹的第二二值图像，作为所述抛扔图形。

在一些实施例中，通过将四通道图形输入预设的语义分割神经网络中，由语义分割神经网络对四通道图像进行语义分割，并准确的输出包含有人的第一二值图像和包含有物品抛扔轨迹的第二二值图像作为抛扔图像，以便于通过抛扔图像对物品的抛扔轨迹进行分析。其中，若第一二值图像或第二二值图像中同时包含有人和物品抛扔轨迹，则将对第一二值图像或第二二值图像中的人和物品抛扔轨迹进行分离，使第一二值图像中仅包含有人，第二二值图像中仅包含有物品抛扔轨迹。

预设的语义分割神经网络可以通过样本训练数据对语义分割神经网络进行训练得到。其中，语义分割神经网络可以是CNN(Convolutional Neural Network，卷积神经网络)模型，或者也可以是深度神经网络模型等。

在一些实施例中，第一二值图像中每个像素的灰度为1或者0，其中，1表示像素属于人的类别，0表示像素不属于人的类别。同样地，第二二值图中每个像素的灰度为1或者0，其中，1表示像素属于物品抛扔轨迹的类别，0表示像素不属于物品抛扔轨迹的类别。

在一些实施例中，将所述四通道图输入预设的语义分割神经网络，得到包含有人的第一二值图像和包含有物品抛扔轨迹的第二二值图像，作为所述抛扔图形还包括如下步骤：

1)、对所述第一二值图像进行腐蚀和膨胀处理，得到处理后的第一二值图像。

在一些实施例中，可以对第一二值图像进行形态学腐蚀处理，以过滤第一二值图像中黑暗区域的白色像素。具体地，将第一二值图像与预设的语义分割神经网络的正方形内核(卷积核)进行卷积，将内核覆盖区域的最小像素值提取出来，并代替锚点位置的像素，以得到腐蚀后的第一二值图。之后，将腐蚀后的第一二值图与预设的语义分割神经网络的正方形内核(卷积核)进行卷积，将内核覆盖区域的最大像素值提取出来，并代替锚点位置的像素，以得到膨胀后的第一二值图，即处理后的第一二值图。

2)、对所述处理后的第一二值图像进行连通域分析，得到面积最大的第一连通域。

在一些实施例中，可以先对处理后的第一二值图中属于人类别(灰度为1)的像素进行标记，让每个单独的连通区域形成一个被标识的块，即得到多个标记块。然后，将面积最大的标记块之外的所有像素的灰度均设置为0，即可得到面积最大的第一连通域。

3)、对所述第二二值图像进行腐蚀和膨胀处理，得到处理后的第二二值图像。

在一些实施例中，可以对第二二值图像进行形态学腐蚀处理，以过滤第二二值图像中黑暗区域的白色像素。具体地，将第二二值图像与预设的语义分割神经网络的正方形内核(卷积核)进行卷积，将内核覆盖区域的最小像素值提取出来，并代替锚点位置的像素，以得到腐蚀后的第二二值图。之后，将腐蚀后的第二二值图与预设的语义分割神经网络的正方形内核(卷积核)进行卷积，将内核覆盖区域的最大像素值提取出来，并代替锚点位置的像素，以得到膨胀后的第二二值图，即处理后的第二二值图。

二值图像的形态学处理的基本运算有腐蚀、膨胀、开运算、闭运算，击中与击不中、骨架抽取等。腐蚀就是使用算法，将图像的边缘腐蚀掉，作用就是将目标的边缘的“毛刺”踢除掉。膨胀就是使用算法，将图像的边缘扩大些。作用就是将目标的边缘或者是内部的坑填掉。使用相同次数的腐蚀与膨胀，可以使目标表面更平滑。腐蚀与膨胀的具体过程为现有技术，具体此处不再赘述。

4)、对所述处理后的第二二值图像进行连通域分析，得到面积最大的第二连通域。

在一些实施例中，可以先对处理后的第二二值图中属于物品抛扔轨迹类别(灰度为1)的像素进行标记，让每个单独的连通区域形成一个被标识的块，即得到多个标记块。然后，将处面积最大的标记块之外的所有像素的灰度均设置为0，即可得到面积最大的第二连通域。

5)、根据所述第一连通域和所述第二连通域得到所述抛扔图像。

在一些实施例中，可以将第一连通域和第二连通域作为抛扔图像，从而能够准确的从抛扔图像中获取物品的抛扔轨迹及人的位置信息。

103、从所述抛扔图像中确定所述物品的抛扔方向。

在一些实施例中，物品的抛扔方向为物品从抛扔起点至抛扔终点的方向。由于抛扔图像中包括物品的抛扔轨迹及人的位置信息，因此，从抛扔图像中能够准确的确定物品的抛扔方向。

如图3所示，为本发明实施例中确定物品的抛扔方向的一个实施例流程示意图，在一些实施例中，如图3所示，所述从所述抛扔图像中确定所述物品的抛扔方向具体可以包括步骤301至步骤304，详细说明如下：

301、获取所述三通道图像的第一通道图像和第三通道图像。

302、根据所述第二二值图像和所述第一通道图像，确定所述物品的抛扔起点。

在一些实施例中，三通道图像的第一通道图像由多张Y通道图像中靠前的多张Y通道图像融合形成，因此，第一通道图像内包含有物品的抛扔起点位置信息，而第二二值图包含有物品的抛扔轨迹信息，通过第二二值图像和第一通道图像能够准确的确定出物品的抛扔起点。

其中，所述根据所述第一二值图像和所述第一通道图像，确定所述物品的抛扔起点的过程，具体可以包括如下步骤：

1)、根据所述第二二值图像确定所述第一通道图像与物品抛扔轨迹对应的部分，作为第一标记块。

在一些实施例中，第二二值图包含有物品的抛扔轨迹，因此，可以根据第二二值图确定出第一通道图像中与物品抛扔轨迹对应的部分。

2)、计算所述第一标记块中各像素的第一平均像素值。

在一些实施例中，可以获取第一标记块内的各像素的像素值，然后计算第一标记块内像素的像素值之和，与第一标记块内像素数量的比值，并对该比值取整，以计算出第一标记块中各像素的第一平均像素值。

3)、计算所述第一标记块中像素值大于所述第一平均像素值的像素的平均坐标，作为所述物品的抛扔起点。

在一些实施例中，可以将第一标记块中像素值大于所述第一平均像素值的像素作为第一目标像素，通过计算所有第一目标像素的横坐标之和与第一目标像素总数的比值，以确定平均横坐标，通过计算所有第一目标像素的纵坐标之和与第一目标像素总数的比值，以确定平均纵坐标，该平均横坐标和平均纵坐标为第一标记块中像素值大于第一平均像素值的像素的平均坐标，也即物品的抛扔起点坐标。

303、根据所述第二二值图像和所述第三通道图像，确定所述物品的抛扔终点。

在一些实施例中，三通道图像的第三通道图像由多张Y通道图像中靠后的多张Y通道图像融合形成，因此，第二通道图像内包含有物品的抛扔终点位置信息，而第二二值图包含有物品的抛扔轨迹信息，通过第二二值图像和第二通道图像能够准确的确定出物品的抛扔终点。

在一些实施例中，所述根据所述第二二值图像和所述第三通道图像，确定所述物品的抛扔终点的过程，具体可以包括如下步骤：

1)、根据所述第二二值图像确定所述第三通道图像与物品抛扔轨迹对应的部分，作为第二标记块。

在一些实施例中，第二二值图包含有物品的抛扔轨迹，因此，可以根据第二二值图确定出第三通道图像中与物品抛扔轨迹对应的部分。

2)、计算所述第二标记块中各像素的第二平均像素值。

在一些实施例中，可以获取第二标记块内的各像素的像素值，然后计算第二标记块内像素的像素值之和，与第二标记块内像素数量的比值，并对该比值取整，以计算出第二标记块中各像素的第二平均像素值。

3)、计算所述第二标记块中像素值大于所述第二平均像素值的像素的平均坐标，作为所述物品的抛扔终点。

在一些实施例中，可以将第二标记块中像素值大于所述第二平均像素值的像素作为第二目标像素，通过计算所有第二目标像素的横坐标之和与第二目标像素总数的比值，以确定平均横坐标，通过计算所有第二目标像素的纵坐标之和与第二目标像素总数的比值，以确定平均纵坐标，该平均横坐标和平均纵坐标为第二标记块中像素值大于第二平均像素值的像素的平均坐标，也即物品的抛扔终点坐标。

304、根据所述抛扔起点和所述抛扔终点确定所述物品的抛扔方向。

在一些实施例中，当获取了物品的抛扔起点和抛扔终点后，既可以准确的确定出物品的抛扔方向。

104、根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域。

在本发明一些实施例中，物品的抛扔区域为抛扔图像中包含有物品抛扔轨迹的区域，当物品的抛扔方向确定以后，可以根据物品的抛扔起点和抛扔终点确定物品抛扔区域。

在一些实施例中，可以根据所述抛扔起点、所述抛扔终点和所述第一二值图像，确定多张所述Y通道图像中的关注区域，作为所述抛扔区域。

关注区域(Region of interest，ROI)也称感兴趣区域，为在机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域。

第一二值图像包含有人的位置信息，通过第一二值图以及物品的抛扔起点和抛扔终点，能够准确的确定多张Y通道图像中包含有人和物品抛扔轨迹的关注区域。

在本发明一些实施例中，所述根据所述抛扔起点、所述抛扔终点和所述第一二值图像，确定多帧所述Y通道图像中的关注区域的过程，具体可以包括如下步骤：

1)、在所述第一二值图像中确定人的最小外接矩形的左上角坐标和右下角坐标。

在本发明一些实施例中，在所述第一二值图像中确定人的最小外接矩形区域后，可以根据该最小外接矩形在第一二值图像中的坐标位置，确定出最小外接矩形区域的左上角坐标和右下角坐标。

2)、根据所述抛扔起点、所述抛扔终点、所述左上角坐标和所述右下角坐标，确定所述抛扔区域的对角坐标。

在一些实施例中，抛扔区域的对角坐标为抛扔区域的左上角坐标和右下角坐标，或者，抛扔区域的对角坐标为抛扔区域的右上角坐标和左下角坐标。

具体地，上述最小外接矩形的左上角坐标为(rx0，ry0)，右下角坐标为(rx1，ry1)，物品的抛扔起点坐标为(px0，py0)，抛扔终点坐标为(px1，py1)，可以按照下列计算公式计算出抛扔区域的对角坐标(tx0，ty0)和(tx1，ty1)：

tx0＝min(px0，px1，rx0，rx1)-alpha*b；

ty0＝min(py0，py1，ty0，ty1)-alpha*b；

tx1＝max(px0，px1，rx0，rx1)+beta*b；

ty1＝max(py0，py1，ty0，ty1)+beta*b；

其中，b为常数经验值，alpha和beta为常数，若px0＝px1，则alpha＝3，beta＝1。

3)、根据所述对角坐标确定每个所述Y通道图像中的关注区域。

在本发明一些实施例中，当抛扔区域的对角坐标确定后，可以将每个Y通道图像中位于该对角坐标之间的矩形区域确定为每个Y通道图像中的关注区域。

4)、将每个所述Y通道图像中的关注区域提取出来，作为所述抛扔区域。

在一些实施例中，当从每个Y通道图像中确定出关注区域后，可以将每个Y通道图像中的关注区域提取出来，以组合成抛扔图像中物品的抛扔区域。

105、对所述抛扔区域中的物品抛扔类型进行检测，以确定所述物品是否为违规抛扔。

在本发明一些实施例中，抛扔类型为物品抛扔的严重程度，可以事先根据物品被抛扔的严重程度，将分拣人员抛扔物品的操作分成“未抛扔”、“轻度抛扔”、“中度抛扔”、“严重抛扔”等多种类型，可以将最后一种或两种类型视为违规抛扔类型，当抛扔区域中的物品抛扔类型与违规抛扔类型比较接近时，即可确定物品被违规抛扔，否则，确定物品未被违规抛扔。

通过对抛扔区域中的物品抛扔类型进行检测，能够更加准确的识别出物品的抛扔类型，进而准确的判断物品是否被分拣人员违规抛扔，提高了物品违规抛扔检测方法的准确度。

在一些实施例中，所述对所述抛扔区域中的物品抛扔类型进行检测，以确定所述物品是否为违规抛扔的过程，具体可以包括如下步骤：

1)、将所述抛扔区域输入预设的抛扔分类神经网络，得到所述物品的抛扔类型与违规抛扔类型的相似度。

在本发明一些实施例中，预设的抛扔分类神经网络可以通过样本训练数据对抛扔分类神经网络进行训练得到。其中，抛扔分类神经网络可以是CNN(Convolutional NeuralNetwork，卷积神经网络)模型，或者也可以是深度神经网络模型等。将抛扔区域输入预设的抛扔分类神经网络后，由抛扔分类神经网络输出多种不同抛扔类型的相似度，物品的抛扔类型与违规抛扔等级的相似度越高，则说明物品可能被违规抛扔。

通过预设的抛扔分类神经网络对物品的抛扔类型进行检测，能够提高物品抛扔类型的检测精度和效率，进而提高物品违规抛扔检测方法的准确度。

2)、若所述相似度大于或等于预设值，则确定所述物品被违规抛扔。

在本发明一些实施例中，可以确定抛扔区域中的物品抛扔类型与事先确定的各种抛扔类型的相似度，并将物品的抛扔类型与违规抛扔类型的相似度与预设值进行比较，若物品的抛扔类型与违规抛扔类型的相似度大于或等于预设值，则确定抛扔区域中的物品被违规抛扔，反之，则确定抛扔区域中的物品未被违规抛扔。其中，预设值为常数，可以根据具体情况进行改变。

如图4所示，为本发明实施例中物品违规抛扔检测装置的一个实施例的结构示意图，为了更好实施本发明实施例中物品违规抛扔检测方法，在物品违规抛扔检测方法基础之上，本发明实施例中还提供一种物品违规抛扔检测装置400，所述物品违规抛扔检测装置400包括：

获取模块401，用于获取监控视频；

分割模块402，用于对所述监控视频中的多帧监控图像进行语义分割处理，得到包含有物品和人的抛扔图像；

第一确定模块403，用于从所述抛扔图像中确定所述物品的抛扔方向；

第二确定模块404，用于根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域；

检测模块405，用于对所述抛扔区域中的物品抛扔轨迹进行检测，以确定所述物品是否为违规抛扔。

在本发明一些实施例中，所述多帧监控图像为YUV图像，所述分割模块402包括：

第一提取模块，用于从多帧所述监控图像中分别提取出Y通道图像；

融合模块，用于将多张所述Y通道图像融合形成一张三通道图像；

合并模块，用于将所述三通道图像和第一张所述Y通道图像合并形成四通道图像；

在一些实施例中，所述融合模块包括：

第一子融合模块，用于根据第一张至第一数量张的所述Y通道图像融合成所述三通道图像的第一通道图像；

第二子融合模块，用于根据第一数量张后至第二数量张的所述Y通道图像融合成所述三通道图像的第二通道图像；

第三子融合模块，用于根据第二数量张后至最后一张的所述Y通道图像融合成所述三通道图像的第三通道图像。

在一些实施例中，所述图像生成模块包括：

第一处理模块，用于对所述第一二值图像进行腐蚀和膨胀处理，得到处理后的第一二值图像；

第一分析模块，用于对所述处理后的第一二值图像进行连通域分析，得到面积最大的第一连通域；

第二处理模块，用于对所述第二二值图像进行腐蚀和膨胀处理，得到处理后的第二二值图像；

第二分析模块，用于对所述处理后的第二二值图像进行连通域分析，得到面积最大的第二连通域；

抛扔图形生成模块，用于根据所述第一连通域和所述第二连通域得到所述抛扔图形。

在一些实施例中，所述第一确定模块403包括：

通道获取模块，用于获取所述三通道图像的第一通道图像和第三通道图像；

起点确定模块，用于根据所述第二二值图像和所述第一通道图像，确定所述物品的抛扔起点；

终点确定模块，用于根据所述第二二值图像和所述第三通道图像，确定所述物品的抛扔终点；

第一子确定模块，用于根据所述抛扔起点和所述抛扔终点确定所述物品的抛扔方向。

在一些实施例中，所述起点确定模块包括：

第二子确定模块，用于根据所述第二二值图像确定所述第一通道图像与物品抛扔轨迹对应的部分，作为第一标记块；

第一计算模块，用于计算所述第一标记块中各像素的第一平均像素值；

第二子确定模块，用于计算所述第一标记块中像素值大于所述第一平均像素值的像素的平均坐标，作为所述物品的抛扔起点。

在一些实施例中，所述终点确定模块包括：

第三子确定模块，用于根据所述第二二值图像确定所述第三通道图像与物品抛扔轨迹对应的部分，作为第二标记块；

第二计算模块，用于计算所述第二标记块中各像素的第二平均像素值；

第四子确定模块，用于计算所述第二标记块中像素值大于所述第二平均像素值的像素的平均坐标，作为所述物品的抛扔终点。

在一些实施例中，所述第二确定模块404用于根据所述抛扔起点、所述抛扔终点和所述第一二值图像，确定多张所述Y通道图像中的关注区域，作为所述抛扔区域。

在一些实施例中，所述第二确定模块404包括：

第一坐标确定模块，用于在所述第一二值图像中确定人的最小外接矩形区域的左上角坐标和右下角坐标；

第二坐标确定模块，用于根据所述抛扔起点、所述抛扔终点、所述左上角坐标和所述右下角坐标，确定所述抛扔区域的对角坐标；

关注区域确定模块，用于根据所述对角坐标确定每个所述Y通道图像中的关注区域；

第二提取模块，用于将每个所述Y通道图像中的关注区域提取出来，作为所述抛扔区域。

在一些实施例中，所述检测模块405包括：

子检测模块，用于将所述抛扔区域输入预设的抛扔分类神经网络，得到所述物品的抛扔类型与违规抛扔类型的相似度；

违规确定模块，用于若所述相似度大于或等于预设值，则确定所述物品被违规抛扔。

本发明实施例还提供一种服务器，其集成了本发明实施例所提供的任一种物品违规抛扔检测装置，所述服务器包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述物品违规抛扔检测方法实施例中任一实施例中所述的物品违规抛扔检测方法中的步骤。

本发明实施例还提供一种服务器，其集成了本发明实施例所提供的任一种物品违规抛扔检测装置。如图5所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中：

处理器501是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

服务器还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取物品分拣的监控视频；

对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像；

从所述抛扔图像中确定所述物品的抛扔方向；

根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域；

对所述抛扔区域中的物品抛扔类型进行检测，以确定所述物品是否为违规抛扔。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。该存储介质中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种物品违规抛扔检测方法中的步骤。例如，该指令可以执行如下步骤：

获取物品分拣的监控视频；

对所述监控视频中的多帧监控图像进行语义分割处理，得到抛扔图像；

从所述抛扔图像中确定所述物品的抛扔方向；

根据所述抛扔方向确定所述抛扔图像中所述物品的抛扔区域；

对所述抛扔区域中的物品抛扔类型进行检测，以确定所述物品是否为违规抛扔。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种物品违规抛扔检测方法、装置、服务器及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李似锦;
专利申请人：顺丰科技有限公司;

上一篇：数据处理方法、装置、设备及存储介质
下一篇：融合图像质量的图像检测方法、装置、电子设备