一种远距离行人位置识别方法、系统及存储介质

文献发布时间：2023-06-19 12:24:27

技术领域

本发明涉及目标识别领域，更具体地，涉及一种远距离行人位置识别方法、系统及存储介质。

背景技术

智能安防机器人在楼宇巡检过程中，借助自身传感器如相机来感知楼宇内的异常情况，在机房等重要无人区域，安防机器人检查环境，监控环境中有无人员流动来上报警报。在安防场景下，与配送业务不同的是，机器人需要对环境能够精确感知，对于那些距离较远的可疑人员也要能精准定位并上报。

安防机器人的行人检测系统主要是基于卷积神经网络搭建而成，卷积运算是行人检测中占比最高的运算方式，网络计算量与图片的大小正相关。

机器人等边缘端设备算力有限，行人检测算法在实际应用过程中，会先将图片按比例缩小后再进行计算，以减少计算耗时，保持系统的实时性。但这样简单的做法会导致在实际应用中，远距离行人本身信息量少，图片缩小后，信息进一步减少，会出现远距离行人难识别的问题。

发明内容

本发明针对现有技术中存在的技术问题，提供一种远距离行人位置识别方法、系统及存储介质。

根据本发明的第一方面，提供了一种远距离行人位置识别方法，包括：对于待检测原始图片，根据相机特性确定远距离行人在所述待检测原始图片中的理论位置区域；从所述待检测原始图片中抠取所述理论位置区域；将待检测原始图片和抠取的所述理论位置区域处理为预设大小图片，分别得到第一图片和第二图片；将所述第一图片和所述第二图片分别输入预设检测模型中，获取所述预设检测模型分别输出的行人的第一位置识别结果和第二位置识别结果；根据行人的所述第一位置识别结果和所述第二位置识别结果，确定远距离行人的最终位置识别结果。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述对于待检测原始图片，根据相机特性确定远距离行人在所述待检测原始图片中的理论位置区域，包括：采用棋盘格标定方式标定相机内外参数(K,RT)，相机矩阵KRT为：

KRT＝K*RT； (1)

其中，K为相机的内参，RT为相机的外参，fx，fy分别为相机水平方向和垂直方向的焦距，cx，cy为待检测原始图片水平方向和垂直方向的主点坐标，Hc为相机安装位置相对于地面的高度；

根据相机矩阵KRT计算远距离行人在待检测原始图片中的理论位置区域：

根据设定的远距离阈值以及行人身高阈值，确定出远距离行人在待检测图片中的理论位置区域；其中，(us，vs)为远距离行人在待检测图片中的像素坐标，s为缩放比例系数，x轴为地平线方向，y轴为行人身高方向，z轴为行人与相机距离方向。

可选的，所述根据设定的远距离阈值以及行人身高阈值，确定出远距离行人在待检测图片中的理论位置区域，包括：取X＝0，Y＝0，Z＝8，代入公式(4)中，得到远距离行人在待检测图片中的位置下界u_down；

取X＝0，Y＝2，Z＝8，得到远距离行人在待检测图片中的位置上界u_up；根据远距离行人在待检测图片中的位置下界和上界，确定远距离行人在待检测图片中的理论位置区域。

可选的，所述抠取的所述理论位置区域处理为预设大小图片，包括：沿x轴方向将抠取的所述理论位置区域等分为两个子区域，将两个子区域沿z轴方向叠加重组，使得重组后的图片为预设大小图片。

可选的，所述预设检测模型为SpaceToDepth模型，通过如下方式对所述SpaceToDepth模型进行训练：采集包括行人的多张图片形成训练集，对训练集中的每一张图片标记其中行人的位置，所述行人的位置以目标方框表征；利用训练集中多张图片以及每一张图片标记的行人的位置对所述预设检测模型进行训练；其中，所述预设检测模型将输入的每一张图片进行分块，得到多个子块，且根据多个子块的对应位置重新组成新图片，输出新图片中行人的位置。

可选的，所述根据行人的所述第一位置识别结果和所述第二位置识别结果，确定远距离行人的最终位置识别结果，包括：根据所述第一位置识别结果和缩放比例系数s，获取远距离行人在待检测原始图片中的第一目标方框；根据所述第二位置识别结果和预设大小图片的尺寸，计算远距离行人在待检测原始图片中的第二目标方框；基于第一目标方框和第二目标方框，确定远距离行人在待检测原始图片中的最终位置识别结果。

可选的，所述根据所述第一位置识别结果和缩放比例系数s，获取远距离行人在待检测原始图片中的第一目标方框，包括：

bbox

其中，第一位置识别结果为bbox

相应的，根据所述第二位置识别结果和预设大小图片的尺寸，计算远距离行人在待检测原始图片中的第二目标方框：

其中，第一位置识别结果为bbox

可选的，所述基于第一目标方框和第二目标方框，确定远距离行人在待检测原始图片中的最终位置识别结果，包括：基于第一目标方框和第二目标方框，采用NMS非极大值抑制方法确定远距离行人在待检测原始图片中的最终位置识别结果。

根据本发明的第二方面，提供一种远距离行人位置识别系统，包括：第一确定模块，用于对于待检测原始图片，根据相机特性确定远距离行人在所述待检测原始图片中的理论位置区域；抠取模块，用于从所述待检测原始图片中抠取所述理论位置区域；将待检测原始图片和抠取的所述理论位置区域处理为预设大小图片，分别得到第一图片和第二图片；获取模块，用于将所述第一图片和所述第二图片分别输入预设检测模型中，获取所述预设检测模型分别输出的行人的第一位置识别结果和第二位置识别结果；第二确定模块，用于根据行人的所述第一位置识别结果和所述第二位置识别结果，确定远距离行人的最终位置识别结果。

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现远距离行人位置识别方法的步骤。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现远距离行人位置识别方法的步骤。

本发明提供的一种远距离行人位置是被方法、系统及存储介质，从相机特性出发，分析了远距离行人在安防机器人视角下出现的理论区域，解决了在缩放图片损失信息而导致远距离行人识别率低的问题。

附图说明

图1为本发明提供的一种远距离行人位置识别方法流程图；

图2为对抠取的远距离行人在原始图片中的理论位置区域进行重组的示意图；

图3为SpaceToDepth模型的对输入图片分块示意图；

图4为本发明提供的一种远距离行人位置识别系统结构示意图；

图5为本发明提供的一种可能的电子设备的硬件结构示意图；

图6为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明提供的一种远距离行人位置识别方法流程图，如图1所示，方法包括：对于待检测原始图片，根据相机特性确定远距离行人在所述待检测原始图片中的理论位置区域；从待检测原始图片中抠取所述理论位置区域；将待检测原始图片和抠取的所述理论位置区域处理为预设大小图片，分别得到第一图片和第二图片；将第一图片和第二图片分别输入预设检测模型中，获取预设检测模型分别输出的行人的第一位置识别结果和第二位置识别结果；根据行人的第一位置识别结果和第二位置识别结果，确定远距离行人的最终位置识别结果。

可以理解的是，基于背景技术中的缺陷，本发明实施例提出了一种在保持近处行人识别率的情况下，提高识别远距离行人的召回率的方法。

具体的，对于待检测原始图片，根据相机特性检测出远距离行人在该待检测原始图片中出现的理论位置区域，并从图片中抠取出该理论位置区域。对于待检测原始图片和抠取出的理论位置区域，均处理成预设大小图片，得到处理后的同样大小的第一图片和第二图片。将第一图片和第二图片分别输入预设检测模型中，获取预设检测模型输出的第一位置识别结果和第二位置识别结果，其中，第一位置识别结果对应第一图片，第二位置识别结果对应第二图片。根据第一位置识别结果和第二位置识别结果，共同确定远距离行人在待检测原始图片中的最终位置识别结果。

本发明从相机特性出发，分析了远距离行人在安防机器人视角下出现的理论区域，解决了在缩放图片损失信息而导致远距离行人识别率低的问题。

在一种可能的实施例方式中，对于待检测原始图片，根据相机特性确定远距离行人在所述待检测原始图片中的理论位置区域时，由相机的透视原理可知，随着行人离相机距离的增加，行人在图像中出现的位置会越来越接近地平线，从这一点出发，通过对相机标定可以确定距相机一定距离的行人会被限制在图片较中间的区域。

具体的，采用棋盘格标定方式标定相机内外参数(K,RT)，进而求出相机矩阵KRT为：

KRT＝K*RT； (1)

其中，K为相机的内参，RT为相机的外参，fx，fy分别为相机水平方向和垂直方向的焦距，cx，cy为待检测原始图片水平方向和垂直方向的主点坐标，Hc为相机安装位置相对于地面的高度。

根据相机矩阵KRT计算远距离行人在待检测原始图片中的理论位置区域：

具体在利用公式(4)确定远距离行人在待检测原始图片中的理论位置区域时，本发明实施例中定义距离超过8米的行人为远距离行人，取X＝0，Y＝0，Z＝8，即行人与地面的接地点，可以得到远距离行人在画面中的下界u_down。取X＝0，Y＝2，Z＝8，即行人的头顶点，考虑行人身高不超过2米，可以得到远距离行人在画面中的上界u_up。由上下界限即可划定感兴趣区域，远距离行人理论上会出现的区域，即远距离行人在待检测原始图片中的理论位置区域。

在一种可能的实施例方式中，抠取的所述理论位置区域处理为预设大小图片，包括：沿x轴方向将抠取的所述理论位置区域等分为两个子区域，将两个子区域沿z轴方向叠加重组，使得重组后的图片为预设大小图片。

可以理解的是，在本发明实施例中，使用的安防机器人设备配备了分辨率为720*1080的摄像头，在实际行人检测时，会将图片缩小到360*540，以达到减少计算量的目的。在深度学习领域，检测器通常支持多张图片同时输入，检测器会分别给出每张图片的检测结果。利用这一特性，当机器人在检测周围行人时，为保持近距离行人的识别率，在原来检测一张图的基础上，将图片的感兴趣区域抠取出来二次检测。

本发明实施例将图片中间区域抠取出来并重新排布，图片区域[270:450,0:1080]等分成[270:450,0:540]和[270:450,540:1080]两个子区域，如图2所示，分别为A区域或者B区域。将两张图重新组合成一张大小为360*540的图片，与原图片缩放到360*540大小的原待检测图片组合在一起，同时放入机器人检测器检测。将抠取出来的远距离行人在待检测原始图片中的理论位置区域分块再重组的示意图如图2所示。具体为，沿x轴方向将抠取的理论位置区域等分为A和B两个子区域，将A和B两个子区域沿z轴方向叠加重组，使得重组后的图片为预设大小图片。

在一种可能的实施例方式中，预设检测模型为SpaceToDepth模型，通过如下方式对所述SpaceToDepth模型进行训练：采集包括行人的多张图片形成训练集，对训练集中的每一张图片标记其中行人的位置，所述行人的位置以目标方框表征；利用训练集中多张图片以及每一张图片标记的行人的位置对所述预设检测模型进行训练；其中，所述预设检测模型将输入的每一张图片进行分块，得到多个子块，且根据多个子块的对应位置重新组成新图片，输出新图片中行人的位置。

可以理解的是，经过上述实施例，将机器人的行人检测模块的输入图片从[1,3,360,540]变成[2,3,360,540]，输入量增大一倍，在实际运算时，会带来大约1.7倍的速度消耗。这样虽然增加了远距离行人的召回率，但同时也带来了很大的计算量。

因此，本发明实施例结合一种将图片空间信息压缩到图片深度通道中的方法，SpaceToDepth模型，其原理为将图片按照2*2像素小方块进行分割，分别取每个小方块的对应位置组成新的图片，可参见图3所示，这种做法在图片尺寸缩小的情况下，保持图片信息无损。在运用SpaceToDepth模型后，安防机器人的行人检测模块输入图片尺寸从[2,3,360,540]->[2,3*4,180,270]。这样的处理后，相比于原来单张图片的检测速度，时间消耗增加了15％，在业务允许接受的范围内。

在一种可能的实施例方式中，根据行人的所述第一位置识别结果和所述第二位置识别结果，确定远距离行人的最终位置识别结果，包括：根据所述第一位置识别结果和缩放比例系数s，获取远距离行人在待检测原始图片中的第一目标方框；根据所述第二位置识别结果和预设大小图片的尺寸，计算远距离行人在待检测原始图片中的第二目标方框；基于第一目标方框和第二目标方框，确定远距离行人在待检测原始图片中的最终位置识别结果。

可以理解的是，预设大小尺寸的第一图片和第二图片分别输入预设检测模型，获取预设检测模型输出的远距离行人在待检测原始图片中的第一位置识别结果和第二位置识别结果，分别为bbox

其中bbox

在一种可能的实施例方式中，根据第一位置识别结果和缩放比例系数s，获取远距离行人在待检测原始图片中的第一目标方框，包括：

bbox

相应的，根据第二位置识别结果和预设大小图片的尺寸，计算远距离行人在待检测原始图片中的第二目标方框：

其中，(w,H)为预设大小图片的尺寸，A、B为两个子区域，如果第二位置识别结果在A子区域中或者在B子区域中，分别利用不同的公式确定远距离行人在待检测原始图片中的第二目标方框，或者根本就没有检测到远距离行人。

在一种可能的实施例方式中，所述基于第一目标方框和第二目标方框，确定远距离行人在待检测原始图片中的最终位置识别结果，包括：基于第一目标方框和第二目标方框，采用NMS非极大值抑制方法确定远距离行人在待检测原始图片中的最终位置识别结果。

可以理解的是，预设检测模型从待检测原始图片中识别出其中的远距离行人的第一位置识别结果以及从抠出的远距离行人的理论位置区域检测出的第二位置识别结果，进而计算出对应的第一目标方框和第二目标方框。在实际应用中，对于第一目标方框和第二目标方框，存在重复框的可能性，以bbox_ori2的结果结果为主导，将交并比大于0.5的冗余框删除，具体是采用NMS(non maximum suppression)非极大值抑制方法确定远距离行人在待检测原始图片中的最终位置识别结果。其中，NMS非极大值抑制方法为现有比较常见的技术，在此不做过多介绍。

图4为本发明实施例提供的一种远距离行人位置识别系统结构图，如图4所示，一种远距离行人位置识别系统，包括第一确定模块401、抠取模块402、处理模块403、获取模块404和第二确定模块405，其中：

第一确定模块401，用于对于待检测原始图片，根据相机特性确定远距离行人在所述待检测原始图片中的理论位置区域；抠取模块402，用于从所述待检测原始图片中抠取所述理论位置区域；处理模块403，用于将待检测原始图片和抠取的所述理论位置区域处理为预设大小图片，分别得到第一图片和第二图片；获取模块404，用于将所述第一图片和所述第二图片分别输入预设检测模型中，获取所述预设检测模型分别输出的行人的第一位置识别结果和第二位置识别结果；第二确定模块405，用于根据行人的所述第一位置识别结果和所述第二位置识别结果，确定远距离行人的最终位置识别结果。

可以理解的是，本发明提供的一种远距离行人位置识别系统与前述各实施例提供的远距离行人位置识别方法相对应，远距离行人位置识别系统的相关技术特征可参考远距离行人位置识别方法的相关技术特征，在此不再赘述。

请参阅图5，图5为本发明实施例提供的电子设备的实施例示意图。如图5所示，本发明实施例提了一种电子设备，包括存储器510、处理器520及存储在存储器520上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序520时实现以下步骤：对于待检测原始图片，根据相机特性确定远距离行人在待检测原始图片中的理论位置区域；从待检测原始图片中抠取理论位置区域；将待检测原始图片和抠取的理论位置区域处理为预设大小图片，分别得到第一图片和第二图片；将第一图片和第二图片分别输入预设检测模型中，获取预设检测模型分别输出的行人的第一位置识别结果和第二位置识别结果；根据行人的第一位置识别结果和第二位置识别结果，确定远距离行人的最终位置识别结果。

请参阅图6，图6为本发明提供的一种计算机可读存储介质的实施例示意图。如图6所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现如下步骤：对于待检测原始图片，根据相机特性确定远距离行人在待检测原始图片中的理论位置区域；从待检测原始图片中抠取理论位置区域；将待检测原始图片和抠取的理论位置区域处理为预设大小图片，分别得到第一图片和第二图片；将第一图片和第二图片分别输入预设检测模型中，获取预设检测模型分别输出的行人的第一位置识别结果和第二位置识别结果；根据行人的第一位置识别结果和第二位置识别结果，确定远距离行人的最终位置识别结果。

本发明实施例提供的一种远距离行人位置识别方法、系统及存储介质，从相机特性出发，分析了远距离行人在安防机器人视角下出现的理论区域，解决了在缩放图片损失信息而导致远距离行人识别率低的问题；结合了SpaceToDepth模块将信息压缩到深度中，达到速度和精度的均衡。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：秦豪;赵明;
专利申请人：上海有个机器人有限公司;

上一篇：带有阻尼套筒的斜撑海上风电单桩基础及施工方法
下一篇：一种软包锂离子电池PACK堆叠的方法