基于DSP的实时智能监控目标检测方法及装置

文献发布时间：2023-06-19 11:11:32

技术领域

本发明涉及视频监控技术领域，尤其涉及一种基于DSP的实时智能监控目标检测方法及装置。

背景技术

随着我国政府对平安城市、“雪亮工程”以及交通运输等领域的投入，对于安防产品的需求不断提升，安防市场规模也在随之不断扩大。视频监控是整个安防系统最重要的物理基础，其位于最前端，是安防行业的核心环节。在视频监控系统，对于运行在CPU芯片上的目标检测算法，由于目标检测算法通常包含大量计算密集型运算，对CPU的资源占用率高，一方面导致了识别效率低，另一方面还导致了其他运行功能不能实时处理。因此，考虑到视频监控对视频输出的实时性要求和可视化效果要求，现有技术中一般是通过其它硬件（处理芯片）来对目标检测算法进行加速以满足实时性要求。以当前的智能人脸检测方案为例，基于卷积神经网络（CNN）算法的目标检测方法得到了广泛应用，在卷积运算所要求的结构化计算，目前常用的做法是把主要的计算工作交给其它处理芯片进行处理以实现加速，常见的硬件加速资源有GPU（Graphics Processing Unit，图形处理器）、FPGA（ApplicationSpecific Integrated Circuit，现场可编辑逻辑器件）、ASIC（Application SpecificIntegrated Circuit，专用集成芯片）和DSP（Digital Signal Processing，数字信号处理）芯片。其中，GPU可能会带来成本和能耗问题；FPGA的功耗相对仍然比较大，成本优势也不足以支撑高性价比的人脸识别方案设计；ASIC和DSP都属于串行计算。目前针对边缘计算的最新应用方案，ASIC和DSP的选用性更强，其中，DSP芯片应用较为普遍。

结合边缘计算的视频监控技术，构建了一种基于边缘计算的视频图像处理技术。该技术通过对视频图像进行预处理，去除图像冗余信息，使得部分或全部视频分析迁移到边缘处，由此降低对云中心的计算、存储和网络带宽的需求，提高视频分析速度。目前，边缘视频监控中目标检测（比如人脸检测）面临的重要问题是带宽问题，多路运行时要求更为严格，考虑到配置的DSP可能还需要处理其他的应用计算，导致实际预留给目标检测计算的带宽严重受限，这就对目标检测算法提出了更高要求，需要在保证检测精度的同时尽量减小带宽需求。作为举例，比如SSH、SFD、DSFD、RETINAFACE等神经网络算法，这些网络算法在widerface上虽然达到了较好的精度，但模型较大，不适用于在边缘端部署。

目前，为了适应当前设备有限的算力和带宽，一种方法是采用算力要求较低的SSD、YOLO、MobileNet_SSD、MTCNN、DensNet等神经网络算法。以MTCNN(Multi-taskConvolutional Neural Network,多任务卷积神经网络)算法为例，该算法模型小、速度快、带关键点且方便部署，得到了较为广泛的应用。然而，上述算法模型的网络速度与人脸个数成反比，难以适用人脸抓拍的应用场景，同时，在DSP上难以超过40fps，在多路监控上也难以部署。

另一种方法是对输入图像进行缩小，采用小输入尺寸的神经网络算法，但这样会导致输入图像的分辨率下降，限制了能检出目标的最小尺度，使得监控中的远处物体难以被检测。如果为能检测较远距离的物体而增加输入图像的分辨率，会导致带宽按照比例增加，从而超过给定带宽需求。作为举例而非限制，以检测输入图像的分辨率为320x240为例，通过列表示例了几种移动端模型计算量，参见图1所示。结合图1中显示的计算量，对于达到一定精度（90%）的神经网络算法模型，其计算量和带宽已经接近DSP实时运行的极限（2GMACC计算量和40M带宽），如果为能检测较远距离的物体而增加输入分辨率，比如将输入图像的分辨率增加到512x288（对应的检测距离为7m左右），则必然会超过给定带宽需求。

综上所述，已有的低复杂度优化方法，都无法在检测准确率、帧率、最远和最近检测距离等方面实现面面俱到，只适合特定的应用场景。而实际的监控应用场景复杂，监控设备既需要满足较高的目标检测准确率，又需要足够的帧率以检测快速经过的目标，还需要对近处的大尺度目标和远处的小尺度目标都能被检测到（在目标贴近摄像头或在远处经过时都能被检测到）。针对基于DSP的监控目标检测方法，如何在保证精度的同时，实现低带宽、低功耗、低延迟是当前亟需解决的技术问题。

发明内容

本发明的目的在于：克服现有技术的不足，提供了一种基于DSP的实时智能监控目标检测方法及装置。本发明在同一幅检测图像中结合小分辨率图像和部分图像的大分辨率图像，能够很好检测近处大目标和远处小目标。进一步，考虑到小目标间隔数帧才会扫描到，加入多目标sort框架下物体dsst跟踪，将dsst跟踪结果作为sort跟踪的测量值，在不降低目标检测精度的同时，极大的减小了边缘端的带宽需求。

为实现上述目标，本发明提供了如下技术方案：

一种基于DSP的实时智能监控目标检测方法,包括步骤:

根据检测输入图像的尺寸要求和原始输入图像尺寸,确定需要拼接的小分辨率子图区的尺寸和大分辨率子图区的尺寸；每帧检测时，对原始输入图像按不同比例进行缩放以分别获得全图映射子图和大分辨率检测图像，所述全图映射子图作为小分辨率子图，所述大分辨率检测图像的分辨率大于全图映射子图的分辨率；

根据大分辨率子图区的尺寸确定需要扫描用的矩形滑动窗的尺寸，所述矩形滑动窗能够按照预设的扫描规则按帧在前述大分辨率检测图像上移动到不同的位置，将矩形滑动窗中的滑动窗子图作为大分辨率子图与全图映射子图组合拼接形成符合前述尺寸要求的检测输入图像；

将检测输入图像输入到DSP处理器中，通过对应输入尺度的目标检测算法对前述检测输入图像进行检测。

进一步，还包括步骤：将各子图的检测结果合并映射到小分辨率子图区通过同一坐标系进行输出显示。

进一步，确定需要拼接的小分辨率子图区的尺寸和大分辨率子图区的尺寸时，所述小分辨率子图区的尺寸的宽度与检测输入图像的宽度相同，或者所述小分辨率子图区的尺寸的长度与检测输入图像的长度相同；

所述大分辨率子图区的尺寸等于检测输入图像的尺寸减去小分辨率子图区的尺寸。

进一步，对原始输入图像按不同比例进行缩放以分别获得全图映射子图和大分辨率检测图像的步骤包括，

根据小分辨率子图区的尺寸，对原始输入图像进行第一比例缩放获得全图映射子图，所述全图映射子图的长宽比与原始输入图像的长宽比相同且全图映射子图的尺寸与小分辨率子图区的尺寸相同；

对原始输入图像进行第二比例缩放获得大分辨率检测图像，所述第二比例大于第一比例，使得大分辨率检测图像比全图映射子图具有更大的分辨率。

另一方面，在对前述检测输入图像进行检测时，所述小分辨率子图区的检测结果直接传输到sort多目标跟踪模型进行sort跟踪，并将检测结果作为sort跟踪的测量值。

进一步，对于大分辨率子图区，将检测结果映射到前述坐标系进行输出显示时，执行如下步骤：

根据IoU判断检测目标是否和小分辨率子图区的检测目标重叠；

在检测目标重叠时，不显示大分辨率子图区的检测结果；

在检测目标未重叠时，判定检测到远处小目标，此时，将前述小目标信息传输至预设的dsst跟踪模型进行初始化，在后续未检测该小目标所在区域的检测间隙，通过dsst跟踪进行目标跟踪，将dsst跟踪结果传输至sort多目标跟踪模型中作为一个新目标的sort跟踪的测量值；

在后续帧检测时，当在所述小分辨率子图区检测到上述小目标时，取消dsst跟踪。

进一步，当检测目标为人脸时，所述目标检测算法为无锚点的人脸检测算法。

进一步，所述大分辨率子图区位于小分辨率子图区的上方或下方或左方或右方。

本发明提供了一种基于DSP的实时智能监控目标检测装置,包括通信连接的CPU处理器模块和DSP处理器模块；

所述CPU处理器模块包括图像预处理单元，图像拼接处理单元和图像传输单元；

所述图像预处理单元，用于根据检测输入图像的尺寸要求和原始输入图像尺寸,确定需要拼接的小分辨率子图区的尺寸和大分辨率子图区的尺寸；以及在每帧检测时，对原始输入图像按不同比例进行缩放以分别获得全图映射子图和大分辨率检测图像，所述全图映射子图作为小分辨率子图，所述大分辨率检测图像的分辨率大于全图映射子图的分辨率；

所述图像拼接处理单元，用于根据大分辨率子图区的尺寸确定需要扫描用的矩形滑动窗的尺寸，所述矩形滑动窗能够按照预设的扫描规则按帧在前述大分辨率检测图像上移动到不同的位置，将矩形滑动窗中的滑动窗子图作为大分辨率子图与全图映射子图组合拼接形成符合前述尺寸要求的检测输入图像；

所述图像传输单元，用于将检测输入图像发送到DSP处理器模块；

所述DSP处理器模块，用于接收前述检测输入图像，并通过对应输入尺度的目标检测算法对前述检测输入图像进行检测。

进一步，所述DSP处理器模块被配置为：将各子图的检测结果合并映射到小分辨率子图区通过同一坐标系进行输出显示；

以及，将小分辨率子图区的检测结果直接传输到sort多目标跟踪模型进行sort跟踪，并将检测结果作为sort跟踪的测量值；

以及，对于大分辨率子图区，将检测结果映射到前述坐标系进行输出显示时，执行如下步骤：

根据IoU判断检测目标是否和小分辨率子图区的检测目标重叠；

在检测目标重叠时，不显示大分辨率子图区的检测结果；

在检测目标未重叠时，判定检测到远处小目标，此时，将前述小目标信息传输至预设的dsst跟踪模型进行初始化，在后续未检测该小目标所在区域的检测间隙，通过dsst跟踪进行目标跟踪，将dsst跟踪结果传输至sort多目标跟踪模型中作为一个新目标的sort跟踪的测量值；在后续帧检测时，当在所述小分辨率子图区检测到上述小目标时，取消dsst跟踪。

本发明由于采用以上技术方案，与现有技术相比，作为举例，具有以下的优点和积极效果：

）合理利用缩放图像的填充，在同一幅图像中既加入小分辨率图像，又间隔扫描，加入大分辨率的部分图像，从而能够很好的检测近处大目标物体，同时也能扫描检测到远处小目标物体，从而保证极小的带宽。

作为检测输入图像的拼接图像中包含了小分辨率的全图映射子图和大分辨率的滑动窗子图。检测时，小分辨率全图映射子图每帧都会被检测，其对应的检测帧率高，在所述小分辨率全图映射子图上可以搜到近处的目标；而大分辨率滑动窗子图，每帧只检测整张大分辨率检测图像的一个局部，每帧滑动窗移动，需要若干帧完成一轮扫描，即同一局部区域要等若干帧后才能在大分辨率检测图像上再次检测，因此滑动窗子图检测是低帧率的，这种子图分辨率大可以用来检测远处目标。由于远处目标在图像中尺寸小，运动慢，即使检测窗口不大，检测帧率低，也不容易漏检。通过将远处小目标低帧率检测和近处目标高帧率检测相结合，如此，能够保证近处目标的检测，同时也能扫描检测到远处小目标。同时，利用拼接图像适配固定输入尺度的检测神经网络可以简化算法设计复杂度和提升有效算力的特点，使得采用较小输入尺寸的检测神经网络算法，也能实现对监控极远和极近目标的实时检测。

）由于大分辨率检测图像中的远处小目标扫描会存在检测时间间隔，因此在检测的同时结合sort跟踪和dsst跟踪，将近处大目标的检测结果直接作sort跟踪的测量值，当检测到远处小目标时，在检测间隙进行dsst短时跟踪，并将dsst跟踪结果作为sort跟踪的测量值，提高检测的连续性。

）加入检测范围概率，当边界处出现目标时，增加该处的检测概率，保证实际使用中的检测需求。

本发明提供的技术方案，结合了缩放图像的填充、物体跟踪、概率检测等技术手段，通过填充图像，增加跟踪，在较大分辨率上检测人脸，使在不降低检测精度的同时极大的降低了带宽占用率，达到了监控设备边缘端极少带宽的人脸检测技术效果，在不降低精度同时减少带宽占用率，尤其适用于多路实时监控。

附图说明

图1为本发明提供的几种移动端模型的计算量对比表。

图2为本发明实施例提供的形成拼接图像的过程示例图。

图3为本发明实施例提供的大分辨率检测图像的示例图。

图4为本发明实施例提供的拼接后的检测输入图像的示例图。

图5为本发明实施例提供的系统的模块结构图。

图6为本发明实施例提供的上下检测到同一目标的示例图。

图7为本发明实施例提供的仅下方检测到目标的示例图。

图8为本发明实施例提供的跟踪远处目标的示例图。

附图标记说明：

小分辨率子图区100, 大分辨率子图区200。

具体实施方式

以下结合附图和具体实施例对本发明公开的基于DSP的实时智能监控目标检测方法及装置作进一步详细说明。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需说明的是，本说明书所附图中所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定发明可实施的限定条件，任何结构的修饰、比例关系的改变或大小的调整，在不影响发明所能产生的功效及所能达成的目的下，均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现，其中可以不按所述的或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

实施例

根据监控摄像头的光学原理，同一被摄物体在摄像机ccd（charge coupleddevice，电荷耦合器件）靶面上成像的尺度（长/宽)和被摄物体至镜头的距离成反比，即其在被拍摄的视频画面中的大小，以及在视频画面中的平面移动速度（即运动向量），都遵循与物体至镜头的距离成反比的原理。因此，如果同一检测目标以相同速度运动，在拍摄视频中会表现为在近处的运动向量相对较大（体现在在画面上的移动速度较快），远处目标的运动向量相对较小（体现在在画面上的移动速度较慢）的特点。这种“近大远小”、“近快远慢”的现象是摄像机的内在原理。

在监控视频中，处于近处的检测目标尺寸较大，在视频中其运动向量也相对较大，目标在画面上移动速度较快，需要较高的检测帧率才能避免漏检；而远处的检测目标在图像中尺寸相对较小，在视频中其运动向量也相对较小，目标在画面上移动速度较慢，可以采用较低的检测帧率进行检测。需要说明的是，视频图像中检测目标在远处和近处的运动向量大小不同，是基于上述摄像时“近大远小”、“近快远慢”的客观规律，目标在近处的运动向量大是相对于其在远处的运动向量小而言，具体的运动向量的大小的值不应作为对本发明的限制。

所述检测目标，作为举例而非限制，可以是人脸、人形、车型等。

另一方面，基于神经网络的检测算法，其参数、网络结构常常对应指定的输入尺寸，检测输入图像尺寸不能随意调整，每改变一次输入尺寸都可能需要重新进行网络设计和训练。而大多数情况下，原始输入图像和检测输入尺寸并不匹配，如果强行改变图像的长宽比进行缩放可能会降低目标检测的准确率，因此这时候往往需要将原始输入图像扩展黑边生成检测输入图像（也可称为检测算法输入图像），以适配检测网络的输入长宽比尺寸要求。这些黑边区图像参与计算实际浪费了算力和带宽，如果将黑边区用图像内容替代，可以充分利用算力提高检测性能。

基于以上原理，本发明提供了一种基于DSP的实时智能监控目标检测方法。所述方法包括如下步骤:

，根据检测输入图像的尺寸要求和原始输入图像尺寸,确定需要拼接的小分辨率子图区的尺寸和大分辨率子图区的尺寸；每帧检测时，每帧检测时，对原始输入图像按不同比例进行缩放以分别获得全图映射子图和大分辨率检测图像，所述全图映射子图作为小分辨率子图，所述大分辨率检测图像的分辨率大于全图映射子图的分辨率。

所述小分辨率子图区用于显示原始输入图像缩小后形成的全图映射子图，即小分辨率子图区的长宽比与原始输入图像的长宽比相同。

具体实施时，可以使所述小分辨率子图区的尺寸的宽度与检测输入图像的宽度相同，或者所述小分辨率子图区的尺寸的长度与检测输入图像的长度相同。所述大分辨率子图区的尺寸等于检测输入图像的尺寸减去小分辨率子图区的尺寸。

本实施例中，优选的，可以先根据小分辨率子图区的尺寸，对原始输入图像进行第一比例缩放获得全图映射子图，所述全图映射子图的长宽比与原始输入图像的长宽比相同且全图映射子图的尺寸与小分辨率子图区的尺寸相同。然后，对原始输入图像进行第二比例缩放获得大分辨率检测图像，所述第二比例大于第一比例，使得大分辨率检测图像比全图映射子图具有更大的分辨率。

作为举例而非限制,参见图2所示,比如设定的检测输入图像的尺寸为320*240像素（长*宽），原始输入图像的尺寸为1280*720像素（长*宽）。如果将小分辨率子图区的尺寸的长度与检测输入图像的长度相同，即设置为320像素，小分辨率子图区的长宽比与原始输入图像的长宽比相同，则小分辨率子图区的尺寸为320*180像素（长*宽）。检测输入图像中剩余的图区尺寸为320*60，即大分辨率子图区的尺寸为320*60像素（长*宽）。

根据小分辨率子图区的尺寸，可以得到显示在小分辨率子图区的全图映射子图的尺寸为320*180像素，前述第一比例被设置为1/4，即将原始输入图像缩小4倍后获得一张尺寸为320*180像素的全图映射子图。

对于大分辨率检测图像，只要其分辨率大于全图映射子图即可，即，使第二比例大于前述第一比例。作为举例而非限制，比如图2中的大分辨率检测图像的尺寸为576*324像素（长*宽），对应的第二比例为9/20（大于第一比例1/4）。当然，上述大分辨率检测图像的尺寸作仅作为举例，具体设置时用户可以根据检测需要（比如目标距离范围）来设置第二比例以获得需要的大分辨率检测图像。

，根据大分辨率子图区的尺寸确定需要扫描用的矩形滑动窗的尺寸，所述矩形滑动窗能够按照预设的扫描规则按帧在前述大分辨率检测图像上移动到不同的位置。将矩形滑动窗中的滑动窗子图作为大分辨率子图与全图映射子图组合拼接形成符合前述尺寸要求的检测输入图像。

继续参见图2所示，根据前述大分辨率子图区的尺寸320*60像素（长*宽），确定的需要扫描用的矩形滑动窗的尺寸为320*60像素（长*宽）。每帧检测时，将矩形滑动窗中的滑动窗子图作为大分辨率子图与全图映射子图组合拼接形成符合前述尺寸要求的检测输入图像。

所述矩形滑动窗作为扫描框，能够按照预设的扫描规则按帧在前述大分辨率检测图像上移动到不同的位置。优选的，所述预设的扫描规则为从左往右从上往下顺序匀速扫描大分辨率检测图全图，或者按照随机移动规则扫描大分辨率检测图全图，或者按照用户制定的顺序扫描大分辨率检测图全图。进一步，还可以获取滑动窗子图的检测结果，根据前述检测结果自适应调整矩形滑动窗扫描时的移动速度和/或停留时间。

，将检测输入图像输入到DSP处理器中，通过对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。

在步骤S300之后，还可以包括步骤S400：将各子图的检测结果合并映射到小分辨率子图区通过同一坐标系进行输出显示。

本实施例中，优选的，在对前述检测输入图像进行检测时，将所述小分辨率子图区的检测结果直接传输到sort多目标跟踪模型进行sort跟踪，并将检测结果作为sort跟踪的测量值。进一步，通过sort多目标跟踪模型将前述检测结果映射到坐标系上输出显示。

（Simple Online and Realtime Tracking）目标跟踪算法是主流的基于检测的跟踪算法。sort的整体算法可以分为四部分：1）目标检测、 2）将目标状态传递到未来帧中、3）将传入的状态信息与现有检测结果关联、4）管理跟踪对象的生命周期，也可简称为检测、编码、匹配、更新四部分。其主要思想是将当前帧的检测结果跟之前帧的轨迹匹配上，它的算法重点有两部分，分别是卡尔曼滤波和匈牙利匹配算法，具体的算法请参考现有技术，在此不再赘述。

对于所述大分辨率子图区，将检测结果映射到前述坐标系进行输出显示时，执行如下步骤：

首先，根据IoU（Intersection over Union，重叠度）判断检测目标是否和小分辨率子图区的检测目标重叠。

在检测目标重叠时，不计入检测结果。

在检测目标未重叠时，判定检测到远处小目标。此时，可以将前述小目标信息传输至预设的dsst跟踪模型进行初始化，在后续未检测该小目标所在区域的检测间隙，通过dsst跟踪进行目标跟踪，将dsst跟踪结果传输至sort多目标跟踪模型中，作为前述小目标所对应的新目标的sort跟踪的测量值（即该新目标在sort多目标跟踪模型中的测量值）。进一步，将dsst跟踪结果作为作为后续检测结果映射到前述坐标系上输出显示。

在后续帧检测时，当在所述小分辨率子图区检测到上述小目标时，取消dsst跟踪。

（Discriminative Scale Space Tracker）目标跟踪算法，该算法分为位置滤波器（Translation Filter）和尺度滤波器（Scale Filter），这种精准的尺度估计方法可以和任意其他的没有尺度估计的跟踪算法结合。其具有算法简洁，性能优良，可移植性高的优点。

本实施例中，考虑到小目标会间隔数帧才会扫描到，因此在sort跟踪框架下加入dsst跟踪模型以对远处小目标进行跟踪，并将dsst跟踪结果作为sort跟踪的测量值。采用上述方案后，一方面，可以保证目标检测的连续性；另一方面，仅在大分辨率检测图上进行小目标跟踪，计算需要的算力和带宽较小；再一方面，当某一图像区域出现多次小目标物体时，该区域的检测概率会增加，使得该区域能够被重点监控记录，提高了检测精度。上述方案能够在不降低人脸检测精度的同时，极大的减小边缘端的带宽需求。其尤其适用于多路监控端中的人脸检测，具有实时、高精度、带宽占用少、计算量小、无延迟的优点。

本实施例中，当检测目标为人脸时，所述目标检测算法为无锚点的人脸检测算法。作为举例而非限制，比如采用Lffd，Centerface等无锚点的小模型进行定点化建模，此类模型精度较高，运行带宽相对较低，尤其适合边缘端上的应用。

本实施例中，所述大分辨率子图区可以位于小分辨率子图区的上方或下方或左方或右方。

下面以将大分辨率子图区位于小分辨率子图区下方为例，结合图3和图4详细本实施例。小分辨率子图区位于上方，称为上方部分，大分辨率子图区位于下方，称为下方部分。

对于1280x720的原始监控图像，原始输入图像的尺寸为1280*720像素（长*宽），设定的检测输入图像的尺寸为320*240像素（长*宽），小分辨率子图区的尺寸为320*180像素（长*宽），大分辨率子图区的尺寸为320*60像素（长*宽）。

步骤1，首先，对1280x720的原始输入图像按第一比例1/4缩放后，获得320*180像素的全图映射子图（对应的检测距离为4m），该全图映射子图用于在小分辨率子图区显示，位于检测输入图像的上方部分。同时，对1280x720的原始输入图像按第二比例9/20缩放后，获得576*324像素的缩放图像（对应的检测距离为9m），该缩放图像作为大分辨率检测图像（相对全图映射子图具有更大的分辨率）。

根据前述大分辨率子图区的尺寸320*60像素（长*宽），确定的需要扫描用的矩形滑动窗的尺寸为320*60像素（长*宽）。上述矩形滑动窗在576*324像素的大分辨率检测图像移动，通过重复采样的方式获得320*60像素的检测图像填充到检测输入图像的下方部分（即大分辨率子图区），拼接形成了320*240像素的检测输入图像。

以矩形滑动窗从左往右从上往下顺序匀速扫描大分辨率检测图全图为例，320*60像素的矩形滑动窗需要在576*324像素的大分辨率检测图像上移动12次才能完成全图扫描，相当于将576*324像素的大分辨率检测图像分块成12份320*60像素的图块。由于大分辨率检测图像的长度为576，矩形滑动窗的长度为320，扫描时，矩形滑动窗在横向上扫描2次，左右图块可以存在重叠部分；同时，由于大分辨率检测图像的宽度为324，矩形滑动窗的宽度为60，矩形滑动窗在纵向上扫描6次，上下图块也可以存在重叠部分，从而能够较好的检测目标。

将拼接形成的320*240像素的检测输入图像，传输到对应输入尺度的目标检测神经网络算法中进行卷积运算，以获得检测结果。输出检测结果时，将下方的大分辨率子图区的检测结果映射到上方的全图映射子图中，基于同一坐标系进行输出显示。

由于检测输入图像为小分辨率图像和大分辨率图像的组合拼接，检测时，可以在上方部分（小分辨率子图区）检测4m以内的目标，在下方部分（大分辨率子图区）检测4m-9m的目标。如此，通过尺度较小的检测输入图像（320*240像素）实现了较大分辨率（576*324像素）的目标检测，从而将检测距离从4m提高到9m，提高了视频目标检测性能。

步骤2，对于下方部分（大分辨率子图区）的检测，被分成12个图块，每个图块间隔12帧才会被扫描到，使得图块中的小目标可能间隔数帧才会被检测到，导致下方部分的检测结果不连续。为了提高检测的连续性，本发明还可以对上方、下方两部分的检测结果分别进行处理。具体的，上方部分的检测结果直接进行sort跟踪输出，下方部分的检测结果映射到同一坐标系后，首先根据IOU判断是否和上方的检测目标重叠，如果重叠则不计入检测结果，如果未重叠，认为是检测到远处小目标，此时执行步骤3。

步骤3：将小目标初始化到预设的dsst跟踪模型，在后续未检测该小目标所在区域的检测间隙，通过dsst跟踪进行目标跟踪，跟踪结果传输至sort多目标跟踪模型中作为一个新目标在sort跟踪模型中的测量值，通过sort多目标跟踪模型对前述检测结果进行输出显示（对应前述同一坐标系进行输出显示）。如果后续帧在上方部分也检测到上述小目标，则取消dsst跟踪。

上述方案通过将大分辨率图像填充到较小分辨率图像进行拼接，提高了目标检测距离；同时还提高了目标检测的连续性，而由于仅在大分辨率检测图上进行小目标跟踪，增加的计算带宽较小。另一方面，当某一图像区域出现多次小目标物体时，该区域的检测概率会增加，使得该区域能够被重点监控记录，从而提高了检测精度。如此，能够在不降低人脸检测精度的同时，极大的减小边缘端的带宽需求，其尤其适用于多路监控端中的人脸检测，具有精度高、运行带宽低、能够多路同时运行的优势。

参见图5所示，为本发明的另一实施例，提供了一种基于DSP的实时智能监控目标检测装置,包括通信连接的CPU处理器模块和DSP处理器模块；

所述CPU处理器模块包括图像预处理单元，图像拼接处理单元和图像传输单元；

所述图像传输单元，用于将检测输入图像发送到DSP处理器模块；

所述DSP处理器模块，用于接收前述检测输入图像，并通过对应输入尺度的目标检测算法对前述检测输入图像进行检测。

本实施例中，所述DSP处理器模块被配置为：

将各子图的检测结果合并映射到小分辨率子图区通过同一坐标系进行输出显示。

以及，将小分辨率子图区的检测结果直接传输到sort多目标跟踪模型进行sort跟踪，并将检测结果作为sort跟踪的测量值。

以及，对于大分辨率子图区，将检测结果映射到前述坐标系进行输出显示时，执行如下步骤：

根据IoU判断检测目标是否和小分辨率子图区的检测目标重叠。

在检测目标重叠时，不显示大分辨率子图区的检测结果。作为举例而非限制，参见图6所示，上方部分（小分辨率子图区）和下方部分（大分辨率子图区）检测到同一人脸，此时可以不计下方部分的检测结果。

在检测目标未重叠时，判定检测到远处小目标，参见图7所示，仅下方的大分辨率子图区检测到远处的人脸。此时，可以将前述小目标信息传输至预设的dsst跟踪模型进行初始化，在后续未检测该小目标所在区域的检测间隙，通过dsst跟踪进行目标跟踪，参见图8所示，然后将dsst跟踪结果传输至sort多目标跟踪模型中，作为前述小目标所对应的新目标的sort跟踪的测量值（即该新目标在sort多目标跟踪模型中的测量值）。

在后续帧检测时，当在所述小分辨率子图区检测到上述小目标时，取消dsst跟踪。

其它技术特征参见在前实施例的描述，在此不再赘述。

在上面的描述中，本发明的公开内容并不旨在将其自身限于这些方面。而是，在本公开内容的目标保护范围内，各组件可以以任意数目选择性地且操作性地进行合并。另外，像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的，而不是排他性的或封闭性，除非其被明确限定为相反的含义。所有技术、科技或其他方面的术语都符合本领域技术人员所理解的含义，除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释，除非本公开内容明确将其限定成那样。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：涂治国;韦虎;
专利申请人：眸芯科技(上海)有限公司;