掌桥专利:专业的专利平台
掌桥专利
首页

基于单目视觉的目标检测方法及装置

文献发布时间:2023-06-19 12:13:22


基于单目视觉的目标检测方法及装置

技术领域

本发明涉及图像识别技术领域,尤其涉及一种基于单目视觉的目标检测方法及装置。

背景技术

在人工智能蓬勃发展的时代,人工智能的各类应用如雨后春笋般蓬勃发展起来。随着智能时代的临近,线下与线上相结合或者线下复刻线上的零售模式成为一种研究热潮。对场景中的目标进行实时的检测定位跟踪,从而获取目标的运动轨迹和活动区域,对于线下运营的数字化和智能化具有重要的意义。

目前对于目标的定位方法有基于目标本身携带设备的GPS方法、视觉里程计SLAM的方法和依靠外部安装相机进行检测跟踪的方法。依赖于GPS的方法对于室内场景往往失灵,对于基于目标自身携带设备的跟踪定位方法对于零售场景并不适用,依靠外部安装的相机进行跟踪定位的方法可分为依赖相机重叠区域和不依赖相机重叠区域的方法,对于依赖相机重叠区域的方法,也即基于双目的方法,要求相机安装时关联相机之间要有较大的视野重叠区域,然后通过两个相机之间进行图像匹配,进而对目标的3D位置进行恢复。然而,大的视野重叠面积意味着会大大减少了单个相机的有效视野范围,单位面积所需要的相机数量将会相应增加,方案的硬件成本也随之增加。对于不依赖相机重叠区域的方法,目前通过ReID等技术结合相机的位置信息获取目标断点式的活动轨迹,无法获取实时的连续活动轨迹,而对目标跟踪也仅仅局限于相机图像空间中,跟踪结果的物理意义与真实世界联系不够紧密使得跟踪结果的使用存在局限性。并且跨相机的跟踪方法依赖于高性能的ReID技术,对于相关算法的精度和鲁棒性以及计算设备的算力有较高的要求。

发明内容

本发明的目的在于提供一种基于单目视觉的目标检测方法及装置,能够实时准确的定位目标在场景中的3D空间坐标,实现目标在3D空间中的实时定位跟踪。

为了实现上述目的,本发明的第一方面提供一种基于单目视觉的目标检测方法,包括:

采用SLAM算法对场景建模得到全局地图模型,同时获取SLAM相机的外参;

获取安防相机采集的图像集合,基于所述SLAM相机的外参对所述安防相机进行标定,得到所述安防相机在全局地图模型中的外参;

通过目标检测技术识别安防相机采集图像中的目标,并对所述目标进行单目测距;

将所述目标在相机坐标系中的坐标至SLAM相机确定的全局坐标系中,并在全局地图模型中实时显示。

优选地,采用SLAM算法对场景建模得到全局地图模型,同时获取SLAM相机的外参的方法包括:

采用SLAM算法获取场景的点云重建结果、SLAM相机位姿集合以及重建图像帧集合;

根据所述点云重建结果构建全局地图模型,采用SLAM相机对场景进行扫描拍摄获取由多张场景图像组成的重建图像帧集合;

利用FAST算法依次获取相邻两张场景图像中的特征点,并求取特征点的特征描述子,然后基于特征点的特征描述子依次对相邻两张场景图像中的相似特征点进行匹配,构建以首张场景图像的相机坐标系为参考的统一相机坐标系,经转换得到全局坐标系。

优选地,获取安防相机采集的图像集合,基于所述SLAM相机的外参对所述安防相机进行标定,得到所述安防相机在全局地图模型中的外参的方法包括:

将安防相机采集的图像集合与所述重建图像帧集合进行同名点匹配;

根据SLAM相机位姿集合求解同名点在全局坐标系中的3D空间坐标;

基于所述3D空间坐标计算所述安防相机相对于所述SLAM相机的位姿参数,得到所述安防相机在全局地图模型中的外参。

优选地,通过目标检测技术识别安防相机采集图像中的目标,并对所述目标进行单目测距的方法包括:

通过目标检测技术对安防相机画面中的目标进行定位,并标识目标的外接矩形框;

基于深度相机拍摄的包含所述目标的多个深度图像集合,采用聚类算法计算所述目标的平均物理尺寸;

根据所述外接矩形框的宽高参数、安防相机的焦距以及所述平均物理尺寸,利用单目测距原理测量所述目标相对于对应安防相机的距离。

优选地,在步骤通过单目测距原理测量所述目标相对于对应安防相机的距离之后还包括:

基于所述安防相机的内参及所述外接矩形框在图像坐标系中的中心点坐标,将所述目标转换成相对于相机坐标系的坐标。

优选地,将所述目标在相机坐标系中的坐标至SLAM相机确定的全局坐标系中,并在全局地图模型中实时显示的方法包括:

基于所述安防相机在全局地图模型中的外参,通过空间坐标系转换矩阵将相对于相机坐标系的目标坐标转换为相对于全局坐标系中目标的3D空间坐标;

将全局坐标系中目标的3D空间坐标在全局地图模型中实时显示。

较佳地,还包括:

采用目标跟踪技术在全局地图模型中对所述目标进行实时追踪,并绘制所述目标的实时位置轨迹和活动区域热力图。

与现有技术相比,本发明提供的基于单目视觉的目标检测方法具有以下有益效果:

本发明提供的基于单目视觉的目标检测方法中,首先采用SLAM算法对监控场景建模得到全局地图模型,并获取SLAM相机的外参,示例性地,外参为各SLAM相机位姿参数,然后利用监控场景中安装的安防相机实时拍摄图像构建图像集合,结合对应位置SLAM相机的外参对相应安防相机进行标定,分别得到各安防相机在全局地图模型中的外参,接着通过目标检测技术对安防相机采集图像中的目标进行识别,并对该目标进行单目测距以获取目标相对于对应安防相机的位置距离,最终将目标在相机坐标系中的坐标转换至全局坐标系中,并在全局地图模型中实时显示。

综上,本发明采用单目测距方法对目标进行单目定位,相比较于现有技术采用的基于GPS定位方法能够解决室内定位不准的问题。同时,采用SLAM算法构建全局地图模型,并将安防相机监控画面中的目标转换至全局地图模型中实时显示,能够实现对目标在3D空间中的连续追踪。

本发明的第二方面提供一种基于单目视觉的目标检测装置,应用于上述技术方案所述的基于单目视觉的目标检测方法中,所述装置包括:

全局建模单元,用于采用SLAM算法对场景建模得到全局地图模型,同时获取SLAM相机的外参;

标定单元,用于获取安防相机采集的图像集合,基于所述SLAM相机的外参对所述安防相机进行标定,得到所述安防相机在全局地图模型中的外参;

测距单元,用于通过目标检测技术识别安防相机采集图像中的目标,并对所述目标进行单目测距;

坐标转换单元,用于将所述目标在相机坐标系中的坐标至SLAM相机确定的全局坐标系中,并在全局地图模型中实时显示。

优选地,还包括:

目标追踪单元,采用目标跟踪技术在全局地图模型中对所述目标进行实时追踪,并绘制所述目标的实时位置轨迹和活动区域热力图。

与现有技术相比,本发明提供的基于单目视觉的目标检测装置的有益效果与上述技术方案提供的基于单目视觉的目标检测方法的有益效果相同,在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于单目视觉的目标检测方法的步骤。

与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于单目视觉的目标检测方法的有益效果相同,在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例中基于单目视觉的目标检测方法的流程示意图;

图2为本发明实施例中采用SLAM算法获取SLAM相机位姿集合和重建图像帧集合的流程示意图;

图3为本发明实施例中利用SLAM相机位姿集合和重建图像帧集合对安防相机进行标定,获取安防相机在全局地图模型中外参的流程示意图;

图4为本发明实施例中利用安防相机位姿集合以及单目测距方法获取目标3D空间坐标的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。

实施例一

请参阅图1,本实施例提供一种基于单目视觉的目标检测方法,包括:

采用SLAM算法对场景建模得到全局地图模型,并获取SLAM相机的外参;获取安防相机采集的图像集合,基于SLAM相机的外参对安防相机进行标定,得到安防相机在全局地图模型中的外参;通过目标检测技术识别安防相机采集图像中的目标,并对目标进行单目测距;将目标在相机坐标系中的坐标转换至全局坐标系中,并在全局地图模型中实时显示。

本实施例提供的基于单目视觉的目标检测方法中,首先采用SLAM算法对监控场景建模得到全局地图模型,并获取SLAM相机的外参,示例性地,外参为各SLAM相机位姿参数,然后利用监控场景中安装的安防相机实时拍摄图像构建图像集合,结合对应位置SLAM相机的外参对相应安防相机进行标定,分别得到各安防相机在全局地图模型中的外参,接着通过目标检测技术对安防相机采集图像中的目标进行识别,并对该目标进行单目测距以获取目标相对于对应安防相机的位置距离,最终将目标在相机坐标系中的坐标转换至全局坐标系中,并在全局地图模型中实时显示。

综上,本实施例采用单目测距方法对目标进行单目定位,相比较于现有技术采用的基于GPS定位方法能够解决室内定位不准的问题。同时,采用SLAM算法构建全局地图模型,并将安防相机监控画面中的目标转换至全局地图模型中实时显示,能够实现对目标在3D空间中的连续追踪。

请参阅图2,上述实施例中,采用SLAM算法对场景建模得到全局地图模型,同时获取SLAM相机的外参的方法包括:

采用SLAM算法获取场景的点云重建结果、SLAM相机位姿集合以及重建图像帧集合;根据点云重建结果构建全局地图模型,采用SLAM相机对场景进行扫描拍摄获取由多张场景图像组成的重建图像帧集合;利用FAST算法依次获取相邻两张场景图像中的特征点,并求取特征点的特征描述子,然后基于特征点的特征描述子依次对相邻两张场景图像中的相似特征点进行匹配,构建以首张场景图像的相机坐标系为参考的统一相机坐标系,经转换得到全局坐标系。

具体实施时,通过SLAM技术获取监控场景的点云重建结果、SLAM相机位姿集合以及重建图像帧集合,SLAM相机位姿集合包括各SLAM相机的位姿参数,用于表示各SLAM相机在全局地图模型中的安装位置,示例性地,SLAM相机位姿集合为{(R

采用上述方法依次遍历相邻帧场景图像获取每帧场景图像中的特征点,并对每帧场景图像中的特征点进行非极大值抑制筛选,具体方式如下:计算每帧场景图像中特征点的FAST得分值(即score值,也即s值,用于表示邻域内像素点与中心点像素差值的绝对值总和),判断以特征点p为中心点的一个邻域(如3x3或5x5)内,若邻域内有多个特征点,则判断每个特征点的s值,若中心点p是邻域内所有特征点中得分值最大的则保留,否则对该像素点进行抑制,若邻域内只有一个特征点则保留。得分s的计算公式如下,t表示阈值:

在获取特征点后分别对相邻帧场景图像中的每个特征点计算特征描述子,然后将两张相邻场景图像中的所有的特征点通过特征描述子进行特征点匹配。接着利用第t-1帧图像的深度图像计算出匹配特征点相对于t-1时刻相机坐标系的3D空间坐标,最后通过pnp算法求解获取第t时刻相机相对于t-1时刻相机的位姿变换关系(R

请参阅图3,上述实施例中,获取安防相机采集的图像集合,基于SLAM相机的外参对安防相机进行标定,得到安防相机在全局地图模型中的外参的方法包括:

将安防相机采集的图像集合与重建图像帧集合进行相似度匹配,根据相似度获取每张安防相机图像对应的相似重建图像帧,形成安防相机图像-重建图像对,然后对每对进行同名点匹配;根据SLAM相机位姿集合求解同名点在全局坐标系中的3D空间坐标;基于3D空间坐标计算安防相机相对于SLAM相机的位姿参数,得到安防相机在全局地图模型中的外参。

具体实施时,安防相机在监控场景中安装完成后,使用安防相机实时采集场景中的监控图像构建图像集合,然后通过SlAM相机位姿参数作为参考对安防相机进行位姿标定,以下以第k号安防相机为例进行说明:

通过对SLAM重建图像帧集合和第k号相机实时采集的图像求取词袋模型视觉词汇,将待标定安防相机对应的视觉词汇与重建图像帧集合中每张图像的视觉词汇进行匹配获取相似度集合{l

根据每个位姿的得分进行排序,选择得分最高的位姿参数作为标定结果,记为(r

上述实施例中,通过目标检测技术识别安防相机采集图像中的目标,并对目标进行单目测距的方法包括:

通过目标检测技术对安防相机画面中的目标进行定位,并标识目标的外接矩形框;基于深度相机拍摄的包含目标的多个深度图像集合,利用深度相机对目标进行尺寸测量,对获取的多个测量尺寸采用聚类算法计算目标的平均物理尺寸;根据外接矩形框的宽高参数、安防相机的焦距以及平均物理尺寸,利用单目测距原理测量目标相对于对应安防相机的距离。

具体实施时,通过目标检测技术对安防相机画面中的目标标识物进行定位。以k号安防相机为例,在k号相机画面中检测目标标识物的外接矩形框位置,根据外接矩形框的宽高计算出目标标识物成像的宽或高w’。通过在场景入口处安装深度相机,采集目标进入监控场景时图像,通过深度相机测量获取目标标识物的尺寸集合,通过聚类算法求解该类目标标识物的平均物理尺寸w,结合k号安防相机的焦距f

则可通过安防相机的内参和目标标识物的外接矩形框的中心点坐标(u,v)求解得到目标标识物相对于对应相机坐标系下的坐标

计算公式(6)如下:

其中c

上述实施例中,在步骤通过单目测距原理测量目标相对于对应安防相机的距离之后还包括:

基于安防相机的内参及外接矩形框在图像坐标系中的中心点坐标,将目标中心点坐标作为目标位置代表转换成相对于相机坐标系的坐标。

请参阅图4,上述实施例中,将目标在相机坐标系中的坐标转换至全局坐标系中,并在全局地图模型中实时显示的方法包括:

基于安防相机在全局地图模型中的外参,通过空间坐标系转换矩阵将相对于相机坐标系的目标坐标转换为相对于全局坐标系中目标的3D空间坐标;将全局坐标系中目标的3D空间坐标在全局地图模型中实时显示。

具体实施时,得到目标相对于相机坐标系的3D空间坐标后,利用标定得到的安防相机位姿信息,通过空间坐标系转换矩阵将相对于相机坐标系的目标的3D空间坐标转换为由SLAM相机确定的统一相机坐标系中,即将坐标转换到o坐标系下。同样以第k号安防相机中的目标位置为例,k号安防相机标定的参考位姿为(R

上述实施例还包括:采用目标跟踪技术在全局地图模型中对所述目标进行实时追踪,并绘制所述目标的实时位置轨迹和活动区域热力图。

具体实施时,利用目标跟踪技术在全局地图模型中的3D空间中直接对目标位置进行实时预测、跟踪和轨迹连接,获取目标的实时位置,得到目标在整个场景中的实时位置轨迹和活动区域热力图,用于精准分析目标行为。

综上,本实施例具有如下创新点:

1、基于单目测距原理对目标进行单目定位,解决了基于GPS定位方法在室内定位不准的问题;

2、利用安防相机对目标进行定位,能够实时获取目标连续的轨迹信息,且安防相机的成本相对较低;

3、基于单目测距原理对目标进行单目定位,并结合标定信息获取目标的3D空间坐标,安防相机之间不要求大的重叠区域,增加了安防相机的有效利用面积,降低单位面积下的硬件成本;

4、利用结合SLAM场景重建获取的SLAM相机位姿对整个场景中的SLAM相机进行一次性联合标定,形成统一坐标系,该方法可在不同场景中复用,场景重建结果作为全局地图模型,实时显示跟踪目标所在位置。

5、在全局地图模型中对目标进行实时跟踪定位,物理意义明确,相较于纯图像空间定位方案精度更高,不依赖于ReID技术,节省计算资源,减少硬件成本。

可见,本实施例利用可复用的相机标定和单目测距技术对目标进行实时全场景3D位置定位跟踪,实现对线下监控场景中的目标活动轨迹的数字化建模。通过单目测距和SLAM相机标定技术对目标实时定位,定位误差在10%内。本实施例的应用场景多种多样,例如,利用本实施例可对停车场内车辆进行定位跟踪,获取车辆入库后的实时轨迹信息,提取车辆最终轨迹停止点获取车辆的停车位置,对车库中的车位进行实时智能维护,实时获知哪些车位被使用,哪些车位空闲。结合指示牌等方式可以对新入库车辆进行停车引导,指导车主前往空闲车位停车,提升停车效率;结合车位控制系统可以实现部分车位的提前预约,解决停车难问题,提升停车体验;对于大型停车场配合寻车系统帮助车主寻车,解决车主忘记停车位置需要帮助的问题。

再例如,利用本实施例对商场等场景的行人进行检测跟踪,获取行人连续的实时活动轨迹以及区域热力图,对客流的统计和商户的引流起到了重要作用;应用于门店时获取顾客的感兴趣区域,了解顾客的喜好,知道哪些商品所在的区域比较受欢迎,或是哪些区域本身顾客比较容易走到等,指导门店进行货物摆放和商品选品。

为便于理解,现对以下名词做解释:

1、点云:图像上的像素点转换到三维空间后的点的集合。

2、全局坐标系(世界坐标系):以真实世界中的某一点作为坐标原定形成的坐标点。

3、相机坐标系:与成像平面坐标系的x轴和y轴平行,轴为摄像机的光轴,和图像平面垂直的坐标系。

4、图像坐标系:以像素为单位的图像上定义的直角坐标系u-v。

5、相机内参:描述相机光心、焦距、畸变等的参数。

6、相机外参:描述相机相对于参考坐标系旋转、平移的参数。

实施例二

本实施例提供一种基于单目视觉的目标检测装置,包括:

全局建模单元,用于采用SLAM算法对场景建模得到全局地图模型,并获取SLAM相机的外参;

标定单元,用于获取安防相机采集的图像集合,基于所述SLAM相机的外参对所述安防相机进行标定,得到所述安防相机在全局地图模型中的外参;

测距单元,用于通过目标检测技术识别安防相机采集图像中的目标,并对所述目标进行单目测距;

坐标转换单元,用于将所述目标在相机坐标系中的坐标转换至全局坐标系中,并在全局地图模型中实时显示。

与现有技术相比,本发明实施例提供的基于单目视觉的目标检测装置的有益效果与上述实施例一提供的基于单目视觉的目标检测方法的有益效果相同,在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于单目视觉的目标检测方法的步骤。

与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于单目视觉的目标检测方法的有益效果相同,在此不做赘述。

本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 基于单目视觉的目标检测方法及装置
  • 一种基于单目视觉和几何约束的3D车辆目标检测方法
技术分类

06120113210399