掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多目摄像头的多目标检测方法、系统及摄像机

文献发布时间:2024-04-18 20:00:50


一种基于多目摄像头的多目标检测方法、系统及摄像机

技术领域

本发明涉及多目标检测技术领域,尤其是指一种基于多目摄像头的多目标检测方法、系统及摄像机。

背景技术

随着社会的发展,监控的需求也逐渐在升级。在某些监控的场景中,我们需要既看到大范围的背景画面,同时也关注场景中不同目标物的细节特征,有的时候既需要图像上的二维信息,也需要图像中特定目标的特定三维信息。

然而,而市场上现有的产品无法满足该种监控需求。现有的摄像机仅限于捕捉特定视角下的监控,由于可能存在的视觉遮挡,无法实现全面的监控。例如:教育行业,既需要看清整个班级内的情况也需要看清不同学生的细节情况。传统的监控摄像机只能提供单一的监控视角,无法提供多角度的监控,不能全面地评估学生的学习状态和考试行为;在线教育平台或软件提供的视频监控功能仅能提供固定的视角,无法提供特写监控、眼球注视监控、姿态检测等多种监控功能;传统的监控摄像机不具备智能化分析和识别功能,无法提供监控区域内的目标的深度信息。

为了解决上述问题,现有的方案一般是增加摄像机的数量,采取组合方式解决问题,但是该方案存在着费用较高,同时在某些特殊场景受环境限制,不宜增加布控点位。

针对这些缺点,本发明的目的是提供一种集全景监控、多目标特写监控、双目摄像机的融合监控摄像头,可解决特殊场景的监控难题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于多目摄像头的多目标检测方法、系统及摄像机,其能够提供全景监控、多目标的可变焦的特写监控,以及场景内的目标实物的深度信息。

根据本发明实施例的一种基于多目摄像头的多目标检测方法,该方法包括:

提供一个枪机光学镜头,以及多个可变焦球机光学镜头;

将枪机光学镜头和任意一个或多个可变焦球机光学镜头组合,进行不同视角和焦距的拍摄,采用摄像头视角估计,进行多目标跟踪特写监控;

将任意两个可变焦球机光学镜头成像平面共面组合为双目深度摄像模式,采用双目深度估计,进行目标深度监控。

根据本发明实施例的一种基于多目摄像头的多目标检测方法,所述视角估计的方法包括为:

(2)获取点云数据;在计算得到头部姿势之后,利用头部姿势信息对点云数据作几何逆变换,从而得到前视视角的人脸或眼睛图像;

(2)使用前视视角的样本训练gaze模型,再把估计得到的gaze利用头部姿势信息变换到相机坐标系,实现视角估计;

其中视线向量由眼球位移和头部姿势组成,使用g来表示自然的视线向量,在头部坐标系和相机坐标系中分别表示为g

眼球位移:眼球运动定义为注视向量g与头部坐标轴之间的夹角,记为(θ,φ),其中θ和φ分别表示水平和垂直旋转角度,在头部坐标系中可以表示为:

gh=[-cos(φ)sin(θ),sin(φ),-cos(φ)cos(θ)]

头部坐标系的建立:第一阶段先初步确定头部坐标系,在第二个训练步骤中,视线变换层将自动学习准确的头部坐标系;

头部姿势R为反映头部和相机坐标系之间的旋转矩阵;数据归一化后,3D的头部姿势采用二维的(y,p)表示,其中y是偏角,p是仰角,R=f(y,p);

视线变换层:视线向量gc在相机坐标系中定义,gc和gh之间的转换由头部姿势R定义:gc=Rgh。

根据本发明实施例的一种基于多目摄像头的多目标检测方法,所述gaze模型的训练方法为:

Gaze transform layer的输入为Head CNN输出的(y,p)与Eye CNN输出的

其中,其中Multi-Head Attention结构如下:

根据本发明实施例的一种基于多目摄像头的多目标检测方法,所述多目标跟踪的方法为:

步骤1、枪机光学镜头获取全景视频图像;

步骤2、使用目标检测技术自动检测目标,并提取目标图片;

步骤3、使用提取的目标图片在多个可变焦球机光学镜头拍摄的画面中进行模板匹配,识别出多个可变焦球机光学镜头中对应的目标;

步骤4、多个可变焦球机光学镜头根据目标坐标距画面中心点坐标偏移情况进行转动,直到目标位于画面中心;

步骤5、对于多目标的跟踪,根据步骤2的结果,多个可变焦球机光学镜头中的候选摄像头重复上述第步骤3、4,直至完成对所有目标的跟踪监控。

根据本发明实施例的一种基于多目摄像头的多目标检测方法,所述双目深度估计的方法为:

其中,o为目标,(x,z)为目标在三维空间中的横向坐标和深度坐标,xl,xr为目标在左右相机成像平面中的横向位置;

多个可变焦球机光学镜头共有N个可用可变焦球机光学镜头,可以组合成N*(N-1)/2个组合,基于这些组合采用平均计算获得坐标值,公式如下:

B为基线长度,f为相机的焦距,d为视差,目标深度z=fB/d。

根据本发明实施例的一种基于多目摄像头的多目标检测方法,所述视差d为(xl-xr),所述视差d的估算方法为:

(1)、左右图像上采用共享的卷积网络进行特征提取;

(2)、左右特征图构建Cost Volume;

(3)、3D卷积提取左右特征图以及不同视差级别之间的信息;

(4)、上采样到原始分辨率,找到匹配误差最小的视差值。

根据本发明实施例的一种基于多目摄像头的多目标检测方法,将枪机光学镜头和任意一个或多个可变焦球机光学镜头组合,或将两个或多个可变焦球机光学镜头组合,并将获取的图像进行图像拼接,图像拼接的顺序有:图像匹配、重投影、缝合和融合,具体包括有如下步骤:

A.基于SRUF的特征点的提取与匹配;其中,SURF特征点提取与描述包含4个步骤:

A1)检测尺度空间极值;

A2)精炼特征点位置;

A3)计算特征点的描述信息;

A4)生成描述特征点的特征向量;

B.图像配准

B1)检测每幅图像中特征点;

B2)计算特征点之间的匹配;

B3)计算图像间变换矩阵的初始值;

B4)迭代精炼H变换矩阵;

B5)引导匹配,用估计的H去定义对极线附近的搜索区域,进一步确定特征点的对应;

6)重复迭代B4)和B5)直到对应点的数目稳定为止;

C.图像合成

根据图像间变换矩阵H,可以对相应图像进行变换以确定图像间的重叠区域,并将待融和图像映射到到一幅新的空白图像中形成拼接图。

根据本发明实施例的一种基于多目摄像头的多目标检测方法,枪机光学镜头或任意一个或多个可变焦球机光学镜头可实现红外成像和可见光成像,该光学镜头可基于红外成像图像与视觉图像融合,完成全彩微光夜视,包括以下步骤:

1)图像采集:首先需要采集两幅图像,一幅是可见光图像,一幅是红外图像;

2)图像预处理:对两幅图像进行预处理,以确保两幅图像可以进行融合;

3)图像配准,实现红外图像和视觉图像的像素级对应;

4)图像融合,采用融合算法使用小波变换法;

5)融合后图像后处理;

6)可视化展示:最后,将融合后的图像可视化展示出来。

根据本发明实施例的一种基于多目摄像头的多目标检测系统,包括有上述任意一项所述的一种基于多目摄像头的多目标检测方法。

根据本发明实施例的一种摄像机,其特征在于,包括有上述的一种基于多目摄像头的多目标检测系统。

与现有技术相比,本发明的有益效果是:

在本发明申请的技术方案中,采用枪机光学镜头,以及多个可变焦球机光学镜头,进行不同视角和焦距的拍摄,提高了摄像头的拍摄效果和功能,枪机光学镜头可拍摄全景画面,实现全景监控,多个可变焦球机光学镜头可捕捉多目标特写画面,进行多目标跟踪特写监控,同时任意两个可变焦球机光学镜头成像平面共面组合成双目深度摄像模式,多个双目深度估计减少误差,提供深度信息;本发明中枪机光学镜头和多个可变焦球机光学镜头采用了深度学习算法,可识别人的姿态和面部表情,提高了监控的准确性和使用效果;采用了视频编码技术,包括H.264和H.265等,可将视频数据压缩后传输,保证了视频传输的稳定性和流畅性,提高了视频传输的效率;采用了可调焦镜头,可自动或手动调节焦距,保证了不同拍摄距离的清晰度;配备了无线网络模块,可通过手机App实现远程控制,包括实时观看、录制、拍照和视频编辑等功能,方便用户远程控制;此外,还可实现多轨迹智能巡检,为了提高拍摄效果,枪机光学镜头和可变焦球机光学镜头的分辨率达到了1080P或以上,保证了拍摄出来的图像清晰度和细节度。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是根据本申请的一个实施例中通过视差估算得到目标深度的总流程图;

图2是根据本申请的一个实施例中图像拼接的示意图;

图3是根据本申请的一个实施例中加权平滑算法处理拼接缝的算法示意图。

具体实施方式

下面详细描述本发明的实施例,所述的实施例示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

附图所显示的方位不能理解为限制本发明的具体保护范围,仅供较佳实施例的参考理解,可以图中所示的产品部件进行位置的变化或数量增加或结构简化。

说明书中所述的“连接”及附图中所示出的部件相互“连接”关系,可以理解为固定地连接或可拆卸连接或形成一体的连接;可以是直接相连或通过中间媒介相连,本领域普通技术人员可以根据具体情况理解连接关系而可以得出螺接或铆接或焊接或卡接或嵌接等方式以适宜的方式进行不同实施方式替用。

说明书中所述的上、下、左、右、顶、底等方位词及附图中所示出方位,各部件可直接接触或通过它们之间的另外特征接触;如在上方可以为正上方和斜上方,或它仅表示高于其他物;其他方位也可作类推理解。

本发明提供了一种基于多目摄像头的多目标检测方法,该方法包括:

提供一个枪机光学镜头,以及多个可变焦球机光学镜头;

将枪机光学镜头和任意一个或多个可变焦球机光学镜头组合,进行不同视角和焦距的拍摄,采用摄像头视角估计,进行多目标跟踪特写监控;

将任意两个可变焦球机光学镜头成像平面共面组合为双目深度摄像模式,采用双目深度估计,进行目标深度监控。

在本发明申请的技术方案中,采用枪机光学镜头,以及多个可变焦球机光学镜头,进行不同视角和焦距的拍摄,提高了摄像头的拍摄效果和功能,枪机光学镜头可拍摄全景画面,实现全景监控,多个可变焦球机光学镜头可捕捉多目标特写画面,进行多目标跟踪特写监控,同时任意两个可变焦球机光学镜头成像平面共面组合成双目深度摄像模式,多个双目深度估计减少误差,提供深度信息;本发明中枪机光学镜头和多个可变焦球机光学镜头采用了深度学习算法,可识别人的姿态和面部表情,提高了监控的准确性和使用效果;采用了视频编码技术,包括H.264和H.265等,可将视频数据压缩后传输,保证了视频传输的稳定性和流畅性,提高了视频传输的效率;采用了可调焦镜头,可自动或手动调节焦距,保证了不同拍摄距离的清晰度;配备了无线网络模块,可通过手机App实现远程控制,包括实时观看、录制、拍照和视频编辑等功能,方便用户远程控制;此外,还可实现多轨迹智能巡检,为了提高拍摄效果,枪机光学镜头和可变焦球机光学镜头的分辨率达到了1080P或以上,保证了拍摄出来的图像清晰度和细节度。

总之,本发明的摄像头通过采用多种技术细节设计,实现了全景监控和局部拍摄的双重功能同时还可提供目标的深度信息。

进一步的,在本发明申请其中一些实施例中,所述视角估计的方法包括为:

(1)获取点云数据;在计算得到头部姿势(head pose)之后,利用头部姿势(headpose)信息对点云数据作几何逆变换,从而得到前视视角(frontal view)的人脸或眼睛图像;

(2)使用前视视角的样本训练gaze模型,再把估计得到的gaze利用头部姿势(headpose)信息变换到相机坐标系,实现视角估计;

其中视线向量由眼球位移和头部姿势组成,使用g来表示自然的视线向量,在头部坐标系和相机坐标系中分别表示为g

眼球位移:眼球运动定义为注视向量g与头部坐标轴之间的夹角,记为(θ,φ),其中θ和φ分别表示水平和垂直旋转角度,在头部坐标系中可以表示为:

gh=[-cos(φ)sin(θ),sin(φ),-cos(φ)cos(θ)]

头部坐标系的建立:由于头部姿势固有的模糊性,第一阶段先初步确定头部坐标系,在第二个训练步骤中,视线变换层自动学习准确的头部坐标系;

头部姿势R为反映头部和相机坐标系之间的旋转矩阵;数据归一化后,3D的头部姿势采用二维的(y,p)表示,其中y是偏角,p是仰角,R=f(y,p);

视线变换层:视线向量gc在相机坐标系中定义,gc和gh之间的转换由头部姿势R定义:gc=Rgh。

进一步的,在本发明申请其中一些实施例中,所述gaze模型的训练策略为:

由于使用了两个CNN网络分别提取头部与眼部的特征,所以基于效率的考虑特征提取的CNN网络使用简化版的tiny-AlexNet网络;

Gaze transform layer的输入为Head CNN输出的(y,p)与Eye CNN输出的

其中,其中Multi-Head Attention结构如下:

进一步的,在本发明申请其中一些实施例中,由于具有多球机的硬件基础(具有多个可变焦球机光学镜头),可以根据任务的需求进行多目标跟踪监控拍摄,多目标跟踪的实现流程图如下所示:

步骤1、枪机光学镜头获取全景视频图像;

步骤2、使用目标检测技术(基于YOLOv5)自动检测目标,并提取目标图片;

步骤3、使用提取的目标图片在多个可变焦球机光学镜头拍摄的画面中进行模板匹配,识别出多个可变焦球机光学镜头中对应的目标;

步骤4、多个可变焦球机光学镜头根据目标坐标距画面中心点坐标偏移情况进行转动,直到目标位于画面中心;

步骤5、对于多目标的跟踪,根据步骤2的结果,多个可变焦球机光学镜头中的候选摄像头重复上述第步骤3、4,直至完成对所有目标的跟踪监控。

进一步的,在本发明申请其中一些实施例中,所述双目深度估计的方法原理如下:

其中,o为目标,(x,z)为目标在三维空间中的横向坐标和深度坐标,xl,xr为目标在左右相机成像平面中的横向位置;

多个可变焦球机光学镜头共有N个可用可变焦球机光学镜头,可以组合成N*(N-1)/2个组合,基于这些组合采用平均计算获得坐标值,公式如下:

B为基线长度(两个相机之间的距离),f为相机的焦距,d为视差(左右两张图像上同一个3D点之间的距离),目标深度z=fB/d。

由于f和B是固定的,要求解目标深度z,只需估计视差d(xl-xr)。

所述视差d的估算方法为:

(1)、左右图像上采用共享的卷积网络进行特征提取;

(2)、左右特征图构建Cost Volume;

(3)、3D卷积提取左右特征图以及不同视差级别之间的信息;

(4)、上采样到原始分辨率,找到匹配误差最小的视差值。

视差估计为对于左图中的每个像素点,需要找到右图中与其匹配的点。

对于每个可能的视差(范围有限),计算匹配误差,因此得到的三维误差数据称为Cost Volume;

计算匹配误差时考虑像素点附近的局部区域,比如对局部区域内所有对应像素值的差进行求和;

通过Cost Volume可以得到每个像素处的视差(对应最小匹配误差的),从而得到深度,总流程示意图如图1所示。

进一步的,在本发明申请其中一些实施例中,将枪机光学镜头和任意一个或多个可变焦球机光学镜头组合,或将两个或多个可变焦球机光学镜头组合,并将获取的图像进行图像拼接,图像拼接的顺序有:图像匹配(registration)、重投影(reprojection)、缝合(stitching)和融合(blending),如图2所示。

所述图像拼接包括有如下步骤:

A.基于SRUF的特征点的提取与匹配;其中,SURF特征点提取与描述包含4个步骤:

A1)检测尺度空间极值;

A2)精炼特征点位置;

A3)计算特征点的描述信息;

A4)生成描述特征点的特征向量;

B.图像配准(求解变换矩阵H)

B1)检测每幅图像中特征点;

B2)计算特征点之间的匹配;

B3)计算图像间变换矩阵的初始值;

B4)迭代精炼H变换矩阵;

B5)引导匹配,用估计的H去定义对极线附近的搜索区域,进一步确定特征点的对应;

6)重复迭代B4)和B5)直到对应点的数目稳定为止;

C.图像合成

根据图像间变换矩阵H,可以对相应图像进行变换以确定图像间的重叠区域,并将待融和图像映射到到一幅新的空白图像中形成拼接图。由于拍摄时会自动选取曝光参数,这会使输入图像间存在亮度差异,导致拼接后的图像缝合线两端出现明显的明暗变化,因此,在融和过程中需要对缝合线进行处理。

进行图像拼接缝合线处理的方法有很多种,如颜色插值和多分辨率样条技术等,在实施例中采用了快速简单的加权平滑算法处理拼接缝问题。该算法的主要思想是:图像重叠区域中像素点的灰度值Pixel由两幅图像中对应点的灰度值Pixel_L和_R加权平均得到,即Pixel=k×Pixel_L+(1-k)×Pixel_R,其中k是可调因子,图3为加权平滑算法示意图。

进一步的,在本发明申请其中一些实施例中,枪机光学镜头或任意一个或多个可变焦球机光学镜头可实现红外成像和可见光成像,该光学镜头可基于红外成像图像与视觉图像融合,完成全彩微光夜视,包括以下步骤:

1)图像采集:首先需要采集两幅图像,一幅是可见光图像,一幅是红外图像;这两幅图像采集需要使用专业的红外成像摄像头和可见光成像摄像头,并且需要采用相同的参数(如焦距、曝光时间等),以保证两幅图像大小和对齐度相同;

2)图像预处理:对两幅图像进行预处理,以确保两幅图像可以进行融合;所述预处理包括去噪、图像平滑处理等;

3)图像配准,实现红外图像和视觉图像的像素级对应;

为了实现红外图像和视觉图像的像素级对应,需要进行图像配准。图像配准分为基于特征点的配准和基于区域的配准两种方法;其中,基于特征点的配准方法是通过识别两幅图像中共同的关键点,从而进行像素级的对应;基于区域的配准方法是通过提取两幅图像中共同的区域,从而进行像素级的对应;

4)图像融合,采用融合算法使用小波变换法;它可以在时域和频域同时对两幅图像进行分析和处理,从而得到更加清晰、丰富的图像信息;

5)融合后图像后处理;融合后的图像可能会出现不可避免的噪点或伪影等问题,需要进行后处理,以改善图像的质量;后处理包括边缘增强、去除伪影等;

6)可视化展示:最后,将融合后的图像可视化展示出来,以便用户可以直观地了解图像信息。常用的可视化方法包括灰度图像展示、假彩色图像展示等。

进一步的,在本发明申请其中一些实施例中,本发明还提供了一种基于多目摄像头的多目标检测系统,包括有上述一种基于多目摄像头的多目标检测方法。

进一步的,在本发明申请其中一些实施例中,本发明还提供了一种摄像机,包括有上述的一种基于多目摄像头的多目标检测系统。

尽管参照上面实施例详细说明了本发明,但是通过本公开对于本领域技术人员显而易见的是,而在不脱离所述的权利要求限定的本发明的原理及精神范围的情况下,可对本发明做出各种变化或修改。因此,本公开实施例的详细描述仅用来解释,而不是用来限制本发明,而是由权利要求的内容限定保护的范围。

技术分类

06120116541517