掌桥专利:专业的专利平台
掌桥专利
首页

一种煤矿井下快速单目视觉三维目标检测方法

文献发布时间:2023-06-19 19:30:30


一种煤矿井下快速单目视觉三维目标检测方法

技术领域

本发明属于图像处理技术领域,尤其涉及一种煤矿井下快速单目视觉三维目标检测方法。

背景技术

近几年,基于激光雷达的算法大大提高了三维目标检测的精度。但是激光雷达的缺点在于:成本较高,且易受周围环境的影响。当激光雷达模块失效时,基于单目相机数据的三维检测能够提高检测系统的鲁棒性。因此,如何基于摄像头数据实现可靠且精确的三维检测显得尤为重要。与基于激光雷达的方法相比,仅从图像中估计三维边界框的方法面临着更大的挑战,因为从二维输入数据中恢复三维信息是一个不适定问题。然而,尽管存在这种内在的困难,在过去几年中,基于图像的三维目标检测方法在计算机视觉社区中得到了广泛应用。

然而,目前对于单目的三维目标检测方法研究集中在自动驾驶领域,用于感知的相机安装在车上,比较著名的数据集有KITTI、Waymo、NuScenes等,该领域针对于固定相机和煤矿井下环境的研究甚少。随着技术的发展和安全的需要,煤矿井下开始出现了各种自动化设备,如巡检机器人,自主导航运输车等。对于这些设备,精确的定位信息必不可少。因此,使用安装在巷道顶部的相机对巷道内部的自主车辆进行三维目标检测,不仅有利于辅助车辆进行定位,而且有利于管理者对其进行监测。针对煤矿井下复杂的环境,想要利用安装在巷道顶部的单目相机进行三维目标检测,现有的方法存在以下问题:

(1)安装在巷道顶部的相机感知范围窄且长,可供提取的信息少。煤矿井下具有狭长的结构,巷道顶部的相机观测的距离比安装在车辆上的相机更远,目标在图像所占比例变化大。而且,由于井下光线较暗,可供神经网络提取的深度特征和视觉特征都变少,现有的方法很难准确推理出目标的三维信息。

(2)现有的方法依赖于大量的标签数据进行训练,数据的采集、标注过程耗时耗力。

(3)虽然已有的方法达到了较高的推理速度,但依赖于高性能的显卡,计算量依然较大,能耗高,难以移植到井下设备中。

发明内容

发明目的:本发明的目的在于克服上述现有技术的不足,实现一种利用煤矿井下安装的单目相机进行快速三维目标检测方法。与现有的单目三维目标检测方法相比,本发明充分利用矿井特有的环境特征,对设备的计算力要求更低,且实时性更好,更适合与煤矿井下的环境。

技术方案:为实现本发明的目的,本发明提出一种煤矿井下快速单目视觉三维目标检测方法,该方法包括以下步骤:

S1、构建二维目标检测数据集:利用煤矿井下安装的单目摄像头采集具有指定目标的数据集,确定数据集中目标的类别数,标注每张图像样本中的目标的二维框以及类别,并对得到的图像和对应的标签进行随机打乱,划分为训练集和测试集;

S2、训练神经网络模型:在训练集上进行训练,并在测试集上进行测试,通过调参得到最优的神经网络模型;

S3、相机内参、外参标定:定义世界坐标系,利用棋盘格标定法标定相机内参得到相机投影矩阵P,利用激光雷达辅助完成相机与世界坐标系外参的标定以得到世界坐标系到相机坐标系变换矩阵T

S4、目标三维坐标计算:将图像输入步骤S2得到的二维目标检测模型以得到目标二维边框,计算边框底边中心二维坐标C

S5、目标三维包围框计算:利用步骤S4得到的目标的三维坐标C、目标沿巷道方向的航向角α和目标长宽高[l,w,h]先验信息计算相机坐标系下目标的三维包围框。

进一步的,步骤S1中,构建二维目标检测数据集的具体方法如下:

S11、利用煤矿井下安装的单目摄像头采集不同种类目标在不同环境下的目标图像数据,不同环境包括不同光照条件、目标的不同姿态;

S12、确定所要检测的目标类别数,使用labellmg工具对采集到的图像进行二维框标注并导出标签,每张图片对应一个标签,包含该张图片中的所有目标的类别和二维边界框,将标注好的数据集划分为训练集和测试集,包含图片和对应的标签文件。

进一步的,步骤S2中,训练二维目标检测模型的具体方法如下:

S21、以训练集中的目标图像为输入,目标类别和二维边界框为输出训练神经网络模型,并在测试集上进行测试、调参以得到训练好的神经网络模型,该神经网络模型能够以目标图像为输入,输出为目标图像中目标类别以及图像中的二维边界框;

S22、训练好的神经网络模型使用TensorRT进一步提高推理速度,得到加速后神经网络模型。

进一步的,步骤S3中,相机内参、外参标定方法如下:

S31、使用棋盘格标定法对相机内参进行标定以得到相机投影矩阵P;

S32、使用激光雷达进行辅助标定外参矩阵,外参指世界坐标系到相机坐标系的变换矩阵,激光雷达与相机具有共同的安装高度,使用MATLAB工具对相机与雷达之间的变换矩阵进行标定以得到激光雷达到相机的变换矩阵T

S33、定义世界坐标系:原点为雷达原点在地面上的投影点,xOy平面为地面,y轴沿巷道向前,x轴向右,z轴向上,满足右手坐标系,测量激光雷达的安装高度h,由世界坐标系的定义得雷达坐标系到世界坐标系之间的平移向量t

S34、获取点云中巷道边缘上距离最远的两个点坐标A

其中,normalize表示将向量转为单位向量,

S35、确定地面法向量,从而确定两个坐标系之间另外两轴之间的旋转,在获取的点云中,使用平面拟合方法拟合点云中的地面部分,得到地面在雷达坐标系下的法向量

同S34中

R

计算雷达坐标系到世界坐标系的变换矩阵为:

世界坐标系到雷达坐标系变换矩阵即为其逆矩阵T

S36、由T

T

进一步的,步骤S4中的目标三维坐标计算具体方法如下:

S41、利用T

记O

S42、由平面的点法式方程得到相机坐标系下的地面方程G(x,y,z):

G(x,y,z):n

S43、将目标图像输入步骤S2得到的神经网络模型以得到所有目标的类别和二维包围框,计算目标二维包围框的底边中心坐标C

S44、利用针孔相机投影模型进行反投影,计算二维坐标C

C

其中,f

S45、将C

z

S46、利用获得的三维坐标C

C

其中,T

offset=(|l·sinα|+|w·cosα|)/2

其中,l和w分别为目标的长和宽,由世界坐标系的定义,计算出世界坐标系下目标的底部中心坐标C′

C′

目标底部中心在相机坐标系下坐标计算为:

C=T

进一步的,步骤S5目标三维包围框计算的具体方法如下:

S51、计算目标坐标系下三维包围框的8个顶点坐标,定义目标坐标系:xOz平面与目标底面重合,即与地面重合,坐标原点位于目标底面中心点,y轴垂直地面向下,x轴沿目标前进方向,z轴指向目标前进方向的左侧,符合右手坐标系,设目标坐标系原点为O

其中,l、w、h分别表示目标的长、宽、高;

S52、将八个顶点旋转到相机坐标系下,得到相机坐标系下的三维包围框,使用步骤4得到的相机坐标系下的地面法向量

对八个顶点进行旋转得:

V′=R

设步骤4计算的相机坐标系下目标底面中心坐标为C=(x

得到的V″即为相机坐标系下八个顶点坐标;

S53、将相机坐标系下的8个顶点坐标投影到图像坐标系下,得到三维包围框在图像上的二维坐标,首先使用相机投影矩阵P投影:

V″′=PV″

每个点的x,y值除以像素深度得到其在图像坐标系坐标:

/>

其中,x

有益效果:有现有技术相比,本发明的技术方案具有以下有益技术效果:

第一,本发明针对煤矿井下独特的环境和相机安装方式,设计了一种高效实时的三维目标检测框架,极大提高了三维目标检测的速度。在部署时使用TensorRT对检测模型进行了加速,在英伟达3060显卡上实现了每秒50帧的推理速度。

第二,由于本发明使用了二维目标检测模型,识别目标的准确率和效率大大提高。通过构建合理的数据集,目标检测模型可以达到较高的准确率,减少了误检情况的发生。另外,二维目标检测模型可以灵活的调整和更换,模块间的耦合度低。

第三,由于本发明只需要标注目标的二维信息进行模型的训练,大大降低了数据采集以及数据标注的成本,节省了人力物力,且便于移植。

附图说明

图1是本发明的整体流程图。

图2是本发明的目标三维坐标计算示意图。

图3是本发明的目标底部中心偏移量计算示意图。

具体实施方式

下面结合附图对本发明做进一步的描述。

本发明公开了一种煤矿井下快速单目视觉三维目标检测方法,整体流程图如附图1所示,该方法包含如下步骤:

S1、构建二维目标检测数据集:利用煤矿井下安装的单目摄像头采集具有指定目标的数据集,确定数据集中目标的类别数,标注每张图像样本中的目标的二维框以及类别,并对得到的图像和对应的标签进行随机打乱,划分为训练集和测试集;

S2、训练神经网络模型:在训练集上进行训练,并在测试集上进行测试,通过调参得到最优的神经网络模型;

S3、相机内参、外参标定:定义世界坐标系,利用棋盘格标定法标定相机内参得到相机投影矩阵P,利用激光雷达辅助完成相机与世界坐标系外参的标定以得到世界坐标系到相机坐标系变换矩阵T

S4、目标三维坐标计算:将图像输入步骤S2得到的二维目标检测模型以得到目标二维边框,计算边框底边中心二维坐标C

S5、目标三维包围框计算:利用步骤S4得到的目标的三维坐标C、目标沿巷道方向的航向角α和目标长宽高[l,w,h]先验信息计算相机坐标系下目标的三维包围框。

进一步的,步骤S1中,构建二维目标检测数据集的具体方法如下:

S11、利用煤矿井下安装的单目摄像头采集不同种类目标在不同环境下的目标图像数据,不同环境包括不同光照条件、目标的不同姿态;

S12、确定所要检测的目标类别数,使用labellmg工具对采集到的图像进行二维框标注并导出标签,每张图片对应一个标签,包含该张图片中的所有目标的类别和二维边界框,将标注好的数据集划分为训练集和测试集,包含图片和对应的标签文件。

进一步的,步骤S2中,训练二维目标检测模型的具体方法如下:

S21、以训练集中的目标图像为输入,目标类别和二维边界框为输出训练神经网络模型,并在测试集上进行测试、调参以得到训练好的神经网络模型,该神经网络模型能够以目标图像为输入,输出为目标图像中目标类别以及图像中的二维边界框;

S22、训练好的神经网络模型使用TensorRT进一步提高推理速度,得到加速后神经网络模型。

进一步的,步骤S3中,相机内参、外参标定方法如下:

S31、使用棋盘格标定法对相机内参进行标定以得到相机投影矩阵P;

S32、使用激光雷达进行辅助标定外参矩阵,外参指世界坐标系到相机坐标系的变换矩阵,激光雷达与相机具有共同的安装高度,使用MATLAB工具对相机与雷达之间的变换矩阵进行标定以得到激光雷达到相机的变换矩阵T

S33、定义世界坐标系:原点为雷达原点在地面上的投影点,xOy平面为地面,y轴沿巷道向前,x轴向右,z轴向上,满足右手坐标系,测量激光雷达的安装高度h,由世界坐标系的定义得雷达坐标系到世界坐标系之间的平移向量t

S34、获取点云中巷道边缘上距离最远的两个点坐标A

其中,normalize表示将向量转为单位向量,

S35、确定地面法向量,从而确定两个坐标系之间另外两轴之间的旋转,在获取的点云中,使用平面拟合方法拟合点云中的地面部分,得到地面在雷达坐标系下的法向量

同S34中

R

计算雷达坐标系到世界坐标系的变换矩阵为:

世界坐标系到雷达坐标系变换矩阵即为其逆矩阵T

S36、由T

T

进一步的,步骤S4中的目标三维坐标计算具体方法如下:

S41、利用T

记O

S42、由平面的点法式方程得到相机坐标系下的地面方程G(x,y,z):

G(x,y,z):n

S43、将目标图像输入步骤S2得到的神经网络模型以得到所有目标的类别和二维包围框,计算目标二维包围框的底边中心坐标C

S44、利用针孔相机投影模型进行反投影,计算二维坐标C

C

其中,f

S45、将C

z

S46、利用获得的三维坐标C

C

其中,T

offset=(|l·sinα|+|w·cosα|)/2

其中,l和w分别为目标的长和宽,由世界坐标系的定义,计算出世界坐标系下目标的底部中心坐标C′

C′

目标底部中心在相机坐标系下坐标计算为:

C=T

进一步的,步骤S5目标三维包围框计算的具体方法如下:

S51、计算目标坐标系下三维包围框的8个顶点坐标,定义目标坐标系:xOz平面与目标底面重合,即与地面重合,坐标原点位于目标底面中心点,y轴垂直地面向下,x轴沿目标前进方向,z轴指向目标前进方向的左侧,符合右手坐标系,设目标坐标系原点为O

/>

其中,l、w、h分别表示目标的长、宽、高;

S52、将八个顶点旋转到相机坐标系下,得到相机坐标系下的三维包围框,使用步骤4得到的相机坐标系下的地面法向量

对八个顶点进行旋转得:

V′=R

设步骤4计算的相机坐标系下目标底面中心坐标为C=(x

得到的V″即为相机坐标系下八个顶点坐标;

S53、将相机坐标系下的8个顶点坐标投影到图像坐标系下,得到三维包围框在图像上的二维坐标,首先使用相机投影矩阵P投影:

V″′=PV″

每个点的x,y值除以像素深度得到其在图像坐标系坐标:

其中,x

以上对本发明的实施例所提供的一种煤矿井下快速单目视觉三维目标检测方法进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种煤矿井下快速测定煤层瓦斯参数的装置与方法
  • 一种煤矿井下巡检机器人三维地图重建及目标检测方法
  • 一种基于单目视觉和雷达伪图像融合的三维目标检测方法
技术分类

06120115934170