掌桥专利:专业的专利平台
掌桥专利
首页

一种钢厂环境下障碍物检测方法及装置

文献发布时间:2023-06-19 19:30:30


一种钢厂环境下障碍物检测方法及装置

技术领域

本申请涉及数据处理技术领域,具体而言,涉及一种钢厂环境下障碍物检测方法及装置。

背景技术

目前,钢铁企业力推打造一套全天候、全流程、高效安全的智能铁水运输系统,实现铁水运行区域的铁水调度智能化和机车驾驶无人化,提高铁水运输调度计划的精确性和及时性,提高铁水调度和机车调度的作业效率。现有钢铁厂轨道机车自动驾驶任务中障碍物检测方法,通常是通过相机获得RGB图片,传入到二维的障碍物检测算法模型中得到障碍物的类别和二维平面坐标信息。然而,在实践中发现,现有方法受相机拍摄的图片质量影响较大,如果不能满足特定的照明条件(照明角度、波长等),则无法从图像背景中准确提取边框特征,且2D图像只包含了障碍物边框信息忽略了障碍物与机车的实际距离、障碍物的大小等几何信息。可见,现有方法容易受环境因素影响,准确率低,无法准确为钢厂环境下轨道机车自动驾驶的路径规划与决策提供数据支持。

发明内容

本申请实施例的目的在于提供一种钢厂环境下障碍物检测方法及装置,能够实时感知轨道机车周围障碍物,不容易受环境因素影响,准确率高,从而能够为轨道机车自动驾驶的路径规划与决策提供了可靠的数据支持。

本申请实施例第一方面提供了一种钢厂环境下障碍物检测方法,包括:

获取钢厂环境下待检测的目标检测数据集;

对所述目标检测数据集进行缩放处理,得到缩放数据集;

通过预设的特征提取网络对所述缩放数据集进行处理,得到特征图;

根据所述特征图进行障碍物预测,得到预测结果;

根据所述预测结果确定最终的障碍物检测结果。

在上述实现过程中,该方法可以优先获取钢厂环境下待检测的目标检测数据集;并对所述目标检测数据集进行缩放处理,得到缩放数据集;然后,通过预设的特征提取网络对所述缩放数据集进行处理,得到特征图;再后,根据所述特征图进行障碍物预测,得到预测结果;最后,再根据所述预测结果确定最终的障碍物检测结果。可见,该方法能够实时感知轨道机车周围障碍物,不容易受环境因素影响,准确率高,从而能够为轨道机车自动驾驶的路径规划与决策提供了可靠的数据支持。

进一步地,所述获取钢厂环境下待检测的目标检测数据集,包括:

获取KITTI数据集;其中,所述KITTI数据集包括训练图像、测试图像、点云数据和标定参数;

选取所述KITTI数据集中的split1分割数据,得到目标检测数据集。

进一步地,所述对所述目标检测数据集进行缩放处理,得到缩放数据集,包括:

将所述目标检测数据集中的图片大小缩放为预设图片大小,得到缩放数据集。

进一步地,所述根据所述特征图进行障碍物预测,得到预测结果,包括:

基于先验的2D-3D锚框构建基础检测器;

将所述特征图输入至所述基础检测器中进行预测,得到预测框坐标值;其中,所述预测框坐标值包括2D框坐标值和3D框坐标值;

经过非极大值抑制对所述预测框坐标值进行处理,得到预测结果。

进一步地,所述根据所述预测结果确定最终的障碍物检测结果,包括:

对所述预测结果进行数据转换,得到最终的3D目标检测效果图;

根据所述3D目标检测效果图生成最终的障碍物检测结果。

本申请实施例第二方面提供了一种钢厂环境下障碍物检测装置,所述钢厂环境下障碍物检测装置包括:

获取单元,用于获取钢厂环境下待检测的目标检测数据集;

缩放单元,用于对所述目标检测数据集进行缩放处理,得到缩放数据集;

处理单元,用于通过预设的特征提取网络对所述缩放数据集进行处理,得到特征图;

预测单元,用于根据所述特征图进行障碍物预测,得到预测结果;

确定单元,用于根据所述预测结果确定最终的障碍物检测结果。

在上述实现过程中,该装置可以通过获取单元获取钢厂环境下待检测的目标检测数据集;通过缩放单元对目标检测数据集进行缩放处理,得到缩放数据集;通过处理单元来通过预设的特征提取网络对缩放数据集进行处理,得到特征图;通过预测单元来根据特征图进行障碍物预测,得到预测结果;再通过确定单元来根据预测结果确定最终的障碍物检测结果。可见,该装置能够实时感知轨道机车周围障碍物,不容易受环境因素影响,准确率高,从而能够为轨道机车自动驾驶的路径规划与决策提供了可靠的数据支持。

进一步地,所述获取单元包括:

获取子单元,用于获取KITTI数据集;其中,所述KITTI数据集包括训练图像、测试图像、点云数据和标定参数;

选取子单元,用于选取所述KITTI数据集中的split1分割数据,得到目标检测数据集。

进一步地,所述缩放单元,具体用于将所述目标检测数据集中的图片大小缩放为预设图片大小,得到缩放数据集。

进一步地,所述预测单元包括:

构建子单元,用于基于先验的2D-3D锚框构建基础检测器;

预测子单元,用于将所述特征图输入至所述基础检测器中进行预测,得到预测框坐标值;其中,所述预测框坐标值包括2D框坐标值和3D框坐标值;

处理子单元,用于经过非极大值抑制对所述预测框坐标值进行处理,得到预测结果。

进一步地,所述确定单元包括:

转换子单元,用于对所述预测结果进行数据转换,得到最终的3D目标检测效果图;

生成子单元,用于根据所述3D目标检测效果图生成最终的障碍物检测结果。

本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的钢厂环境下障碍物检测方法。

本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的钢厂环境下障碍物检测方法。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种钢厂环境下障碍物检测方法的流程示意图;

图2为本申请实施例提供的一种钢厂环境下障碍物检测方法的流程示意图;

图3为本申请实施例提供的一种钢厂环境下障碍物检测装置的结构示意图;

图4为本申请实施例提供的一种钢厂环境下障碍物检测装置的结构示意图;

图5为本申请实施例提供的一种CBAM结构的示意图;

图6为本申请实施例提供的一种基于注意力机制的3D目标侦测流程图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

实施例1

请参看图1,图1为本实施例提供了一种钢厂环境下障碍物检测方法的流程示意图。其中,该钢厂环境下障碍物检测方法包括:

S101、获取钢厂环境下待检测的目标检测数据集。

S102、对目标检测数据集进行缩放处理,得到缩放数据集。

S103、通过预设的特征提取网络对缩放数据集进行处理,得到特征图。

S104、根据特征图进行障碍物预测,得到预测结果。

S105、根据预测结果确定最终的障碍物检测结果。

可见,该方法提供了一种基于注意力机制的单目3D目标检测方法,能够解决现有同类方法对钢厂环境下障碍物快速感知问题,从而能够提高单目3D目标检测的精度和速度。

本实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。

在本实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。

可见,实施本实施例所描述的钢厂环境下障碍物检测方法,能够基于加入的注意力机制实时感知轨道机车周围障碍物的3D bbox,从而实现速度快,准确度高,泛化性强的效果,进而精准地判断出物体的位置和朝向。此时,再将该信息提供给对应的功能模块,便能够为轨道机车自动驾驶的路径规划与决策提供可靠的数据支持。

实施例2

请参看图2,图2为本实施例提供了一种钢厂环境下障碍物检测方法的流程示意图。其中,该钢厂环境下障碍物检测方法包括:

S201、获取KITTI数据集;其中,KITTI数据集包括训练图像、测试图像、点云数据和标定参数。

S202、选取KITTI数据集中的split1分割数据,得到目标检测数据集。

S203、将目标检测数据集中的图片大小缩放为预设图片大小,得到缩放数据集。

本实施例中,该方法可以将3D目标检测数据集中的RGB图像大小缩放为512×1760,分别作为特征提取网络的输入。

在本实施例中,该方法可以选用KITTI数据集的split1分割结果作为3D目标检测数据集,其中,KITTI数据集总共包含7481张训练图像和7518张测试图像,以及相应的点云和标定参数。它包括80256个2D和3D标记的三种类型的对象,即汽车、行人和自行车。根据物体的遮挡和截断程度,每个3D地面实况分为三个难度类别:简单、中等和困难。

在本实施例中,KITTI数据集有两种训练集和验证集分割,一种是split1,由3712张训练图像和3769张验证图像组成;另一种是split2,由3682张训练图像和3769张验证图像组成。该数据集可以用于执行三项任务:2D目标检测、3D目标检测和鸟瞰图下目标检测。所有输入的图像像素大小为512×1760。

S204、通过预设的特征提取网络对缩放数据集进行处理,得到特征图。

本实施例中,该方法可以将上山虎固定大小的RGB图像输入到特征提取网络,生成其对应的特征图。

本实施例中,特征提取网络是基于DLA34的神经网络。

在本实施例中,特征提取网络的主干是选用AN模块和注意力机制(CBAM)模块来进行计算的,其能够通过对输入深度图的特征提取,得到重要的语义信息。其中,CBAM结构如图5所示。

基于图5可以看出,卷积层输出的结果,会先通过一个通道注意力机制,得到加权结果之后,会再经过一个空间注意力模块,最终进行加权得到结果。通道注意力模块(SAM)如图5所示。将输入的特征图,分别经过基于width和height的global max pooling和global average pooling,然后分别经过MLP。将MLP输出的特征进行基于element-wise(element-wise是神经网络编程中非常常见的张量操作,它在相应张量内的对应的元素进行操作。)的加和操作,再经过sigmoid激活操作,生成最终的channel attention featuremap。将该channel attention feature map和input feature map做element-wise乘法操作,生成Spatial attention模块需要的输入特征。其中,通道注意力机制可以表达为:

/>

空间注意力模块(spatial attention module)也如图5所示。将Channelattention模块输出的特征图作为本模块的输入特征图。首先做一个基于channel的globalmax pooling和global average pooling,然后将这2个结果基于channel做concat操作。然后经过一个卷积操作,降维为1个channel。再经过sigmoid生成spatial attentionfeature。最后将该feature和该模块的输入feature做乘法,得到最终生成的特征。其中,空间注意力机制可以表达为:

对于输入的特征图,CBAM模块会沿着两个独立的维度(通道和空间)依次推断注意力图,然后将将注意力图与输入的特征图相乘以进行自适应特征优化。

S205、基于先验的2D-3D锚框构建基础检测器。

S206、将特征图输入至基础检测器中进行预测,得到预测框坐标值;其中,预测框坐标值包括2D框坐标值和3D框坐标值。

S207、经过非极大值抑制对预测框坐标值进行处理,得到预测结果。

S208、对预测结果进行数据转换,得到最终的3D目标检测效果图。

S209、根据3D目标检测效果图生成最终的障碍物检测结果。

本实施例中,该方法可以对最终生成的特征图进行2D、3D包围框的预测,将预测结果进行数据转换,转换为最终的3D目标检测效果图。

在本实施例中,该方法可以采用基于先验的2D-3D锚框为基础检测器。

具体的,该方法首先可以将特征提取网络输出的特征图作为检测器输入,预测得到2D、3D框坐标值,然后经过非极大值抑制和数据转换来完成2D、3D框回归。其中,该方法首先在2D空间上定义2D-3D锚点,然后使用训练数据集中的相应关系来计算它在三维空间中的部分。

举例来说,该方法可以使用两个空间的参数定义一个模板锚点:{[Ax,Ay,Aw,Ah]2D,[Az,Aw,Ah,Al,Aα]3D},其中[Az,Aw,Ah,Al,Aα]3D表示3D锚点(深度,形状,旋转),[Ax,Ay,Aw,Ah]2D表示2D锚点。其中,具体将网络输出和预定义的锚结合,获得估计的3D框的的结合方式可以如下:

(1)[x’,y’]2D=[Ax,Ay]2D+[tx,ty]2D*[Aw,Ah]2D;

(2)[x’,y’]p=[Ax,Ay]2D+[tx,ty]p*[Aw,Ah]2D;

(3)[w’,h’]2D=[Aw,Ah]2D·exp([tw,th]2D);

(4)[w’,h’,l’]3D=[Aw,Ah,Al]3D·exp([tw,th,tl]3D);

(5)[z’,z’(m),α’]p=[Az,Az,Aα]+[tz,tz,tαlphα]3D。

其中,[tx,ty,tw,th]2D表示预测的2D框,[tx,ty]p为预测的3D中心在2D下的投影位置,[tz,tw,th,tl,tα]3D分别表示深度、预测的3D形状和旋转;表示3D框的8个角点。

其中,[x’,y’]p,表示预测的3D中心在2D上的投影坐标;[z’,z’(m),α’]p表示预测3D框的中心和其八个顶点的深度值、旋转角。

本实施例中,backbone(主干网络),还可以选用残差结构,从而进一步地提升网络效率。

本实施例中,图6示出了本方法中基于注意力机制的3D目标侦测流程图。

本实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。

在本实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。

可见,实施本实施例所描述的钢厂环境下障碍物检测方法,能够基于加入的注意力机制实时感知轨道机车周围障碍物的3D bbox,从而实现速度快,准确度高,泛化性强的效果,进而精准地判断出物体的位置和朝向。此时,再将该信息提供给对应的功能模块,便能够为轨道机车自动驾驶的路径规划与决策提供可靠的数据支持。

实施例3

请参看图3,图3为本实施例提供的一种钢厂环境下障碍物检测装置的结构示意图。如图3所示,该钢厂环境下障碍物检测装置包括:

获取单元310,用于获取钢厂环境下待检测的目标检测数据集;

缩放单元320,用于对目标检测数据集进行缩放处理,得到缩放数据集;

处理单元330,用于通过预设的特征提取网络对缩放数据集进行处理,得到特征图;

预测单元340,用于根据特征图进行障碍物预测,得到预测结果;

确定单元350,用于根据预测结果确定最终的障碍物检测结果。

本实施例中,对于钢厂环境下障碍物检测装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。

可见,实施本实施例所描述的钢厂环境下障碍物检测装置,能够基于加入的注意力机制实时感知轨道机车周围障碍物的3D bbox,从而实现速度快,准确度高,泛化性强的效果,进而精准地判断出物体的位置和朝向。此时,再将该信息提供给对应的功能模块,便能够为轨道机车自动驾驶的路径规划与决策提供可靠的数据支持。

实施例4

请参看图4,图4为本实施例提供的一种钢厂环境下障碍物检测装置的结构示意图。如图4所示,该钢厂环境下障碍物检测装置包括:

获取单元310,用于获取钢厂环境下待检测的目标检测数据集;

缩放单元320,用于对目标检测数据集进行缩放处理,得到缩放数据集;

处理单元330,用于通过预设的特征提取网络对缩放数据集进行处理,得到特征图;

预测单元340,用于根据特征图进行障碍物预测,得到预测结果;

确定单元350,用于根据预测结果确定最终的障碍物检测结果。

作为一种可选的实施方式,获取单元310包括:

获取子单元311,用于获取KITTI数据集;其中,KITTI数据集包括训练图像、测试图像、点云数据和标定参数;

选取子单元312,用于选取KITTI数据集中的split1分割数据,得到目标检测数据集。

作为一种可选的实施方式,缩放单元320,具体用于将目标检测数据集中的图片大小缩放为预设图片大小,得到缩放数据集。

作为一种可选的实施方式,预测单元340包括:

构建子单元341,用于基于先验的2D-3D锚框构建基础检测器;

预测子单元342,用于将特征图输入至基础检测器中进行预测,得到预测框坐标值;其中,预测框坐标值包括2D框坐标值和3D框坐标值;

处理子单元343,用于经过非极大值抑制对预测框坐标值进行处理,得到预测结果。

作为一种可选的实施方式,确定单元350包括:

转换子单元351,用于对预测结果进行数据转换,得到最终的3D目标检测效果图;

生成子单元352,用于根据3D目标检测效果图生成最终的障碍物检测结果。

本实施例中,对于钢厂环境下障碍物检测装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。

可见,实施本实施例所描述的钢厂环境下障碍物检测装置,能够基于加入的注意力机制实时感知轨道机车周围障碍物的3D bbox,从而实现速度快,准确度高,泛化性强的效果,进而精准地判断出物体的位置和朝向。此时,再将该信息提供给对应的功能模块,便能够为轨道机车自动驾驶的路径规划与决策提供可靠的数据支持。

本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中的钢厂环境下障碍物检测方法。

本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中的钢厂环境下障碍物检测方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

相关技术
  • 一种障碍物检测方法、装置、设备及存储介质
  • 一种利用光标定的无人驾驶车障碍物视觉检测方法与装置
  • 一种用于野外环境无人驾驶的正负障碍物检测方法
  • 一种障碍物集中环境下的机器人路径生成方法
  • 基于双目视觉的室内阴影环境下障碍物检测方法及装置
  • 基于双目视觉的室内阴影环境下障碍物检测方法及装置
技术分类

06120115933612