掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本公开实施例涉及自动驾驶技术领域,特别是涉及一种目标检测方法、装置、电子设备、存储介质和程序产品。

背景技术

在自动驾驶汽车的感知场景中,感知系统可以进行环境感知,并输出检测到的障碍物的位置、方向和速度等属性。多任务模型是将障碍物的位置、方向和速度等属性在一个大模型中统一输出的模型。

现有的多任务模型,是利用三个并行分支分别进行特征提取,对提取到的多个特征进行合并,再根据合并结果来识别障碍物属性。

然而,传统技术中三个并行分支存在参数堆叠导致耗时较高的问题。

发明内容

本公开实施例提供一种目标检测方法、装置、电子设备、存储介质和程序产品,可以用于改善现有的多任务模型中参数堆叠导致耗时较高的问题。

第一方面,本公开实施例提供一种目标检测方法,该方法包括:

获取待检测的目标图像;

通过预先训练的目标检测模型对目标图像进行检测,得到检测结果;

其中,目标检测模型包括检测网络和多个属性识别网络,检测网络与各属性识别网络共用同一个卷积层;检测网络用于识别目标图像中至少一个检测对象的类别信息和位置信息;不同的属性识别网络用于识别检测对象的不同属性。

第二方面,本公开实施例提供一种目标检测装置,该装置包括:

获取模块,用于获取待检测的目标图像;

检测模块,用于通过预先训练的目标检测模型对目标图像进行检测,得到检测结果;

其中,目标检测模型包括检测网络和多个属性识别网络,检测网络与各属性识别网络共用同一个卷积层;检测网络用于识别目标图像中至少一个检测对象的类别信息和位置信息;不同的属性识别网络用于识别检测对象的不同属性。

第三方面,本公开实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的方法。

本公开实施例提供的目标检测方法、装置、电子设备、存储介质和程序产品,获取待检测的目标图像,并通过预先训练的目标检测模型对目标图像进行检测,得到检测结果。本公开实施例基于现有的检测模型存在参数堆叠导致耗时较高的问题,从模型结构上出发重新设计了目标检测模型,目标检测模型不存在多个并行分支,且目标检测模型中检测网络和各属性识别网络共用一个卷积层,这使得整个模型不仅不存在参数堆叠还降低了参数量,从而降低了由参数堆叠导致的耗时;另外,现有的检测模型存在单个障碍物属性难以定向优化和删改的问题,目标检测模型对各障碍物属性进行解耦,有利于在对其它障碍物属性任务没有影响的前提下进行单个障碍物属性的增删改和定向优化。进一步的,基于预先训练的目标检测模型对目标图像进行检测,得到目标图像中至少一个检测对象的类别信息、位置信息和属性信息,并将这些信息进行汇总得到检测结果,由于目标检测模型不存在参数堆叠而导致的耗时,使得得到检测结果的速度更快,检测结果的准确度更高。

附图说明

图1为传统技术中的多任务模型结构的示意图;

图2为一个实施例中多任务模型结构的示意图;

图3为一个实施例中多任务模型结构的示意图;

图4为一个实施例中目标检测方法的应用环境图;

图5为一个实施例中目标检测方法的流程示意图;

图6为一个实施例中各检测对象的多个属性信息获取步骤的流程示意图;

图7为一个实施例中获取特征图的流程示意图之一;

图8为一个实施例中获取特征图的流程示意图之二;

图9为一个实施例中获取各检测对象的类别信息和位置信息步骤的流程示意图;

图10为一个实施例中不同膨胀率的膨胀卷积示意图;

图11为一个实施例中锯齿效应的可视化示意图;

图12为一个实施例中获取各检测对象的多个属性信息步骤的流程示意图;

图13为另一个实施例中目标检测方法的流程示意图;

图14为一个实施例中目标检测装置的结构框图;

图15为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开实施例,并不用于限定本公开实施例。

首先,在具体介绍本公开实施例的技术方案之前,先对本公开实施例基于的技术背景或者技术演进脉络进行介绍。通常情况下,自动驾驶是由计算机系统代替人来完成对汽车的操控的。自动驾驶汽车在道路上行驶时,离不开感知、决策、控制这三大要素,其中,感知作为让汽车“认得路”的重要环节,可以让自动驾驶汽车和驾驶员一样,读懂道路上的交通要素。简而言之,感知就是以多种传感器的数据和高精度地图的信息作为输入,经过一系列计算及处理,来对自动驾驶汽车的周围环境进行精确理解。

在自动驾驶车辆中,感知是通过感知系统来完成的,感知系统可以将车载相机采集的数据和高精度地图的信息作为输入,然后进行一系列计算及处理,再经过前融合或者后融合处理,最终将障碍物的位置、形状、类别、速度、以及施工区域、交通信号灯和交通警示灯等特殊场景的语义理解等信息输出。感知系统的感知对象可以分为两类,一类是静态对象,即道路、交通标识、静态障碍物等;另一类是动态对象,即车辆、行人、移动障碍物等。对于动态对象,除了要了解对象的具体类别,还需对位置、速度、方向等信息进行追踪,并根据追踪结果来预测对象接下来的行为。

感知系统有效地输出障碍物的位置、方向、速度等属性决定着自动驾驶汽车看得清多少障碍物,以及是否可以适应复杂多变的交通环境等。随着智能汽车智能化程度越高,对基于图像的感知要求也就越高。

多任务模型是将障碍物的位置、方向和速度等属性在一个大模型中统一输出的模型。传统技术中,多任务模型是将障碍物检测、要素语义分割、障碍物的属性分别作为3个头(head)实现端到端的多任务识别的。该方案可以实现从感知系统中输出障碍物轮廓、位置、方向、深度以及其它相关属性,其方案如图1所示。

其中,图1中的主干网络(backbone)是指模型的骨干,此处使用的是DLA34,层级融合网络(neck)此处使用的是DLA-UP和IDA-UP,后面接的检测头、语义分割头和障碍物识别头分别实现了障碍物检测、要素语义分割、障碍物属性识别。需要说明的是,由于障碍物的目标属性通过一个属性头很难获取到输入图像的特征图,因此障碍物属性识别是通过三个并行分支,再将并行的结果合并,最后通过第一识别头和第二识别头输出障碍物属性识别结果。其中,第一识别头可以识别路面上的车辆是否处于开启车门的状态,还可以识别路面上的车辆在输入图像上的高度,也可以识别道路上的交通锥、水马等路障是否处于可移动状态;第二识别头可以识别路面上障碍物在输入图像上的角度。

基于该背景,申请人通过长期的模型模拟研发以及实验数据的搜集、演示和验证,发现在现有的技术方案中,由于障碍物的属性识别需要经过三个并行分支并行后再合并,合并后的网络参数是单个属性头的3倍,这使得自动驾驶汽车的感知系统因存在参数堆叠而导致耗时较高;且,由于传统技术中的车门开启状态、车辆在输入图像上的高度和道路上的交通锥、水马等路障的可移动状态这三个障碍物属性用一个识别头输出,故这三个障碍物属性之间处于强耦合状态,难以支持单个障碍物属性的定向优化和任意增删改。

申请人最先想到是将多任务模型结构设计为图2的形式,每一个障碍物的属性、障碍物检测和要素语义分割单独做一个输出头,并将这些输出头都连接在主干网络和层级融合网络的特征提取器后面,这既可以实现属性之间的独立性来支持任意增删改,又可以降低参数量。从参数的统计上看,将图1所示的模型结构改变为图2所示的模型结构后,可以将网络的延迟降低7.15%,参数量降低4.1%。

同时,针对图2所示的模型结构进行了模型训练,模型训练结果相比于图1中模型结构的训练结果如表1所示:

表1图2模型结构与图1模型结构的结果对比

其中,检测准确率(Detection Mean Average Precision,Detection MAP)用于评估检测任务的样本平均准确率,数值越大表示性能越好。动态障碍物速度误差(SpeedError)用于评估对道路上车辆、行人等速度估计的误差,值越小表示性能越好。动态障碍物方向误差(Heading Error)用于评估对道路上车辆、行人等方向估计的误差,值越小表示性能越好。

从表1中的结果可以看出,图2的结构虽然可以实现耗时降低和目标属性的低耦合,但是从性能角度上是不符合预期的,因为检测的准确率降低了1.22%,动态障碍物的速度误差增加了1.77%,动态障碍物的方向误差增加了16.36%。

基于此,申请人可视化模型的中间特征层来分析造成该结果的原因,发现将通过相机等传感器采集到的图像输入主干网络和层级融合网络后得到的特征图像目标前景不明显,将通过相机等传感器采集到的图像输入主干网络和层级融合网络后,再输入检测网络得到的目标位置关键点可以得到道路上的障碍物如车、人等目标的位置,因此,若将障碍物的属性网络结合检测网络得到的目标位置关键点,会对得到的障碍物的属性信息的性能会有正向作用。

基于此,申请人设计了图3的模型结构,并对图3的模型结构进行了训练和评估,模型训练结果相比于图1中模型结构的训练结果如表2所示:

表2图3模型结构与图1模型结构的结果对比

从表2中的结果可以看出,图3的模型结构的性能是有正向提升的。其中检测的准确率提升了0.43%,动态障碍物的速度误差降低了1.15%,动态障碍物的方向误差降低了2.75%。并且依然具备参数量少和障碍物目标属性耦合性低的优势,从参数的统计上看,将图1所示的模型改变为图3所示的模型后,可以将网络的延迟降低7.15%,参数量降低4.1%。

因此,将图3所示的模型结构确定为本公开实施例的多任务模型结构。另外,需要说明的是,下述实施例介绍的技术方案,申请人均付出了大量的创造性劳动。

下面结合本公开实施例所应用的场景,对本公开实施例涉及的技术方案进行介绍。

本公开实施例提供的目标检测方法,可以适用于如图4所示的自动驾驶车辆10中的电子设备中。该电子设备可以是车载中控,也可以是设置在车辆中的终端,本公开实施例对电子设备的具体形式并不做限定。

在一个实施例中,如图5所示,提供了一种目标检测方法,以该方法应用于图4中的电子设备为例进行说明,包括以下步骤:

步骤201、获取待检测的目标图像。

其中,待检测的目标图像可以是每隔预设时间段激光雷达或者相机传感器采集的长焦视图、短焦视图、左前方视图和右前方视图。需要说明的是,预设时间段可以是自动驾驶车辆需要间隔时长采集一次图像的时间,示例性的,可以是几秒,也可以是几十秒。

在本公开实施例中,在自动驾驶汽车行驶的过程中,车载相机传感器可以采集待检测的目标图像,并将待检测的目标图像逐一发送给电子设备,电子设备获取待检测的目标图像。需要说明的是,电子设备中设置有目标检测模型,目标检测模型可以对待检测的目标图像中进行检测。

步骤202、通过预先训练的目标检测模型对目标图像进行检测,得到检测结果。

其中,目标检测模型可以是上述背景技术中提到的多任务模型,用于检测目标图像的属性信息,目标检测模型可以包括但不限于检测网络和多个属性识别网络。需要说明的是,检测网络用于识别目标图像中至少一个检测对象的类别信息和位置信息,多个属性识别网络用于识别检测对象的不同属性。其中,检测对象可以是目标图像中的车辆、行人、骑两轮车的人、骑三轮车的人、锥桶、路障等,检测对象的不同属性可以是车辆的车门是否关闭、车辆在目标图像上的高度、路障是否处于可移动状态、障碍物在目标图像上的角度等。

需要说明的是,由于膨胀卷积可以在参数不变的情况下保证更大的检测视野,因此预先训练目标检测模型的过程可以是对检测网络和多个属性识别网络分别进行多次膨胀卷积。示例性的,可以对检测网络进行两次膨胀卷积,对多个属性识别网络进行三次膨胀卷积,需要说明的是,检测网络与各属性识别网络共用一个卷积层。该共用的卷积层可以是检测网络的第一次膨胀卷积层,也可以是检测网络的第二次膨胀卷积层。

在本公开实施例中,电子设备可以通过预先训练的目标检测模型中的检测网络和多个属性识别网络对上述步骤201获取的待检测的目标图像进行检测,具体检测目标图像中检测对象的类别信息、位置信息和属性信息,并将这些信息汇总,得到检测结果。

本公开实施例提供的目标检测方法,获取待检测的目标图像,并通过预先训练的目标检测模型对目标图像进行检测,得到检测结果。本公开实施例基于现有的检测模型存在参数堆叠导致耗时较高的问题,从模型结构上出发重新设计了目标检测模型,目标检测模型不存在属性头分支并行后再合并的过程,且目标检测模型中检测网络和各属性识别网络共用一个卷积层,这使得整个模型不仅不存在参数堆叠还降低了参数量,从而降低了由参数堆叠导致的耗时;另外,现有的检测模型存在单个障碍物属性难以定向优化和删改的问题,目标检测模型对各障碍物属性进行解耦,有利于在对其它障碍物属性任务没有影响的前提下进行单个障碍物属性的增删改和定向优化。进一步的,基于预先训练的目标检测模型对目标图像进行检测,得到目标图像中至少一个检测对象的类别信息、位置信息和属性信息,并将这些信息进行汇总得到检测结果,由于目标检测模型不存在参数堆叠而导致的耗时,使得得到检测结果的速度更快,检测结果的准确度更高。

在一个实施例中,在图5所示实施例的基础上,上述目标检测模型还包括特征提取网络,可以对上述通过预先训练的目标检测模型对目标图像进行检测,得到检测结果的过程进行描述,如图6所示,上述“通过预先训练的目标检测模型对目标图像进行检测,得到检测结果”可以包括以下步骤:

步骤301、通过特征提取网络对目标图像进行特征提取,得到特征图。

其中,特征提取网络可以包括但不限于主干网络和融合网络。

在本公开实施例中,可以将步骤201获取的待检测的目标图像输入到预先训练的目标检测模型中,目标检测模型对目标图像先进行调整图像尺寸大小的操作,目标图像的尺寸从原来的1920*1200变化到1088*704,并将1088*704的图像的像素进行归一化操作,将归一化后的图像输入特征提取网络进行特征提取,并将提取到的特征进行汇总,得到该目标图像的特征图。

可选的,可以对通过特征提取网络对目标图像进行特征提取,得到特征图的过程进行描述,如图7所示,上述“通过特征提取网络对目标图像进行特征提取,得到特征图”可以包括以下步骤:

步骤401、将目标图像输入主干网络进行特征提取,得到候选特征。

其中,主干网络可以是backbone网络,用于提取目标图像的候选特征,需要说明的是,候选特征可以包括检测对象的轮廓特征和关键点特征等一系列目标检测图像中的前景信息特征。

在本公开实施例中,可以将目标图像输入主干网络中对目标图像的特征进行提取,并将提取到的特征作为目标图像的候选特征。示例性的,将目标图像输入backbone网络提取目标图像的候选特征,在提取目标图像的候选特征期间目标图像的尺寸不断缩小且目标图像的层数不断增加,直至目标图像的特征提取完成,此时,目标图像的尺寸缩小为34*22。

步骤402、将候选特征输入融合网络进行融合,得到特征图。

其中,融合网络可以是neck网络,用于对backbone网络提取的目标图像的候选特征进行融合,并通过融合后的特征得到特征图。

在本公开实施例中,可以将上述步骤401获取的候选特征输入到融合网络,融合网络对候选特征进行融合,并将融合后的特征图像作为特征图。示例性的,将候选特征输入neck网络进行特征层的融合,在neck网络上进行一系列的采样和卷积操作后得到272*176的特征图。

步骤302、通过检测网络对特征图进行检测,得到各检测对象的类别信息和位置信息。

其中,检测网络可以是Detection网络,用于识别目标图像中各检测对象的类别信息和位置信息。需要说明的是,各检测对象可以包括但不限于目标图像中的车辆、行人、骑两轮车的人、骑三轮车的人、锥桶、路障等。类别信息可以是检测对象属于某种类别,示例性的,若检测对象是车辆,则类别信息为车辆,若检测对象是路障,则类别信息为障碍物类。位置信息可以是检测对象在特征图上的位置坐标,示例性的,若检测对象为车辆,在特征图上的位置信息为(26,35),则表示该车辆的位置信息为,在以特征图的左底角为坐标原点,特征图的底边为x轴,左侧边为y轴的坐标系下,该车辆在横坐标为26,纵坐标为35的位置上。

在本公开实施例中,可以将上述步骤301中获取的特征图输入预设的目标检测模型中的检测网络中进行检测,检测网络主要检测目标图像中的各检测对象的类别信息和位置信息,并将检测到的类别信息和位置信息作为该检测对象的类别信息和位置信息。示例性的,特征图上可以用方框的形式将检测对象框在方框内,并在方框的右上角显示该检测对象的类别信息和位置信息,需要说明的是,一张特征图上可以显示一个检测对象的类别信息和位置信息,一张特征图上也可以显示多个检测对象的类别信息和位置信息。

步骤303、通过多个属性识别网络分别对特征图进行属性识别,得到各检测对象的多个属性信息。

其中,属性识别网络可以用于识别目标图像中各检测对象的属性信息,例如,车辆车门的开启或者关闭状态、路面上的行人是否处于可移动状态以及路面上的路障在鸟瞰器上的角度等。

可选的,多个属性识别网络可以包括车门识别网络、高度识别网络、路障识别网络和障碍物角度识别网络中的至少两个。需要说明的是,各属性识别网络均包括三层卷积,其中第一层卷积网络和检测网络的第一层卷积网络共用。

其中,车门识别网络用于识别车门是否关闭,示例性的,0表示车辆的车门处于关闭状态,1表示车辆的车门处于开启状态。高度识别网络用于识别车辆在鸟瞰图上的高度,即为目标图像上的车辆从车头到车尾的距离,一般情况下,该高度用浮点数表示。路障识别网络用于识别路障是否可移动,其中,路障可以为道路上的交通锥、水马等,示例性的,0表示路障不可移动,1表示路障可移动。障碍物角度识别网络用于识别障碍物在鸟瞰图上的角度,表示目标图像上障碍物的位置与驾驶员视角的夹角,该角度是物理世界中方向的含义,一般情况下,该角度用浮点数表示。

在本公开实施例中,可以将上述步骤301中获取的特征图输入预设的目标检测模型中的多个属性识别网络中对特征图进行属性识别,各属性识别网络主要识别特征图像中各检测对象的多个属性信息。需要说明的是,一个属性识别网络可以识别特征图中的各检测对象的一类属性信息,多个属性识别网络可以识别特征图中的各检测对象的多个属性信息。示例性的,假设将特征图上车辆的车门处于开启状态记为1,将特征图上车辆的车门处于关闭状态记为0,示例性的,若特征图上车辆的车门处于开启状态且在鸟瞰图上的高度为1.34cm,则检测对象为车辆,车辆的车门属性信息为1,车辆的高度识别信息为1.34cm。

本公开实施例提供的获取检测结果的方法,通过特征提取网络对目标图像进行特征提取,得到特征图,通过检测网络对特征图进行检测,得到各检测对象的类别信息和位置信息,通过多个属性识别网络分别对特征图进行属性识别,得到各检测对象的多个属性信息。本公开实施例基于特征提取网络得到特征图,再根据特征图和检测网络得到各检测对象的类别信息和位置信息,由于各检测对象的类别信息和位置信息是根据特征图得到的,这使得得到的检测对象的类别信息和位置信息更加精确;进一步的,根据特征图和多个属性识别网络得到各检测对象的多个属性信息,使得得到的各检测对象的多个属性信息更加精确。

在一个实施例中,在图6所示实施例的基础上,上述目标检测模型还包括语义分割网络,如图8所示,上述方法还包括:

步骤304、通过语义分割网络对特征图进行语义分割,得到各检测对象的语义分割结果。

其中,语义分割网络可以是对特征图像进行像素级别的分类并输出每个类别的轮廓信息的网络。需要说明的是,本公开实施例中的语义分割网络的分割类别可以包含26类,例如,天空、建筑物、小动物、鸟、行人、灯杆等。

其中,语义分割可以是把特征图中每个像素赋予一个类别标签(比如汽车、建筑、地面、天空等),并用不同的颜色来表示。

在本公开实施例中,可以将上述步骤301中获取的特征图输入预设的目标检测模型中的语义分割网络中对特征图进行语义分割,并将特征图的语义分割结果作为检测对象的语义分割结果。示例性的,语义分割网络可以通过三层卷积网络得到,第一层卷积网络为卷积核等于2的反卷积网络,第二层卷积网络为卷积核等于3的常规卷积网络,第三层卷积网络为卷积核等于2的反卷积网络,通过第一层卷积网络和第三层卷积网络的两次反卷积,将上述步骤301特征提取网络输出的272*176特征图变换为704*1088的语义分割结果,并将语义分割结果显示在特征图上,得到语义分割图。

本实施例提供的获取语义分割结果的方法,通过语义分割网络对特征图进行语义分割,得到各检测对象的语义分割结果。由于各检测对象的语义分割结果是通过特征图获取的,这使得得到的各检测对象的语义分割结果更加准确。

在一个实施例中,在图8所示实施例的基础上,上述检测网络包括第一卷积层和第二卷积层,检测网络和各属性识别网络共用第一卷积层,可以对上述通过检测网络对特征图进行检测,得到各检测对象的类别信息和位置信息的过程进行描述,如图9所示,上述“通过检测网络对特征图进行检测,得到各检测对象的类别信息和位置信息”可以包括以下步骤:

步骤501、将特征图输入到第一卷积层进行膨胀卷积,得到第一卷积层输出的第一卷积结果。

其中,第一卷积层的卷积参数可以是通过大量实验获取到的参数,示例性的,第一卷积层可以是膨胀率为2,卷积核为3的膨胀卷积。需要说明的是,检测网络和各属性识别网络共用第一卷积层。

下面对得到第一卷积层的卷积参数的过程进行详细描述:

如图10所示,该图是膨胀率(r)分别为1、2和3时的膨胀卷积示意图,可以看出膨胀卷积可以在参数不变仅改变膨胀率的情况下保证更大的感受野。但是多次叠加多个具有相同膨胀率的卷积核可能会造成目标图像中有一些像素自始至终都没有参与运算,使得这种卷积核排列方式不起任何作用,为了避免膨胀卷积多次叠加导致如图11所示的锯齿效应,本公开实施例实验了多种卷积核的排列方式记录在表3中。

表3多种卷积核在不同排列方式下的效果

在本公开实施例中,在表3结果统计的基础上,综合考虑稳定性与性能,本发明选择了r=2的3*3conv+r=6的3*3conv进行组合,将该组合嵌入到目标检测模型的结构设计中,共同完成本公开实施例对目标图像的检测。

综上所述,将第一卷积层的卷积参数设计为膨胀率为2,卷积核为3。

在本公开实施例中,可以将上述步骤301中获取的特征图输入预设的目标检测模型中的第一卷积层中对特征图进行膨胀卷积,得到特征图的膨胀卷积结果,并将该膨胀卷积结果作为第一卷积层输出的第一卷积结果。

步骤502、将第一卷积结果输入到第二卷积层,得到各检测对象的类别信息和位置信息。

其中,第二卷积层可以是卷积核为1的常规卷积。

在本公开实施例中,可以将上述步骤501中第一卷积层输出的第一卷积结果输入到第二卷积层中进行卷积,得到特征图的第二卷积层的卷积结果,并将该卷积结果作为各检测对象的类别信息和位置信息。

本公开实施例提供的获取检测对象的类别信息和位置信息的方法,将特征图输入到第一卷积层进行膨胀卷积,得到第一卷积层输出的第一卷积结果,再将第一卷积结果输入到第二卷积层,得到各检测对象的类别信息和位置信息。通过实验获取的第一卷积层的参数进行第一膨胀卷积和第二常规卷积,并且检测网络和各属性识别网络共用第一卷积层,使得获取的各检测对象的类别信息和位置信息具备参数量少的优势,从而因卷积参数减少而使得卷积的过程中耗时减少。

在一个实施例中,在图9所示实施例的基础上,各属性识别网络还包括第三卷积层和第四卷积层,可以对通过多个属性识别网络分别对特征图进行属性识别,得到各检测对象的多个属性信息的过程进行描述,如图12所示,上述“通过多个属性识别网络分别对特征图进行属性识别,得到各检测对象的多个属性信息”可以包括以下步骤:

步骤601、将第一卷积结果输入第三卷积层,得到第二卷积结果。

其中,第三卷积层的参数可以是上述步骤501中表3中的膨胀率为6,卷积核为3。

在本公开实施例中,可以将上述步骤501中第一卷积层输出的第一卷积结果输入到第三卷积层中进行卷积,得到特征图的第三卷积层的卷积结果,并将该卷积结果作为第二卷积结果。

步骤602、将第二卷积结果输入第四卷积层,得到各检测对象的多个属性信息。

其中,第四卷积层可以是卷积核为1的常规卷积。

在本公开实施例中,可以将上述步骤601中的第二卷积结果输入到第四卷积层中进行卷积,得到特征图的第四卷积层的卷积结果,并将该卷积结果作为各检测对象的多个属性信息。

本公开实施例提供的获取各检测对象的多个属性信息的方法,将第一卷积结果输入第三卷积层,得到第二卷积结果,将第二卷积结果输入第四卷积层,得到各检测对象的多个属性信息。通过实验获取的第三卷积层的参数进行第三膨胀卷积和第四常规卷积,并且检测网络和各属性识别网络共用第一卷积层,使得获取的各检测对象的多个属性信息具备参数量少的优势,从而因卷积参数减少而使得卷积的过程中耗时减少。

下面结合一个具体的场景来介绍本公开的一个实施例,图13为本申请实施例提供的一种目标检测方法的流程图,如图13所示,该方法可以包括以下步骤:

步骤701、获取待检测的目标图像。

步骤702、将目标图像输入主干网络进行特征提取,得到候选特征。

步骤703、将候选特征输入融合网络进行融合,得到特征图。

步骤704、将特征图输入到第一卷积层进行膨胀卷积,得到第一卷积层输出的第一卷积结果。

步骤705、将第一卷积结果输入到第二卷积层,得到各检测对象的类别信息和位置信息。

步骤706、将第一卷积结果输入第三卷积层,得到第二卷积结果。

步骤707、将第二卷积结果输入第四卷积层,得到各检测对象的多个属性信息。

其中,第三卷积层和第四卷积层包括车门识别网络、高度识别网络、路障识别网络和障碍物角度识别网络中的至少两个;所述车门识别网络用于识别车门是否关闭;所述高度识别网络用于识别车辆在鸟瞰图上的高度;所述路障识别网络用于识别路障是否可移动;所述障碍物角度识别网络用于识别障碍物在鸟瞰图上的角度。

步骤708、通过语义分割网络对特征图进行语义分割,得到各检测对象的语义分割结果。

本公开实施例提供的目标检测方法,获取待检测的目标图像,并通过预先训练的目标检测模型对目标图像进行检测,得到检测结果。本公开实施例基于现有的检测模型存在参数堆叠导致耗时较高的问题,从模型结构上出发重新设计了目标检测模型,目标检测模型不存在属性头分支并行后再合并的过程,且目标检测模型中检测网络和各属性识别网络共用一个卷积层,这使得整个模型不仅不存在参数堆叠还降低了参数量,从而降低了由参数堆叠导致的耗时;另外,现有的检测模型存在单个障碍物属性难以定向优化和删改的问题,目标检测模型对各障碍物属性进行解耦,有利于在对其它障碍物属性任务没有影响的前提下进行单个障碍物属性的增删改和定向优化。进一步的,基于预先训练的目标检测模型对目标图像进行检测,得到目标图像中至少一个检测对象的类别信息、位置信息和属性信息,并将这些信息进行汇总得到检测结果,由于目标检测模型不存在参数堆叠而导致的耗时,使得得到检测结果的速度更快,检测结果的准确度更高。

应该理解的是,虽然图1-13的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-13中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图14所示,提供了一种目标检测装置,包括:获取模块801、检测模块802,其中:

获取模块801,用于获取待检测的目标图像。

检测模块802,用于通过预先训练的目标检测模型对目标图像进行检测,得到检测结果。其中,目标检测模型包括检测网络和多个属性识别网络,检测网络与各属性识别网络共用同一个卷积层;检测网络用于识别目标图像中至少一个检测对象的类别信息和位置信息;不同的属性识别网络用于识别检测对象的不同属性。

在一个实施例中,上述目标检测模型还包括特征提取网络,上述检测模块802包括:提取单元、检测单元和识别单元,其中:

提取单元,具体用于通过特征提取网络对目标图像进行特征提取,得到特征图;

检测单元,具体用于通过检测网络对特征图进行检测,得到各检测对象的类别信息和位置信息;

识别单元,具体用于通过多个属性识别网络分别对特征图进行属性识别,得到各检测对象的多个属性信息。

在一个实施例中,目标检测模型还包括语义分割网络,检测模块802还包括:分割单元,具体用于通过语义分割网络对特征图进行语义分割,得到各检测对象的语义分割结果。

在一个实施例中,检测网络包括第一卷积层和第二卷积层,检测网络和各属性识别网络共用第一卷积层,上述检测单元具体用于将特征图输入到第一卷积层进行膨胀卷积,得到第一卷积层输出的第一卷积结果;将第一卷积结果输入到第二卷积层,得到各检测对象的类别信息和位置信息。

在一个实施例中,各属性识别网络还包括第三卷积层和第四卷积层,上述识别单元,具体用于将第一卷积结果输入第三卷积层,得到第二卷积结果;将第二卷积结果输入第四卷积层,得到各检测对象的多个属性信息。

在一个实施例中,特征提取网络包括主干网络和融合网络,上述提取单元,具体用于将目标图像输入主干网络进行特征提取,得到候选特征;将候选特征输入融合网络进行融合,得到特征图。

在一个实施例中,多个属性识别网络包括车门识别网络、高度识别网络、路障识别网络和障碍物角度识别网络中的至少两个;车门识别网络用于识别车门是否关闭;高度识别网络用于识别车辆在鸟瞰图上的高度;路障识别网络用于识别路障是否可移动;障碍物角度识别网络用于识别障碍物在鸟瞰图上的角度。

关于目标检测装置的具体限定可以参见上文中对于目标检测方法的限定,在此不再赘述。上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

图15是根据一示例性实施例示出的一种电子设备1300的框图。例如,电子设备1300可以是移动电话,车载中控,数字广播终端,消息收发设备,平板设备,个人数字助理等。

参照图15,电子设备1300可以包括以下一个或多个组件:处理组件1302,存储器1304,电源组件1306,多媒体组件1308,音频组件1310,输入/输出(I/O)的接口1312,传感器组件1314,以及通信组件1316。其中,存储器上存储有在处理器上运行的计算机程序或者指令。

处理组件1302通常控制电子设备1300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令,以完成上述方法的全部或部分步骤。此外,处理组件1302可以包括一个或多个模块,便于处理组件1302和其他组件之间的交互。例如,处理组件1302可以包括多媒体模块,以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在电子设备1300的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件1306为电子设备1300的各种组件提供电力。电源组件1306可以包括电源管理系统,一个或多个电源,及其他与为电子设备1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述电子设备1300和用户之间的提供一个输出接口的触控显示屏。在一些实施例中,触控显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1308包括一个前置摄像头和/或后置摄像头。当电子设备1300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如,音频组件1310包括一个麦克风(MIC),当电子设备1300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中,音频组件1310还包括一个扬声器,用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器,用于为电子设备1300提供各个方面的状态评估。例如,传感器组件1314可以检测到电子设备1300的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1300的显示器和小键盘,传感器组件1314还可以检测电子设备1300或电子设备1300一个组件的位置改变,用户与电子设备1300接触的存在或不存在,电子设备1300方位或加速/减速和电子设备1300的温度变化。传感器组件1314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件1316被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备1300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,电子设备1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述目标检测方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1304,上述指令可由电子设备1300的处理器1320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品,该计算机程序被处理器执行时,可以实现上述方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行这些计算机指令时,可以全部或部分地按照本公开实施例所述的流程或功能实现上述方法中的部分或者全部。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开实施例构思的前提下,还可以做出若干变形和改进,这些都属于本公开实施例的保护范围。因此,本公开实施例专利的保护范围应以所附权利要求为准。

相关技术
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 行人再识别方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 目标检测方法和装置、电子设备、存储介质、程序产品
  • 目标检测方法、电子设备、存储介质和计算机程序产品
技术分类

06120115923496