掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本公开涉及图像处理领域,具体而言,涉及一种目标对象检测方法及装置、电子设备及存储介质。

背景技术

施工建设具有扰动地表面积较大、破坏植被面积较大、扰动的土石方量多、堆置废弃物散、水土流失严重等特点,不合理的施工建设可能对地表造成严重的破坏,造成重大经济损失。

目前,一般是通过人工在遥感图像上标注建筑工地,之后利用标注后的遥感图像训练用于检测建筑工地的模型。这种人工标注遥感图像的方式,不仅存在标注成本高、标注效率低下的缺陷,并且由于人工标注的上述缺陷会造成训练样本数量较少,从而导致训练得到的模型检测精度不高。

发明内容

本公开实施例至少提供一种目标对象检测方法、装置、电子设备和存储介质。

第一方面,本公开实施例提供了一种目标对象检测方法,包括:

获取待检测图像;

将所述待检测图像输入对象检测模型,经过所述对象检测模型对所述待检测图像进行处理,输出所述待检测图像中各个像素点是否为目标对象的语义分割结果;所述对象检测模型为利用参考样本图像和与所述参考样本图像的拍摄时间不同的扩展样本图像训练得到的;所述参考样本图像中各个像素点设置有是否为目标对象的语义标注信息。

该方面,实现了对训练样本的扩充,即实现了利用较少的标注的样本,即上述参考样本图像,得到了较多的训练样本,即上述扩展样本图像和参考样本图像,这样不仅能够减少标注工作量,提高模型训练的效率,还能够通过提高训练样本的数量提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,所述扩展样本图像包括与所述参考样本图像的拍摄时间的差值小于第一预设时间间隔的正样本图像,以及与所述参考样本图像的拍摄时间的差值大于第二预设时间间隔的负样本图像;其中第一预设时间间隔小于所述第二预设时间间隔。

该实施方式,与参考样本图像的拍摄时间较近的扩展样本图像中对象的大概率不会发生改变,因此将与参考样本图像的拍摄时间较近的扩展样本图像作为正样本图像;与参考样本图像的拍摄时间较远的扩展样本图像中对象的大概率会发生改变,因此将与参考样本图像的拍摄时间较远的扩展样本图像作为负样本图像,这样设置的正、负样本图像能够提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,上述方法还包括训练所述对象检测模型的步骤:

将所述参考样本图像和所述参考样本图像对应的正样本图像作为正样本对,并将所述正样本图像中像素点是否为目标对象的语义标注信息设置为与所述参考样本图像中像素点是否为目标对象的语义标注信息相同;

将所述参考样本图像和所述参考样本图像对应的负样本图像作为负样本对,并将所述负样本图像中像素点是否为目标对象的语义标注信息设置为与所述参考样本图像中素点是否为目标对象的语义标注信息相反;

利用所述正样本对和负样本对训练所述对象检测模型,得到训练完成的对象检测模型。

该实施方式,通过对正、负样本对中的扩展样本图像中语义标注信息的设置,以及利用设置好的正、负样本对对对象检测模型进行训练,能够提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,所述利用所述正样本对和负样本对训练所述对象检测模型,得到训练完成的对象检测模型,包括:

利用对象检测模型,确定所述正样本对中参考样本图像的第一区域的第一语义特征信息,以及正样本图像的第二区域的第二语义特征信息;所述第一区域包括所述正样本对中参考样本图像中语义标注信息为目标对象的像素点;所述第二区域包括与所述第一区域中的像素点具有相同的地理位置的像素点;

利用对象检测模型,确定所述负样本对中参考样本图像的第三区域的第三语义特征信息,以及负样本图像的第四区域的第四语义特征信息;所述第三区域包括所述负样本对中参考样本图像中语义标注信息为目标对象的像素点;所述第四区域包括与所述第三区域中的像素点具有相同的地理位置的像素点;

确定所述正样本对对应的第一语义特征信息与所述第二语义特征信息之间的第一特征相似度,以及,确定所述负样本对对应的第三语义特征信息与所述第四语义特征信息之间的第二特征相似度;

基于各个所述正样本对对应的第一特征相似度和各个所述负样本对对应的第二特征相似度,训练所述对象检测模型,得到训练完成的对象检测模型。

该实施方式,利用语义标注信息为目标对象的像素点所对应的第一特征相似度和第二特征相似度,来训练对象检测模型,能够提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,所述基于各个所述正样本对对应的第一特征相似度和各个所述负样本对对应的第二特征相似度,训练所述对象检测模型,包括:

利用对象检测模型,确定所述正样本对中参考样本图像的除第一区域以外的区域的第五语义特征信息,以及正样本图像的除第二区域以外的区域的第六语义特征信息;

利用对象检测模型,确定所述负样本对中参考样本图像的除第三区域以外区域的第七语义特征信息,以及负样本图像的除第四区域以外的区域的第八语义特征信息;

确定所述正样本对对应的第五语义特征信息与所述第六语义特征信息之间的第三特征相似度,以及,确定所述负样本对对应的第七语义特征信息与所述第八语义特征信息之间的第四特征相似度;

基于所述第一特征相似度、所述第二特征相似度、所述第三特征相似所述度和第四特征相似度,训练所述对象检测模型。

该实施方式,在语义标注信息为目标对象的像素点所对应的第一特征相似度和第二特征相似度的基础上,进一步结合语义标注信息为非目标对象的像素点所对应的第三特征相似度和第四特征相似度,来训练对象检测模型,能够进一步提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,所述基于所述第一特征相似度、所述第二特征相似度、所述第三特征相似所述度和第四特征相似度,训练所述对象检测模型,包括:

基于所述第一特征相似度和所述第二特征相似度,生成第一损失;

基于所述第三特征相似度和所述第四特征相似度,生成第二损失;

基于所述第一损失和所述第二损失,训练所述对象检测模型。

该实施方式,结合基于第一特征相似度和所述第二特征相似度所生成的第一损失,和基于第三特征相似度和所述第四特征相似度所生成的第二损失,来训练对象检测模型,能够有效提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,在利用所述正样本对和负样本对训练所述对象检测模型之后,并且在得到训练完成的训练所述对象检测模型之前,还包括:

在对所述对象检测模型的一轮训练完成之后,得到中间态检测模型;

利用所述中间态检测模型,确定所述参考样本图像中各个像素点的第九语义特征信息,以及所述参考样本图像对应的扩展样本图像中各个像素点的第十语义特征信息;

针对所述扩展样本图像中每个像素点,在该像素点对应的第十语义特征信息,与所述参考样本图像中对应像素点的第九语义特征信息之间的第五特征相似度大于预设相似度阈值的情况下,将该像素点的语义标注信息设置为与参考样本图像中对应像素点的语义标注信息相同;

在扩展样本图像的语义标注信息与所述参考样本图像的语义标注信息相同的情况下,将所述扩展样本图像作为所述参考样本图像的正样本。

该实施方式,利用中间态检测模型对扩展样本图像中像素点的语义标注信息进行更正,能够提高后续利用扩展样本图像所训练的对象检测模型的检测精度。

在一种可能的实施方式中,在利用所述正样本对和负样本对训练所述对象检测模型之后,并且在得到训练完成的对象检测模型之前,还包括:

在扩展样本图像的语义标注信息与所述参考样本图像的语义标注信息不相同的情况下,将所述扩展样本图像作为所述参考样本图像的负样本。

该实施方式,将与所述参考样本图像的语义标注信息不相同的扩展样本图像作为负样本,提高了负样本的准确度,从而有利于提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,在利用所述正样本对和负样本对训练所述对象检测模型之后,并且在得到训练完成的对象检测模型之前,还包括:

针对所述扩展样本图像中每个像素点,在该像素点对应的第十语义特征信息,与所述参考样本图像中对应像素点的第九语义特征信息之间的第五特征相似度小于预设相似度阈值的情况下,将该像素点的语义标注信息设置为与参考样本图像中对应像素点的语义标注信息相反。

该实施方式,在第五特征相似度小于预设相似度阈值的时,将对应像素点的语义标注信息设置为与参考样本图像中对应像素点的语义标注信息相反,提高了设置的语义标注信息的准确度,从而有利于提高训练完成的对象检测模型的检测精度。

在一种可能的实施方式中,所述对象检测模型确定所述待检测图像的对应的多张具有不同预设分辨率的语义特征图,并基于多张具有不同预设分辨率的语义特征图,输出所述语义分割结果。

该实施方式,不同预设分辨率的语义特征图不仅实现了对待检测图像中高级语义特征信息的提取,同时也保留了待检测图像中的细节语义特征信息,利用高级语义特征信息和细节语义特征信息能够较为精确地对待检测图像进行语义分割,得到精确的语义分割结果,而不必依赖于高分辨率的遥感图像来提高语义分割的精确度。

第二方面,本公开还提供了一种目标对象检测装置,包括:

图像获取模块,用于获取待检测图像;

检测模块,用于将所述待检测图像输入对象检测模型,经过所述对象检测模型对所述待检测图像进行处理,输出所述待检测图像中各个像素点是否为目标对象的语义分割结果;所述对象检测模型为利用参考样本图像和与所述参考样本图像的拍摄时间不同的扩展样本图像训练得到的;所述参考样本图像中各个像素点设置有是否为目标对象的语义标注信息。

第三方面,本公开实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述目标对象检测方法的步骤。

第四方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述目标对象检测方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的目标对象检测方法的流程图;

图2示出了本公开实施例所提供的目标对象检测方法中利用正样本对和负样本训练所述对象检测模型的流程图;

图3示出了本公开实施例所提供的目标对象检测方法中利用正样本对和负样本训练所述对象检测模型的另一流程图;

图4示出了本公开实施例所提供的目标对象检测方法中更新扩展样本图像中的语义标注信息的流程图;

图5示出了本公开实施例所提供的目标对象检测方法中生成多张具有不同预设分辨率的语义特征图的流程图;

图6示出了本公开实施例中的对象检测网络的网络结构示意图;

图7示出了本公开实施例所提供的目标对象检测方法中确定待检测图像对应的目标语义特征信息的流程图;

图8示出了本公开实施例所提供的目标对象检测装置的结构示意图;

图9示出了本公开实施例所提供的电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

针对现有技术中,在对建筑工地检测所用的模型进行训练时,所存在的标注成本高、标注效率低下、模型检测精度不高的缺陷,本公开提供了一种目标检测方案,本公开在训练对象检测模型的时候,不仅利用标注了的参考样本图像,还利用了与所述参考样本图像的拍摄时间不同的扩展样本图像,这样实现了对训练样本的扩充,即实现了利用较少的标注的样本,即上述参考样本图像,得到了较多的训练样本,即上述扩展样本图像和参考样本图像,这样不仅能够减少标注工作量,提高模型训练的效率,还能够通过提高训练样本的数量提高训练完成的对象检测模型的检测精度。

下面通过具体的实施例,对本公开公开的目标对象检测方法、装置、电子设备及存储介质进行说明。

如图1所示,本公开实施例公开了一种目标对象检测方法,该方法可以应用于具有计算能力的器件,可以包括如下步骤:

S110、获取待检测图像。

上述待检测图像可以是安装在预设区域内的摄像头拍摄的图像,也可以是执行本实施例的器件上的摄像头拍摄的图像。待检测图像包括预设区域内的需要检测的至少一个目标对象,例如,上述目标对象可以是预设区域内的建筑工地。

上述预设区域是需要被监控的区域,例如,某一正在被开发的园区,目标对象为建筑工地,对该区域的建筑工地的检测能够确定该园区的开发进度,以基于开发进度对开区域的开发进行监管。

上述待检测图像可以是RGB通道的遥感图像,图像的空间分辨率可以是2米到5米之间。

S120、将所述待检测图像输入对象检测模型,经过所述对象检测模型对所述待检测图像进行处理,输出所述待检测图像中各个像素点是否为目标对象的语义分割结果;所述对象检测模型为利用参考样本图像和与所述参考样本图像的拍摄时间不同的扩展样本图像训练得到的;所述参考样本图像中各个像素点设置有是否为目标对象的语义标注信息。

以建筑工地作为目标对象为例,参考样本图像中各个像素点设置有是否为建筑工地的语义标注信息。

扩展样本图像与参考样本图像所拍摄的场景相同,拍摄时间不同,这样,基于扩展样本图像的拍摄时间与参考样本图像的拍摄时间的差值,以及参考样本图像中各个像素点的语义标注信息,能够设置扩展样本图像中各个像素点的语义标注信息,之后,利用设置有语义标注信息的扩展样本图像和参考样本图像共同对对象检测模型进行训练。该方式利用较少的标注的样本,即上述参考样本图像,得到了较多的训练样本,即上述扩展样本图像和参考样本图像,避免了人工对扩展样本图像进行对象识别和标注,节省了标注成本,提高了标注效率,同时该方式还能通过提高训练样本的数量提高训练完成的对象检测模型的检测精度。

与参考样本图像的拍摄时间较近的扩展样本图像中的对象大概率不会发生改变,因此上述基于扩展样本图像的拍摄时间与参考样本图像的拍摄时间的差值,以及参考样本图像中各个像素点的语义标注信息,设置扩展样本图像中各个像素点的语义标注信息,具体可以是:

在扩展样本图像的拍摄时间与参考样本图像的拍摄时间的差值,小于第一预设时间间隔的情况下,将扩展样本图像中像素点是否为目标对象的语义标注信息设置为与所述参考样本图像中像素点是否为目标对象的语义标注信息相同。

示例性地,在设置扩展样本图像中像素点的语义标注信息时,若参考样本图像中像素点A的语义标注信息为建筑工地,像素点B的语义标注信息为非建筑工地,那么,将扩展样本图像中的与上述像素点A具有相同的地理位置的像素点C的语义标注信息,设置为建筑工地,将扩展样本图像中的与上述像素点B具有相同的地理位置的像素点D的语义标注信息,设置为非建筑工地。

上述第一预设时间间隔可以根据实际应用场景灵活设定,例如设置为7天、10天等。

与参考样本图像的拍摄时间较远的扩展样本图像中的对象大概率会发生改变,因此上述基于扩展样本图像的拍摄时间与参考样本图像的拍摄时间的差值,以及参考样本图像中各个像素点的语义标注信息,设置扩展样本图像中各个像素点的语义标注信息,具体可以是:

在扩展样本图像的拍摄时间与参考样本图像的拍摄时间的差值,大于第二预设时间间隔的情况下,将扩展样本图像中像素点是否为目标对象的语义标注信息设置为与所述参考样本图像中像素点是否为目标对象的语义标注信息相反。

示例性地,在设置扩展样本图像中像素点的语义标注信息时,若参考样本图像中像素点E的语义标注信息为建筑工地,像素点F的语义标注信息为非建筑工地,那么,将扩展样本图像中的与上述像素点E具有相同的地理位置的像素点G的语义标注信息,设置为非建筑工地,将扩展样本图像中的与上述像素点F具有相同的地理位置的像素点H的语义标注信息,设置为建筑工地。

上述第二预设时间间隔可以根据实际应用场景灵活设定,例如设置为1年、两年等。

通过上述方式设定的扩展样本图像中的各个像素点的语义标注信息较为准确,能够保证对对象检测模型的训练精度。

上述与所述参考样本图像的拍摄时间的差值小于第一预设时间间隔的扩展样本图像,可以作为参考样本图像所对应的正样本图像,该正样本图像与参考样本图像组合形成正样本对。

上述与所述参考样本图像的拍摄时间的差值大于第二预设时间间隔的扩展样本图像,可以作为参考样本图像所对应的负样本图像,该负样本图像与参考样本图像组合形成负样本对。

示例性地,在得到上述正样本对和负样本对之后,具体可以利用正样本对和负样本对训练所述对象检测模型,得到训练完成的对象检测模型。

示例性地,如图2所示,上述利用正样本对和负样本对训练所述对象检测模型具体可以利用如下步骤实现:

S210、利用对象检测模型,确定所述正样本对中参考样本图像的第一区域的第一语义特征信息,以及正样本图像的第二区域的第二语义特征信息。

上述第一区域包括所述正样本对中参考样本图像中语义标注信息为目标对象的像素点;所述第二区域包括与所述第一区域中的像素点具有相同的地理位置的像素点。

示例性地,上述第一区域包括所述正样本对中参考样本图像中语义标注信息为建筑工地的像素点。

这里就是确定了参考样本图像中的建筑工地对应的图像区域的第一语义特征信息,以及,正样本图像中的与上述图像区域具有相同的地理位置的区域的第二语义特征信息。

这里的对象检测模型是未训练完成的对象检测模型,该对象检测模型提取参考样本图像中的第一区域的第一语义特征信息,以及,提取正样本图像中的第二区域的第二语义特征信息。

S220、利用对象检测模型,确定所述负样本对中参考样本图像的第三区域的第三语义特征信息,以及负样本图像的第四区域的第四语义特征信息。

上述第三区域包括所述负样本对中参考样本图像中语义标注信息为目标对象的像素点;所述第四区域包括与所述第三区域中的像素点具有相同的地理位置的像素点。

示例性地,上述第三区域包括所述负样本对中参考样本图像中语义标注信息为建筑工地的像素点。

这里就是确定了参考样本图像中的建筑工地对应的图像区域的第三语义特征信息,以及,负样本图像中的与上述图像区域具有相同的地理位置的区域的第四语义特征信息。

这里的对象检测模型是未训练完成的对象检测模型,该对象检测模型提取参考样本图像中的第三区域的第三语义特征信息,以及,提取负样本图像中的第四区域的第四语义特征信息。

S230、确定所述正样本对对应的第一语义特征信息与所述第二语义特征信息之间的第一特征相似度,以及,确定所述负样本对对应的第三语义特征信息与所述第四语义特征信息之间的第二特征相似度。

S240、基于所述正样本对对应的第一特征相似度和所述负样本对对应的第二特征相似度,训练所述对象检测模型。

示例性地,可以基于所述正样本对对应的第一特征相似度和所述负样本对对应的第二特征相似度,生成第一损失,再利用第一损失训练对象检测模型。

上述第一损失如下公式所示:

L=max(d(a,p)-d(m,n)+margin,0) (1)

式中,L表示第一损失,d(a,p)表示至少部分正样本对对应的第一特征相似度的均值。d(m,n)表示至少部分负样本对对应的第二特征相似度的均值,a表示第一语义特征信息,p表示第二语义特征信息,m表示第三语义特征信息,n表示第四语义特征信息,margin表示第一特征相似度与第二特征相似度之间差值的期望。

上述正样本对和负样本对中的参考样本图像可以是同一张图像,此时上述第一语义特征信息与第三语义特征信息相同,第一区域与第三区域相同。

示例性地,第一损失函数可以是Triple Loss。

上述训练过程中训练的目标是,正样本对中目标对象对应的区域的第一特征相似度尽量高,负样本对中目标对象对应的区域的第二特征相似度尽量低,这样才能提高训练得到的对象检测模型的准确度。

在训练对象检测模型的时候,不仅要考虑目标对象所在的区域对应的特征相似度,为了提高训练的精度,还需要考虑图像中非目标对象所在的区域对应的特征相似度,如图3所示,具体可以是:

S310、利用对象检测模型,确定所述正样本对中参考样本图像的除第一区域以外的区域的第五语义特征信息,以及正样本图像的除第二区域以外的区域的第六语义特征信息。

上述除第一区域以外的区域包括参考样本图像中语义标注信息为非目标对象的像素点。示例性地,上述除第一区域以外的区域包括所述正样本对中参考样本图像中语义标注信息为非建筑工地的像素点。

这里就是确定了参考样本图像中的非建筑工地对应的图像区域的第五语义特征信息,以及,正样本图像中的与上述图像区域具有相同的地理位置的区域的第六语义特征信息。

这里的对象检测模型是未训练完成的对象检测模型,该对象检测模型提取参考样本图像中的除第一区域以外的区域的第五语义特征信息,以及,提取正样本图像中除第二区域以外的区域的第六语义特征信息。

S320、利用对象检测模型,确定所述负样本对中参考样本图像的除第三区域以外区域的第七语义特征信息,以及负样本图像的除第四区域以外的区域的第八语义特征信息。

上述除第三区域以外的区域包括参考样本图像中语义标注信息为非目标对象的像素点。示例性地,上述除第三区域以外的区域包括所述负样本对中参考样本图像中语义标注信息为非建筑工地的像素点。

这里就是确定了参考样本图像中的非建筑工地对应的图像区域的第七语义特征信息,以及,负样本图像中的与上述图像区域具有相同的地理位置的区域的第八语义特征信息。

这里的对象检测模型是未训练完成的对象检测模型,该对象检测模型提取参考样本图像中的除第三区域以外的区域的第七语义特征信息,以及,提取负样本图像中除第四区域以外的区域的第八语义特征信息。

S330、确定所述正样本对对应的第五语义特征信息与所述第六语义特征信息之间的第三特征相似度,以及,确定所述负样本对对应的第七语义特征信息与所述第八语义特征信息之间的第四特征相似度。

S340、基于所述第一特征相似度、所述第二特征相似度、所述第三特征相似所述度和第四特征相似度,训练所述对象检测模型。

示例性地,可以基于所述第一特征相似度和所述第二特征相似度,生成第一损失;基于所述第三特征相似度和所述第四特征相似度,生成第二损失;再基于所述第一损失和所述第二损失,训练所述对象检测模型。

上述第一损失可以参见上述公式(1),第二损失可以利用如下公式确定:

L

式中,L

示例性地,第二损失函数可以是Hinge Loss。

利用第二损失训练目的是,正样本对中非目标对象所在的区域对应的第三特征相似度,以及负样本对中非目标对象所在的区域对应的第四特征相似度均尽量低,这样才能提高训练得到的对象检测模型的准确度。

上述实施例利用扩展样本图像和参考样本图像对对象检测模型进行训练,由于扩展样本图像中各个像素点的语义标注信息是根据参考样本图像中对应的像素点的语义标注信息设置的,因此,可能存在不对的情况,因此,每次迭代利用扩展样本图像和参考样本图像对对象检测模型进行训练之后,可以利用每一次迭代训练得到的中间态检测模型对扩展样本图像中像素点的语义标注信息进行修正,如图4所示,具体可以利用如下步骤实现:

S410、在对所述对象检测模型的一轮训练完成之后,得到中间态检测模型。

中间态检测模型即为未训练完成的对象检测模型。

S420、利用所述中间态检测模型,确定所述参考样本图像中各个像素点的第九语义特征信息,以及所述参考样本图像对应的扩展样本图像中各个像素点的第十语义特征信息。

S430、针对所述扩展样本图像中每个像素点,在该像素点对应的第十语义特征信息,与所述参考样本图像中对应像素点的第九语义特征信息之间的第五特征相似度大于预设相似度阈值的情况下,将该像素点的语义标注信息设置为与参考样本图像中对应像素点的语义标注信息相同。

第五特征相似度大于预设相似度阈值,表征参考样本图像中的对应的像素点与扩展样本图像中对应像素点的语义标注信息大概率相同,此时可以将参考样本图像中的对应的像素点与扩展样本图像中对应像素点的语义标注信息设置为相同。

示例性地,参考样本图像中的像素点K与扩展样本图像中的与像素点K具有相同地理位置的像素点L之间第五特征相似度大于预设相似度阈值,并且参考样本图像中的像素点K的语义标注信息为建筑工地,则,将扩展样本图像中的像素点L的语义标注信息为建筑工地。

另外,针对所述扩展样本图像中每个像素点,在该像素点对应的第十语义特征信息,与所述参考样本图像中对应像素点的第九语义特征信息之间的第五特征相似度小于预设相似度阈值的情况下,将该像素点的语义标注信息设置为与参考样本图像中对应像素点的语义标注信息相反。

第五特征相似度小于预设相似度阈值,表征参考样本图像中的对应的像素点与扩展样本图像中对应像素点的语义标注信息大概率不同,此时可以将参考样本图像中的对应的像素点与扩展样本图像中对应像素点的语义标注信息设置为相反。

示例性地,参考样本图像中的像素点Z与扩展样本图像中的与像素点Z具有相同地理位置的像素点J之间第五特征相似度小于预设相似度阈值,并且参考样本图像中的像素点Z的语义标注信息为建筑工地,则,将扩展样本图像中的像素点J的语义标注信息为非建筑工地。

S440、在扩展样本图像的语义标注信息与所述参考样本图像的语义标注信息相同的情况下,将所述扩展样本图像作为所述参考样本图像的正样本。

在扩展样本图像的语义标注信息与所述参考样本图像的语义标注信息不相同的情况下,将所述扩展样本图像作为所述参考样本图像的负样本。

至此,更新了扩展样本图像中各个像素点的语义标注信息,并重新确定了扩展样本图像属于正样本图像或负样本图像。根据更新后的扩展样本图像以及参考样本图像可以对对象检测模型进行新一轮的训练。在迭代次数高于预设值或对象检测模型的检测精度高于预设精度时,停止对对象检测模型的训练,得到训练完成的对象检测模型。

训练完成的对象检测模型对待检测图像进行处理以生成语义分割结果时,可以是首先确定所述待检测图像的对应的多张具有不同预设分辨率的语义特征图,再基于多张具有不同预设分辨率的语义特征图,输出所述语义分割结果。

不同预设分辨率的语义特征图不仅实现了对待检测图像中高级语义特征信息的提取,同时也保留了待检测图像中的细节语义特征信息,利用高级语义特征信息和细节语义特征信息能够较为精确地对待检测图像进行语义分割,得到精确的语义分割结果,而不必依赖于高分辨率的遥感图像来提高语义分割的精确度。

上述实施例中的第一语义特征信息至第十语义特征信息,均是对象检测模型基于参考样本图像或扩展样本图像的对应的多张具有不同预设分辨率的语义特征图,所确定的。

上述确定待检测图像的对应的多张具有不同预设分辨率的语义特征图,与确定参考样本图像或扩展样本图像的对应的多张具有不同预设分辨率的语义特征图的过程是相同的,这里只对如何确定待检测图像的对应的多张具有不同预设分辨率的语义特征图,进行说明。如图5所示,具体地可以包括如下步骤:

S510、利用对象检测模型提取所述待检测图像中的语义特征信息,并基于提取的所述语义特征信息生成具有最高的预设分辨率的第一语义特征图。

示例性地,对象检测模型可以包括卷积神经网络、全卷积神经网络、语义分割模型DeepLab等骨干网络Backbone。

在生成具有最高的预设分辨率的第一张第一语义特征图时,可以基于从待检测图像中提取的语义特征信息生成,具有最高的预设分辨率的其他第一语义特征图可以基于在该第一语义特征图之前生成的第一语义特征图中的语义特征信息生成。如图6所示,第一张第一语义特征图601具有最高的预设分辨率,其是根据基于从待检测图像中提取的语义特征信息生成的。随着网络深度的加深,网络深度大的第一语义特征图是基于对网络深度小的语义特征图提取语义特征信息得到的。例如,第一语义特征图603是基于第一语义特征图602中的语义特征信息生成。最终生成多张具有最高的预设分辨率的第一语义特征图,如图6所示,具有最高的预设分辨率的语义特征图包括第一语义特征图601-第一语义特征图609。

S520、针对除最高的预设分辨率以外的任一预设分辨率,基于高于该预设分辨率的至少一张第一语义特征图,生成具有该预设分辨率的第一语义特征图。

示例性地,如图6所示,除最高的预设分辨率之外,还存在两个预设分辨率,每个预设分辨率分别对应至少一张第一语义特征图,例如一较低的预设分辨率对应的语义特征图包括第一语义特征图610-第一语义特征图616。另一较低的预设分辨率对应的语义特征图包括第一语义特征图617-第一语义特征图619。

在生成具有某一较低的预设分辨率的第一语义特征图时,可以先确定需要生成的该预设分辨率的第一张第一语义特征图的第一网络深度信息,例如,在要生成某一较低的预设分辨率对应的第一个第一语义特征610时,确定该第一个第一语义特征图610所在的第一网络深度信息为3。

之后,根据确定的第一网络深度信息,确定用于生成该预设分辨率的第一张第一个语义特征图610的第一语义特征图的网络深度信息,即降维网络深度信息。示例性地,降维网络深度信息等于第一网络深度信息减1得到的值。例如,在要生成第一个第一语义特征图610时,降维网络深度信息为2。

确定了降维网络深度信息之后,从高于该预设分辨率的至少一张第一语义特征图中,筛选所述降维网络深度信息对应的第一语义特征图,得到待降维语义特征图。如图6所示,在生成第一个第一语义特征图610时,降维网络深度信息为2,筛选得到的待降维语义特征图为具有最高的预设分辨率的第一语义特征图中的第二个语义特征图602。

得到待降维语义特征图之后,可以基于待降维语义特征图,生成具有该预设分辨率的第一张第一语义特征图。具体地,按照该预设分辨率对每张待降维语义特征图分别进行降采样处理,得到每张待降维语义特征图对应的降维语义特征图;之后基于得到的所述降维语义特征图,生成具有该预设分辨率的第一张第一语义特征图。示例性地,可以将降维语义特征图进行融合,得到具有该预设分辨率的第一张第一语义特征图。

在得到了具有该预设分辨率的第一张第一语义特征图之后,可以基于该第一张第一语义特征图,生成具有该预设分辨率的其他第一语义特征图;其中所述第一张第一语义特征图与其他第一语义特征图具有不同的第一网络深度信息。具体地,可以基于从第一张第一语义特征图中提取的语义特征信息,生成具有该预设分辨率的其他第一语义特征图。

基于从待检测图像提取的语义特征信息,能够生成保留更多细节语义特征信息的、具有最高预设分辨率的第一语义特征图。按照预设分辨率对待降维语义特征图分别进行降采样处理,能够得到具有梗概特征的语义特征图,即实现了对高级语义特征信息的提取,之后将高级语义特征信息提取得到的降维语义特征图进行融合,能够得到具有高级语义特征信息的第一语义特征图,即具有较低的预设分辨率的第一语义特征图。

在得到多张具有不同预设分辨率的语义特征图之后,可以首先基于多张所述第一语义特征图,确定所述待检测图像对应的目标语义特征信息,再基于目标语义特征信息,确定语义分割结果。

基于多张所述第一语义特征图,确定目标语义特征信息的过程,与上述基于参考样本图像对应的多张具有不同预设分辨率的语义特征图,生成第一语义特征信息的步骤相同,下述只对基于多张所述第一语义特征图,确定目标语义特征信息的过程进行说明,如图7所示,具体可以包括:

S710、获取进行语义特征融合的预设网络层的第二网络深度信息。

对于某一预设分辨率的第一语义特征图,尤其是网络深度较大的第一语义特征图,在生成的时候不仅仅需要利用具有该预设分辨率的网络深度较小的第一语义特征图中的语义特征信息,还需要结合具有其他预设分辨率的第一语义特征图中的语义特征信息,这样生成的第一语义特征图能够融合不同尺度的语义特征信息,有利于提高判定的对象状态是否发生变化的准确度。

在进行语义特征信息融合生成第一语义特征图时,首先需要确定预设的需要进行语义特征信息融合的预设网络层的网络深度信息,即上述第二网络深度信息。示例性地,如图6所示,预设的需要进行语义特征信息融合的预设网络层的第二网络深度信息对应的网络深度为5、7、9。

S720、基于所述第二网络深度信息,从多张第一语义特征图中筛选进行语义特征融合的第三语义特征图。

示例性地,基于第二网络深度信息确定需要进行融合的第一语义特征图所处的融合网络深度信息,具体地,可以将第二网络深度信息减1,得到融合网络深度信息。如图6所示,若第二网络深度信息为5,则确定融合网络深度信息为4。

在确定了融合网络深度信息之后,从多张第一语义特征图中筛选融合网络深度信息对应的第一语义特征图,得到上述第三语义特征图。如图6所示,融合网络深度信息为4,则将融合网络深度信息为4的第一语义特征图604、611作为进行语义特征融合的第三语义特征图。

S730、基于筛选得到的所述第三语义特征图,确定所述待检测图像对应的目标语义特征信息。

在筛选得到第三语义特征图之后,需要生成第三语义特征图的与不同预设分辨率对应的待融合语义特征图。例如,如图6所示,融合网络深度信息为4的第三语义特征图包括第一语义特征图604和第一语义特征图611,该两张第一语义特征图分别具有不同的预设分辨率。对于第一语义特征图604,需要对其进行降采样处理,得到第一待融合语义特征图,第一待融合语义特征图对应的预设频率较低,与第一语义特征图611的预设频率相同;还需提第一语义特征图604中的语义特征信息,并根据提取的语义特征信息生成第二待融合语义特征图,第二待融合语义特征图对应的预设频率与第一语义特征图604的预设频率相同。对于第一语义特征图611,需要对其进行上采样处理,得到第三待融合语义特征图,第三待融合语义特征图对应的预设频率较高,与第一语义特征图604的预设频率相同;还需提取第一语义特征图611中的语义特征信息,并根据提取的语义特征信息生成第四待融合语义特征图,第四待融合语义特征图对应的预设频率与第一语义特征图611的预设频率相同。

在生成了不同预设频率的待融合语义特征图之后,对于某一个第二网络深度信息,需要针对不同预设分辨率,利用与该预设分辨率对应的、同是具有该第二网络深度信息的待融合语义特征图,生成该预设分辨率对应的融合语义特征图。如图6所示,第一待融合语义特征图与第四待融合语义特征图进行融合,得到融合语义特征图612,第二待融合语义特征图与第三待融合语义特征图进行融合,得到融合语义特征图605。

在融合语义特征图未位于最大的网络深度信息对应的网络层上时,该融合语义特征图作为第一语义特征图,对这类第一语义特征图进行语义特征信息提取,能够得到网络深度更深的第一语义特征图。如果融合语义特征图位于最大的网络深度信息对应的网络层上时,需要根据位于最大的网络深度信息对应的网络层上的融合语义特征图,确定待检测图像对应的目标语义特征信息。如图6所示,未位于最大的网络深度信息对应的网络层上的融合语义特征图包括605、612、607、614,这类第一语义特征图进行语义特征信息提取,能够得到网络深度更深的第一语义特征图,例如得到第一语义特征图606、601、608、615。位于最大的网络深度信息对应的网络层上融合语义特征图包括609、616、619,根据这类融合语义特征图能够确定待检测图像对应的目标语义特征信息。

在根据位于最大的网络深度信息对应的网络层上的融合语义特征图,确定待检测图像对应的目标语义特征信息时,可以是:多张具有不同预设分辨率的融合语义特征图进行融合,并基于融合后的特征图确定目标语义特征信息。示例性地,可以利用如下步骤将多张融合语义特征图进行融合:将除最高的预设分辨率以外的其他预设分辨率对应的融合语义特征图进行上采样处理,上采样处理后得到的语义特征图具有最高的预设分辨率;之后,将具有最高的预设分辨率的融合语义特征图和上采样后的融合语义特征图进行融合。具体地,图融合时,是将所有融合语义特征图中的相同位置的特征点对应的特征信息进行拼接。

在得到融合后的特征图之后,从融合后的特征图确中提取语义特征信息即可得到上述目标语义特征信息。

上述实施例在整个计算过程中始终保持高分辨率的特征图,例如图6中的第一语义特征图601-609,同时不同阶段逐渐并行的加入低分辨率的特征图,例如图6中的第一语义特征图610-619。通过这种结构,图像中的细节语义特征信息得到保留,且能不断的进行高级语义特征信息提取,同时在不同的阶段进行语义特征信息的融合,达到了多尺度特征融合的效果,能够有效提高对象状态检测的精度。此外,可以通过增减网络深度和与预设分辨率对应的并行子网络的数量来达到推理速度和检测精度的平衡。

下面再通过一个具体的实施例对公开中的对象检测模型训练过程进行说明,该实施例中目标对象为建筑工地。具体可以包括如下步骤:

步骤一、获取参考样本图像,并基于参考样本图像的拍摄时间进行样本扩充,具体地,获取与参考样本图像的拍摄时间小于第一预设时间间隔的正样本图像,以及与参考样本图像的拍摄时间大于第二预设时间间隔的负样本图像。

步骤二、将正样本图像与参考样本图像组合形成正样本对,将负样本图像与参考样本图像组合形成负样本对;

步骤三、利用未训练完成的对象检测模型提取正样本对、负样本对中各图像的语义特征信息;

这里,具体是提取个图像中的多张具有不同预设分辨率的语义特征图,再基于多张具有不同预设分辨率的语义特征图生成对应图像的语义特征信息。

步骤四、以正样本对中,语义标注信息为建筑工地的对应两个像素点的语义特征信息之间的相似度尽量小,并且负样本对中,语义标注信息为建筑工地的对应两个像素点的语义特征信息之间的相似度尽量大为目标生成第一损失,具体可见上述实施例中的公式(1)。

步骤五、以正样本对以及负样本对中,语义标注信息为非建筑工地的对应两个像素点的语义特征信息之间的相似度均尽量小目标生成第二损失,具体可见上述实施例中的公式(2).

步骤六、利用第一损失和第二损失对对象检测模型进行一次训练,得到中间态检测模型;

步骤七、在迭代次数低于或等于预设值,或中间态检测模型的检测精度低于或等于预设精度时,利用中间态检测模型提取正样本图像、负样本图像以及参考样本图像中的语义特征信息。之后在正样本图像或负样本图像中像素点与参考样本图像中对应像素点的语义特征信息之间的相似度较大时,将正样本图像或负样本图像中像素点的语义标注信息设置为与参考样本图像中对应像素点的语义标注信息相同。在正样本图像或负样本图像中像素点与参考样本图像中对应像素点的语义特征信息之间的相似度较小时,将正样本图像或负样本图像中像素点的语义标注信息设置为与参考样本图像中对应像素点的语义标注信息相反。

步骤八、基于调整了语义标注信息的正样本图像、负样本图像和参考样本图像对中间态检测模型继续进行训练,直到迭代次数高于预设值或中间态检测模型的检测精度高于预设精度时,停止对对象检测模型的训练,得到训练完成的对象检测模型。

对应于上述目标对象检测方法,本公开还公开了一种目标对象检测装置,应用于具有计算能力的器件,该装置中的各个模块能够实现上述各个实施例的目标对象检测方法中的每个步骤,并且能够取得相同的有益效果,因此,对于相同的部分这里不再进行赘述。具体地,如图8所示,目标对象检测装置包括:

图像获取模块810,用于获取待检测图像;

检测模块820,用于将所述待检测图像输入对象检测模型,经过所述对象检测模型对所述待检测图像进行处理,输出所述待检测图像中各个像素点是否为目标对象的语义分割结果;所述对象检测模型为利用参考样本图像和与所述参考样本图像的拍摄时间不同的扩展样本图像训练得到的;所述参考样本图像中各个像素点设置有是否为目标对象的语义标注信息。

对应于上述目标对象检测方法,本公开实施例还提供了一种电子设备900,如图9所示,为本公开实施例提供的电子设备900结构示意图,包括:

处理器91、存储器92、和总线93;存储器92用于存储执行指令,包括内存921和外部存储器922;这里的内存921也称内存储器,用于暂时存放处理器91中的运算数据,以及与硬盘等外部存储器922交换的数据,处理器91通过内存921与外部存储器922进行数据交换,当电子设备900运行时,处理器91与存储器92之间通过总线93通信,使得处理器91执行以下指令:

首先获取待检测图像;之后将所述待检测图像输入对象检测模型,经过所述对象检测模型对所述待检测图像进行处理,输出所述待检测图像中各个像素点是否为目标对象的语义分割结果;所述对象检测模型为利用参考样本图像和与所述参考样本图像的拍摄时间不同的扩展样本图像训练得到的;所述参考样本图像中各个像素点设置有是否为目标对象的语义标注信息。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述目标对象检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的目标对象检测方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的目标对象检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。

本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 目标对象检测方法、装置、电子设备及存储介质
  • 目标对象缺失检测方法、装置、存储介质及电子设备
技术分类

06120112880271