掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的多尺度雾天场景目标检测方法及系统

文献发布时间:2024-04-18 19:58:30


一种基于深度学习的多尺度雾天场景目标检测方法及系统

技术领域

本发明属于机器人及智能硬件领域,涉及视觉和图像处理技术领域,特别是关于一种基于深度学习的多尺度雾天场景目标检测方法及系统。

背景技术

在雾天气候条件下,由于恶劣的环境影响,目标检测算法面临着图像质量较差的挑战。这种现象导致物体的边缘变得模糊或消失,进而影响算法的准确性和鲁棒性,限制了其在各领域中的应用效果。因此,针对雾天气候场景设计专门的目标检测算法具有重要意义。

为了克服在雾天环境下目标检测所面临的挑战,研究人员从多个角度提出了解决方案:

第一种是采用传统的图像处理技术进行目标检测,这些算法主要基于传统的图像处理技术,如雾霾图像恢复、直方图均衡和滤波等,通过对图像进行增强来提高图像质量以完成目标检测任务。然而,这些方法的有效性受到先验知识和手动调整的限制,在实际应用中存在较大的局限。

第二种是采用基于雾程度估计算法的目标检测,该方法首先估计图像中的雾程度并相应地去除雾霾,然后再使用去雾后的图像进行目标检测。虽然此方法对雾霾程度的估计比较敏感,但仍然需要解决先验知识调整和计算量大的问题。

第三种是多模态信息融合的目标检测被广泛应用于自动驾驶领域。该方法将红外线图像、可见光图像等不同模态的信息进行融合,以提高目标检测的鲁棒性和准确性。然而,如果两种模态信息在物理特征上存在较大差异,则融合效果可能会受到很大影响。

发明内容

针对上述问题,本发明的目的是提供一种基于深度学习的多尺度雾天场景目标检测方法及系统,其可以在雾天气候条件下实现更准确的目标检测,从而提高在各领域中的应用效果。

为实现上述目的,本发明采取以下技术方案:

一种基于深度学习的多尺度雾天场景目标检测方法,其包括:将获取的雾天场景原始图像数据输入至预先训练好的雾视模型中,获取第一检测结果;其中,雾视模型为融合了平移窗口聚焦检测层及解耦检测头的YOLOv5网络;将雾天场景原始图像数据进行分割,将原始图像均匀划分成至少两块子图像,并将所有子图像等比放大后再次输入预先训练好的雾视模型中,获取第二检测结果;将第一检测结果与第二检测进行融合处理,得到雾天场景最终的目标检测结果。

进一步,雾视模型的训练,包括:

将雾天场景原始图像数据划分为训练集和测试集,并分别对训练集和测试集进行数据增强处理;

将数据增强处理后的训练集输入雾视模型进行训练,得到训练好的雾视模型;

将测试集输入训练好的雾视模型,得到测试集结果,以输出雾天场景下的潜藏目标。

进一步,分别对训练集和测试集进行数据增强处理,包括:

训练集采用马赛克数据增强方法及混合数据方法进行数据增强处理;

测试集采用尺度数据增强方法进行数据增强处理。

进一步,雾视模型包括:骨干网络、颈部和检测头;

在骨干网络中增加平移窗口聚焦检测层,平移窗口聚焦检测层位于骨干网络的最后一层,通过分解图像数据集中特征图的空间维度和通道维度,将特征图的信息进行全局性的交互和聚合,增强主干网络对目标位置的关注,使得目标的特征更容易被捕捉到;

检测头采用解耦检测头,以完成最终阶段的检测任务。

进一步,解耦检测头,是将原有的检测头部拆分成两个子网络:

其中一个子网络用于回归目标框的偏移量和尺度信息,另一个自网络用于分类目标物体的类别信息。

进一步,解耦检测头的检测方法,包括:

在不同的任务之间共享特征表示,并且为每个任务单独训练一个分类器;

通过共享特征表示,将所有任务共享的高层次语义信息编码为特征表示,以提高检测性能。

进一步,将第一检测结果与第二检测进行融合处理,包括:

将第二检测结果进行坐标重映射后,与第一检测结果进行合并,完成融合,得到最终的目标检测结果。

一种基于深度学习的多尺度雾天场景目标检测系统,其包括:第一处理模块,将获取的雾天场景原始图像数据输入至预先训练好的雾视模型中,获取第一检测结果;其中,雾视模型为融合了平移窗口聚焦检测层及解耦检测头的YOLOv5网络;第二处理模块,将雾天场景原始图像数据进行分割,将原始图像均匀划分成至少两块子图像,并将所有子图像等比放大后再次输入预先训练好的雾视模型中,获取第二检测结果;融合模块,将第一检测结果与第二检测进行融合处理,得到雾天场景最终的目标检测结果。

一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。

一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案,其具有以下优点:

1、本发明的雾视模型融合了平移窗口聚焦检测层和解耦检测头,提高了目标检测的准确性和稳定性。

2、本发明引入解耦检测头有助于关注目标位置,从而更好地提取目标信息,同时抑制雾气的干扰,提高雾天场景下的目标检测效果。

3、本发明的分割融合模块通过分割放大再检测的策略,有效地挖掘出更多雾天场景下的目标,包括大尺度物体和小物体,从而提升了检测的全面性和多样性。

4、本发明使得雾视模型在复杂的雾天条件下能够更好地应用于目标检测任务,具有较高的实用价值。

附图说明

图1是本发明实施例中的多尺度雾天场景目标检测方法流程图。

图2是本发明实施例中的雾视模型训练流程图。

图3是本发明实施例中的雾视模型结构图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

为了克服现有方法的局限性,以及雾天场景下,由于大量光线散射和反射的影响,图像质量往往较差,物体的边界不清晰,容易导致漏检和误检等问题,本发明提出一种基于深度学习的多尺度雾天场景目标检测方法及系统。本发明利用深度学习算法,通过改进目标检测模型,提高雾天场景下目标检测准确率和鲁棒性。本发明结合了深度学习算法的强大特征提取和表征能力,并通过多尺度策略解决了雾天环境下目标模糊和消失的问题。通过本发明,可以在雾天气候条件下实现更准确的目标检测,从而提高在各领域中的应用效果。

在本发明的一个实施例中,提供一种基于深度学习的多尺度雾天场景目标检测方法。本实施例中,采用分割融合的方法进行雾天场景下的目标检测,可以帮助挖掘出图像中更多的目标,既避免了大尺度物体效果检测不佳、检测误差较大等问题,又可以检测出更多潜藏在雾中的小物体。另外,本发明的方法不仅可以应用在恶劣天气场景的检测中,对于小目标检测也具有帮助作用。

如图1所示,该方法包括以下步骤:

1)将获取的雾天场景原始图像数据输入至预先训练好的雾视模型中,获取第一检测结果;其中,雾视模型为融合了平移窗口聚焦检测层及解耦检测头的YOLOv5网络;

2)将雾天场景原始图像数据进行分割,将原始图像均匀划分成至少两块子图像,并将所有子图像等比放大后再次输入预先训练好的雾视模型中,获取第二检测结果;优选的,本实施例中采用将原始图像均匀划分成四块;

3)将第一检测结果与第二检测进行融合处理,得到雾天场景最终的目标检测结果。

上述步骤1)中,如图2所示,雾视模型的训练,包括以下步骤:

1.1)将雾天场景原始图像数据划分为训练集和测试集,并分别对训练集和测试集进行数据增强处理;

1.2)将数据增强处理后的训练集输入雾视模型进行训练,得到训练好的雾视模型;

1.3)将测试集输入训练好的雾视模型,得到测试集结果,以输出雾天场景下的潜藏目标。

使用时,本发明为了继承多尺度空间信息,学习图像的变化并减少边缘模糊对检测结果的影响,引入解耦检测头,来增强对目标位置的关注,从而促进目标样本信息的提取并抑制雾气的干扰。并通过将原始图像进行分割融合,将分割放大后的图像再检测,挖掘出雾天场景下的更多目标。既避免了大尺度物体效果检测不佳、检测误差较大等问题,又可以检测出更多潜藏在雾中的小物体。

本实施例中,步骤1.1)中,分别对训练集和测试集进行数据增强处理,具体为:

训练集采用马赛克数据增强方法及混合数据方法进行数据增强处理;

测试集采用尺度数据增强方法进行数据增强处理。

上述步骤1)中,如图3所示,雾视模型包括:骨干网络、颈部和检测头。

在骨干网络中增加平移窗口聚焦检测层,平移窗口聚焦检测层位于骨干网络的最后一层,通过分解图像数据集中特征图的空间维度和通道维度,将特征图的信息进行全局性的交互和聚合,增强主干网络对目标位置的关注,使得目标的特征更容易被捕捉到。

检测头采用解耦检测头,以完成最终阶段的检测任务。

本实施例中,基于卷积神经网络的深度学习通常依赖于纹理特征来检测物体,然而在雾天场景中,因为雾气导致物体细节严重丢失,这也是网络性能不佳的主要原因。因此,本实施例采用提高网络对局部区域感知能力的方法来解决这个问题。具体的,本实施例新增了一个基于Swin Transformer的特征检测层STDL(即平移窗口聚焦检测层),STDL通过分解特征图的空间维度和通道维度,将特征图的信息进行全局性的交互和聚合,从而使网络更好地理解不同大小、不同位置的目标。此外,SWDL还具有较强的特征重用能力,能够在保持高精度的同时减少模型的参数量和计算量,从而提高物体检测的准确率和召回率。

使用时,通过在骨干网络中增加平移窗口聚焦检测层,能更好的目标检测能力:平移窗口聚焦检测层可以增强主干网络对目标位置的关注,使得目标的特征更容易被捕捉到。这有助于提高目标检测的准确性和召回率,从而改善整体的检测能力。

而且通过增加平移窗口聚焦检测层实现多尺度检测:平移窗口聚焦检测层可以应用于不同大小的特征图,从而实现多尺度的目标检测。这样可以更好地处理不同尺寸的目标,使得模型能够更全面地检测出各种尺度的物体。

进一步,通过增加平移窗口聚焦检测层还能强化上下文信息:通过聚焦窗口操作,模型可以捕获更多的上下文信息,帮助理解目标所在的整体环境。这有助于提高模型对复杂场景和背景信息的理解和识别能力。

进一步,通过增加平移窗口聚焦检测层改善位置不变性:平移窗口聚焦检测层可以通过对局部特征进行聚焦,减轻对目标位置的依赖,从而增加模型的位置不变性,使得模型对目标位置的偏移更具有鲁棒性。

进一步,通过增加平移窗口聚焦检测层降低计算复杂度:相比传统的全卷积检测方法,平移窗口聚焦检测层可以通过在感兴趣区域内进行局部操作,减少不必要的计算,从而提高模型的计算效率。

本实施例中,解耦检测头,是将原有的检测头部拆分成两个子网络:其中一个子网络用于回归目标框的偏移量和尺度信息,另一个自网络用于分类目标物体的类别信息。

本实施例中,解耦检测头的检测方法,包括以下步骤:

(1)在不同的任务之间共享特征表示,并且为每个任务单独训练一个分类器;

(2)通过共享特征表示,将所有任务共享的高层次语义信息编码为特征表示,以提高检测性能。

在雾天场景中,由于光照不足,图像中的细节信息会受到限制,导致目标物体的边缘和纹理特征难以被准确提取。但是,通过解耦检测头使用共享表示,解耦检测头可以将所有任务共享的高层次语义信息编码为特征表示,从而提高对目标物体的抽象能力和泛化能力。这些共享特征可以更好地捕捉目标物体的形态、结构和上下文信息,从而提高检测性能。

使用时,通过将网络结构中原有检测头替换为解耦检测头,具有以下优点:(1)可以增强目标位置的关注:解耦检测头可以更好地聚焦在目标的位置,从而增强对目标的关注度。在雾天场景中,由于雾气的遮挡和模糊,目标物体可能会显得模糊不清,使用解耦检测头可以帮助模型更准确地定位目标,减少雾气的干扰。(2)提取目标样本信息:解耦检测头可以更有效地提取目标样本的特征信息。在雾天场景中,由于光线散射和反射,目标物体的特征可能会变得模糊或不清晰,使用解耦检测头可以增强对目标特征的提取能力,提高检测的准确性。(3)抑制雾气的影响:解耦检测头可以抑制雾气对目标检测的影响。雾天场景中的雾气会降低图像的对比度和清晰度,导致目标检测困难。使用解耦检测头可以通过增强对目标位置和特征的关注,减少雾气造成的干扰,提高检测的稳定性和鲁棒性。(4)增加检测灵敏度:解耦检测头可以提高检测的灵敏度,使得模型更容易检测出小尺寸或低对比度的目标。在雾天场景中,由于目标受到雾气的遮挡,目标可能会变得模糊或难以辨认,使用解耦检测头可以提高检测的敏感度,更好地检测出这些难以察觉的目标。

上述步骤3)中,将第一检测结果与第二检测进行融合处理,具体为:

将第二检测结果进行坐标重映射后,与第一检测结果进行合并,完成融合,得到最终的目标检测结果。

综上,本发明使用时,在检测阶段加入了分割融合处理,通过分割放大再检测的方法帮助网络挖掘出雾天场景下更多的潜藏目标。分割融合可以通过分割放大策略,从图像中挖掘出更多雾天场景下的目标。由于雾气的遮挡和模糊,一些目标可能被掩盖或难以察觉,通过分割放大再检测的策略,可以提高目标检测的多样性,使得模型能够检测到更多类型和尺寸的目标。

改善大尺度物体检测:雾天场景中,大尺度物体可能会由于雾气遮挡而难以准确检测。通过分割放大再检测的策略,可以有效地改善对大尺度物体的检测效果,使得这些目标更容易被检测到。

提升小物体检测:小尺寸的目标在雾天场景中更容易受到雾气的影响,导致检测难度增加。通过分割放大再检测的策略,可以提高对小物体的检测能力,增加模型对小目标的敏感性,从而提高小物体的检测率。

增强检测的鲁棒性:分割放大再检测的策略可以增强目标检测的鲁棒性,使得模型对不同雾浓度和雾气密度的场景都能有较好的适应性。这有助于提高模型在不同雾天场景下的通用性和稳定性。

在本发明的一个实施例中,提供一种基于深度学习的多尺度雾天场景目标检测系统,其包括:

第一处理模块,将获取的雾天场景原始图像数据输入至预先训练好的雾视模型中,获取第一检测结果;其中,雾视模型为融合了平移窗口聚焦检测层及解耦检测头的YOLOv5网络;

第二处理模块,将雾天场景原始图像数据进行分割,将原始图像均匀划分成至少两块子图像,并将所有子图像等比放大后再次输入预先训练好的雾视模型中,获取第二检测结果;

融合模块,将第一检测结果与第二检测进行融合处理,得到雾天场景最终的目标检测结果。

上述实施例中,雾视模型的训练,包括:

将雾天场景原始图像数据划分为训练集和测试集,并分别对训练集和测试集进行数据增强处理;

将数据增强处理后的训练集输入雾视模型进行训练,得到训练好的雾视模型;

将测试集输入训练好的雾视模型,得到测试集结果,以输出雾天场景下的潜藏目标。

其中,分别对训练集和测试集进行数据增强处理,包括:

训练集采用马赛克数据增强方法及混合数据方法进行数据增强处理;

测试集采用尺度数据增强方法进行数据增强处理。

上述实施例中,雾视模型包括:骨干网络、颈部和检测头。

在骨干网络中增加平移窗口聚焦检测层,平移窗口聚焦检测层位于骨干网络的最后一层,通过分解图像数据集中特征图的空间维度和通道维度,将特征图的信息进行全局性的交互和聚合,增强主干网络对目标位置的关注,使得目标的特征更容易被捕捉到。

检测头采用解耦检测头,以完成最终阶段的检测任务。

上述实施例中,解耦检测头,是将原有的检测头部拆分成两个子网络:

其中一个子网络用于回归目标框的偏移量和尺度信息,另一个自网络用于分类目标物体的类别信息。

其中,解耦检测头的检测方法,包括:

在不同的任务之间共享特征表示,并且为每个任务单独训练一个分类器;

通过共享特征表示,将所有任务共享的高层次语义信息编码为特征表示,以提高检测性能。

上述实施例中,将第一检测结果与第二检测进行融合处理,包括:

将第二检测结果进行坐标重映射后,与第一检测结果进行合并,完成融合,得到最终的目标检测结果。

本实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。

在本发明一实施例中提供一种计算设备结构,该计算设备可以是终端,其可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序,该计算机程序被处理器执行时以实现上述方法;该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏,该输入装置可以是显示屏上覆盖的触摸层,也可以是计算设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的一个实施例中,提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。

在本发明的一个实施例中,提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法。

上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种基于深度学习的海上雾天小目标检测方法及装置
  • 微型减压煮茧机煮茧工艺
技术分类

06120116504849