掌桥专利:专业的专利平台
掌桥专利
首页

一种实时红外图像目标检测方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:30


一种实时红外图像目标检测方法、装置、设备及存储介质

技术领域

本发明涉及红外图像目标检测技术领域,尤其涉及一种实时红外图像目标检测方法、装置、设备及存储介质。

背景技术

红外图像目标检测是一种利用红外传感器获取的红外图像数据进行目标识别和检测的技术。与可见光图像相比,红外图像能够在低照度、夜间或恶劣天气条件下提供更好的目标检测性能。红外图像目标检测具有广泛的应用领域,包括军事、安防、航空航天和环境监测等。在军事侦察和安防监控等应用场景中,目标检测的实时性是至关重要的。然而,目前的红外图像目标检测方法难以在运算快速性和性能鲁棒性之间取得平衡。因此,如何在保持准确性的同时提高算法的实时性仍然是一项挑战。

中国授权公告号为“CN116012659B”,名称为“一种红外目标检测方法、装置、电子设备及存储介质”,该方法首先对红外图像进行目标增强,检测增强图像的候选区域,计算候选区域的特征向量,将特征向量输入至预先构建的分类网络,得到候选区域为红外目标的概率和候选区域为非红外目标的概率;该目标检测方法采用目标增强的方法提高检测准确率,存在检测效率低的问题。

综上所述,如何设计一种新型的检测方法,以解决了现有的红外图像目标检测精度不够高以及检测实时性不强的问题,是目前本领域技术人员亟待解决的问题。

发明内容

本发明实施例的主要目的在于提出一种实时红外图像目标检测方法、装置、设备及存储介质,旨在设计一种新型的检测方法,使得红外图像目标检测能够在保持较高检测精度的同时具有更快的检测速度。

本发明解决上述技术问题的技术方案是,提供一种实时红外图像目标检测方法,包括以下步骤:

1)准备训练数据:

将数据集划分为训练集、验证集和测试集;

对训练集中的原图像和其对应标签进行预处理;

2)构建网络模型:

网络模型包括三个编码器、信息聚合模块和解码器;

三个编码器分别用于提取图像的边缘信息、细节信息和语义信息;信息聚合模块用于有效地在网络中多个尺度上聚合三个编码器提取的特征图;解码器用于输出检测的结果图;

3)训练网络模型:

选择损失函数开始网络训练,最小化输出检测结果框与真实标签的损失函数值,直到训练次数达到初始设定阈值或损失函数的值达到预设范围时,网络模型训练完成,保存网络模型参数;

4)微调网络模型:

使用验证集对网络模型进行调整,优化网络模型参数。

进一步地,所述准备训练数据的步骤中,

数据集为红外图像FLIR数据集,对红外图像经过高斯拉普拉斯算子得到梯度图像,对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将训练图像尺寸调整为416

进一步地,所述构建网络模型的步骤中,

三个编码器分别为第一编码器、第二编码器、第三编码器,第一编码器由卷积块一、卷积块二和卷积三组成;第二编码器由卷积块四、卷积块五和卷积六组成;第三编码器由卷积块七、卷积块八、卷积块九、卷积块十和卷积块十一和一个上采样层组成;

其中,第三编码器中的上采样层是亚像素卷积上采样;所有卷积块的组成结构相同,包括卷积层、归一化层和激活函数。

进一步地,所述构建网络模型的步骤中,所述信息聚合模块由聚合模块一、聚合模块二、聚合模块三和聚合模块四组成;所有聚合模块组成结构相同,由全局平均池化、空洞卷积层、1

进一步地,所述构建网络模型的步骤中,所述解码器由yolov5网络的预训练完成的检测头组成;检测头由一组包含卷积层和激活函数的卷积块和全连接层组成;所有卷积层的卷积核大小为n

进一步地,所述训练网络模型的步骤中,

所述损失函数为复合损失函数,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失;位置损失采用均方误差作为位置偏差度量,目标存在性损失采用二元交叉熵损失度量,目标分类损失采用多类别交叉熵损失度量,候选框坐标损失采用均方误差度量,总损失由上述损失加权组合来计算。

进一步地,所述微调网络模型步骤之后还包括:

5)固化网络模型:

固定网络模型的网络参数,确定最终的红外图像目标检测模型.

为解决上述技术问题,本发明还提出一种实时红外图像目标检测装置,所述实时红外图像目标检测装置包括:

图像获取模块:用于处理输入的原红外图像,获取后续模块可处理的图像;获取方式其一是对输入原红外图像应用高斯拉普拉斯算子获取梯度图,其二是对输入原红外图像进行下采样操作,获取其1/2分辨率图;

图像处理模块:用于处理提取红外图像中的目标特征;包括第一编码器、第二编码器、第三编码器及信息聚合模块,第一编码器处理提取图像获取模块输出的梯度图,第二编码器处理提取原图像,第三编码器处理提取图像获取模块输出的1/2分辨率图,信息聚合模块在多个不同尺度上聚合三个编码器提取的红外图像目标特征信息;

图像输出模块:用于输出预测特征图;包括解码器。

为解决上述技术问题,本发明还提出一种计算机设备,所述计算机设备包括输入/输出单元、中央处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的一种实时红外图像目标检测方法的步骤。

为解决上述技术问题,本发明还提出一种计算机存储介质,所述计算机存储介质存储有计算机可执行程序代码,所述代码运行时,实现如上所述的一种实时红外图像目标检测方法的步骤。

与现有技术相比,本发明提供了一种实时红外图像目标检测方法、装置、设备及存储介质,具备以下有益效果:

1、本发明提供的一种实时红外图像目标检测方法,设计了一种信息聚合模块,在聚合模块中使用了注意力机制设计,用以捕获全局特征信息后为重要通道分配更高权重信息,在保留各自特性的前提下,从多个尺度上聚合了所输入支路的特征图,提高了网络的特征提取能力,从而有效提高检测结果的精度;

2、本发明提供的一种实时红外图像目标检测方法,在第三编码器的上采样层采用亚像素卷积上采样操作,可以更平滑地恢复上采样图像的细节,减少失真和模糊,提升特征图的表示能力,从而提高检测的精度;

3、本发明提供的一种实时红外图像目标检测方法,在设计的卷积块中添加跳跃连接,减少了网络参数,从而使得整个网络的深度变浅且更为轻量,有助于提升检测过程中的网络推理速度;

4、本发明提供的一种实时红外图像目标检测装置,在图像处理模块中设计了一种新型的多支路结构的红外图像目标检测框架,充分利用了输入图像的梯度图像信息和原图像的细节信息来提高检测精度,以及利用了处理低分辨率图像的快速性,在保证检测效果的同时,提升了红外图像目标检测的检测速度;

5、本发明的计算机可读存储介质,由于具有可以在执行时运行上述方法的代码,因而也具有上述方法具有的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明所述的实时红外图像目标检测方法的流程图;

图2为本发明所述的实时红外图像目标检测方法的网络结构图;

图3为本发明所述的卷积块的结构图;

图4为本发明所述的信息聚合模块的网络结构图;

图5为本发明和现有技术的相关指标对比表;

图6为本发明所述的实时红外图像目标检测装置的示意图;

图7为本发明所述的实时红外图像目标检测装置的处理流程示意图。

附图标号说明:900、计算机设备;901、中央处理器;902、只读存储器;903、随机存储器;904、总线;905、输入/输出接口;906、输入部分;907、输出部分;908、存储部分;909、通信部分;910、驱动器;911、可拆卸介质。

具体实施方式

下面将结合本发明说明书附图中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“若干”、“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明提出一种实时红外图像目标检测方法,旨在设计一种新型的检测方法、装置、设备及存储介质,使得红外图像目标检测能够在保持较高检测精度的同时具有更快的检测速度。

下面将在具体实施例中对本发明提出的实时红外图像目标检测方法进行说明:

实施例1:在本实施例的技术方案中,如图1所示,一种实时红外图像目标检测方法,包括以下步骤:

步骤1:准备训练数据:

将数据集划分为训练集、验证集和测试集;

对训练集中的原图像和其对应标签进行预处理;

可以理解地,选择红外图像数据集FLIR,将数据集划分为训练集、验证集和测试集;对红外图像经过高斯拉普拉斯算子得到梯度图像,对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将所有训练图像尺寸调整为,完成准备训练数据。

步骤2:构建网络模型:

网络模型包括三个编码器、信息聚合模块和解码器;

三个编码器分别用于提取图像的边缘信息、细节信息和语义信息;信息聚合模块用于有效地在网络中多个尺度上聚合三个编码器提取的特征图;解码器用于输出检测的结果图;

步骤3:训练网络模型:

选择损失函数开始网络训练,最小化输出检测结果框与真实标签的损失函数值,直到训练次数达到初始设定阈值或损失函数的值达到预设范围时,网络模型训练完成,保存网络模型参数;

可以理解地,选择复合损失,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失,其中位置损失采用均方误差作为位置偏差度量,目标存在性损失采用二元交叉熵损失度量,目标分类损失采用多类别交叉熵损失度量,候选框坐标损失采用均方误差度量,总损失由上述损失加权组合来计算。开始网络训练,最小化输出检测结果框与真实标签的损失函数值,直到训练次数达到初始设定阈值或损失函数的值达到预设范围,即认为网络模型已训练完成,保存网络模型参数。

步骤4:微调网络模型:

使用验证集对网络模型进行调整,优化网络模型参数。

进一步地,使用验证集对网络模型进行调整,优化网络模型参数,进一步提高目标检测性能,得到能够实现最优检测效果的网络模型

进一步地,所述准备训练数据的步骤中,

数据集为红外图像FLIR数据集,对红外图像经过高斯拉普拉斯算子得到梯度图像,对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将训练图像尺寸调整为416

进一步地,所述构建网络模型的步骤中,

三个编码器分别为第一编码器、第二编码器、第三编码器,第一编码器由卷积块一、卷积块二和卷积三组成;第二编码器由卷积块四、卷积块五和卷积六组成;第三编码器由卷积块七、卷积块八、卷积块九、卷积块十和卷积块十一和一个上采样层组成;

其中,第三编码器中的上采样层是亚像素卷积上采样;所有卷积块的组成结构相同,包括卷积层、归一化层和激活函数。

进一步地,所述构建网络模型的步骤中,所述信息聚合模块由聚合模块一、聚合模块二、聚合模块三和聚合模块四组成;所有聚合模块组成结构相同,由全局平均池化、空洞卷积层、1

进一步地,所述构建网络模型的步骤中,所述解码器由yolov5网络的预训练完成的检测头组成;检测头由一组包含卷积层和激活函数的卷积块和全连接层组成;所有卷积层的卷积核大小为n

进一步地,所述训练网络模型的步骤中,

所述损失函数为复合损失函数,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失;位置损失采用均方误差作为位置偏差度量,目标存在性损失采用二元交叉熵损失度量,目标分类损失采用多类别交叉熵损失度量,候选框坐标损失采用均方误差度量,总损失由上述损失加权组合来计算。

进一步地,所述微调网络模型步骤之后还包括:

步骤5:固化网络模型:

固定网络模型的网络参数,确定最终的红外图像目标检测模型.

为解决上述技术问题,本发明还提出一种实时红外图像目标检测装置,所述实时红外图像目标检测装置包括:

图像获取模块:用于处理输入的原红外图像,获取后续模块可处理的图像;获取方式其一是对输入原红外图像应用高斯拉普拉斯算子获取梯度图,其二是对输入原红外图像进行下采样操作,获取其1/2分辨率图;

图像处理模块:用于处理提取红外图像中的目标特征;包括第一编码器、第二编码器、第三编码器及信息聚合模块,第一编码器处理提取图像获取模块输出的梯度图,第二编码器处理提取原图像,第三编码器处理提取图像获取模块输出的1/2分辨率图,信息聚合模块在多个不同尺度上聚合三个编码器提取的红外图像目标特征信息;

图像输出模块:用于输出预测特征图;包括解码器。

为解决上述技术问题,本发明还提出一种计算机设备,所述计算机设备包括输入/输出单元、中央处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的一种实时红外图像目标检测方法的步骤。

为解决上述技术问题,本发明还提出一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行程序代码,所述代码运行时,实现如上所述的一种实时红外图像目标检测方法的步骤。

实施例2:如图1所示,一种实时红外图像目标检测方法,该方法具体包括如下步骤:

步骤1,准备训练数据:选择红外图像数据集FLIR,将数据集划分为训练集、验证集和测试集;首先对红外图像经过高斯拉普拉斯算子得到梯度图像,高斯拉普拉斯算子LOG(x,y)的具体计算公式如下所示:

其中,

再对红外图像进行降采样操作得到原图像的1/2分辨率图,通过裁剪和尺寸变化等预处理将所有训练图像尺寸调整为416

步骤2,构建网络模型:如图2所示,网络模型主要包括三个编码器、一个信息聚合模块和一个解码器;三个编码器分别以梯度图像、原图像和原图像的1/2分辨率图像作为输入,三个编码器分别用于提取图像的边缘信息、细节信息和语义信息;信息聚合模块用于从多个尺度上有效聚合三个编码器提取的特征图;解码器由yolov5网络预训练完成的检测头组成,用于输出最终的检测结果。

第一编码器由卷积块一、卷积块二和卷积三组成;第二编码器由卷积块四、卷积块五和卷积六组成;第三编码器由卷积块七、卷积块八、卷积块九、卷积块十和卷积块十一和一个上采样层组成。其中,第三编码器中的上采样层是亚像素卷积上采样;其中,所有卷积块的组成结构相同,如图3所示,卷积块由卷积层一、卷积层二、卷积层三、归一化层一、归一化层二、归一化层三和激活函数组成,其中,所有卷积层的卷积核大小均为3

信息聚合模块由聚合模块一、聚合模块二、聚合模块三和聚合模块四组成。其中,所有信息聚合模块组成结构相同,如图4所示,两个输入特征在通道维度上进行拼接,然后分别输入两个支路,接着两条支路的输出在通道维度上进行拼接,再经过激活函数后作为权重分别与原输入特征进行矩阵相乘操作,得到两个带有权重的特征图,最终将两个带有权重的特征图进行拼接输出;两条支路中一条支路由全局平均池化、1

第三编码器的上采样层是亚像素卷积上采样操作,检测头由一组包含卷积层、激活函数的卷积块和全连接层组成。

步骤3,选择复合损失,包括目标检测位置损失、目标检测存在性损失、目标分类损失和候选框坐标损失,其中目标检测位置损失采用均方误差作为位置偏差的度量,目标检测位置损失

其中,

目标存在性损失用于判断每个格子是否包含目标。使用二元交叉熵损失来度量目标存在性损失,目标存在性损失

其中,

目标分类损失负责对目标物体进行分类,使用多类别交叉熵损失来度量分类损失,目标分类损失

其中,

候选框坐标损失用于度量预测框的位置坐标相对于真实框的偏差,使用均方误差来度量位置坐标的损失,候选框坐标损失的具体计算公式如下:

其中,

总损失由上述四个部分的损失函数组成,可以通过加权组合来计算,总损失L的具体计算公式如下:

其中,

开始网络训练,设定训练次数为500,训练过程的学习率设置为0.001,既能保证网络快速拟合,而不会导致网络过拟合;网络参数优化器选择随机梯度下降算法;损失函数函数值阈值设定为0.005左右,小于0.005就可以认为整个网络的训练已基本完成,保存网络参数。

步骤4,微调网络模型:使用FLIR数据集中验证集对网络模型进行调整,优化网络模型参数,进一步提高目标检测性能,评估其泛化能力,得到能够实现最优检测效果的网络模型。

步骤5,固化网络模型:完成网络模型调整后,固定网络参数,确定最终的红外图像目标检测模型;若后续需要进行红外图像目标检测任务时,可以直接将待检测图像输入至网络模型中,得到检测结果。本发明和现有技术的相关指标对比表如图5所示。从表中可知,本发明提出的方法比现有方法的平均准确度均值高出3%,检测速度提升47%,这些指标也进一步说明了本发明提出的方法具有更好的检测效果。

实施例3:如图6所示,本实施例提供一种实时红外图像目标检测装置,可以执行上述方法的实施例。该装置包括:

图像获取模块:用于处理输入的原红外图像,获取后续模块可处理的图像;获取方式其一是对输入原红外图像应用高斯拉普拉斯算子获取梯度图,其二是对输入原红外图像进行下采样操作,获取其1/2分辨率图;

图像处理模块:用于处理前一模块输出的图像,其结构包括第一编码器、第二编码器、第三编码器和信息聚合模块;具体处理过程为:由第一编码器处理提取的梯度图像,经过三个卷积块的特征提取,第二编码器处理原图像,同样经过三个卷积块的特征提取,对应地,编码器一和编码器二的每个卷积块的输出均分别输出到信息聚合模块中的聚合模块一、聚合模块二和聚合模块三中进行信息聚合。此外,由第三编码器处理1/2分辨率图,经过五个卷积块的特征提取后,再通过一个上采样层输入到聚合模块四,同第一编码器和第二编码器的聚合输出结果进行聚合,作为本模块的输出。

图像输出模块:用于输出预测特征图,其组成为解码器,内部是yolov5的检测头,此模块处理前一模块的输出,输出最终的预测结果图像。

实施例4:本发明提供一种计算机设备,如图7所示,表示一种适于用来实现本申请实施例的电子设备900的结构示意图。

如图7所示,电子设备900包括中央处理器901,其可以根据存储在只读存储器902中的包括所述的一种实时红外图像目标检测等程序或者从存储部分908加载到随机存储器903中的包括所述的一种实时红外图像目标检测等程序而执行技术方案步骤一到五等各种适当的动作和处理。在随机存储器903中,还存储有设备900操作所需的各种程序和数据。输入/输出接口905、中央处理器901、只读存储器902以及随机存储器903均连接到总线904。

输入部分906,包括红外摄像头、键盘、鼠标等;输出部分907,包括阴极射线管、液晶显示器等以及扬声器等;存储部分908,包括硬盘等;通信部分909,包括网络接口卡如LAN卡、调制解调器;驱动器910等均连接到输入/输出接口905;可拆卸介质911连接驱动器910。

实施例5:本发明还提供了一种计算机存储介质,该存储介质可以包含在上述实施例描述的设备/装置中,也可以作为独立存在,未装配到该设备/装置中。该计算机可读存储介质存有一个或多个程序,当执行这些程序时,可实现根据本发明实施例的实时红外图像目标检测方法。根据本发明实施例,计算机可读存储介质可以是非易失性存储介质,例如便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器设备、磁存储器设备,或者它们的任意合适组合。本发明的计算机可读存储介质,由于具有可以在执行时运行如实施例1和2所述方法的代码,可以节省运算量,提高效率。

以上实施例中,卷积、卷积、空洞卷积、池化、激活函数、归一化、归一化指数函数、S函数、线性整流函数、矩阵乘法操作和对应元素乘法等实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或技术文献中查阅。

此外,所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种基于多种供电电源的智能家居电能管理系统
  • 一种基于智能眼镜的度数调节与管理系统及方法
  • 一种多种智能风机能量管理智能调节系统
  • 一种含多种可再生能源的智能微电网能量管理系统及方法
技术分类

06120116561349