掌桥专利:专业的专利平台
掌桥专利
首页

图像识别方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:58:21


图像识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域,特别涉及图像识别方法、装置、设备及存储介质。

背景技术

近年来,随着人工智能技术的不断发展,深度神经网络被广泛地应用于图像识别领域。例如,在仓库库房或机房内部署用于烟火监控的安防摄像头,通过对视频的分析,对发生的潜在险情进行判断。在建筑工地、工厂厂区等场所安装带有安全帽佩戴识别功能的摄像头,对潜在的不规范穿戴进行风险报警,避免重大的生产安全责任事故的出现。然而各种各样的图像往往具有不同的特征,当前主流摄像机和安防监控手段对日间的识别效果较好,但在低照度下,特别是相机工作在近红外模式下,画面中待检测目标的主要特点与可见光下的特点差异巨大,此时在利用深度神经网络对图像进行识别时,难以进行准确地识别。

发明内容

本申请实施例提供了图像识别方法、装置、设备及存储介质,对视频帧图像进行图像分类,确定图像类型,并针对不同的图像类型,使用不同的识别模型进行图像识别,以获取到准确的图像识别结果。技术方案如下:

一方面,本申请实施例提供一种图像识别方法,所述方法包括:

获取视频帧图像的图像类型,所述图像类型为近红外图像或可见光图像;

在所述视频帧图像的图像类型为近红外图像的情况下,使用近红外图像识别模型对所述视频帧图像进行图像识别,确定第一图像识别结果;

在所述视频帧图像的图像类型为可见光图像的情况下,使用可见光图像识别模型对所述视频帧图像进行图像识别,确定第二图像识别结果。

另一方面,本申请实施例提供一种图像识别装置,所述装置包括:

图像类型获取模块,用于获取视频帧图像的图像类型,所述图像类型为近红外图像或可见光图像;

第一识别处理模块,用于在所述视频帧图像的图像类型为近红外图像的情况下,使用近红外图像识别模型对所述视频帧图像进行图像识别,确定第一图像识别结果;

第二识别处理模块,用于在所述视频帧图像的图像类型为可见光图像的情况下,使用可见光图像识别模型对所述视频帧图像进行图像识别,确定第二图像识别结果。

再一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方面所述的方法。

又一方面,本申请实施例提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的方法。

又一方面,本申请实施例提供一种计算机程序产品,当该计算机程序产品被执行时,其用于执行上述方面所述的方法。

本申请实施例提供的技术方案中,在获取到视频帧图像后,确定视频帧图像的图像类型,该图像类型为近红外图像或可见光图像。若确定出的视频帧图像的图像类型为近红外图像,则使用近红外图像识别模型对视频帧图像进行图像识别,确定出第一图像识别结果。若确定出的视频帧图像的图像类型为可见光图像,则使用可见光图像识别模型对视频帧图像进行图像识别,确定第二图像识别结果。在本申请实施例中将视频帧图像分类为近红外图像和可见光图像,充分考虑不同类型图像之间的特征差异,使用两个独立的图像识别模型对不同类型的图像进行识别,保证图像识别结果的准确性。

附图说明

图1是本申请一个实施例提供的图像识别方法的流程框图一;

图2是本申请一个实施例提供的图像识别方法的流程框图二;

图3是本申请一个实施例提供的图像识别方法的流程框图三;

图4是本申请一个实施例提供的图像识别方法的流程框图四;

图5是本申请一个实施例提供的图像识别装置的框图;

图6是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

申请概述

近年来,随着人工智能技术的不断发展,深度神经网络被广泛地应用于图像识别领域。然而各种各样的图像往往具有不同的特征,例如当前主流摄像机和安防监控手段对日间的识别效果较好,但在低照度下,特别是相机工作在近红外模式下,画面中待检测目标的主要特点与可见光下的特点差异巨大,此时在利用深度神经网络对图像进行识别时,难以进行准确地识别。

在本申请中,在获取到视频帧图像后,确定视频帧图像的图像类型,该图像类型为近红外图像或可见光图像。若确定出的视频帧图像的图像类型为近红外图像,则使用近红外图像识别模型对视频帧图像进行图像识别,确定出第一图像识别结果。若确定出的视频帧图像的图像类型为可见光图像,则使用可见光图像识别模型对视频帧图像进行图像识别,确定第二图像识别结果。在本申请实施例中将视频帧图像分类为近红外图像和可见光图像,充分考虑不同类型图像之间的特征差异,使用两个独立的图像识别模型对不同类型的图像进行识别,保证图像识别结果的准确性。

下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1,其示出了本申请一个实施例提供的图像识别方法的流程图。该方法可以包括如下几个步骤:

步骤11,获取视频帧图像的图像类型,所述图像类型为近红外图像或可见光图像。

在一些实施例中,对获取的视频流进行帧处理,获取到连续的视频帧图像集合。本实施例中提及的视频帧图像是指系统当前正在处理的图像。近红外图像为相机在近红外工作模式下获取到的图像,可见光图像为相机在可见光工作模式下获取到的图像。其中,近红外工作模式为相机在低照度或夜间开启的工作模式,可见光工作模式为相机在白日正常照度的工作模式。近红外工作模式下获取到的近红外图像可以为黑白图像也可以为彩色图像。因近红外图像、可见光图像是在不同光线条件下获取到的图像,因此二者的图像纹理具有较大差异。

在获取视频帧图像的图像类型时,至少存在如下所示的多种方式:

方式一:所述步骤11获取视频帧图像的图像类型,包括:

步骤111,确定所述视频帧图像在通道层面的第一离散程度值。

其中,第一离散程度值用于指示视频帧图像在通道层面的整体离散程度。通道层面是指视频帧图像的R、G、B三个通道。

具体地,步骤111确定所述视频帧图像在通道层面的第一离散程度值,包括:

步骤1111,确定所述视频帧图像中每个像素点在通道层面的第二离散程度值。

其中,第二离散程度值用于指示像素点在通道层面的离散程度,每个像素点具有一个第二离散程度值。第二离散程度值可以为方差,也可以为标准差,当然还可以为其他用于表征离散程度的数值。

示例性地,遍历视频帧图像中的像素点,对每一个像素点R、G、B三个颜色通道的颜色值计算方差,得到每一像素点的第二离散程度值。

步骤1112,对各个所述第二离散程度值进行排序处理,以基于预设排序位置在排序结果中选取出第三离散程度值。

其中,预设排序位置为预先设定的排序结果选取条件。

示例性地,预先确定排序规则,如按从大到小排序,则预设排序位置为前30%,也就是说对每个像素点分别对应的第二离散程度值进行从大到小的排序处理,得到排序结果,将排序结果中前30%的第二离散程度值选取出作为第三离散程度值。

示例性地,预先确定排序规则,如按从小到大排序,则预设排序位置为后30%,也就是说对每个像素点分别对应的第二离散程度值进行从小到大的排序处理,得到排序结果,将排序结果中后30%的第二离散程度值选取出作为第三离散程度值。

步骤1113,基于各个所述第三离散程度值,确定所述视频帧图像在通道层面的所述第一离散程度值。

具体地,在确定出第三离散程度值后,根据各个第三离散程度值进行计算,以得到第一离散程度值。例如计算各个第三离散程度值的均值,得到视频帧图像在通道层面的第一离散程度值。确定出的第一离散程度值将作为分类器的度量标准。需要说明的是,对于一帧视频帧图像,存在一个第一离散程度值和多个第二离散程度值,第一离散程度值与视频帧图像相对应,用于评估视频帧图像的整体离散程度,第二离散程度值与像素点相对应,一个第二离散程度值用于评估一个像素点的离散程度。

步骤112,在所述第一离散程度值大于离散阈值的情况下,确定所述视频帧图像的图像类型为可见光图像;在所述第一离散程度值小于或等于所述离散阈值的情况下,确定所述视频帧图像的图像类型为近红外图像。

具体地,将第一离散程度值与离散阈值进行对比,在确定出第一离散程度值大于离散阈值的情况下,证明视频帧图像的三个通道的离散程度较大,因此该视频帧图像为可见光图像。在确定出第一离散程度值小于或等于离散阈值的情况下,证明视频帧图像的三个通道的离散程度较小,因此该视频帧图像为近红外图像。在一种可能的实现方式中,步骤111-步骤112为对视频帧图像进行图像分类的步骤,由图像分类器执行,示例性地如图2所示,在执行方法后,先进行系统初始化,然后在获取到视频帧图像后,将视频帧图像输入图像分类器,确定出当前处理的视频帧图像的分类结果。

需要说明的是,在很多光照强度不充足的室内场景,如仓库库房、机房等,在白天由于相机上内置的光线传感器受光较弱,依然会启动近红外模式进行图像获取。而近红外模式下,区别于低照度的可见光图像,近红外图像仍存在较高的亮度。特别是相机带有近红外补光灯的情况下,亮度会达到较高水平。因此仅通过图像分析,计算像素平均亮度,不能有效区分当前环境是照度较高的可见光图像还是低照度下的近红外图像,即不能对可见光图像和近红外图像进行有效区分。

在本实现方式中实现对视频帧图像的图像分类,在图像分类的过程中考虑到可见光图像和近红外图像的不同纹理特性,通过比较视频帧图像在通道层面的第一离散程度值与离散阈值的大小,准确地确定出视频帧图像的图像类型。

方式二,所述步骤11获取视频帧图像的图像类型,包括:

步骤113,对所述视频帧图像进行图像分类,确定第一分类结果;获取与所述视频帧图像连续的多帧图像对应的第二分类结果;基于所述第一分类结果和所述第二分类结果,确定所述视频帧图像的图像类型。

其中,视频帧图像是对视频流进行帧处理得到的,因此会存在一系列连续的视频帧图像。即该视频帧图像会存在连续的多帧图像,在确定视频帧图像的图像类型时,不仅考虑该帧视频帧图像的单一分类结果即第一分类结果,还考虑与视频帧图像连续的多帧图像对应的第二分类结果,综合考虑第一分类结果和第二分类结果,以准确地确定出视频帧图像的图像类型,避免连续多帧图像的分类结果在近红外图像和可见光图像间进行频繁交替。

具体地,对获取到每帧视频帧图像进行图像分类,确定分类结果,将该分类结果存储在一个固定长度的队列中,该队列先进先出,即对分类结果进行防抖动处理,在一种可能的实现方式中,可以利用如图2的分类器防抖动模块进行防抖动操作。利用图像分类器在对当前正在处理的视频帧图像进行图像分类后,确定第一分类结果,将第一分类结果输入至分类器防抖动模块中,即将该第一分类结果存储在队列中,并确定队列中已经存储的第一分类结果以外的其他分类结果即第二分类结果,确定第一分类结果和第二分类结果中近红外图像的数量和可见光图像的数量,在近红外图像的数量大于可见光图像的数量的情况下,确定视频帧图像的图像类型为近红外图像;在近红外图像的数量小于可见光图像的数量的情况下,确定视频帧图像的图像类型为可见光图像,在近红外图像的数量等于可见光图像的数量的情况下,根据第一分类结果,确定视频帧图像的图像类型,当然也可以设置奇数位队列长度,避免出现近红外图像的数量等于可见光图像的数量的情况。

进一步地,图像分类器在确定第一分类结果时,确定视频帧图像在通道层面的第一离散程度值;在第一离散程度值大于离散阈值的情况下,将可见光图像确定为第一分类结果;在第一离散程度值小于或等于离散阈值的情况下,将近红外图像确定为第一分类结果。

在本实现方式中,考虑到图像传输过程中的编码质量等其他因素影响,对连续视频帧的逐帧判断,易发生抖动的情况。例如当网络状态不佳时,视频解码不能获得完整的视频图像,表现为黑屏或灰屏。在此情况下第一离散程度值亦会处于较低水平,进而将此时刻的视频帧图像误识别为相机工作在近红外模式下。受限于分析设备的存储容量和计算能力,频繁切换不同的深度卷积网络分析不同模式下的图像信号会产生上下文切换的开销。为避免图像误分类导致的频繁切换深度卷积网络或其他上下文信息,对分类结果需进行消除抖动操作,即采用众数投票的方式确定视频帧图像的图像类型。

方式三,所述步骤11获取视频帧图像的图像类型,包括:

步骤114,确定所述视频帧图像携带的图像参数;基于所述图像参数,确定所述视频帧图像的图像类型。

具体地,视频帧图像中会携带有图像参数,该图像参数用于指示该视频帧图像被采集时相机的工作模式。因此可以根据图像参数,确定出视频帧图像的图像类型。若视频帧图像携带的图像参数表明相机的工作模式为近红外工作模式,则该视频帧图像的图像类型为近红外图像。若视频帧图像携带的图像参数表明相机的工作模式为可见光工作模式,则该视频帧图像的图像类型为可见光图像。

方式四,所述步骤11获取视频帧图像的图像类型,包括:

步骤115,在所述视频帧图像携带有图像参数的情况下,基于所述图像参数,确定所述视频帧图像的图像类型;在所述视频帧图像未携带有所述图像参数的情况下,对所述视频帧图像进行图像分类,确定所述视频帧图像的图像类型。

通常情况下,不同的相机具有不同的功能,因此可能存在部分相机支持工作模式判定,则在该相机采集到的视频帧图像中会携带有图像参数,因此可以根据图像参数,确定视频帧图像的图像类型。存在部分相机不支持工作模式判定,则该相机采集到的视频帧图像不携带有用于表明相机工作模式的图像参数,此时对视频帧图像进行图像分类,确定视频帧图像的图像类型。其中对图像进行分类可以采用方式一的方式与可以采用方式二的方式。

步骤12,在所述视频帧图像的图像类型为近红外图像的情况下,使用近红外图像识别模型对所述视频帧图像进行图像识别,确定第一图像识别结果。

在一些实施例中,在视频帧图像的图像类型为近红外图像的情况下,使用近红外图像识别模型对视频帧图像进行图像识别,确定出第一图像识别结果。近红外图像识别模型为预先训练出的用于对近红外图像进行图像识别的模型。

步骤13,在所述视频帧图像的图像类型为可见光图像的情况下,使用可见光图像识别模型对所述视频帧图像进行图像识别,确定第二图像识别结果。

在一些实施例中,在视频帧图像的图像类型为可见光图像的情况下,使用可见光图像识别模型对视频帧图像进行图像识别,确定第二图像识别结果。可见光图像识别模型为预先训练出的用于对可见光图像进行图像识别的模型。

示例性地,如图2所示,在执行图像识别方法时,先进行系统初始化,然后获取视频帧图像,将视频帧图像送入图像分类器,得到视频帧图像的第一分类结果,将第一分类结果输入分类器防抖动模块,分类器防抖动模块输出最终分类结果,该最终分类结果用于表明视频帧图像的图像类型,需要说明的是,不同视频帧的图像类型也可以利用当前相机工作模式进行表示,即在当前相机工作模式为近红外模式时,即意味着视频帧图像为近红外图像,在当前相机工作模式为可见光模式时,即意味着视频帧图像为可见光图像。在确定当前相机共模式后,进一步判断相机是否工作在可见光模式下,若是,则使用可见光深度卷积网络即可见光图像识别模型进行识别,确定第一图像识别结果;若否,则使用近红外深度卷积网络即近红外图像识别模型进行识别,确定第二图像识别结果。

在本申请实施例中将视频帧图像分类为近红外图像和可见光图像,充分考虑不同类型图像之间的特征差异,使用两个独立的图像识别模型对不同类型的图像进行识别,保证图像识别结果的准确性。

请参考图3,其示出了本申请一个实施例提供的图像识别方法的流程图,该图像识别方法的执行主体为图像识别分支。该方法可以包括如下几个步骤:

步骤301,读取缓存介质中的存储数据;所述存储数据为图像分类分支对获取的视频帧图像进行分类后的存储内容。

在一实施例中,如图4所示,图像识别和图像分类是两个分支进行处理的。图像分类分支对获取的视频帧图像进行分类后,将分类结果进行存储,从而对于图像识别分支,从缓存介质中读取存储数据即可。

具体地,对于图像分类分支,如图4所示,图像分类分支用于获取视频帧图像,对视频帧图像进行分类,确定视频帧图像的分类标签,将该分类标签的分类结果进行存储。或者图像分类分支从视频流中持续地获得图像,经过图像分类器后获得图像分类标签。将初分类的结果送入分类器防抖动模块用于确定当前摄像机的工作状态,并将该结果存储在缓存介质中。

其中,图像分类器在获取到视频帧图像后,对图像进行分类,具体的分类步骤如下:

确定视频帧图像在通道层面的第一离散程度值。

在第一离散程度值大于离散阈值的情况下,确定视频帧图像的分类标签为可见光图像,当然该分类标签也可以为可见光工作模式。

在第一离散程度值小于或等于离散阈值的情况下,确定视频帧图像的分类标签为近红外图像,当然该分类标签也可以为可见光工作模式。

进一步地,分类器防抖动模块即固定长度的队列,该队列先进先出,新获取的分类标签存储在队尾,当队列长度超过预设最大容量,从队头移除历史分类结果。对于每一帧图像,以该存储队列中的众数作为评价依据,确定最终的分类结果,将该最终分类结果存储在存储介质中。

具体地,在图像识别分支和图像分类分支进行工作前,可以先进行系统的初始化操作,重置分类器缓存介质,清空其中存储的视频帧状态信息。

步骤302,基于读取的所述存储数据,确定所述视频帧图像的图像类型。

具体地,存储数据中存在用于表明视频帧图像的图像类型的分类结果,因此可以根据该分类结果,确定视频帧图像的图像类型。

步骤303,在所述视频帧图像的图像类型为近红外图像的情况下,使用近红外图像识别模型对所述视频帧图像进行图像识别,确定第一图像识别结果。

在一些实施例中,在视频帧图像的图像类型为近红外图像的情况下,对应图4中相机不是工作在可见光模式下,使用近红外图像识别模型(对应图4中近红外深度卷积网络)对视频帧图像进行图像识别,确定出第一图像识别结果。近红外图像识别模型为预先训练出的用于对近红外图像进行图像识别的模型。

步骤304,在所述视频帧图像的图像类型为可见光图像的情况下,使用可见光图像识别模型对所述视频帧图像进行图像识别,确定第二图像识别结果。

在一些实施例中,在视频帧图像的图像类型为可见光图像的情况下,对应图4中相机工作在可见光模式下,使用可见光图像识别模型(对应图4中可见光深度卷积网络)对视频帧图像进行图像识别,确定第二图像识别结果。可见光图像识别模型为预先训练出的用于对可见光图像进行图像识别的模型。

在本申请实施例中,利用双分支即图像分类分支和图像识别分支对视频帧图像进行处理,以保证图像识别方法的处理速度,且将视频帧图像分类为近红外图像和可见光图像,充分考虑不同类型图像之间的特征差异,使用两个独立的图像识别模型对不同类型的图像进行识别,保证图像识别结果的准确性。

在一种可能的应用场景中,本实施例提供的图像识别方法用于进行安防监控,进一步地,图像识别方法用于进行烟火检测。

需要说明的是,在可见光下火焰具有明显的轮廓特征,且火焰内部像素呈亮度较高,黄红色特征。烟雾图像具有明显的轮廓和烟雾区域中像素具有明显的低饱和呈灰黑色纹理;然而在近红外图像中,火焰具有较高强度的红外辐射能量,对近红外感光模式具有较强干扰,图像中火焰没有明显的轮廓特征,呈现为面积较大高亮团块。而近红外图像中烟雾区域透明度低于可见光图像,呈现不同的纹理特点。因此为了实现对可见光下的烟火图像和近红外下的烟火图像均进行准确识别,训练用于近红外下的烟火图像识别的近红外图像识别模型,和用于可见光下的烟火图像识别的可见光图像识别模型。

训练用于近红外下的烟火图像识别的近红外图像识别模型,和用于可见光下的烟火图像识别的可见光图像识别模型的步骤如下:

获取第一样本图像和第一标注数据;所述第一样本图像包括可见光下的烟火图像,所述第一标注数据包括烟雾标签和火焰标签;

基于所述第一样本图像和所述第一标注数据,训练出用于烟火检测的可见光图像识别模型;

获取第二样本图像和第二标注数据;所述第二样本图像包括近红外下的烟火图像,所述第二标注数据包括烟雾标签、火焰标签和灯光标签;

基于所述第二样本图像和所述第二标注数据,训练出用于烟火检测的近红外图像识别模型。

在本训练步骤中,烟火检测器旨在画面中检测烟雾和火焰的目标位置和尺寸。检测器可使用基于Yolo(一种目标检测模型),SSD(单阶多层检测器)等作为检测。可见光图像识别模型和近红外图像识别模型均为深度卷积网络的模型,深度卷积网络的模型输入是视频帧图像,经过运算后,输出的画面中感兴趣目标的位置信息。当然其中还包括后处理的操作,主要包含输出张量的解码和非极大值抑制等操作。感兴趣目标的位置信息包括检测对象的坐标位置x,y;检测对象的宽度和高度width,height;其他信息还包括检测目标的置信度等。

在本应用场景中考虑到近红外和可见光图像的差别,使用两种不同的检测器,但在训练数据组织方法上,两者存在差别,特别是考虑到近红外图像中火焰的轮廓不清晰,与夜间灯光的纹理特征相近,需对灯光进行特别的监督:在可见光图像检测器的数据集中,图像数据需要包含可见光下监控视角的含烟火图像正样本,当然还可以增加不含烟火图像的负样本用于负样本监督。定义至少两类目标检测标签,第一类标签包含烟雾的目标、第二类标签包含火焰的目标。而在近红外图像检测器中,图像数据需包含监控视角下近红外图像,即近红外下监控视角的含烟火图像正样本,当然还可以增加不含烟火图像的负样本用于负样本监督。定义至少三类目标检测标签,第一类标签包含烟雾目标、第二类标签包含近红外图像中的火焰目标、第三类标签包含近红外图像中灯光目标。

根据实验,使用YoloX作为目标检测器,训练获得可见光图像检测器、近红外图像检测器,两者精确率和召回率分别为:可见光图像测试集精确率98.5%、召回率94.3%;近红外图像测试集精确率93.7%、召回率92.1%。而对比融合使用相同的训练集训练统一的YoloX目标检测器(即不对近红外图像和可见光图像进行模型区分,使用一个目标检测器),其中使用两类标签并不对近红外图像的灯光做专门监督,该检测器分别在可见光图像、近红外图像测试集上进行对比测试,可见光图像测试集精确率93.1%、召回率90.2%;近红外图像测试集精确率84.4%、召回率79.32%。可见使用统一的目标检测模型精确率和召回率明显低于,两种独立检测器的工作效果。从而在将训练的可见光图像检测器、近红外图像检测器进行烟火检测时,准确性较高,有效进行烟火预警。

在一种可能的应用场景中,本实施例提供的图像识别方法用于进行安防监控,进一步地,图像识别方法用于进行安全帽检测。

需要说明的是,在可见光下安全帽具有丰富的颜色特征,不同安全帽表现为黄色、红色、蓝色、白色等;然而在近红外图像中,图像饱和度极低,安全帽区域几乎没有颜色特征,其中对白色安全帽、未佩戴安全帽且秃头的情况会有明显混淆,最终体现为佩戴安全帽别误识别为未佩戴、未佩戴安全帽的秃头被识别为佩戴安全帽。因此为了实现对可见光下的烟火图像和近红外下的安全帽图像均进行准确识别,训练用于近红外下的烟火图像识别的近红外图像识别模型,和用于可见光下的烟火图像识别的可见光图像识别模型。

训练用于近红外下的烟火图像识别的近红外图像识别模型,和用于可见光下的烟火图像识别的可见光图像识别模型的步骤如下:

获取第三样本图像和第三标注数据;所述第三样本图像包括可见光下佩戴各种颜色安全帽的正样本图像和可见光下未佩戴安全帽的负样本图像,所述第三标注数据包括佩戴标签和未佩戴标签;

基于所述第三样本图像和所述第三标注数据,训练出用于安全帽检测的可见光图像识别模型;

获取第四样本图像和第四标注数据;所述第四样本图像包括近红外下佩戴各种颜色安全帽的正样本图像和近红外下未佩戴安全帽的负样本图像,所述第四标注数据包括未佩戴安全帽且有头发标签、未佩戴安全帽且无头发的标签、佩戴标签;

基于所述第四样本图像和所述第四标注数据,训练出用于安全帽检测的近红外图像识别模型。

在训练样本集的组织上,对于可见光图像训练集需包含有各种不同颜色安全帽佩戴情况的正样本,与未佩戴安全帽的负样本,分别对其头部区域用矩形框标识尺寸、位置和对应两类标签:佩戴和未佩戴。而对近红外图像,在组织训练样本集时,同样需包含各种不同颜色安全帽佩戴情况的正样本,与未佩戴安全帽的负样本,但需使用三类标签:1、未佩戴安全帽且有头发的情况;2、未佩戴安全帽且无头发的情况;3、佩戴有安全帽的情况。

根据实验,使用YoloX作为目标检测器,训练获得可见光图像检测器、近红外图像检测器,两者精确率和召回率分别达到:可见光图像测试集精确率99.7%、召回率98.9%;近红外图像测试集精确率95.6%、召回率87.9%。而对比融合使用相同的训练集训练统一的YoloX目标检测器,其中近红外图像中不区分有无头发,合并为未佩戴安全帽标签。该检测器分别在可见光图像、近红外图像测试集上进行对比测试,其可见光图像测试集精确率97.2%、召回率96.5%;近红外图像测试集精确率71.3%、召回率73.0%。可见使用统一的目标检测模型精确率和召回率明显低于,两种独立检测器的工作效果。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

请参考图5,其示出了本申请一个实施例提供的图像识别装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置500可以包括:

图像类型获取模块501,用于获取视频帧图像的图像类型,所述图像类型为近红外图像或可见光图像;

第一识别处理模块502,用于在所述视频帧图像的图像类型为近红外图像的情况下,使用近红外图像识别模型对所述视频帧图像进行图像识别,确定第一图像识别结果;

第二识别处理模块503,用于在所述视频帧图像的图像类型为可见光图像的情况下,使用可见光图像识别模型对所述视频帧图像进行图像识别,确定第二图像识别结果。

在本申请一示例性实施例中,所述图像类型获取模块,包括:

离散程度确定单元,用于确定所述视频帧图像在通道层面的第一离散程度值;

第一类型确定单元,用于在所述第一离散程度值大于离散阈值的情况下,确定所述视频帧图像的图像类型为可见光图像;

第二类型确定单元,用于在所述第一离散程度值小于或等于所述离散阈值的情况下,确定所述视频帧图像的图像类型为近红外图像。

在本申请一示例性实施例中,所述离散程度确定单元,进一步用于确定所述视频帧图像中每个像素点在通道层面的第二离散程度值;对各个所述第二离散程度值进行排序处理,以基于预设排序位置在排序结果中选取出第三离散程度值;基于各个所述第三离散程度值,确定所述视频帧图像在通道层面的所述第一离散程度值。

在本申请一示例性实施例中,所述图像类型获取模块,包括:

第一结果确定单元,用于对所述视频帧图像进行图像分类,确定第一分类结果;

第二结果确定单元,用于获取与所述视频帧图像连续的多帧图像对应的第二分类结果;

第三类型确定单元,用于基于所述第一分类结果和所述第二分类结果,确定所述视频帧图像的图像类型。

在本申请一示例性实施例中,所述图像类型获取模块,包括:

图像参数确定单元,用于确定所述视频帧图像携带的图像参数;

第四类型确定单元,用于基于所述图像参数,确定所述视频帧图像的图像类型。

在本申请一示例性实施例中,在所述图像识别方法的执行主体为图像识别分支的情况下,所述图像类型获取模块,包括:

存储数据读取模单元,用于读取缓存介质中的存储数据;所述存储数据为图像分类分支对获取的视频帧图像进行分类后的存储内容;

第五类型确定单元,用于基于读取的所述存储数据,确定所述视频帧图像的图像类型。

在本申请一示例性实施例中,在所述视频帧图像用于烟火检测的情况下,所述装置还包括:

第一训练处理模块,用于获取第一样本图像和第一标注数据;所述第一样本图像包括可见光下的烟火图像,所述第一标注数据包括烟雾标签和火焰标签;基于所述第一样本图像和所述第一标注数据,训练出用于烟火检测的可见光图像识别模型;获取第二样本图像和第二标注数据;所述第二样本图像包括近红外下的烟火图像,所述第二标注数据包括烟雾标签、火焰标签和灯光标签;基于所述第二样本图像和所述第二标注数据,训练出用于烟火检测的近红外图像识别模型。

在本申请一示例性实施例中,在所述视频帧图像用于安全帽检测的情况下,所述装置还包括:

第一训练处理模块,用于获取第三样本图像和第三标注数据;所述第三样本图像包括可见光下佩戴各种颜色安全帽的正样本图像和可见光下未佩戴安全帽的负样本图像,所述第三标注数据包括佩戴标签和未佩戴标签;基于所述第三样本图像和所述第三标注数据,训练出用于安全帽检测的可见光图像识别模型;获取第四样本图像和第四标注数据;所述第四样本图像包括近红外下佩戴各种颜色安全帽的正样本图像和近红外下未佩戴安全帽的负样本图像,所述第四标注数据包括未佩戴安全帽且有头发标签、未佩戴安全帽且无头发的标签、佩戴标签;基于所述第四样本图像和所述第四标注数据,训练出用于安全帽检测的近红外图像识别模型。

需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

请参考图6,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的图像识别方法。该计算机设备可以是PC或者服务器,或者其它具备数据处理和存储能力的设备。具体来讲:

所述计算机设备600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、第一应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器61连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器61以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器61还提供输出到显示屏、打印机或其他类形的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例,所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类形的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述图像识别方法的指令。

在示例中实施例中,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行,以实现上述图像识别方法。

在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述图像识别方法。

可选地,上述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于实现上述图像识别方法。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 医学图像的病灶定位识别方法、装置、设备及存储介质
  • 图像中文本的识别方法及装置、电子设备、存储介质
  • 物品识别方法、装置及设备、存储介质、电子装置
  • 图像特征识别方法、相关装置及存储介质
  • 图像识别方法及装置、布控系统、计算机可读存储介质
  • 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质
  • 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质
技术分类

06120116485631