掌桥专利:专业的专利平台
掌桥专利
首页

一种图像识别方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 10:32:14


一种图像识别方法、装置、存储介质及电子设备

技术领域

本发明涉及图像识别技术领域,更具体的,涉及一种图像识别方法及装置。

背景技术

随着深度学习算法的快速发展,应用深度学习算法进行图像识别的技术也随之被广泛应用,如人脸识别、商品识别等。

但是,如电瓶车等物体,由于外形呈U型、两端相距较远且整体外形不聚合,很难被现有图像识别技术所准确识别。

发明内容

有鉴于此,本发明提供了一种图像识别方法及装置,实现对电瓶车等外形呈U型且整体外形不聚合的物体的准确识别。

为了实现上述发明目的,本发明提供的具体技术方案如下:

一种图像识别方法,包括:

获取待识别特征图;

将所述待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,所述关联度模块用于将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,其中,所述关联度模块中每个通道的权重以及每个点与每个分解特征图之间的关联权重是预先利用预设对象对应的训练样本对所述识别模型训练得到的,所述综合关联度表示输入特征图中不同部位特征之间的关联度以及各个通道之间的关联度;

利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象。

可选的,所述将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,包括:

将维度为(c,h,w)的输入特征图经过一层卷积计算和变换,得到维度为(c,hw)的特征图,其中,c为通道数,h为高度,w为宽度;

将维度为(c,h,w)的输入特征图经过另一层卷积计算和变换,得到维度为(k*k,c)的特征图,其中,k*k为分解特征图的数量;

对维度为(c,hw)的特征图与维度为(k*k,c)的特征图进行矩阵乘法计算,得到维度为(k*k,hw)的特征图,该特征图中每个点分别表示输入特征图中每个点与每个分解特征图之间的关联权重;

将维度为(c,h,w)的输入特征图变换为维度为(c,k*k)的特征图;

对维度为(k*k,hw)的特征图与维度为(c,k*k)的特征图进行矩阵乘法计算,得到维度为(c,hw)的特征图,再将该维度为(c,hw)的特征图变换为维度为(c,h,w)的特征图;

将维度为(c,h,w)的特征图与维度为(c,h,w)的输入特征图进行矩阵加法计算,得到融合了输入特征图中不同部位特征之间关联信息后的特征图;

分别将融合关联信息后的特征图中每个点乘以该点所在通道的权重,得到输入特征图中每个点与每个分解特征图之间的综合关联度,并生成由每个所述综合关联度构成的关联特征图。

可选的,在所述识别模块包括多个所述关联度模块的情况下,多个所述关联度模块对输入特征图进行划分后得到的分解特征图的数量依次减小。

可选的,当所述预设对象为电瓶车时,所述利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象,包括:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到表示电瓶车关键部位分布的热力图;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到电瓶车基本骨架的点坐标;

结合表示电瓶车关键部位分布的热力图以及电瓶车基本骨架的点坐标,确定关联特征图是否包括电瓶车。

可选的,所述预设对象为电瓶车,所述利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象,包括:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到电瓶车关键部位的点坐标;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到表示电瓶车基本骨架分布的热力图;

结合电瓶车关键部位的点坐标以及表示电瓶车基本骨架分布的热力图,确定关联特征图是否包括电瓶车。

可选的,所述将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标,包括:

将关联特征图输入边界框预测分支中,输出由最高点坐标、最低点坐标、最左点坐标和最右点坐标表示的边界框。

可选的,所述方法还包括:

在所述识别模型的训练过程中,将点坐标落在标注区域内时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离,并将点坐标落在标注区域外时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离的平方。

一种图像识别装置,包括:

待识别特征图获取单元,用于获取待识别特征图;

关联特征图生成单元,用于将所述待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,所述关联度模块用于将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,其中,所述关联度模块中每个通道的权重以及每个点与每个分解特征图之间的关联权重是预先利用预设对象对应的训练样本对所述识别模型训练得到的,所述综合关联度表示输入特征图中不同部位特征之间的关联度以及各个通道之间的关联度;

对象识别单元,用于利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象。

可选的,所述关联特征图生成单元,具体用于:

将维度为(c,h,w)的输入特征图经过一层卷积计算和变换,得到维度为(c,hw)的特征图,其中,c为通道数,h为高度,w为宽度;

将维度为(c,h,w)的输入特征图经过另一层卷积计算和变换,得到维度为(k*k,c)的特征图,其中,k*k为分解特征图的数量;

对维度为(c,hw)的特征图与维度为(k*k,c)的特征图进行矩阵乘法计算,得到维度为(k*k,hw)的特征图,该特征图中每个点分别表示输入特征图中每个点与每个分解特征图之间的关联权重;

将维度为(c,h,w)的输入特征图变换为维度为(c,k*k)的特征图;

对维度为(k*k,hw)的特征图与维度为(c,k*k)的特征图进行矩阵乘法计算,得到维度为(c,hw)的特征图,再将该维度为(c,hw)的特征图变换为维度为(c,h,w)的特征图;

将维度为(c,h,w)的特征图与维度为(c,h,w)的输入特征图进行矩阵加法计算,得到融合了输入特征图中不同部位特征之间关联信息后的特征图;

分别将融合关联信息后的特征图中每个点乘以该点所在通道的权重,得到输入特征图中每个点与每个分解特征图之间的综合关联度,并生成由每个所述综合关联度构成的关联特征图。

可选的,在所述识别模块包括多个所述关联度模块的情况下,多个所述关联度模块对输入特征图进行划分后得到的分解特征图的数量依次减小。

可选的,当所述预设对象为电瓶车时,所述对象识别单元,具体用于:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到表示电瓶车关键部位分布的热力图;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到电瓶车基本骨架的点坐标;

结合表示电瓶车关键部位分布的热力图以及电瓶车基本骨架的点坐标,确定关联特征图是否包括电瓶车。

可选的,当所述预设对象为电瓶车时,所述对象识别单元,具体用于:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到电瓶车关键部位的点坐标;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到表示电瓶车基本骨架分布的热力图;

结合电瓶车关键部位的点坐标以及表示电瓶车基本骨架分布的热力图,确定关联特征图是否包括电瓶车。

可选的,边界框预测分支输出的边界框由通过最高点坐标、最低点坐标、最左点坐标和最右点坐标进行表示。

可选的,所述装置还包括:

损失函数设置单元,用于在所述识别模型的训练过程中,将点坐标落在标注区域内时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离,并将点坐标落在标注区域外时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离的平方。

一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述实施例公开的图像识别方法。

一种电子设备,包括:存储器和处理器;

其中,所述存储器用于存储程序;

处理器调用程序并用于执行如上述实施例公开的图像识别方法。

相对于现有技术,本发明的有益效果如下:

本发明公开的一种图像识别方法,将待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,由于关联特征图是由表示待识别特征图中不同部位之间关联度以及各通道之间关联度的综合关联度生成的,关联特征图融合了识别对象不同部位之间的关联信息和各个通道之间的关联信息,解决了如电瓶车等物体,由于外形呈U型、两端相距较远且外形不聚合导致难以被准确识别的问题,基于关联特征图实现了对该类对象的准确识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种图像识别方法的流程示意图;

图2为本发明实施例公开的一种关联度模块生成关联特征图的方法流程示意图;

图3为本发明实施例公开的一种预测模块的预测方法的流程示意图;

图4为本发明实施例公开的另一种预测模块的预测方法的流程示意图;

图5为本发明实施例公开的一种图像识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种图像识别方法,通过在识别模型中设置至少一个关联度模块,所输出的关联特征图融合了识别对象不同部位之间的关联信息和各个通道之间的关联信息,解决了如电瓶车等物体,由于外形呈U型、两端相距较远且外形不聚合导致难以被准确识别的问题,基于关联特征图实现了对该类对象的准确识别。

具体的,请参阅图1,本实施例公开的一种图像识别方法包括如下步骤:

S101:获取待识别特征图。

根据不同应用场景,可以通过不同方式获取待识别特征图,如应用场景为识别电梯中是否有电瓶车,则通过电梯安装的摄像头采集电梯中的图像,利用特征提取器提取采集图像的特征图,得到待识别特征图。

S102:将待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,关联度模块用于将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个综合关联度生成关联特征图。

其中,关联度模块能够嵌入任何卷积神经网络架构中,以识别模型为一个50层神经网络(ResNet)为例,分为4个阶段(Stage),关联度模块可以放在第2和第3阶段。也就是说,第2阶段输出的特征图x2,经过关联度模块后,变成新的x2,输入到第3阶段,第3阶段输出的特征图x3,经过关联度模块后,变成新的x3,输入到第4阶段。神经网络后接检测头,会回归预设对象的精确位置,精确回归预设对象的位置之后,将标记预设对象的边界框的特征图输入预测模块中的关联度模块,用于基于该关联度模块输出的特征图进行最后的识别。

在识别模块包括多个关联度模块的情况下,由于各个关联度模块所处的卷积神经网络阶段由浅层到深层,图像的分辨率越来越小,越来越偏向高级语义,因此,需要设置为多个关联度模块对输入特征图进行划分后得到的分解特征图的数量依次减小。如第一个关联度模块对输入特征图进行划分得到8*8个分解特征图,第二个关联度模块对输入特征图进行划分得到4*4个分解特征图,第三个关联度模块对输入特征图进行划分得到2*2个分解特征图。

关联度模块中每个通道的权重以及每个点与每个分解特征图之间的关联权重是预先利用预设对象对应的训练样本对识别模型训练得到的,综合关联度表示输入特征图中不同部位特征之间的关联度以及各个通道之间的关联度。

以预设对象为电瓶车为例,经过关联度模块输出的关联特征图中的每个点,融合了其他k*k部分与它的关联信息,等价于电瓶车车头的一个点可以感知车轮、车尾或其他部件的关联信息;同样,电瓶车车尾的一个点也可以感知车头、车灯或其他部件的关联信息。而与车头较近的其他干扰信息,如人的手、衣服等,关联度将非常弱,车头的点将不会融合其特征。在实际应用中,可以根据实际应用场景设置关联度模块对输入特征图进行划分后得到的分解特征图的数量k*k,由于k不大,既保证了全局视野,也节省了极大的计算量。

具体的,关联度模块的输入是特征图,维度是(c,h,w),其中,c是通道数,h是高度,w是宽度,关联度模块首先将其映射成维度为(c,k,k)的特征图,k是一个比较小的值(如k=4),这里可以等价理解成将输入特征图分解成k*k个分解特征图。根据预先训练得到的输入特征图中每个点x

∑f(x

新的特征可表示为:

x

同时,考虑到输入特征图中c是通道数,每个通道的权值也应该是不一样的,因此可以对输入特征图做池化计算,维度变为(c,1,1),再经过卷积计算和激活函数计算,最后与上述(x

x

其中,w为点x

这个公式,体现了双重级联设置中的第一层含义,级联两个计算模块,首先经过加法计算模块,这里计算的是预设对象部件与部件之间的关联度,再经过乘法计算模块,得到各通道之间的关联度。双重级联的另一层含义为上述关联度模块可以级联地由浅层到深层嵌入到神经网络中。

请参阅图2,在具体实现中关联度模块的处理方法如下:

S201:将维度为(c,h,w)的输入特征图B1经过一层卷积计算和变换,得到维度为(c,hw)的特征图T1,其中,c为通道数,h为高度,w为宽度;

S202:将维度为(c,h,w)的输入特征图B1经过另一层卷积计算和变换,得到维度为(k*k,c)的特征图T2,其中,k*k为分解特征图的数量;

S203:对维度为(c,hw)T1的特征图与维度为(k*k,c)的特征图T2进行矩阵乘法计算,得到维度为(k*k,hw)的特征图T3,该特征图中每个点分别表示输入特征图中每个点与每个分解特征图之间的关联权重;

S204:将维度为(c,h,w)的输入特征图B1变换为维度为(c,k*k)的特征图T4;

S205:对维度为(k*k,hw)的特征图T3与维度为(c,k*k)的特征图T4进行矩阵乘法计算,得到维度为(c,hw)的特征图T5,再将该维度为(c,hw)的特征图T5变换为维度为(c,h,w)的特征图T6;

S206:将维度为(c,h,w)的特征图T6与维度为(c,h,w)的输入特征图B1进行矩阵加法计算,得到融合了输入特征图中不同部位特征之间关联信息后的特征图T7;

S207:分别将融合关联信息后的特征图T7中每个点乘以该点所在通道的权重,得到输入特征图中每个点与每个分解特征图之间的综合关联度,并生成由每个所述综合关联度构成的关联特征图。

S103:利用识别模型中的预测模块,预测关联特征图是否包括预设对象。

具体的,可以直接基于关联特征图进行分类识别,预测关联特征图是否包括预设对象。

作为一种优选的实施方式,以预设对象为电瓶车为例,本实施例在预测模块中设计4个预测分支,第一预测分支用于预测电瓶车的位置,第二个预测分支用于预测是否是电瓶车,第三个预测分支用于预测电瓶车关键部位,如哪里是车头,哪里是车身,第四个预测分支用于预测电瓶车基本骨架,如第一条骨架为左右车把手,第二条骨架为车盘到前车轮,第三条骨架为前后车轮。通过在预测模块设计4个预测分支,能够更容易地定位电瓶车关键部分的特征,解决了由人对电瓶车的遮挡带来的各种问题,提高了预测准确度。

具体的,请参阅图3,当预设对象为电瓶车时,上述S103的具体实现方法如下:

S301:将关联特征图输入预测模块中的边界框预测分支,得到边界框的位置坐标;

S302:将标记有边界框的位置坐标的关联特征图输入预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

S303:在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入预测模块中的关键部位预测分支,得到表示电瓶车关键部位分布的热力图;

S304:将标记有车类边界框的关联特征图输入预测模块中的基本骨架预测分支,得到电瓶车基本骨架的点坐标;

S405:结合表示电瓶车关键部位分布的热力图以及电瓶车基本骨架的点坐标,确定关联特征图是否包括电瓶车。

可选的,还可以使用点预测电瓶车关键部位,使用热力图表示电瓶车基本骨架分布,请参阅图4,上述S103的具体实现方法如下:

S401:将关联特征图输入预测模块中的边界框预测分支,得到边界框的位置坐标;

S402:将标记有边界框的位置坐标的关联特征图输入预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

S403:在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入预测模块中的关键部位预测分支,得到电瓶车关键部位的点坐标;

S404:将标记有车类边界框的关联特征图输入预测模块中的基本骨架预测分支,得到表示电瓶车基本骨架分布的热力图;

S405:结合电瓶车关键部位的点坐标以及表示电瓶车基本骨架分布的热力图,确定关联特征图是否包括电瓶车。

优选的,区别于传统的规则方形边框(只预测2个点),本发明对边界框的预测使用4个点,即由最高点坐标、最低点坐标、最左点坐标和最右点坐标表示边界框,可预测出不规则边界框,这样可以较大程度上减少背景误判。

设残差网络提取的特征图P1,经过4层卷积(Conv)+批量归一化(BatchNorm)+激活函数(ReLU)计算,最后将P1池化为(c,1,1),然后加2层池化层,最后一层池化层节点为8,8个节点分别预测边框的最高点(x,y)、最低点(x,y)、最左点(x,y)和最右点(x,y)。

进一步,为了强化监督信号,引导神经网络关注特定区域,即上述点预测对应的电瓶车关键部位或电瓶车基本骨架。以预测对应的电瓶车关键部位为例,在识别模型的训练过程中,在训练样本中预先在车头和车身分别标注一个小圆区域,即标注区域,车头规定在表盘区域,车身规定在电瓶区域。残差网络输出特征图P1后,经过4层卷积(Conv)+批量归一化(BatchNorm)+激活函数(ReLU)计算,最后将P1池化为(c,1,1),然后加2层池化层,最后一层池化层节点为4,4个通道分别预测车头点坐标(x,y)和车身点坐标(x,y)。点如果落在标注区域内,产生损失为坐标与圆心的绝对距离|x–x

进一步,在基本骨架预测分支,残差网络输出特征图P1后,经过4层卷积(Conv)+批量归一化(BatchNorm)+激活函数(ReLU)计算,最后一层卷积通道数为4,代表当前点属于哪条骨架或者其他,具体表现形式为一张热力图(heatmap),整张热力图产生的损失为平方损失|x–x

基于上述实施例公开的一种图像识别方法,本实施例对应公开了一种图像识别装置,请参阅图5,该装置包括:

待识别特征图获取单元100,用于获取待识别特征图;

关联特征图生成单元200,用于将所述待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,所述关联度模块用于将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,其中,所述关联度模块中每个通道的权重以及每个点与每个分解特征图之间的关联权重是预先利用预设对象对应的训练样本对所述识别模型训练得到的,所述综合关联度表示输入特征图中不同部位特征之间的关联度以及各个通道之间的关联度;

对象识别单元300,用于利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象。

可选的,所述关联特征图生成单元200,具体用于:

将维度为(c,h,w)的输入特征图经过一层卷积计算和变换,得到维度为(c,hw)的特征图,其中,c为通道数,h为高度,w为宽度;

将维度为(c,h,w)的输入特征图经过另一层卷积计算和变换,得到维度为(k*k,c)的特征图,其中,k*k为分解特征图的数量;

对维度为(c,hw)的特征图与维度为(k*k,c)的特征图进行矩阵乘法计算,得到维度为(k*k,hw)的特征图,该特征图中每个点分别表示输入特征图中每个点与每个分解特征图之间的关联权重;

将维度为(c,h,w)的输入特征图变换为维度为(c,k*k)的特征图;

对维度为(k*k,hw)的特征图与维度为(c,k*k)的特征图进行矩阵乘法计算,得到维度为(c,hw)的特征图,再将该维度为(c,hw)的特征图变换为维度为(c,h,w)的特征图;

将维度为(c,h,w)的特征图与维度为(c,h,w)的输入特征图进行矩阵加法计算,得到融合了输入特征图中不同部位特征之间关联信息后的特征图;

分别将融合关联信息后的特征图中每个点乘以该点所在通道的权重,得到输入特征图中每个点与每个分解特征图之间的综合关联度,并生成由每个所述综合关联度构成的关联特征图。

可选的,在所述识别模块包括多个所述关联度模块的情况下,多个所述关联度模块对输入特征图进行划分后得到的分解特征图的数量依次减小。

可选的,当所述预设对象为电瓶车时,所述对象识别单元300,具体用于:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到表示电瓶车关键部位分布的热力图;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到电瓶车基本骨架的点坐标;

结合表示电瓶车关键部位分布的热力图以及电瓶车基本骨架的点坐标,确定关联特征图是否包括电瓶车。

可选的,当所述预设对象为电瓶车时,所述对象识别单元300,具体用于:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到电瓶车关键部位的点坐标;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到表示电瓶车基本骨架分布的热力图;

结合电瓶车关键部位的点坐标以及表示电瓶车基本骨架分布的热力图,确定关联特征图是否包括电瓶车。

可选的,边界框预测分支输出的边界框由通过最高点坐标、最低点坐标、最左点坐标和最右点坐标进行表示。

可选的,所述装置还包括:

损失函数设置单元,用于在所述识别模型的训练过程中,将点坐标落在标注区域内时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离,并将点坐标落在标注区域外时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离的平方。

本实施例公开的一种图像识别装置,将待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,由于关联特征图是由表示待识别特征图中不同部位之间关联度以及各通道之间关联度的综合关联度生成的,关联特征图融合了识别对象不同部位之间的关联信息和各个通道之间的关联信息,解决了如电瓶车等物体,由于外形呈U型、两端相距较远且外形不聚合导致难以被准确识别的问题,基于关联特征图实现了对该类对象的准确识别。

本实施例还公开了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下图像识别方法:

获取待识别特征图;

将所述待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,所述关联度模块用于将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,其中,所述关联度模块中每个通道的权重以及每个点与每个分解特征图之间的关联权重是预先利用预设对象对应的训练样本对所述识别模型训练得到的,所述综合关联度表示输入特征图中不同部位特征之间的关联度以及各个通道之间的关联度;

利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象。

进一步,所述将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,包括:

将维度为(c,h,w)的输入特征图经过一层卷积计算和变换,得到维度为(c,hw)的特征图,其中,c为通道数,h为高度,w为宽度;

将维度为(c,h,w)的输入特征图经过另一层卷积计算和变换,得到维度为(k*k,c)的特征图,其中,k*k为分解特征图的数量;

对维度为(c,hw)的特征图与维度为(k*k,c)的特征图进行矩阵乘法计算,得到维度为(k*k,hw)的特征图,该特征图中每个点分别表示输入特征图中每个点与每个分解特征图之间的关联权重;

将维度为(c,h,w)的输入特征图变换为维度为(c,k*k)的特征图;

对维度为(k*k,hw)的特征图与维度为(c,k*k)的特征图进行矩阵乘法计算,得到维度为(c,hw)的特征图,再将该维度为(c,hw)的特征图变换为维度为(c,h,w)的特征图;

将维度为(c,h,w)的特征图与维度为(c,h,w)的输入特征图进行矩阵加法计算,得到融合了输入特征图中不同部位特征之间关联信息后的特征图;

分别将融合关联信息后的特征图中每个点乘以该点所在通道的权重,得到输入特征图中每个点与每个分解特征图之间的综合关联度,并生成由每个所述综合关联度构成的关联特征图。

进一步,在所述识别模块包括多个所述关联度模块的情况下,多个所述关联度模块对输入特征图进行划分后得到的分解特征图的数量依次减小。

进一步,当所述预设对象为电瓶车时,所述利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象,包括:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到表示电瓶车关键部位分布的热力图;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到电瓶车基本骨架的点坐标;

结合表示电瓶车关键部位分布的热力图以及电瓶车基本骨架的点坐标,确定关联特征图是否包括电瓶车。

进一步,所述预设对象为电瓶车,所述利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象,包括:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到电瓶车关键部位的点坐标;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到表示电瓶车基本骨架分布的热力图;

结合电瓶车关键部位的点坐标以及表示电瓶车基本骨架分布的热力图,确定关联特征图是否包括电瓶车。

进一步,所述将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标,包括:

将关联特征图输入边界框预测分支中,输出由最高点坐标、最低点坐标、最左点坐标和最右点坐标表示的边界框。

进一步,所述方法还包括:

在所述识别模型的训练过程中,将点坐标落在标注区域内时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离,并将点坐标落在标注区域外时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离的平方。

一种电子设备,包括:存储器和处理器;

其中,所述存储器用于存储程序;

处理器调用程序并用于执行如下图像识别方法:

获取待识别特征图;

将所述待识别特征图输入预先训练得到的识别模型,依次经过至少一个关联度模块,得到关联特征图,所述关联度模块用于将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,其中,所述关联度模块中每个通道的权重以及每个点与每个分解特征图之间的关联权重是预先利用预设对象对应的训练样本对所述识别模型训练得到的,所述综合关联度表示输入特征图中不同部位特征之间的关联度以及各个通道之间的关联度;

利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象。

进一步,所述将输入特征图划分为多个分解特征图,根据输入特征图中每个点所在通道的权重以及每个点与每个分解特征图之间的关联权重,分别计算输入特征图中每个点与每个分解特征图之间的综合关联度,并根据每个所述综合关联度生成关联特征图,包括:

将维度为(c,h,w)的输入特征图经过一层卷积计算和变换,得到维度为(c,hw)的特征图,其中,c为通道数,h为高度,w为宽度;

将维度为(c,h,w)的输入特征图经过另一层卷积计算和变换,得到维度为(k*k,c)的特征图,其中,k*k为分解特征图的数量;

对维度为(c,hw)的特征图与维度为(k*k,c)的特征图进行矩阵乘法计算,得到维度为(k*k,hw)的特征图,该特征图中每个点分别表示输入特征图中每个点与每个分解特征图之间的关联权重;

将维度为(c,h,w)的输入特征图变换为维度为(c,k*k)的特征图;

对维度为(k*k,hw)的特征图与维度为(c,k*k)的特征图进行矩阵乘法计算,得到维度为(c,hw)的特征图,再将该维度为(c,hw)的特征图变换为维度为(c,h,w)的特征图;

将维度为(c,h,w)的特征图与维度为(c,h,w)的输入特征图进行矩阵加法计算,得到融合了输入特征图中不同部位特征之间关联信息后的特征图;

分别将融合关联信息后的特征图中每个点乘以该点所在通道的权重,得到输入特征图中每个点与每个分解特征图之间的综合关联度,并生成由每个所述综合关联度构成的关联特征图。

进一步,在所述识别模块包括多个所述关联度模块的情况下,多个所述关联度模块对输入特征图进行划分后得到的分解特征图的数量依次减小。

进一步,当所述预设对象为电瓶车时,所述利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象,包括:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到表示电瓶车关键部位分布的热力图;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到电瓶车基本骨架的点坐标;

结合表示电瓶车关键部位分布的热力图以及电瓶车基本骨架的点坐标,确定关联特征图是否包括电瓶车。

进一步,所述预设对象为电瓶车,所述利用所述识别模型中的预测模块,预测关联特征图是否包括预设对象,包括:

将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标;

将标记有边界框的位置坐标的关联特征图输入所述预测模块中的类别预测分支,得到表示边界框是否是车的预测结果;

在类别预测分支的预测结果表示边界框是车的情况下,将标记有车类边界框的关联特征图输入所述预测模块中的关键部位预测分支,得到电瓶车关键部位的点坐标;

将标记有车类边界框的关联特征图输入所述预测模块中的基本骨架预测分支,得到表示电瓶车基本骨架分布的热力图;

结合电瓶车关键部位的点坐标以及表示电瓶车基本骨架分布的热力图,确定关联特征图是否包括电瓶车。

进一步,所述将关联特征图输入所述预测模块中的边界框预测分支,得到边界框的位置坐标,包括:

将关联特征图输入边界框预测分支中,输出由最高点坐标、最低点坐标、最左点坐标和最右点坐标表示的边界框。

进一步,所述方法还包括:

在所述识别模型的训练过程中,将点坐标落在标注区域内时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离,并将点坐标落在标注区域外时对应的损失函数设置为点坐标与标注区域圆心之间的绝对距离的平方。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

上述各个实施例之间可任意组合,对所公开的实施例的上述说明,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种图像识别方法、图像识别装置、电子设备和存储介质
  • 一种图像识别方法、装置、电子设备及存储介质
技术分类

06120112586342