掌桥专利:专业的专利平台
掌桥专利
首页

基于注意力的图像识别方法、系统、电子设备及存储介质

文献发布时间:2023-06-19 12:13:22


基于注意力的图像识别方法、系统、电子设备及存储介质

技术领域

本发明涉及图像识别技术领域,尤其涉及一种基于注意力的图像识别方法、系统、电子设备及存储介质。

背景技术

细粒度图像识别属于图像识别的一个分支,细粒度图像识别的目的是识别同一大类别下的不同子类,相对于普通的图像识别它的特点在于:细粒度图像识别进行识别的粒度更为精细,比如细粒度图像识别往往是对一些不同种类的鸟进行识别,或者对不同种类的汽车等识别,需要精确的识别出它是哪种鸟或者哪款车等;而普通的图像识别一般是在不同物种之间进行识别,例如仅仅识别出猫和狗、而不需要识别出到底是什么种类的猫和狗。

细粒度图像识别的关键在于学习到图像的判别性特征,当前研究细粒度图像识别的方法大多是基于弱监督的局部定位、裁剪图像区域和多级训练的方法。这些方法虽然也可以达到很好的识别率,但是存在局部定位不准确和容易裁剪到一些背景区域等问题。

发明内容

有鉴于此,本发明的目的在于提出一种基于注意力的图像识别方法、系统、电子设备及存储介质。

基于上述目的,本发明提供了一种基于注意力的图像识别方法,其中,所述方法通过训练得到的注意力双线性池化网络模型实现,所述注意力双线性池化网络模型包括并行设置的空间注意力模块和通道注意力模块,所述方法包括:

获取待识别图像的全局特征;

基于所述通道注意力模块获取所述待识别图像的通道特征;

基于所述空间注意力模块获取所述待识别图像的空间特征;

通过双线性池化操作对所述通道特征和所述空间特征进行特征融合得到融合后的局部特征;

基于所述全局特征与所述局部特征对所述待识别图像进行识别;

其中,在训练所述注意力双线性池化网络模型时,采用交叉熵损失函数对所述融合后的局部特征进行预测,并采用交叉熵损失函数对所述注意力双线性池化网络模型的识别结果进行预测。

可选的,基于所述通道注意力模块获取待识别图像的通道特征,具体包括:

获取所述待识别图像的特征图并对所述特征图进行全局平局池化得到单位通道特征;

将所述单位通道特征输入第一全连接层后通过第一预设激活函数进行第一次激活;

将所述第一次激活后的结果输入第二全连接层后通过第二预设激活函数进行第二次激活得到通道注意力权值;

将所述通道注意力权值与所述特征图相乘得到所述通道特征。

可选的,基于所述空间注意力模块获取所述待识别图像的空间特征,具体包括:

获取所述待识别图像的特征图并对所述特征图分别进行全局平局池化和全局最大池化,并将两次池化结果沿着通道方向进行拼接;

将所述拼接后的结果进行卷积处理后通过第三预设激活函数得到空间注意力权值;

将所述空间注意力权值与所述特征图相乘得到所述空间特征。

可选的,获取待识别图像的全局特征之前,所述方法还包括:

对所述待识别图像进行数据增广,所述数据增广包括图像尺度归一化、图像随机裁剪、图像数值归一化、图像翻转、图像缩放、图像旋转及图像倾斜中的一种或多种。

从上面所述可以看出,本发明提供的基于注意力的图像识别方法,通过训练得到的注意力双线性池化网络模型实现,所述注意力双线性池化网络模型包括并行设置的空间注意力模块和通道注意力模块,该方法利用通道注意力机制和空间注意力机制分别在图像的通道层面和空间层面进行判别性特征提取,然后利用分层双线性池化操作对提取到的通道特征和空间特征进行融合,将通道特征和空间特征关联起来作为局部特征,然后根据局部特征和主分支学习到的全局特征进行最终的图像识别,从而提高了图像识别的准确率,同时,在训练所述注意力双线性池化网络模型时,采用交叉熵损失函数对所述融合后的局部特征进行预测,并采用交叉熵损失函数对所述注意力双线性池化网络模型的识别结果进行预测,进一步提高了训练模型时参数调节的效率和准确性。

附图说明

为了更清楚地说明本发明或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于注意力的图像识别方法的流程示意图;

图2为本发明实施例的另一种基于注意力的图像识别方法的流程示意图;

图3为本发明实施例的一种基于注意力的图像识别系统的结构示意图;

图4为本发明实施例的一种具体电子设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

如背景技术部分所述,细粒度图像识别最大的挑战在于图像类间差异小,类内差异大,具体表现在同一类别的物体从不同角度拍摄下来呈现出不同的姿态,因此让网络充分学习到不同类别的判别性特征是细粒度图像识别的关键。本发明通过并行设置的空间注意力模块和通道注意力模块分别学习图像的通道层面的特征和空间层面的特征,用以充分的挖掘到图像的局部特征,对于每个特征图C*H*W来说,通道注意力机制是在每个通道维度C上会学习到不同的注意力权重,但是在平面维度H*W上的权重不变,通道注意力关注的是“是什么”的问题,它侧重于关注的是图像的不同特征。空间注意力机制对于每个特征图C*H*W来说,空间域注意力是在每个通道C上拥有相同的权重,而在平面维度H*W上学习不同的注意力权重,空间注意力主要关注的是物体“在哪里”,它注重的学习图像的不同的区域。本发明在得到通道层面的特征和空间层面的特征后,利用双线性池化操作对通道特征和空间特征进行特征融合,使二者关联起来,不同特征之间得到相互增强,形成完整的局部特征,进一步得到更丰富的判别性局部特征。最后通过该判别性局部特征和获得的全局特征进行图像识别,充分提高了图像识别的准确率。

在本发明的一个具体应用场景中,本发明基于注意力的图像识别方法可以应用于细粒度图像的分类识别,如可以对海军的舰船图片进行分各类识别,或对某一种动物的具体类别进行识别。

在本发明的另一个具体应用场景中,本发明基于注意力的图像识别方法可以对其他图像识别方法的识别结果进行二次识别,或者先通过本发明基于注意力的图像识别方法进行第一次识别,然后再由其他图像识别方法进行二次或多次识别。

参考图1,为本发明实施例的一种基于注意力的图像识别方法的流程示意图,该方法通过训练得到的注意力双线性池化网络模型实现,所述注意力双线性池化网络模型包括并行设置的空间注意力模块和通道注意力模块,所述方法包括以下步骤:

S101,获取待识别图像的全局特征。

本步骤中,通过训练得到注意力双线性池化网络模型先获取待识别图像的全局特征,可选的,将注意力双线性池化网络模型的最后一层作为主分支,通过该主分支获取待识别图像的全局特征。

S102,基于所述通道注意力模块获取所述待识别图像的通道特征。

本步骤中,通过训练得到的注意力双线性池化网络模型的注意力模块获取待识别图像的通道特征,该通道特征主要表示待识别图像的本身独有的一些特征。

为了准确的获取待识别图像的通道特征,在一些实施例中,基于所述空间注意力模块获取待识别图像的通道特征,具体包括:

获取所述待识别图像的特征图并对所述特征图进行全局平局池化得到单位通道特征;

将所述单位通道特征输入第一全连接层后通过第一预设激活函数进行第一次激活;

将所述第一次激活后的结果输入第二全连接层后通过第二预设激活函数进行第二次激活得到通道注意力权值;

将所述通道注意力权值与所述特征图相乘得到所述通道特征。

具体的,先通过注意力双线性池化网络模型获取待识别图像的特征图,然后对特征图进行全局平局池化得到单位通道特征,例如,一个C*H*W的特征图,经过一个全局平均池化,将C*H*W的输入转化成1*1*C的单位通道特征。得到单位通道特征后,将所述单位通道特征输入第一全连接层后通过第一预设激活函数进行第一次激活,单位通道特征经过第一全连接层后维度会由原来的维数降到预设维数,然后再经过第一预设激活函数进行第一次激活,激活后得到的特征与激活前的特征不再是线性关系,该第一激活函数可以根据需要进行选择,可选的,该第一激活函数可以设置为ReLU函数,在经过第一次激活后,再次将第一次激活结果输入第二全连接层,该第二全连接层不再起降维作用,而是将第一次激活后的结果进行整理,然后根据第二预设激活函数进行第二次激活得到通道注意力权值。

需要说的是,第一次激活可以看做初步得到一个通道注意力的大概权值,而第二次激活是在第一次激活的基础上对通道注意力的大概权值进行修订,得到更精确的通道注意力权值,该第二预设激活函数可以根据需要进行设置,可选的,将该第二预设激活函数设置为Sigmoid函数。在经过两次激活得到通道注意力权值后,将所述通道注意力权值与所述特征图相乘就可以得到所述通道特征。

S103,基于所述空间注意力模块获取所述待识别图像的空间特征。

本步骤中,通过训练得到的注意力双线性池化网络模型的空间力模块获取待识别图像的空间,该空间特征主要表示待识别图像的不同区域的特征差异,进一步表示出待识别图像的重要特征的位置。

为了准确的获取待识别图像的空间特征,在一些实施例中,基于所述通道注意力模块获取所述待识别图像的空间特征,具体包括:

获取所述待识别图像的特征图并对所述特征图分别进行全局平局池化和全局最大池化,并将两次池化结果沿着通道方向进行拼接;

将所述拼接后的结果进行卷积处理后通过第三预设激活函数得到空间注意力权值;

将所述空间注意力权值与所述特征图相乘得到所述空间特征。

具体的,先通过注意力双线性池化网络模型获取待识别图像的特征图,然后对该特征图分别进行全局平局池化和全局最大池化,并将两次池化结果沿着通道方向进行拼接;将拼接后的结果进行卷积处理后通过第三预设激活函数得到空间注意力权值,该卷积处理用于将拼接后的结果降维为1个通道,可选的,采用1*1的卷积核进行该卷积处理,该第三预设激活函数可以根据需要进行选择,可选的,可以将该第三预设激活函数设置为Sigmoid函数。在得到空间注意力权值后,将该空间注意力权值与所述特征图相乘就可以得到所述空间特征。

S104,通过双线性池化操作对所述通道特征和所述空间特征进行特征融合得到融合后的局部特征。

本步骤中,将得到的通道特征和空间特征作为双线性池化操作的两个输入特征,进行特征融合,得到融合后的局部特征。通过融合使通道特征与空间特征相互增强,同时由于通道特征关注的是局部特征本身的特点,而空间特征关注的是局部特征的位置,这样将两个特征融合后,就可以得到局部特征在各个位置上的特点,这对于细粒度图像识别来说可以很好的找到不同待识别图像在不同位置的差别,例如,我们简单的判断狗有四条腿和一条尾巴,那们我们很难再将满足上述条件的不同的两只狗进行区分,而本发明的方法通过局部特征融合可以判断出每只狗在尾巴和四条腿的部位各有什么区别,从而实现对两只不同狗的识别。此外,通过融合可以实现通道特征和空间特征相互纠错,即可以通过融合匹配度来排除那些提取错误的特征。

S105,基于所述全局特征与所述局部特征对所述待识别图像进行识别。

本步骤中,再获取到全局特征和融合后的局部特征后,根据全局特征与所述局部特征对所述待识别图像进行识别,可选的,将融合后的局部特征和全局特征拼接起来,再经过一个全连接层输出去进行待识别图像的识别。

为了进一步提高图像识别的准确率,在一些实施例中,在训练所述注意力双线性池化网络模型时,先采用交叉熵损失函数对所述融合后的局部特征进行预测,然后将预测合格的融合后的局部特征与获得的全局特征再进行样本图像的识别,并采用交叉熵损失函数对所述注意力双线性池化网络模型的识别结果进行预测。从而单独对融合后的局部特征先进行预测,并进行相应参数的调整,保证了融合的效果,并对最后的识别结果同样进行预测,进一步,提高了模型训练时,参数调节的效率,并充分提高了图像识别的准确率。

为了避免单次图像识别的偶然性,在一些实施例中,获取待识别图像的全局特征之前,所述方法还包括:

对所述待识别图像进行数据增广,所述数据增广包括图像尺度归一化、图像随机裁剪、图像数值归一化、图像翻转、图像缩放、图像旋转及图像倾斜中的一种或多种。

参考图2,为本发明实施例的另一种基于注意力的图像识别方法的流程示意图,其中,先获取待识别图像的特征图,然后根据该特征图分别获取通道特征、空间特征和全局特征,将通道特征与空间特征进行融合得到融合后的局部特征,可选的,通过双线性池化操作进行局部特征的融合,将融合后的局部特征与全局特征进行融合,并根据融合后的结果进行图像识别。

通过实验验证使用本发明的基于注意力的图像识别方法在舰船数据集上进行细粒度图像识别的准确率可以达到91.3%。为了研究通道注意力、空间注意力和双线性池化对图像识别精度的贡献程度,本发明进行了消融实验,在不使用通道注意力机制的时候准确率只有87.8%,比完整使用基于注意力的图像识别方法的准确率下降了2.5%,说明通道注意力特征对模型准确率的影响很大;不使用空间注意力的时候的准确率相比完整使用基于注意力的图像识别方法的准确率下降了2%;在不使用双线性池化操作进行局部特征融合的时候,准确率下降了1.1%。由此可见,本发明基于注意力的图像识别方法中的通道注意力、空间注意力和双线性池化操作都对图像识别的准确率做出了相应的贡献。

本发明提供的基于注意力的图像识别方法,将通道注意力机制和空间注意力机制作为两个独立的分支分别进行通道和空间上的特征提取,从而可以提取出更有区分性和针对性的通道注意力特征和空间注意力特征,并使用双线性池化操作对单独提取出的通道注意力特征和空间注意力特征进行融合,使二者关联起来,不同特征之间得到相互增强,形成完整的局部特征,最后,根据局部特征和主分支学习到的全局特征进行最终的图像识别,提高了图像识别的准确率。

需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是,上述对本发明的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种基于注意力的图像识别系统。

参考图3,所述基于注意力的图像识别系统,包括:

第一特征获取单元301,获取待识别图像的全局特征;

第二特征获取单元302,基于所述通道注意力模块获取所述待识别图像的通道特征;

第三特征获取单元303,基于所述空间注意力模块获取所述待识别图像的空间特征;

融合单元304,通过双线性池化操作对所述通道特征和所述空间特征进行特征融合得到融合后的局部特征;

识别单元305,基于所述全局特征与所述局部特征对所述待识别图像进行识别;

其中,在训练所述注意力双线性池化网络模型时,采用交叉熵损失函数对所述融合后的局部特征进行预测,并采用交叉熵损失函数对所述注意力双线性池化网络模型的识别结果进行预测。

在一些具体的应用场景中,所述第二特征获取单元302具体用于:

获取所述待识别图像的特征图并对所述特征图进行全局平局池化得到单位通道特征;

将所述单位通道特征输入第一全连接层后通过第一预设激活函数进行第一次激活;

将所述第一次激活后的结果输入第二全连接层后通过第二预设激活函数进行第二次激活得到通道注意力权值;

将所述通道注意力权值与所述特征图相乘得到所述通道特征。

在一些具体的应用场景中,所述第三特征获取单元303具体用于:

获取所述待识别图像的特征图并对所述特征图分别进行全局平局池化和全局最大池化,并将两次池化结果沿着通道方向进行拼接;

将所述拼接后的结果进行卷积处理后通过第三预设激活函数得到空间注意力权值;

将所述空间注意力权值与所述特征图相乘得到所述空间特征。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于注意力的图像识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于注意力的图像识别方法。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于注意力的图像识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于注意力的图像识别方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于注意力的图像识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本发明实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明实施例。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。

本发明实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于注意力的图像识别方法、系统、电子设备及存储介质
  • 基于注意力机制的图像识别方法、系统、设备和存储介质
技术分类

06120113211308