掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多粒度交互与特征重组网络的细粒度分类方法

文献发布时间:2024-04-18 19:44:28


一种基于多粒度交互与特征重组网络的细粒度分类方法

技术领域

本发明涉及计算机视觉技术领域,尤其是一种基于多粒度交互与特征重组网络的细粒度分类方法。

背景技术

细粒度视觉分类(FGVC)在计算机视觉研究中受到了广泛的关注。与传统的视觉分类任务不同,细粒度视觉分类的目标类别更加细致,其旨在区分视觉外观相似的子类别(例如对鸟类、汽车、飞机等对象的子类别进行分类)。作为视觉系统的基本能力之一,FGVC成为各类现实场景视觉应用的基础。由于细粒度子类别之间存在视觉相似性,只能通过捕获细微的视觉差异进行区分。同时,即使是同一子类别对象之间也存在光照、背景、姿态、遮挡等巨大视觉差异,进一步增加了该任务的复杂性。因此,相比于传统视觉分类任务,细粒度视觉分类是一个独特且更具有挑战性的问题。

近年来,随着深度卷积神经网络的快速发展,FGVC取得了巨大的发展。由于卷积神经网络强大的特征提取能力,现有的细粒度视觉分类研究主要集中于使用卷积神经网络(CNN)进行特征提取以学习细微差异。一部分FGVC研究工作通过定位部件的方式获取判别性部件进行学习。然而基于对象的标注框和部件注释需要专业知识进行标注,受限于此,通过注意力等方法进行判别性特征自动挖掘,从而实现仅使用图像级标签进行定位的方法在近期受到了更多的关注。另一部分方法通过编码判别性特征来学习细微差异。但是此类方法忽略了感知上下文关系以构建全局信息描述的特征表示,一定程度上丢失了部分关键信息。受益于自注意力机制的应用,Transformer在近期的各类视觉任务中表现出优越的性能。自注意力通过计算不同位置之间的联系来建模一种全局依赖关系。相比于卷积神经网络,Transformer拥有更强的全局信息表征能力,可以构建视觉空间的上下文关系,以获得更丰富的特征表示。因此,在FGVC任务中,Transformer可以作为卷积神经网络的有效替代方案。但是侧重全局表示的结构会造成局部信息提取能力下降,难以捕捉高视觉相似性的对象之间的细微差异。同时,FGVC每个子类别的数据量少并且存在较大变化,构建复杂的特征表示将导致分类模型过拟合于某些特定的特征模式。因此,亟需有效的解决方案。

发明内容

本发明提出一种基于多粒度交互与特征重组网络的细粒度分类方法,能够准确有效地进行细粒度分类。

本发明采用以下技术方案。

一种基于多粒度交互与特征重组网络的细粒度分类方法,包括以下步骤:

步骤S1:通过基于Swin-Transformer的骨干网络提取细粒度全局图像的特征,然后通过自注意力权值引导局部图像定位,并以权重共享的形式提取局部特征;

步骤S2:通过嵌入多粒度特征增强模块来增强粒度感知特征,同时结合跨注意力特征交互来进一步丰富区域级特征描述;

步骤S3:利用动态的类级中心表示指导高差异通道重组交换,以保留潜在的类别不变特征,并探索多样化的特征模式组合;

步骤S4:按照指定训练参数进行迭代训练,通过优化组合损失更新模型参数,根据验证准确率不断保存最优模型,利用最终模型得到的组合预测结果。

步骤S1具体包括以下步骤;

步骤S11:计算patch重要性因子;具体为:输入细粒度全局图像X

其中mean(·)表示对输入按元素求均值,patch_i∈[1,patch_N],patch_N表示patch的个数;

步骤S12:计算注意力定位图;具体为:通过递归的方式对Swin-T骨干网络的最后一个阶段各层的注意力权值使用矩阵乘法获得注意力权值矩阵Att;然后利用注意力权重矩阵Att=(Att

其中,layer_L表示该阶段对应的层数,Att

其中,Att

步骤S13:计算掩码矩阵,通过注意力权值矩阵Att(pos_x,pos_y)进一步计算patch掩码矩阵Mask(pos_x,pos_y),具体计算方式如下

其中,pos_x,pos_y表示对应于

步骤S14:利用上述计算得到的掩码矩阵Mask(pos_x,pos_y),通过提取最大连通分量得到Transformer网络对于输入细粒度图像最关注的局部区域;通过自注意力机制的引导使该区域包含更少的噪声干扰与更高比例的判别性信息,使其有助于提升细粒度视觉分类性能;接着对相关区域进行进一步的定位和放大,获得了局部定位图像X

步骤S2具体包括以下步骤;

步骤S21:利用Swin-Transformer骨干网络,即Swin-T骨干网络提取的细粒度全局图像X

global_F

其中,global_F

细节增强层以Swin-T骨干网络指定阶段输出的特征作为输入,首先通过1×1大小的卷积层来整合原始嵌入表示,并在其中进一步添加提出的局部信息补充层,最后再一次利用1×1大小的卷积层整合初步增强后的特征嵌入;局部信息补充以一种残差的形式实现,具体计算如下

global_F′

global_F″

其中,LS(·;θ)表示参数为ls_θ的局部信息补充层,使用一个3×3大小的深度卷积来实现。σ(·)表示GELU函数,Conv(·)表示1×1大小的卷积层,conv_θ

步骤S22:将局部定位图像X

步骤S23:计算查询、键和值矩阵。原始多粒度特征交互模块特征F

其中,

步骤S24:计算原始多粒度特征交互模块特征;具体为:将步骤S23计算得到的查询矩阵Query

其中,

步骤S3具体包括以下步骤;

步骤S31:计算通道平均空间表示;具体为:以无参的方式生成类中心作为细粒度类别级的特征表示,并在训练过程中迭代更新,以此生成方式保证同一类别训练样本的整体特征表示,同时不需要额外的可学习参数进行优化以拟合细粒度训练样本的数据分布,降低网络对于数据分布的敏感性;具体为,定义第epoch_t个epoch的第class_i个类的类中心表示为

其中,epoch_t表示模型训练过程的第epoch_t个epoch,

对于上述计算得到的每次迭代过程中的类别特征中心,进一步计算第epoch_t个epoch中第class_i个类别的通道平均空间表示

其中

步骤S32:计算第class_i个类别的sample_i个类别的每个通道的权重得分

其中channel_N表示通道数量,

步骤S33:进一步计算得到相对于类别中心的高差异通道。具体来说,通过计算当前第sample_i样本的通道掩码

其中channel_d表示特征的通道维度索引,索引从0开始,channel_d∈[0,D-1];m

步骤S34:在训练过程中随机选择另一个训练样本对当前训练样本的通道特征进行重新组合,通过获得更多的特征组合来稳定分类器对于细粒度对象特征的学习,以对相对稳定的类别不变通道特征表示进行保留,对高差异的通道特征进行交换混淆;训练batch中第sample_i个样本的重组特征记为

其中,M

步骤S35:当前训练epoch结束后更新类中心表示

步骤S4具体包括以下步骤;

步骤S41:计算网络整体损失函数L

L

L

L

其中F

步骤S42:按照指定参数进行迭代训练,根据步骤S41计算的整体损失L

步骤S43:计算预测标签

步骤S44:在训练过程中,根据验证间隔标志进行按一定迭代次数间隔进行模型验证,并不断保存最优模型,当迭代次数达到预设的最大迭代次数阈值时,训练流程结束,返回当前指定数据集的最优细粒度预测准确率。

步骤S4在训练模型时,所采用的训练图像数据以类别进行标注,在定位图像数据的判别性局部区域时无须人工标注对应的标注框。

与现有技术相比,本发明有以下有益效果:

1、本发明构建的一种基于多粒度交互与特征重组网络的细粒度分类方法能够准确有效地对细粒度图像进行高效的判别性局部区域定位,联合全局和局部特征表示学习,以提升细粒度视觉分类性能。

2、本发明构建了一种自注意力引导定位方法,采用自注意力权值聚合引导图像相对重要性区域自适应选,学习判别性区域级特征表示。

3、本发明构建了一种多粒度特征交互学习方法,通过嵌入多粒度特征增强模块来增强粒度感知特征,同时结合跨注意力特征交互来进一步丰富区域级特征描述,以促进空间上下文识别线索学习。

本发明构建了一种特征重组增强方法,利用动态的类级中心表示指导高差异通道重组交换,以保留潜在的类别不变特征,并探索多样化的特征模式组合,从而有效提升FGVC模型鲁棒性。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明:

附图1是本发明的原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图所示,一种基于多粒度交互与特征重组网络的细粒度分类方法,包括以下步骤:

步骤S1:通过基于Swin-Transformer的骨干网络提取细粒度全局图像的特征,然后通过自注意力权值引导局部图像定位,并以权重共享的形式提取局部特征;

步骤S2:通过嵌入多粒度特征增强模块来增强粒度感知特征,同时结合跨注意力特征交互来进一步丰富区域级特征描述;

步骤S3:利用动态的类级中心表示指导高差异通道重组交换,以保留潜在的类别不变特征,并探索多样化的特征模式组合;

步骤S4:按照指定训练参数进行迭代训练,通过优化组合损失更新模型参数,根据验证准确率不断保存最优模型,利用最终模型得到的组合预测结果。

步骤S1具体包括以下步骤;

步骤S11:计算patch重要性因子;具体为:输入细粒度全局图像X

其中mean(·)表示对输入按元素求均值,patch_i∈[1,patch_N],patch_N表示patch的个数;

步骤S12:计算注意力定位图;具体为:通过递归的方式对Swin-T骨干网络的最后一个阶段各层的注意力权值使用矩阵乘法获得注意力权值矩阵Att;然后利用注意力权重矩阵Att=(Att

其中,layer_L表示该阶段对应的层数,Att

其中,Att

步骤S13:计算掩码矩阵,通过注意力权值矩阵Att(pos_x,pos_y)进一步计算patch掩码矩阵Mask(pos_x,pos_y),具体计算方式如下

其中,pos_x,pos_y表示对应于

步骤S14:利用上述计算得到的掩码矩阵Mask(pos_x,pos_y),通过提取最大连通分量得到Transformer网络对于输入细粒度图像最关注的局部区域;通过自注意力机制的引导使该区域包含更少的噪声干扰与更高比例的判别性信息,使其有助于提升细粒度视觉分类性能;接着对相关区域进行进一步的定位和放大,获得了局部定位图像X

步骤S2具体包括以下步骤;

步骤S21:利用Swin-Transformer骨干网络,即Swin-T骨干网络提取的细粒度全局图像X

global_F

其中,global_F

细节增强层以Swin-T骨干网络指定阶段输出的特征作为输入,首先通过1×1大小的卷积层来整合原始嵌入表示,并在其中进一步添加提出的局部信息补充层,最后再一次利用1×1大小的卷积层整合初步增强后的特征嵌入;局部信息补充以一种残差的形式实现,具体计算如下

global_F′

global_F″

其中,LS(·;θ)表示参数为ls_θ的局部信息补充层,使用一个3×3大小的深度卷积来实现。σ(·)表示GELU函数,Conv(·)表示1×1大小的卷积层,conv_θ

步骤S22:将局部定位图像X

步骤S23:计算查询、键和值矩阵。原始多粒度特征交互模块特征F

其中,

步骤S24:计算原始多粒度特征交互模块特征;具体为:将步骤S23计算得到的查询矩阵Query

其中,

步骤S3具体包括以下步骤;

步骤S31:计算通道平均空间表示;具体为:以无参的方式生成类中心作为细粒度类别级的特征表示,并在训练过程中迭代更新,以此生成方式保证同一类别训练样本的整体特征表示,同时不需要额外的可学习参数进行优化以拟合细粒度训练样本的数据分布,降低网络对于数据分布的敏感性;具体为,定义第epoch_t个epoch的第class_i个类的类中心表示为

其中,epoch_t表示模型训练过程的第epoch_t个epoch,

对于上述计算得到的每次迭代过程中的类别特征中心,进一步计算第epoch_t个epoch中第class_i个类别的通道平均空间表示

其中

步骤S32:计算第class_i个类别的sample_i个类别的每个通道的权重得分

其中channel_N表示通道数量,

步骤S33:进一步计算得到相对于类别中心的高差异通道。具体来说,通过计算当前第sample_i样本的通道掩码

其中channel_d表示特征的通道维度索引,索引从0开始,channel_d∈[0,D-1];m

步骤S34:在训练过程中随机选择另一个训练样本对当前训练样本的通道特征进行重新组合,通过获得更多的特征组合来稳定分类器对于细粒度对象特征的学习,以对相对稳定的类别不变通道特征表示进行保留,对高差异的通道特征进行交换混淆;训练batch中第sample_i个样本的重组特征记为

其中,M

步骤S35:当前训练epoch结束后更新类中心表示

步骤S4具体包括以下步骤;

步骤S41:计算网络整体损失函数L

L

L

L

其中F

步骤S42:按照指定参数进行迭代训练,根据步骤S41计算的整体损失L

步骤S43:计算预测标签

步骤S44:在训练过程中,根据验证间隔标志进行按一定迭代次数间隔进行模型验证,并不断保存最优模型,当迭代次数达到预设的最大迭代次数阈值时,训练流程结束,返回当前指定数据集的最优细粒度预测准确率。

步骤S4在训练模型时,所采用的训练图像数据以类别进行标注,在定位图像数据的判别性局部区域时无须人工标注对应的标注框。

特别的,本实施例仅使用类别标注,无需诸如标注框在内的一系列额外人工标注。针对细粒度视觉分类任务独特性,本发明提出了一种新的基于Transformer的细粒度视觉分类框架。该框架通过自注意力引导定位判别性局部区域,并通过局部特征和全局特征的联合学习提升模型区分细粒度子类别的能力。在此基础之上,本发明通过动态的特征重构学习更鲁棒的全局与局部交互的多粒度特征表示,有效提升细粒度图像分类准确率。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

相关技术
  • 一种基于分枝神经网络的多特征细粒度的目标分类方法
  • 一种基于通道剪裁和定位分类子网络的细粒度图像分类方法及系统
技术分类

06120116302772