掌桥专利:专业的专利平台
掌桥专利
首页

一种基于空间-上下文的多分支图像分类方法

文献发布时间:2024-04-18 19:52:40



技术领域

本发明属于图像处理技术领域,尤其涉及一种基于空间-上下文的多分支图像分类方法。

背景技术

图像分类是计算机视觉领域的一个重要任务,其目标是训练一个模型,使其能够根据图像的特征将其正确地分类到预定义的类别中。图像分类的应用非常广泛,包括场景识别、人脸识别、物体识别、视频监控等。它在安全领域、自动驾驶等领域有着重要的作用,并且随着技术的不断发展,图像分类也将应用到更多领域。

基于深度学习的方法在图像分类任务中取得了很大的进展,尤其是卷积神经网络(CNN)的应用,它可以自动学习图像中的特征,无需手动设计特征,显著提高了图像分类的准确率。LeCun等人提出了首个能真正用于实际生产的神经网络模型LeNet-5。AlexNet以绝对优势拿下了当年ImageNet图像分类的比赛冠军,至此神经网络在计算机视觉任务上得到了众多研究者广泛的关注。

注意力机制是一种模拟人类视觉注意力过程的机制,在计算机视觉任务中广泛应用。它通过对图像不同位置的信息赋予不同的权重,使模型更多地关注与当前任务相关的部分。它的优点包括能够提高模型对图像重要区域的关注度,减少冗余信息的干扰,以及提高模型的鲁棒性和泛化能力。

在产品识别、无人驾驶中的物体识别、自动化检测和质量控制等领域,对分类准确度和响应高效推理速度有很高的需求。目前存在一些分类方法:

(1)通过对图像裁剪或调整大小降低计算的复杂度,但丢失了原始图像的大部分空间信息;

(2)通过修剪网络的通道去提高推理速度,同样损害了空间信息;

(3)放弃网络最后的降采样操作,但模型的感受野不足以覆盖大的目标,识别能力较差;

(4)通过使用扩张卷积和大核去捕获足够的感受野编码空间信息,但这些操作有计算要求和内存消耗,导致速度较低。

总的来说,图像分类是一个重要的任务,其应用场景极为丰富,但是现有的基于深度学习的图像分类方法很难同时满足实时性和高精度需求,不利于实践。

发明内容

为了克服上述现有技术中的缺陷,为此,本发明提供一种基于空间-上下文的多分支图像分类方法。本发明采用具有丰富空间信息的空间路径和快速下采样的上下文路径协同作用,在速度和分类性能上取得正确的平衡,同时实现高精度和实时性。

为实现上述目的,本发明采用以下技术方案:

一种基于空间-上下文的多分支图像分类方法,具体包括以下步骤:

S1、数据预处理:对输入数据进行预处理操作;

S2、数据集划分:将预处理的数据按比例划分为训练集、验证集和测试集;

S3、模型训练:采用划分好的训练集对整个多分支图像分类模型进行训练直至损失达到收敛;给定输入图像X,通过空间路径和上下文路径分别提取特征并进行特征融合;

S4、模型测试:采用划分好的测试集和训练权重对分类模型进行测试,输出结果;

S5、模型效果验证:对输出结果计算性能评价指标,若性能好则训练结束,反之修改模型参数重新训练。

优选的,步骤S3中,上下文路径中先利用ResNet34模型提取输入图像的深度特征,再利用全局上下文模块根据深度特征获得高级的上下文特征。

优选的,深度特征的公式为:

X∈R

其中,C

优选的,全局上下文模块的公式为:

其中,GC

5.根据权利要求2的一种基于空间-上下文的多分支图像分类方法,其特征在于:采用卷积层和池化层提取分类所需的深度特征。

优选的,空间路径共享ResNet34模型的前3层参数,提取的输出特征映射为原始图像的1/8;空间路径提取的输出特征公式为:

其中,F

优选的,空间路径包括使网络能够提取具有空间位置识别的关键特征的空间注意力模块;上下文路径包括捕获通道级依赖和不同特征通道之间的重要特征相关性的通道注意力模块。

优选的,空间注意力模块中,先给定输入特征

的公式、/>

式中,

优选的,通道注意力模块中,先给定输入特征

的公式、Att

其中,

优选的,步骤S3中,特征融合后的特征经过深度卷积和逐点卷积;深度卷积的特征公式和逐点卷积的特征公式分别为:

其中,i,j均表示输出特征图的空间位置;

优选的,步骤S1中,预处理操作包括对输入数据进行随机旋转、尺寸变换、随机垂直和水平翻转、色域扭曲中的一种或者几种。

优选的,步骤S2中,将预处理的数据按8∶1∶1的比例划分为训练集、验证集和测试集。

本发明的优点在于:

(1)本发明采用具有丰富空间信息的空间路径和快速下采样的上下文路径协同作用,在速度和分类性能上取得正确的平衡,同时实现高精度和实时性;在产品识别、无人驾驶中的物体识别、自动化检测和质量控制等领域可以实现速度和分类性能的平衡,满足实时性和高精度的要求。

(2)本发明两条路径设计了不同的注意力机制去获得鉴别特征,以提高图像不同类别的分类性能;其中,利用空间注意力模块使网络能够提取具有空间位置识别的关键特征,以考虑提取的空间信息中不同位置的重要性;并利用通道注意力模块去捕获通道级依赖和不同特征通道之间的重要特征相关性,可抑制上下文特征中无关区域的干扰。

(3)本发明为了使网络更好地聚焦于突出的目标区域,我们融合了空间路径和上下文路径的注意力特征。融合的特征不仅充分利用了空间特征信息,还利用了通道特征信息,可以获得与类别相关的空间上下文特征,抑制与目标无关的冗余特征。通过双分支网络的融合,提取的特征比单路径网络更具有鲁棒性和鉴别性。

(4)为了在不损失速度的情况下提高精度,我们还研究了并行的深度卷积(Depthwise Convolution,DW)和逐点卷积(Pointwise Convolution,PW)。融合后的特征经过DW和PW后既精细地提取了每个通道的特征信息,又保留了特征之间的通道关系,可以在保证分类精度的前提下显著减少卷积核的数量和计算量。

(5)本发明可以用于多种工业领域的图像分类任务,如人脸识别、视频监控等。获取的图像数据通过互补的空间路径和上下文路径提取丰富的特征,具有速度快,精度高的特点。空间注意力模块和通道注意力模块的设计能够辅助增强目标区域,双分支注意力融合获得的特征更具有鲁棒性。深度卷积和逐点卷积替换传统卷积在保证分类精度的情况下减少了参数量和计算量。

附图说明

图1为本发明模型结构图。

图2为本发明算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1-2所示,一种基于空间-上下文的多分支图像分类方法,包括以下步骤:

S1、数据预处理:预处理操作包括对输入数据进行随机旋转、尺寸变换、随机垂直和水平翻转、色域扭曲;

S2、数据集划分:将预处理的数据按8∶1∶1的比例划分为训练集、验证集和测试集;

S3、模型训练:采用划分好的训练集对整个多分支图像分类模型进行训练直至损失达到收敛;给定输入图像X∈R

S4、模型测试:采用划分好的测试集和训练权重对分类模型进行测试,输出结果;

S5、模型效果验证:对输出结果计算性能评价指标,若性能好则训练结束,反之修改模型参数重新训练。

具体的,整体的分类模型具体结构如图1所示。给定输入图像X∈R

(1)、特征提取。

上下文路径(P

其中,

随后在模型的尾部添加一个参数量和计算量都很小的全局上下文模块(GC

其中,GC

为了弥补浅层的特征信息,我们建立了另一个分支的空间路径(P

其中,F

我们在两条路径设计了不同的注意力(包括空间注意力和通道注意力)机制去获得鉴别特征,以提高图像不同类别的分类性能。

(1)为了考虑提取的空间信息中不同位置的重要性,我们利用空间注意力模块使网络能够提取具有空间位置识别的关键特征。给定输入特征

其中,

(2)为了抑制上下文特征中无关区域的干扰,我们进一步利用通道注意力模块去捕获通道级依赖和不同特征通道之间的重要特征相关性。给定输入特征

其中,

(2)、特征融合。

为了使网络更好地聚焦于突出的目标区域,我们融合了空间路径和上下文路径的注意力特征。融合的特征不仅充分利用了空间特征信息,还利用了通道特征信息,可以获得与类别相关的空间上下文特征,抑制与目标无关的冗余特征。通过双分支网络的融合,提取的特征比单路径网络更具有鲁棒性和鉴别性。

其中,F

为了在不损失速度的情况下提高精度,我们还研究了并行的深度卷积(DepthwiseConvolution,DW)和逐点卷积(Pointwise Convolution,PW)。融合后的特征经过DW和PW后既精细地提取了每个通道的特征信息,又保留了特征之间的通道关系,可以在保证分类精度的前提下显著减少卷积核的数量和计算量。

其中,

以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。

技术分类

06120116329609