掌桥专利:专业的专利平台
掌桥专利
首页

基于轻量化残差网络的图像分类方法

文献发布时间:2023-06-19 13:45:04


基于轻量化残差网络的图像分类方法

技术领域

本发明属于图像处理技术领域,更进一步涉及一种图像分类方法,可用于人脸、交通场景、医学图像的识别,图像检索和相册自动归类。

背景技术

图像分类是从图像中获取能够代表该图像内容的特征,然后利用计算机对该特征进行分析,从而得到该图像所属类别的一项技术。在实际的图像分类任务中,往往会预先给定几个图像类别信息,计算机会给出该图像属于各类别的概率值,并最终判定概率值最大的类别即为该图像所属类别。因此,在图像分类任务中,从图像中所学习和提取到的特征是决定图像类别判定的关键性因素,如何提取到更加具有代表性更丰富的特征也成为学者们研究和关注的重点。

传统的图像分类方法首先通过人工提取特征的方式从图像中获取特征信息,然后再使用分类器判断图像种类,例如Dalal N,和Triggs B在Histograms of orientedgradients forhuman detection中使用方向梯度直方图进行手工特征的提取。该方法的主要步骤是,将图像分成小的连通区域,然后采集连通区域中各像素点的梯度的或边缘的方向直方图,最后把这些直方图组合起来,就可以构成特征描述符,然后用于后续的检测、分类等任务。此方法优势是通过位置和方向空间的量化抑制了平移和旋转带来的影响;采取在局部区域归一化直方图,可以抵消光照变化带来的影响;使用分块单元的处理方法使得图像局部像素点之间的关系得到了更有效的表征。但此方法描述子生成过程过于冗长,导致速度慢,实时性差,而且很难处理遮挡问题,并且该描述子对噪点相当敏感。

自1998年LeNet5出现后,研究者们开始注意到卷积神经网络在特征提取上的强大能力,由于网络具有一定深度,能够学习到图像的层级结构性特征,进而可提升后续的图像识别效果。Alex在ImageNet LSVRC-2010大赛中使用一种新的网络模型进行特征的提取,并取得了当年的冠军,随后在Imagenet classification with deep convolutionalneuralnetworks一文中对模型进行了详细的阐述并命名为AlexNet。该方法使用非线性激活函数ReLU进行激活操作,并采取分组卷积即双GPU并行的运行方式提高运行速度,采用局部响应归一化进行正则化,利用重叠池化减少过拟合操作,该方法在分类问题上的效果进一步证明了深度卷积神经网络的优越性,取得了不错的效果,但却存在着网络模型参数数量过多,分组卷积之后不同组通道间缺乏信息交流的问题。

针对上述方法网络模型参数数量过多的问题,研究者提出了通过改变卷积方式来降低计算复杂度的轻量化网络,使得在保证图像分类精度的前提下达到参数少速度快的效果,现有的轻量化网络大多依托单一的卷积方式,仍然存在参数数量过大的问题,而且也没有明显的提升网络特征表达能力。

针对上述方法分组卷积不同组通道间缺乏信息交流的问题,研究者利用通道混洗操作来加强特征信息的交互,此操作可以促进通道间信息的融合,改变通道维度,增强网络特征的表达能力,然而单纯的通道混洗操作并没有减少网络的参数数量,网络的速度也并没有得到提升。

发明内容

本发明根据现有技术的不足,提出一种基于轻量化残差网络的图像分类方法,以在增强网络特征表达能力的同时减少网络参数规模和参数数量,充分利用各通道特征信息,提高图像分类任务的精度和速度。

实现本发明目的的技术方案是:基于传统的轻量化残差网络,将其中的残差单元与卷积方式为分组卷积的ShuffleNet单元相结合以减少网络参数数量,并利用通道混洗操作加强各分组间图像特征交互,再通过引入挤压激励结构调节不同图像特征通道的权值得到多层次特征,最后融合多层次特征完成图像分类任务,其具体实现包括如下:

(1)获取训练样本集R

(1a)从网上下载已经划分为训练样本和测试样本的K幅RGB图像数据集,每种样本包含T个目标类别

(1b)将数据集中的训练样本设置为训练样本集R

(2)构建轻量化残差网络图像分类模型:

(2a)搭建由一层卷积层和一层最大池化层顺次叠加构成的第一单元块Stage1;

(2b)将传统残差单元构建模块中的常规卷积替换为分组卷积,并将其卷积核为3*3的深度可分离卷积操作的步长由1改为2;再在该构建模块的快捷连接上增加一个卷积核为3,步长为2的平均池化层,得到第二单元块Stage2;

(2c)将传统残差单元构建模块中的常规卷积替换为分组卷积,并将其卷积核为3*3的深度可分离卷积操作的步长由1改为2;再在该构建模块的快捷连接上增加一个卷积核为3*3,步长为2的平均池化层;最后在该构建模块的末尾添加一个大小为3*3、步长为2的卷积层,得到第三单元块Stage3;

(2d)将传统残差单元瓶颈模块中的常规卷积替换为分组卷积,并将其卷积核为3*3的深度可分离卷积操作的步长由1改为2;再在该瓶颈模块的快捷连接上增加一个卷积核为3*3,步长为2的平均池化层,得到第四单元块Stage4;

(2e)将传统残差单元瓶颈模块中的常规卷积替换为分组卷积,并将其卷积核为3*3的深度可分离卷积操作的步长由1改为2;再在该瓶颈模块的快捷连接上增加一个卷积核为3*3,步长为2的平均池化层;最后在该瓶颈模块的末尾添加一个大小为3*3、步长为2的卷积层,得到第五单元块Stage5;

(2f)将上述得到的这五个单元块Stage1、Stage2、Stage3、Stage4、Stage5依次连接使之成为一个单元块序列,再在该单元块序列后级联一个全连接层和一个分类器,得到轻量化残差网络图像分类模型;

(3)将训练样本集R

(4)将测试样本集E

本发明与现有的技术相比具有以下优点:

第一,由于本发明在传统残差单元的构建模块和瓶颈模块中利用分组卷积进行特征提取,使得本发明在图像分类任务中减少了模型参数量,降低了网络参数规模。

第二,由于本发明通过通道混洗操作加强了各通道间图像特征交互,再通过压缩、激励操作调节了不同通道图像特征的权值,使得本发明提高了图像分类的准确性。

附图说明

图1为本发明的实现总流程图;

图2是本发明构建的轻量化残差网络图像分类模型的子流程图;

图3是本发明中构建的轻量化残差网络图像分类模型结构图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细描述。

参照图1,对本发明的实现步骤包括如下:

步骤1,获取训练样本集R

从网上下载已经划分为训练样本和测试样本的K幅RGB图像数据集,每种样本包含T个目标类别

步骤2,构建轻量化残差网络图像分类模型。

参照图2,本步骤的实现如下:

2.1)构建第一单元块Stage1:将一个卷积核大小为7*7,步长为2的卷积层与一个卷积核大小为3*3,步长为2的最大池化层顺次叠加,得到第一单元块Stage1;

2.2)对传统残差单元中的构建模块进行更改,构建第二单元块Stage2:将构建模块中卷积核为1*1的常规卷积替换为1*1的分组卷积,并将卷积核大小为3*3的深度可分离卷积操作的步长由1改为2,再在该构建模块的快捷连接上增加一个卷积核大小为3*3,步长为2的平均池化层,得到第二单元块Stage2;

2.3)对传统残差单元中的构建模块进行更改,构建第三单元块Stage3:将构建模块中卷积核为1*1的常规卷积替换为1*1的分组卷积,并将卷积核为3*3的深度可分离卷积操作的步长由1改为2,再在该构建模块的快捷连接上增加一个卷积核大小为3*3,步长为2的平均池化层;最后在该构建模块的末尾添加一个卷积核大小为3*3、步长为2的卷积层,得到第三单元块Stage3;

2.4)对传统残差单元中的瓶颈模块进行更改,构建第四单元块Stage4:将瓶颈模块进行中卷积核为1*1的常规卷积替换为1*1的分组卷积,并将卷积核为3*3的深度可分离卷积操作的步长由1改为2,再在该瓶颈模块进行的快捷连接上增加一个卷积核大小为3*3,步长为2的平均池化层,得到第四单元块Stage4;

2.5)对传统残差单元中的瓶颈模块进行更改,构建第五单元块Stage5:将瓶颈模块进行中卷积核为1*1的常规卷积替换为1*1的分组卷积,并将卷积核为3*3的深度可分离卷积操作的步长由1改为2,再在该瓶颈模块进行的快捷连接上增加一个卷积核为3*3,步长为2的平均池化层;最后在该瓶颈模块进行的末尾添加一个卷积核大小为3*3、步长为2的卷积层,得到第五单元块Stage5;

2.6)将上述得到的这五个单元块Stage1、Stage2、Stage3、Stage4、Stage5依次连接使之成为一个单元块序列,并在该单元块序列之后增加一个挤压和激励操作调节第五单元块Stage5的输出结果;

2.7)在2.6)的输出结果级联一个全连接层和一个分类器,得到的轻量化残差网络图像分类模型结构,如图3所示。

参照图3,本步骤构建的轻量化残差网络图像分类模型结构,包括依次级联第一单元块Stage1、第二单元块Stage2、第三单元块Stage3、第四单元块Stage4、第五单元块Stage5、全连接层和分类器,且在第二单元块Stage2、第三单元块Stage3、第四单元块Stage4、第五单元块Stage5中的输入与输出之间均快捷连接有平均池化层,在第三单元块Stage3和第五单元块Stage5的输出端之前连接有一个卷积核大小为3*3、步长为2的卷积层。

步骤3,对轻量化残差网络图像分类模型进行训练。

3.1)利用正交初始化方法对轻量化残差网络图像分类模型参数进行随机初始化,设最大迭代次数为E=500;

3.2)将训练样本集R

3.3)将初始特征

3.3.1)将输入特征

U=[u

其中,

3.3.2)利用全局平均池化将新的特征图U压缩为一维通道描述向量z:

z=[z

其中,

3.3.3)利用激活函数对通道描述向量z进行激活,得到激活向量s:

s=[s

其中,s

3.3.4)利用激活值s重新调整特征图U,得到新的特征响应

其中

3.4)将新的特征响应

3.5)重复上述步骤3.2)~3.4),直至网络达到最大的迭代次数E,停止训练,得到训练好的轻量化残差网络图像分类模型。

步骤4,将测试样本集E

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件:

本发明仿真实验的硬件测试平台是:处理器为Intel(R)Core i5-3470,主频为3.2GHz,内存16GB;

本发明仿真实验的软件平台为:Windows 7旗舰版,64位操作系统,Python3.6,PyTorch1.7。

仿真实验所用数据集是CIFAR10数据集。CIFAR10数据集共包含60000张维度大小为32*32*3的RGB图像,有10种各自独立的类别,每个类别都包含5000张训练图像和1000张测试图像,所以训练集共50000张图像,测试集共10000张图像。

2.仿真内容仿真结果分析:

仿真1,在上述仿真条件下,分别利用现有的VGG16图像分类方法、ResNet50图像分类方法、ResNet101图像分类方法、SCF图像分类方法作和本发明对CIFAR10数据集测试样本集测试,得到分类结果,再利用分类结果分别计算每类方法的分类准确率,结果如表格1。

表格1不同方法的分类准确率

由表1可以看出,本发明在图像分类CIFAR10测试数据集上的分类精度达到95.38%,比之前分类最好的方法ResNet50高1.76%,与其他分类方法相比也有明显提升。实验结果表明本发明利用通道混洗加强了各通道间图像特征交互,再通过压缩、激励操作调节了不同通道图像特征的权值,提升了模型的特征表达能力,使得本发明能够在实际分类任务中提升图像的分类准确度。

仿真2,在上述仿真条件下,用CIFAR10数据集的训练样本集对现有的VGG16图像分类方法所构建的网络模型、ResNet50图像分类方法所构建的网络分类模型、ResNet101图像分类方法所构建的模型和本发明所构建的轻量化残差网络分类模型进行训练,并利用反向传播算法对分类模型参数进行更新,得到训练好的上述四种模型,分别统计每个模型在训练中所需要的参数量,结果如表格2。

表格2不同方法在训练各自分类网络所需要的参数量

由表格2可以看出,本发明相比ResNet50分类方法在参数量上减少了3M左右,与其他常用的分类方法相比也取得了明显的提升,表明本发明通过分组卷积进行特征提取,确实达到了减少网络参数的目的。

以上仿真结果表明:本发明不仅在图像分类任务中能够得到较高的图像分类准确率,而且减少了网络模型参数量,提高了网络的运行速度。

技术分类

06120113791792